異步操作在計算機軟硬件體系中是一個普遍概念,根源在于參與協作的各實體處理速度上有明顯差異。軟件開發中遇到的多數情況是CPU與IO的速度不匹配,所以異步IO存在于各種編程框架中,客戶端比如瀏覽器,服務端比如node.js。本文主要分析Python異步IO。
Python 3.4標準庫有一個新模塊asyncio,用來支持異步IO,不過目前API狀態是provisional,意味著不保證向后兼容性,甚至可能從標準庫中移除(可能性極低)。如果關注PEP和Python-Dev會發現該模塊醞釀了很長時間,可能后續有API和實現上的調整,但毋庸置疑asyncio非常實用且功能強大,值得學習和深究。
示例
asyncio主要應對TCP/UDP socket通信,從容管理大量連接,而無需創建大量線程,提高系統運行效率。此處將官方文檔的一個示例做簡單改造,實現一個HTTP長連接benchmark工具,用于診斷WEB服務器長連接處理能力。
功能概述:
每隔10毫秒創建10個連接,直到目標連接數(比如10k),同時每個連接都會規律性的向服務器發送HEAD請求,以維持HTTP keepavlie。
代碼如下:
importargparse
importasyncio
importfunctools
importlogging
importrandom
importurllib.parse
loop=asyncio.get_event_loop()
@asyncio.coroutine
defprint_http_headers(no,url,keepalive):
url=urllib.parse.urlsplit(url)
wait_for=functools.partial(asyncio.wait_for,timeout=3,loop=loop)
query=('HEAD {url.path} HTTP/1.1\r\n'
'Host: {url.hostname}\r\n'
'\r\n').format(url=url).encode('utf-8')
rd,wr=yieldfromwait_for(asyncio.open_connection(url.hostname,80))
whileTrue:
wr.write(query)
whileTrue:
line=yieldfromwait_for(rd.readline())
ifnotline:# end of connection
wr.close()
returnno
line=line.decode('utf-8').rstrip()
ifnotline:# end of header
break
logging.debug('(%d) HTTP header> %s'%(no,line))
yieldfromasyncio.sleep(random.randint(1,keepalive//2))
@asyncio.coroutine
defdo_requests(args):
conn_pool=set()
waiter=asyncio.Future()
def_on_complete(fut):
conn_pool.remove(fut)
exc,res=fut.exception(),fut.result()
ifexcisnotNone:
logging.info('conn#{} exception'.format(exc))
else:
logging.info('conn#{} result'.format(res))
ifnotconn_pool:
waiter.set_result('event loop is done')
foriinrange(args.connections):
fut=asyncio.async(print_http_headers(i,args.url,args.keepalive))
fut.add_done_callback(_on_complete)
conn_pool.add(fut)
ifi%10==0:
yieldfromasyncio.sleep(0.01)
logging.info((yieldfromwaiter))
defmain():
parser=argparse.ArgumentParser(description='asyncli')
parser.add_argument('url',help='page address')
parser.add_argument('-c','--connections',type=int,default=1,
help='number of connections simultaneously')
parser.add_argument('-k','--keepalive',type=int,default=60,
help='HTTP keepalive timeout')
args=parser.parse_args()
logging.basicConfig(level=logging.INFO,format='%(asctime)s %(message)s')
loop.run_until_complete(do_requests(args))
loop.close()
if__name__=='__main__':
main()
測試與分析
硬件:CPU 2.3GHz / 2 cores,RAM 2GB
軟件:CentOS 6.5(kernel 2.6.32), Python 3.3 (pip install asyncio), nginx 1.4.7
參數設置:ulimit -n 10240;nginx worker的連接數改為10240
啟動WEB服務器,只需一個worker進程:
# ../sbin/nginx
# ps ax | grep nginx
2007 ? Ss 0:00 nginx: master process ../sbin/nginx
2008 ? S 0:00 nginx: worker process
啟動benchmark工具, 發起10k個連接,目標URL是nginx的默認測試頁面:
$ python asyncli.py http://10.211.55.8/ -c 10000
nginx日志統計平均每秒請求數:
# tail -1000000 access.log | awk '{ print $4 }' | sort | uniq -c | awk '{ cnt+=1; sum+=$1 } END { printf "avg = %d\n", sum/cnt }'
avg = 548
top部分輸出:
VIRT RES SHR S %CPU %MEM TIME+ COMMAND
657m 115m 3860 R 60.2 6.2 4:30.02 python
54208 10m 848 R 7.0 0.6 0:30.79 nginx
總結:
1. Python實現簡潔明了。不到80行代碼,只用到標準庫,邏輯直觀,想象下C/C++標準庫實現這些功能,頓覺“人生苦短,我用Python”。
2. Python運行效率不理想。當連接建立后,客戶端和服務端的數據收發邏輯差不多,看上面top輸出,Python的CPU和RAM占用基本都是nginx的10倍,意味著效率相差100倍(CPU x RAM),側面說明了Python與C的效率差距。這個對比雖然有些極端,畢竟nginx不僅用C且為CPU/RAM占用做了深度優化,但相似任務效率相差兩個數量級,除非是BUG,說明架構設計的出發點就是不同的,Python優先可讀易用而性能次之,nginx就是一個高度優化的WEB服務器,開發一個module都比較麻煩,要復用它的異步框架,簡直難上加難。開發效率與運行效率的權衡,永遠都存在。
3. 單線程異步IO v.s. 多線程同步IO。上面的例子是單線程異步IO,其實不寫demo就知道多線程同步IO效率低得多,每個線程一個連接?10k個線程,僅線程棧就占用600+MB(64KB * 10000)內存,加上線程上下文切換和GIL,基本就是噩夢。
ayncio核心概念
以下是學習asyncio時需要理解的四個核心概念,更多細節請看<參考資料>
1. event loop。單線程實現異步的關鍵就在于這個高層事件循環,它是同步執行的。
2. future。異步IO有很多異步任務構成,而每個異步任務都由一個future控制。
3. coroutine。每個異步任務具體的執行邏輯由一個coroutine來體現。
4. generator(yield & yield from) 。在asyncio中大量使用,是不可忽視的語法細節。
-
API
+關注
關注
2文章
1505瀏覽量
62168 -
python
+關注
關注
56文章
4799瀏覽量
84815
原文標題:快學學Python異步IO輕松管理10k+并發連接
文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論