在大多數人的眼里,程序員的生活是刻板的:996的工作時間、長期熬夜、掉發嚴重、萬年格子衫…
然而,曠視天元的開源研發團隊,卻以多元化的面貌展示了這個群體少為人知的浪漫與執著:
有人癡迷明史,選擇北漂就是為了故宮;有人是職業旅行家,探訪過三十多個國家;有人鐘愛二次元,動漫就是他的全世界;有人是 Dota 2信仰粉,也有人是強大的 Dota 3號選手;還有貓奴、影迷、德州撲克愛好者……
他們唯一的共同點,也許就是寫程序這個“業余愛好”。
但正是這樣一群個性不一的年輕人,讓曠視成為了國內第一個將深度學習框架開源的AI獨角獸。2020年3月25日,曠視正式將在內部使用多年的深度學習框架開源,并命名為天元 MegEngine 。
開源的背后,是數不清日夜的付出,以及一往無前的勇氣。在天元開源的征程上,曠視的“程序員”做了什么?對于中國開源,他們扮演了怎樣的角色?
1
曠視決定開源
自2020年3月25日正式發布天元 Alpha 版本之后,曠視天元打出“深度學習,簡單開發”的口號,在開發者社區引起火熱關注。
深度學習框架堪稱AI時代的核心軟件支柱,下接芯片,上承應用。
“為什么要開源一個深度學習框架,真的不是在重復造輪子嗎?”
天元開源后,團隊成員經常收到這樣的提問。畢竟,在曠視將天元開源前,市場上已經有 Google 所開發的 TensorFlow 和 Facebook 所開發的 Pytorch等主流深度學習框架。
那么,曠視為什么還要堅持開源?
自2012年起,盡管深度學習尚未引起廣泛關注,但已陸續有研究者開發出第一代深度學習框架,比如 Theano 。然而,在實踐過程中,曠視的技術人員發現,這類早期開源框架使用手工的方式編寫每層配置文件,非常不靈活,根本無法滿足對算法訓練效率的需求。
于是,曠視研究院決定自己開發一款框架,通過計算圖的方式設計模型并求導。2014年初,曠視研究院的 3 名實習生從第一行代碼寫起,用了不到半年的時間,成功開發出深度學習框架天元 MegEngine 的初始版本 MegBrain 。
2019 年年底,公司決定將 MegBrain 開源,開源版產品進行了重新整合,更名為 MegEngine ,中文名為“天元”。其中,“ Meg ”對應曠視“ Megvii ”,而“ Engine ”指“引擎”。曠視將天元開源,是希望它能成為人工智能技術發展的“引擎”。
首先,飲水不忘挖井人。
在技術進步層面,曠視團隊在開源社區中受益頗多,因此,當曠視的框架技術有了些積累后,他們也希望把技術拿出來,回饋給開源社區。
其次,曠視渴望向世界發聲。
自2011年成立以來,曠視在各種行業頂級期刊與會議上發表了大量優秀的論文,在人工智能領域積累了豐富的研究成果。如同一個初窺門徑的武林少俠,它渴望與江湖高手對話、切磋,實現共同進步。
如果天元是開源的,那么曠視的許多內部研究成果就可以直接拿出來供大家使用,而不需要改寫到其他的框架上,對話會更容易;此外,天元框架對企業級應用(尤其是部署推理)做過深度優化,大家可以開箱即用,這對曠視乃至整個行業在研究落地上均有幫助。
天元的研發負責人許思然認為:“我們是工程師,我們用代碼溝通。開源代碼,實際上就是曠視所有技術人員與開發者交流的一種方式,這是工程師自然而然的追求。”
他認真而又不失樂觀的表示:“開源這件事,對于我們整個團隊乃至整個曠視都是一個激勵和鼓舞,因為我們的代碼將能夠產生更大的影響,服務更多人。”
因此,盡管困難重重,曠視毅然決定將天元框架開源。眾人拾柴火焰高。這句中國俗語亦可用于形容現代開源事業的核心:多元,團結,貢獻。在背景各異的團員驅動下,天元開源,拉開了帷幕。
2
開源:過五關、斬六將
確定開源后,許思然與團隊對天元框架進行了全面升級:
首先,曠視團隊重新設計了天元的 Python 前端,讓它更加易用,讓有機器學習相關使用經歷的開發者上手更容易。
接著,審查開源代碼許可證,保證整個流程遵循開源社區的規范。在這一方面,許思然與團隊花了大量時間,與內外部的法務專家合作,一行一行代碼地檢查,對整個代碼庫進行了十多次人工分析和回顧。
經過多次反復審查,許思然笑稱:“現在我們團隊人人都是“法律高手”,什么 License(許可證)的代碼能用、什么不能用,啥叫“分發源代碼”,啥叫“分發產物”,用了要怎么寫聲明,我們現在都一清二楚…… ”
其次,團隊在用戶環境適配方面下了大功夫。
在曠視內部,所有人統一使用曠視自研的 Brain++ 平臺(一個融合了算法、算力和數據的 AI 生產力平臺),很容易做到“開箱即用”。但是,在開源版本,用戶所使用的機器各種各樣,各種配置都不太一樣,比如系統版本、各種軟件版本、機器的型號、顯卡的類型等等。為此,他們通過天元開發者群的交流與 GitHub 上所提交的信息,不斷改進,讓代碼可以適配各種各樣的機器和型號 。
除此之外,天元團隊還在原有內部版本的基礎中增加了中文API文檔。一位開發者在和許思然閑聊時反饋:“有一種莫名的親切感,可能因為它是中文的。”在加入天元項目之前,團隊的許多成員都對開源有一定了解。程聰宇接觸過 Linux Kernel 、Chromium 與 LLVM 等開源項目;張風在美國讀博期間也直接或間接參與了一些科學計算相關的開源項目;文潔此前的經歷則是持續推進已經開源的項目,直到加入曠視才開始從準備工作跟到項目正式開源、完善。
與其余同學相比,通過校招進入曠視的王波此前對開源幾乎一無所知,因此,在剛被通知天元要開源時,“整個人有點懵,不知道該干啥。”后來,他參與到代碼審核工作,在審查過程中慢慢跟上大部隊的節奏:“去年2月26日完成審核工作、確定代碼無法律風險后,在會議室里深深地舒了一口氣。”
在開源前,程聰宇和團隊的主要任務是保證x86的性能就緒,優化卷積實現,最終達到對標 OpenVINO 的水平。令程聰宇印象最深刻的是:x86 nchw88 的 winograd 沒有就緒前,他們的 x86 在 ResNet50 的性能一直比OpenVINO 低一點。后來,他與組員在 winograd conv 上進行了各種調優,性能終于超過 OpenVINO 。那一刻,“大家真的是如釋重負!”
文潔記得,除了正常的代碼開發工作外,開源發布會的各種準備工作非常多。正式發布的前一天才發現直播供應商出了些問題,開發團隊臨陣磨槍研究了一晚直播轉發功能,非常累。但看到直播的那一刻,她非常激動,覺得一切辛苦都是值得的:“因為我們做到了!”
終于,2020年3月25日,曠視在北京發布了國產深度學習框架天元的 Alpha 版本,正式面向全球開發者開源!
3
開源:正在進行時
發布會當天,團隊定了蛋糕,大家一邊吃著蛋糕一邊看天元開源的線上發布會,既興奮又忐忑。
除了激動、自豪,天元團隊的成員也感到壓力:天元在開發者社區引起了很多關注,自己寫的代碼將接受整個行業的檢測,不確定能否得到大家的認可;Alpha 版本之后,還有許多工作要完善。
開源后,許思然特地跑去社區看關于天元的反饋,有真誠的贊許,也有很多細節改進的建議:“作為一個新的開源項目,天元可能存在很多問題,我們都愿意承認這一點。但是我們在不斷地改進它,這也是大家現在工作的一個非常重要的部分。”
天元是一個由企業主導、社區共建的開源項目,因此參與的人員更廣泛,來自科研、教學、生產等各個領域。這也意味著,天元將收到不同的反饋意見。
繼3月開源后,曠視團隊又在2020年6月發布了 Beta 版本。大約90天內,他們收到了330多個來自使用者的反饋意見,大多是關于修 bug 方面的改進和速度方面的提升。
根據反饋,許思然與隊員一一作了改進,在中文 API 文檔的流程中補充了大量針對中高階開發者的進階使用部分,提供了在安卓上從訓練到完成產品一整套的教程,還提供了相關的支撐程序設施,使大家能更好體驗訓練推理一體的完整流程。
Beta 版本的進步是肉眼可見的:天元開源了 ARM 系列 CPU 支持、完善量化訓練和推理功能、推理功能優化等3項功能升級,并與小米的 MACE 深度學習推理框架、OPEN AI LAB 的 Tengine 框架實現深度集成。
隨后,2020年9月,團隊發布了天元1.0預覽版,新增5大技術特性:全新的Imperative Runtime、自動代碼裁剪功能、更多的國產硬件支持、10余項推理側性能優化、基于 MLIR 的靜態子圖優化引擎;2020年10月發布 1.0 正式版;2021年1月又發布了 1.2 版本,2021年3月24號,天元1.3版本上線……
密集的發版節奏也讓團隊工作異常忙碌。最忙的時候,為了趕工,團隊在周末也會趕到公司加班。“不過大家一邊討論,一邊吃好吃的外賣,也是非常有意思的體驗。”負責模型量化的劉希宇談道。
在高強度的工作狀態下,每個人逐漸養成了自己的“護肝”秘訣。張風在壓力大時,會通過跑步與健身出汗,讓自己冷靜下來;劉希宇會偶爾做一下辦公室桌椅健身操,改善頸椎職業病。
開源讓團隊度過了很多不眠之夜:在2020年的四次版本發布中,許思然分別熬到了凌晨3點、4點、5點和6點。發版前需要確保開源版本一切正常,由于在同步過程中往往會出現裁剪錯誤或依賴內部的文件,總是在對外發布之前突然發現各種小問題導致編譯不了,于是通宵達旦的調查到底哪里裁剪出現了差錯。
但如今,團隊已經開發出許多小工具,可以讓各種開源版測試自動完成,不用工程師再熬夜盯。
對于程聰宇來說,忙碌只是小 case ,最大的困難是開源后繼續做 Arm 優化。天元希望可以實現比其他深度學習框架更快的速度,這給優化帶來了巨大挑戰。當時,他們幾乎用了所有能用的方法來進行優化,但都沒有取得效果,一度非常絕望。
后來,他們通過 profile 發現存在的問題是訪存瓶頸。在開會討論解決方法時,有組員提出對不同卷積 case 進行不同的優化,配合 layout 來進行優化。實驗證明,這個方法非常有效。程聰宇很自豪:“雖然很難,但我們做到了。”
天元的開源與迭代,最終使性能達到了團隊目標嗎?
根據以往的開源經歷,程聰宇深知做一個好用的“訓練+推理”的框架非常不容易,既要保證性能,又要保證易用性,且不同硬件平臺差異也大。開心的是,天元在高性能方面做得不錯 (算子優化、多平臺支持),典型模型的預測和推理性能在 x86/Arm/CUDA 平臺上不弱于主流框架;遺憾的是,易用性還需要繼續打磨。
對張風與王波來說,天元在靜態圖的性能和顯存占用方面達到了預期目標,但Alpha 版本發布時,動態訓練的能力剛剛起步,在架構設計、顯存和性能上都表現一般。但經過團隊的努力,在2020年結束之際,天元的動態訓練能力也達到了一個成熟的狀態。
“這是令大家最有成就感的事。”張風如是說。
4
從開源到開放
回顧過去的一年,曠視團隊的各成員均被開源文化深深吸引:在工作中,他們既為中國的開源事業奉獻了自己的力量,收獲了友誼與自我成長,還遇到了很多志同道合的朋友。
盡管開源的工作無比繁重,但程聰宇覺得,在天元團隊工作還是非常快樂的:“和有趣的人一起工作,是1+1》2的效果。”
有一次,他們特地挑了一個“良辰吉日”去開卡丁車,去之前還積極制定了縝密詳細的比賽規則。
張風對這次賽事印象深刻,“戴上頭盔,耳朵里就只有發動機的轟鳴聲,輪胎和跑道摩擦聲和自己的心跳聲,大家好像一下子就從電腦前的程序員變身為職業賽車手,非常解壓!”
那一次,王波因為有事沒參加,事后既羨慕又慶幸,“據說開太猛了有點累。”
開源,讓團隊成員不再感覺自己是“打工人”,有了更多的主人翁意識。許思然認為,開源有一個重要的點,就是用戶第一。“你自己就是用戶,你最懂你自己的訴求,知道怎么改。在開源的邏輯之下,人人都要為最終使用者的體驗去負責。”
在這個過程中,天元團隊有一個明顯的變化,就是心態變得更加開放。
剛開源的那段時間,運營的小伙伴督促天元的研發同學做線上直播,和開發者做一些技術分享的 talk ,大家都不敢去。如今,天元的 Meetup 活動內部講師征集,大家卻十分踴躍,令活動進行非常順利。
比如,剛開始對開源幾乎毫無經驗的王波,最近成功晉升為小組組長,成為了2021年天元首期 Meetup 的講師。直播前,王波預講了3-4次。“現場效果還不錯,意外收獲了很多開發者的反饋,還是挺開心的。”王波事后總結道。
文潔也有同樣的感受:“在之前的開源工作中,我們更多是宣傳代碼的心態。但在天元開源中,我們知道我們的不完美,也很誠實地告知大家,歡迎大家一起來討論、改進。”
5
與開發者的日常
程聰宇認為,“一個軟件之所以能取得成功,很大程度上要歸功于開源本身,因為有更多人參與到這個軟件的開發,有更多使用者發現問題,從而解決問題。這些開源軟件的貢獻者非常厲害,值得尊敬。”
有些貢獻者“來無影、去無蹤”。天元有一個編譯工具,里面有一千多行代碼。“開源之后,真的有開發者跑過來,幫我們仔仔細細地檢查一遍,挑出幾個錯誤,改過來。咦,果然合適!” 這件出乎許思然意料的事情,令他至今記憶猶新。
天元開源后,來自社區開發者的反饋幫助天元團隊成長了很多。
許思然回憶,剛開源的那段時間,幾乎天天被身邊幾位熱情的開發者懟,說這個做的不對,那個也不對。后來,大家在互懟的過程中找到了一個相對平衡和彼此理解的狀態。曾經的主懟人之一W同學讓許思然印象深刻:“他是噴天元最厲害的開發者之一,但也是天元每次版本更新后最先試用的人。”
W同學將自己的行為歸結為“愛之深、責之切”。在W同學眼中,天元經過一年的迭代,現在的量化框架非常優雅,能使得量化訓練更容易正確初始化,兼容各種算法,“雖然還有點慢,但是真香!”如今,W同學已成為天元的“推廣大使”,在自己的社交平臺積極安利天元,繁忙的工作之余還常常為天元貢獻教程文檔。
天元的開發者社區中還有一個微信群,叫做“ MegEngine 和喝奶茶的好盆友們”。群里有曠視的員工,也有很多外部開發者,大家因為天元開源而結識。
2020年結束的跨年夜,大家在群里相約,通過云聚會寫模型的方式一起慶祝跨年。開發者“落月星辰”在12月31號當晚就寫了好多個經典模型。
“落月星辰”評價天元:“雖然天元目前也存在一些缺陷,比如缺少預訓練權重文檔。但相比其他框架,天元提供的 API 在計算機視覺一塊提供了更多支持,文檔更齊全,對用戶提問秒回;而且天元的后端靜態推理很強,內存優化做到了極致。”
6
展望
2020年被稱為國產深度學習框架開源的元年。除了曠視的天元 MegEngine ,清華的 Jittor 、華為的 MindSpore 等國產框架也都紛紛開源,市場似乎變得擁擠起來。
然而,挑戰與機遇總是并存。曠視的野心不是壟斷,而是成全。布局天元,意味著不計較一角一地的得失,跳出局部,從全局看問題。
正如“天元”的命名啟示,“天元”在圍棋中,是棋盤的正中心。曠視將天元開源,是希望自研的深度學習框架成為中國人工智能領域發展的基石,動力,以及信心。
開源本身,往往是“后來居上”:將自家的獨門絕技分解成一招一式,慷慨對外,既是開誠布公的交流,也是明槍暗箭的較量。將天元開源之后,曠視不再獨享其優勢性能,天元的代碼隨時被修改、被借鑒、被創新,但在天元團隊看來,這正是開源的魅力所在:“促進交流,共同成長!”
許思然相信:“一個領域越火,發展的速度就越快。深度學習是一個技術主導的領域。技術做得好,能夠被其他人借鑒;做得差的,方案就沒人用。開源的深度學習框架變多,最大的好處是大家可以相互學習對方的長處。”
一年的奮戰過后,曠視團隊繼續走在開源的路上。
當被問及何時會覺得天元開源成功了,許思然想起電影 Soul (《心靈奇旅》)中的一個片段:“沒有一個明確的時間點,說到那個時間點,突然就成功了,進入到下一個階段了。”他認為,開源也是如此,也許有一些標志性的階段,但沒有盡頭。
問及接下來的工作期待,許思然的回答是:“多做幾個強大的 feature,讓更多人來用 MegEngine 。”張風等人則希望,能夠從開發者社區的交流中獲得更多助力。
盡管越來越多國人意識到開源的價值,但必須承認的是,中國的開源生態仍待完善,我們仍有一段漫長的道路要走。
路漫漫其修遠兮,吾將上下而求索。曠視天元開源團隊的身上,有著新一代青年人對技術創新一往無前的勇氣、熱情與執著。作為中國開源隊伍中的一分子,他們讓我們看到天元框架的潛力,以及中國開源生態發展的更多可能性。
致敬天元少年,致敬中國開源事業!(舉杯)
原文標題:曠視天元背后的追風少年
文章出處:【微信公眾號:Megvii曠視科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
開源
+關注
關注
3文章
3363瀏覽量
42531 -
深度學習
+關注
關注
73文章
5504瀏覽量
121221 -
曠視科技
+關注
關注
1文章
153瀏覽量
11178
原文標題:曠視天元背后的追風少年
文章出處:【微信號:megvii,微信公眾號:曠視MEGVII】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論