11 月 20 日,由蘇州市相城區人民政府與《麻省理工科技評論》聯合主辦的 EmTech China 2020 全球新興科技峰進入第二天議程。今年,EmTech China 邀請到了數十位頂級科學家、海內外院士、商業領袖、科創精英蒞臨現場,探討新興科技發展現狀及其為人類社會帶來的巨大影響。
會上,阿里云高性能計算總監何萬青分享了阿里云在新冠抗疫、藥物疫苗研發以及跨界協作中所提供的關鍵技術支撐,以下為整理后的演講實錄:
大家好,今天早上我起的比較早,得到一個消息,今天我其中的一頁非常重要的更新。
今天我提到的一個用戶和醫藥科學方面的合作伙伴,獲得了高性能計算行業的諾貝爾獎 – Gordon Bell 獎,兩天前我準備這個材料的時候,它是中國唯一入圍決賽的,六家入圍的其中一家,戈登貝爾獎有什么樣的背景呢?在 2012 年的時候,我們天河二號第一次登頂我們連續四屆世界最強計算機的時候,那時候中國拿不出一個應用可以申請戈登貝爾獎,當時全世界去找科學家用戶來使用它,直接到 2016 年北大、清華聯合團隊,我們拿到了一個戈登貝爾獎。
今天深勢科技是我今天要講的內容之一。我今天來給大家講故事,為什么派我來,非常有幸我在新冠期間,阿里云向全社會,全球開放AI免費算力,我們推動 AI 輔助藥物篩選技術在新冠期間蓬勃發展,后來在 3 月初我們決定向全球做科技抗疫的時候,我的 email 放在通告上作接口,因此親自看到了中國從爆發疫情以來,一個短短的兩周的時間內,大概也就是到一個月,當你一項技術抓不住時間窗口,不能夠雪中送炭的時候,我們就很難幫到社會的,但是我們阿里云有幸做到了這個,我們看到科技的力量。
回到戈登貝爾獎,我們看到蘇州有非常強大的醫藥健康產業,使用這種AI輔助藥物的挖掘和虛擬篩選,今天我們看到依賴于成百倍、上千倍增加的 AI 算力。
剛才是題外話,我今天第五第六頁的時候我原來寫的是恭喜深勢科技入圍,但今天他們摘取了戈登貝爾獎,是非常了不起的事情。證明 HPC , AI 和物理實驗三者結合的新范式。
我今天講內容實際上兩部分,第一部分是 AI 技術怎么樣促進藥物研發。
第二部分,主要的技術是 CT 輔助的新冠病情它整個的情況。
尤其是分享剛才我說的集中的二三四月份到五月份,它是什么態勢?我們今天很有幸可以在這里面坐在這兒開會,但實際上全世界新冠疫情發展還是個未知數,所以今天講到科技有多大的實力,在藥物產業和生命科學這個行業有非常大不確定性和需要長期的努力。
這是我們阿里云科技抗疫的一個時間線。
1 月 21 日,我們大概是 23 、 24 號放假, 24 號左右武漢封城。21 日我們還在上班,中午的時候突然想起來,我給一個很重要的合作伙伴,全球健康藥物研究中心,它是比爾蓋茨基因會和中國一起合作的機構,我說你能不能算一下,武漢的病毒 DNA 序列剛發布,算一下這個病毒跟 SARS 的區別, GHDDI 使用阿里云的資源,我們已經合作過很長時間,大概兩個半小時以后,拿到了結果,新冠病毒和SARS 病毒的蛋白質結構 90的相似性,
但是很吃驚的發現,估計傳染性是 3 倍以上,但是那時候不能公布。接下來我們發現這種企業跟科學家合作情況,可以推動我們盡快的建立把新藥研發這套辦法和數據庫放上讓所有公共科研使用。
當時那么想,因為馬上就春節放假了,幾個主要科學家都回家了,因為疫情隔絕沒有辦法去辦公室,后來大家看到了,不管是釘釘,還是各大互聯網公司提到的互聯網線上的新基建,其實給科學家提供了最好的雪中送炭的工具,我們29日的時候,就由這件小事驅動確定向全社會開放 AI 免費算力。
在那個時候大家都在家里面,我們跟各個科研的老師包括我們和浙大、清華大學、湘雅醫院、鐘南山醫院,其實跟終南山團隊的會挺感人的,我們那個時候在家里的時候,其實起的比較晚,但他們八點之前起來都戴著口罩,在醫院里面跟我們視頻通話。
那個時候我們知道,全世界靠的是有經驗的科學家的大腦。但是這么一個未知的病毒怎么排查它,靠科技我們會不會更早看到?
醫藥產業發展到今天,其實如果大家讀一些科普的書,就是醫藥發展的歷史,是非常撞大運的過程,真正廣譜藥其實是手指頭數得過來的,從土壤中找到,通過化學、通過工業化、科學產生了很多公司,這些公司實際上是解決怎么樣大規模生產,但是找到這個藥物,還要讓它能夠在毒性上面、濃度上面讓人體的結合,非常難的,一般新藥的研發到上市平均時間是 13 年左右,投入非常巨大。
這個過程中,現在大量的生命科學的計算,它主要的研究階段基本上通過計算完成,全世界包括中國的超算中心,前 10 位的應用里面,大概有 4 個以上都是分子動力學、量子力學做第一性原理計算。
這個過程中怎么樣找到先導化合物,靶點的識別,這些東西都是龐大的計算,但之后怎么樣找到這個藥物、合成這個藥物其實真的有非常大隨機性和幸運在里面,所以這里面會發現最難的占時間最長的兩部分,一個是干實驗,一個是濕實驗。
我們剛才說疫苗為什么這么難?因為它要做三期實驗做完,一年兩年的時間。
我們發現在支持過程中采用 GPU ,采用AI的篩選這個算法越來越是加速,我們把它抽象出來就是生命科學計算有三大類,一類就是生物信息學,就是基因序列分析,比對和結合。
還有一大部分計算量非常龐大,今天為什么超算還在不斷的往前增加計算能力,是因為我們要模擬和完全了解一個細胞的細致情況,和大量細胞這種計算量都是非常難的,戈登貝爾獎之所以給深勢科技,是他們將分子動力學的一類計算并行度擴展到 10 億個分子級別。
這都是要解決我們現在生命科學的一個問題。我們實際上在做靶點的識別和跟化合物的篩選,其實在這個項目里面,后來支持了國內篩選 14 家公共科研機構,基本上組建成這種方式。
第一,巨大量的計算是用在第一性原理,很多的應用,我們找到化合物蛋白質的基因測序做篩選比對。美國剛剛拿到武漢的序列之后,第一個給可能藥物是德州大學的科學家,為什么?因為這些科學家平時早做這個,腦子里面知道哪一類的化合物有用的,但是我們不能靠個把人,而且人的經驗和處理都是有限的,所以現在出現了 AI 和機器學習以后,大量的篩選比對,同時跟全世界的開源的醫藥分子庫去做結合,這個過程其實是大量的知識圖譜的篩選。
在這個過程中 GHDDI 在阿里云上建立了全球開放式的新冠研究平臺,算出八種最有效的化合物,計算上來講第一位是瑞德西韋,但是大家仍然看到,算出來是對的,但是用起來不一定有用的,這個過程中看到云計算起到了非常重要的作用。
通過阿里云全球加速服務,我們在第一時間能夠馬上獲得跟全世界的開源藥物庫去聯合,把海外服務網站和他們的數據全部拉通,國內很多研究需要這樣的過程,我們通過阿里云的超計算集群,去提供服務。基本上都是采用八張 GPU 卡,V100 的算力,過去幾天的計算量,今天大概 4 個小時,但總體仍然不夠用的。我們知道分子尺度和規模,這就是我剛才講過了,這個平臺在春節期間上線,跟海外醫藥數據庫同步更新,通過阿里的 OSS 的同步加速放過來,主要是采用這個模式。
現在大概有 100 多申請 GHDDI 服務,十幾家已經算出結果,其實我們發現科學家第一時間獲得支持的重要性,其實回頭看,中國是最早接觸到的病毒,我們最早有病例。實際上第一時間大概是用了三周到四周的時間把這十幾家全支撐起來,一旦起來以后實際上它的成果被后來的研究復用,這一個階段的工作就是在和病毒賽跑。
往下大家會想到另外一個問題篩查的問題,那部分的時候,我看到收到的需求就像脈沖,全部集中在那幾周,需求 email 雪片般飛來,幾周過去以后沒有人申請了。
當這個窗戶開的時候,要有技術和能力,沒有接住再也沒有你的機會,從這件小事兒上可以看出來。
另外,我過去做過十多年的高性能計算是在做硬件和設備,中國也有很多上榜的超算系統,今天,我發現在科研領域,更重要是產業的公司在做這個事情它的靈活性,比如深勢科技非常聰明的使用我們 Spot 實例,就是搶占型實例, 30% 的成本就支撐整個的大規模計算服務。這就是他們的文章,今天早上新聞說出來已經獲獎了,我們看到云計算的靈活性,這是我們后臺看到的資源使用量,10 月以后這部分整個量上來了,因為他們做優化研究,要做強擴張,即便只有一個分子的計算,給它不斷的切到很多張 GPU 卡上去,是不是可以有效加速,這部分工作需要大量的隨時可獲得的資源、彈性的資源,阿里云 EHPC 提供了支持。
接下來第二部分,第二部分這個故事我感觸非常深, 3 月初一天馬老師決定阿里云科技抗疫對全世界開放,團隊說要不要你來接收郵件,我當時有些猶豫的,因為還有日常工作。確實打開以后,從那天開始,一直到 4 月 29 日,每天全世界的時差響應 email ,不斷有郵件涌進來。這幾個月期間數字非常清楚, 50 個左右的國家和地區,但一開始比較恐慌的是一些還沒有疫情的國家,保加利亞、立陶宛什么的。寫郵件過來的時候說, 我們醫療設施,沒有辦法抵御沖擊的,雖然我們境內還沒有多少,但是我們很怕馬上就有,監測不過來,所以 90% 來找我們提供了阿里達摩院做的新冠肺炎的 CT 影像分析。CT 監測比較準尤其在后面,治療過程中決定病灶,怎么確定普通肺炎還是新冠,我們在新冠之前我們做這個工作,一般我們現在的 CT 監測,一個主要靠醫生,但實際上我們通過卷積神經網絡,可以把結節的分類,通過它的特征給它標出來計算,它主要的就是說我可以非常快的來做這個事,我們支持國內的醫院,他們國內在抗疫戰場上的醫院,每天處理大量 CT 片的監測,幫助醫生監測。
當時一些醫學研究生學生還不能上學,被緊急招回學校,為什么呢?要做大量的 CT 檢測篩查,當時武漢的 CT 會分散給湘雅醫院還有很多醫院。讀片速度非常快,包括火神山,大家可以看這個數字,最快兩秒鐘可以完成。因為時間有限沒有放另外一個片子,那個片子大家可以看到,除了把它檢測篩查病灶, 支持醫生最后來做決定,還有一個在病灶過程中需要三維的重建,這個三維還原這個過程中知道治療過程中變的多大了,變的多小。
是基本上控制住了,還是也有可能生成新的病灶,這個過程中很要緊的。下面是我們說的流行性和溯源,這部分很重要跟基因檢測放在一起,阿里云跟浙大還有浙江的疾控中心,我們把基因庫和基因組的篩查,這部分 AI 免費算力主要的方向。
這樣一來的話,實際上一方面大量的來自不同的醫院,不同病例的這些樣本會上云,在云上進行聚合,然后打標進行監測,另外一個我們把這部分東西跟第三方合作伙伴,把基因測序,基因的一體機做出來。
這樣的話我們可以從機器的提供方拿到沒有差別多樣化的訓練樣本,為什么檢驗這么準,越檢驗越準,是來自云本身它的互通和互聯性,這個是我們做的。
大家看到五倍的速度,三小時監控,十一小時測序。
這個過程實際上是集中一段階段做這個事情。
印象比較深的,我們對海外進行開放的時候,更多的因為很多國家還沒有來得及反應,他們想知道中國的抗疫經驗,除了口罩這件事之外的抗疫經驗,我們把浙大醫院還有醫院的醫生讓他們通過釘釘,通過視頻,通過 AI 技術把它中文討論直接轉換成英文,轉換成英文語言,跟全世界不同的地方求助者和醫生交流,記得跟霍普金斯醫院有連接去分享,當時我們緊急的編了一本抗疫手冊,那個時候我帶整個團隊有一個感覺,第一我們自己很慌,不知道什么時候能有進展。另外一個方面因為做這個事情使得自己稍微沒有那么焦慮。在這個過程中我們看到其實在海外對疾病的認識和他們的不同國家的制度和規范,他其實的反應很多情況下是非常希望說我知道中國在怎么做,所以我們做了不少合作平臺,除了釘釘本身做一個平臺,其實把視頻轉成音頻,轉成能識別的聲音,我記得需求集中來的先來的是南美,還有前蘇聯聯盟的,還有一些像剛才說的東歐的國家,最后冒出來厲害的是印度。整體來講,我們作為第一個我們會把責任去做到,這個不是技術的問題,最重要是第一云技術本身在今天產生了不可或缺的第一時間反應的作用。
第二,科技的發展和責任的擔當一定要第一時間抓住它,解決它,提供價值。
今天我的演講時間剛好到,給大家講我的感想,我們最后結論就是醫藥或者說生命科學一定是我們現在這個時代最重要的,也是需求最大的產業。
第二個云計算和云計算所支撐的基建,通過這次疫情我們看到,是未來大力發展最基礎的基礎建設,謝謝大家。
原文標題:阿里云高性能計算總監何萬青:疫情后生命科學產業爆發,云計算是基礎中的基礎
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
云計算
+關注
關注
39文章
7776瀏覽量
137361 -
AI
+關注
關注
87文章
30763瀏覽量
268906
原文標題:阿里云高性能計算總監何萬青:疫情后生命科學產業爆發,云計算是基礎中的基礎
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論