AI 介入醫(yī)學(xué)讓救治變得更高效,同時(shí)也在顛覆人類(lèi)認(rèn)識(shí)科學(xué)的方式。“這將改變醫(yī)學(xué),改變研究,改變生物工程,”生物學(xué)家 Andrei Lupas 這樣評(píng)價(jià) Alphabet 旗下的 DeepMind 最新推出的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè) AI——AlphaFold 2。“它將改變一切。”最后這句話直接被《自然》雜志用作封面標(biāo)題。
Lupas 之所以這么說(shuō),因?yàn)樗救嘶耸陼r(shí)間,用盡各種實(shí)驗(yàn)方法也沒(méi)能弄清楚一種蛋白質(zhì)折疊后的形狀,但借助 AlphaFold 2 后,他在半個(gè)小時(shí)內(nèi)就看清了那團(tuán)彩色的,像是被手掌捏出特定形狀的“珠子項(xiàng)鏈”。
知道“珠子項(xiàng)鏈”折疊后的三維形狀至關(guān)重要,因?yàn)樗鼪Q定了蛋白質(zhì)如何工作。開(kāi)發(fā)新藥的科學(xué)家要是能知道蛋白質(zhì)的形狀,或許就能幫助他想出可以與蛋白質(zhì)結(jié)合的分子。分子一旦和蛋白質(zhì)結(jié)合,就能改變它,從而治愈疾病。
以新冠為例,科學(xué)家一直在試圖研究新冠病毒表面的刺突蛋白是如何與人類(lèi)細(xì)胞中的受體相互作用的。而像老年癡呆癥這種由錯(cuò)誤折疊的蛋白質(zhì)引起的疾病,人們一旦看清了蛋白質(zhì)的結(jié)構(gòu),就能在現(xiàn)有的藥物中快速匹配治療或者嘗試新的療法。
盡管學(xué)界都知道蛋白質(zhì)結(jié)構(gòu)至關(guān)重要,但要弄清楚卻不是件容易的事情,如今人工智能的成熟應(yīng)用給了預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)另一種可能。
在有著“蛋白質(zhì)奧林匹克競(jìng)賽”之稱(chēng)的國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)上,AlphaFold 2最終擊敗其他人類(lèi)選手,拿到了冠軍。談及這個(gè) AI 模型預(yù)測(cè)的準(zhǔn)確性,有的參賽者甚至沮喪地說(shuō),“我懷疑很多人會(huì)離開(kāi)這個(gè)領(lǐng)域,因?yàn)楹诵膯?wèn)題可以說(shuō)已經(jīng)解決了。”
科技圈同樣興奮不已,Google CEO Sundar Pichai、斯坦福教授李飛飛和特斯拉 CEO 埃隆·馬斯克第一時(shí)間在社交媒體上轉(zhuǎn)發(fā)祝賀。
困擾了學(xué)界 50 年的難題
1972 年的諾貝爾化學(xué)獎(jiǎng)得主 Christian Anfinsen 最早提出,氨基酸(珠子)按照一定順序排列,會(huì)讓蛋白質(zhì)(項(xiàng)鏈)形成一個(gè)固定的三維結(jié)構(gòu)。而基于“珠子”的序列可以計(jì)算并預(yù)測(cè)“項(xiàng)鏈”會(huì)扭成什么形狀。
蛋白質(zhì)對(duì)生命體而言至關(guān)重要。幾乎所有疾病,包括癌癥、癡呆癥都與蛋白質(zhì)的功能有關(guān)。蛋白質(zhì)的功能完全取決于它的三維結(jié)構(gòu)形狀,而蛋白質(zhì)功能則關(guān)系著我們健康與疾病的一切。因此,了解了蛋白質(zhì)的三維結(jié)構(gòu)有助于人們?cè)O(shè)計(jì)新藥、防治疾病,無(wú)論是遺傳疾病還是感染疾病。
但蛋白質(zhì)“項(xiàng)鏈”能折疊出數(shù)以億計(jì)的形狀,對(duì)其結(jié)構(gòu)的預(yù)測(cè)就成了一件有著巨大挑戰(zhàn)的難題。
1969 年,美國(guó)分子生物學(xué)家 Cyrus Levinthal 指出,用暴力計(jì)算法列舉一個(gè)典型蛋白質(zhì)的所有可能構(gòu)型所需的時(shí)間比已知宇宙的年齡還要長(zhǎng),他估計(jì)一個(gè)典型蛋白質(zhì)有 10^300 種可能構(gòu)型。
現(xiàn)實(shí)中,目前人類(lèi)只是試圖破解一種蛋白質(zhì)的形狀就需要數(shù)年的時(shí)間,和昂貴的儀器設(shè)備。科學(xué)家們?cè)趯?shí)驗(yàn)室中一般使用諸如 X 射線晶體學(xué)(X-ray crystallography)和核磁共振光譜法(NMR spectroscopy)這樣的傳統(tǒng)技術(shù)確定蛋白質(zhì)的三維結(jié)構(gòu),以了解蛋白質(zhì)分子中每一原子的相對(duì)位置。
從 1994 年開(kāi)始,每?jī)赡昃蜁?huì)舉辦一次國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP),評(píng)審團(tuán)會(huì)拿科學(xué)家團(tuán)隊(duì)用電腦所預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)與使用實(shí)驗(yàn)室方法得出的三維結(jié)構(gòu)結(jié)果進(jìn)行比較。
例如,華盛頓大學(xué)的 David Baker 開(kāi)發(fā)了一套名為“Rosetta”的計(jì)算機(jī)程序來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。他的思路是:如果能夠窮盡兩兩氨基酸分子之間所有可能的位置及其對(duì)應(yīng)的能量狀態(tài),就能得到蛋白質(zhì)結(jié)構(gòu)了。但現(xiàn)實(shí)挑戰(zhàn)是,目前計(jì)算機(jī)的計(jì)算能力并不足以支撐這種窮舉,一旦遇到復(fù)雜的蛋白質(zhì),這套程序就不適用了。
AlphaFold 和 AlphaFold 2 的分?jǐn)?shù)對(duì)比|nature
2016 年以前,CASP 大賽中最高預(yù)測(cè)分?jǐn)?shù)最高也只到了 40GDT 左右,離代表實(shí)驗(yàn)室結(jié)果的 90GDT 還有很大差距。美國(guó)時(shí)間 11 月 30 日,DeepMind 的 AlphaFold 2 在評(píng)估中的總體中位數(shù)得分達(dá)到了 92.4GDT。想比兩年前的 AlphaFold,AlphaFold 2 刷新了記錄,從 60GDT 一躍上升為 92.4GDT。
“在某種意義上,難題已經(jīng)被解決了。”CASP 的共同創(chuàng)始人 John Moult 告訴《自然》。
AI“畢業(yè)了”
第一版的 AlphaFold 雖然刷新了 CASP 的紀(jì)錄,但卻沒(méi)能激起很大的水花,因?yàn)樗⒉凰阏嬲?AI 完全體,它還借鑒了上面提到的“Rosetta”等計(jì)算機(jī)程序的成果。但 AlphaFold 2 就不一樣,它是一個(gè) AI 完全體。AlphaFold 2系統(tǒng)所使用的數(shù)據(jù),來(lái)自包括約 17 萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu),以及未知結(jié)構(gòu)的蛋白質(zhì)序列的大型數(shù)據(jù)庫(kù)。在訓(xùn)練時(shí),它使用了大約 128 個(gè) TPU v3 內(nèi)核(大致相當(dāng)于 100-200 個(gè) GPU),并僅運(yùn)行了數(shù)周。
“從 17 萬(wàn)個(gè)已經(jīng)知道三維結(jié)構(gòu)的蛋白質(zhì)分子中,科學(xué)家們挑一個(gè),把它的氨基酸序列信息『喂』給算法,算法大致『猜測(cè)』出一個(gè)三維結(jié)構(gòu)。然后,算法把它的猜測(cè)和已知的三維結(jié)構(gòu)進(jìn)行對(duì)比,并且根據(jù)猜測(cè)的結(jié)果是不是靠譜,繼續(xù)調(diào)整猜測(cè)的策略。這樣反復(fù)用 17 萬(wàn)個(gè)三維結(jié)構(gòu)訓(xùn)練,算法逐漸就獲得了直接從氨基酸序列預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)的能力。”浙江大學(xué)生命科學(xué)研究院教授王立銘“簡(jiǎn)化”了 AlphaFold 系統(tǒng)的運(yùn)行過(guò)程。
他還認(rèn)為,用 AI 預(yù)測(cè)蛋白結(jié)構(gòu)實(shí)際上是在踐行這樣一種思路:既然我們知道氨基酸的順序決定了蛋白質(zhì)的三維結(jié)構(gòu),有沒(méi)有可能不做實(shí)驗(yàn),直接從氨基酸的順序出發(fā),推測(cè)蛋白質(zhì)分子的三維結(jié)構(gòu)呢?
目前人類(lèi)知道氨基酸順序的蛋白質(zhì)分子有 1.8 億個(gè),其中三維結(jié)構(gòu)信息被徹底看清的只有 17 萬(wàn)個(gè),還不到 0.1%。僅僅通過(guò)耗時(shí)耗錢(qián)的實(shí)驗(yàn)顯然是“杯水車(chē)薪”。
BBC 記者 Helen Briggs 表示,AI 的學(xué)習(xí)速度驚人,它用幾天的時(shí)間就能達(dá)到實(shí)驗(yàn)室?guī)资甑难芯克健?/p>
但要實(shí)現(xiàn)這樣高效的研發(fā),DeepMind 必須與科學(xué)家分享這項(xiàng) AI 技術(shù)。DeepMind 的聯(lián)合創(chuàng)始人兼 CEO Demis Hassabis 表示,先讓 AlphaFold 變得更有用,以便之后科學(xué)家們使用。此前,DeepMind 公布了第一版 AlphaFold 足夠多的技術(shù)細(xì)節(jié),讓科學(xué)家們復(fù)制這個(gè) AI 預(yù)測(cè)的方法。
目前,DeepMind 還沒(méi)有公開(kāi)關(guān)于 AlphaFold 2 的更多技術(shù)細(xì)節(jié),和未來(lái)知識(shí)共享的計(jì)劃。但這個(gè)全新的 AI 模型已經(jīng)讓科學(xué)界和科技圈激動(dòng)不已。
過(guò)去幾年,DeepMind 靠旗下的電競(jìng) AI AlphaStar 和圍棋 AI AlphaGo“出圈”。它們?cè)凇缎请H爭(zhēng)霸》和圍棋策略游戲中碾壓了職業(yè)玩家。而現(xiàn)在,DeepMind 似乎要“畢業(yè)”了,不只在游戲中證明自己的智慧,開(kāi)始解決具有現(xiàn)實(shí)世界意義的科學(xué)問(wèn)題。而這些問(wèn)題,生死攸關(guān)。
王立銘教授幻想了這樣一個(gè)場(chǎng)景:“一名癌癥患者找到醫(yī)生,醫(yī)生測(cè)定了他體內(nèi)腫瘤細(xì)胞的基因序列,發(fā)現(xiàn)他體內(nèi)某一個(gè)特殊蛋白質(zhì)發(fā)生了變異,因此導(dǎo)致了癌癥。同時(shí),醫(yī)生還能對(duì)這種特殊蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測(cè),有針對(duì)性地設(shè)計(jì)一個(gè)藥物與之結(jié)合,破壞其功能,從而治療癌癥。所有這一切只需要幾天時(shí)間。”在未來(lái),疾病的診斷和治療將變得高度個(gè)性化。
更重要的,AI 介入醫(yī)學(xué)讓救治變得更高效,其實(shí)也在顛覆人類(lèi)認(rèn)識(shí)科學(xué)的方式。
通過(guò)“暴力”訓(xùn)練,前幾年的 AlphaGo Zero 甚至可以做到,只需要知道圍棋的基本規(guī)則,比如怎么吃子、怎么判斷勝負(fù),就可以在完全無(wú)視人類(lèi)所有經(jīng)驗(yàn)的條件下學(xué)成絕技。人類(lèi)之前在小樣本中歸納、演繹、總結(jié)再實(shí)踐的過(guò)程被顛覆了,現(xiàn)在是這些經(jīng)驗(yàn)有時(shí)候并非完全必需,只要有足夠多數(shù)據(jù),AI 就能直接算出結(jié)果。
“只要那些復(fù)雜問(wèn)題需要巨大的組合空間搜索能力才能解決;具有需要優(yōu)化的明確目標(biāo)函數(shù);具有大量數(shù)據(jù)或者具有一個(gè)準(zhǔn)確有效的模擬方法。”AlphaFold2 研究團(tuán)隊(duì)說(shuō)道,“那它們就能被 AI 一一破解。”
責(zé)任編輯:haq
-
AI
+關(guān)注
關(guān)注
87文章
30763瀏覽量
268914 -
智能醫(yī)療
+關(guān)注
關(guān)注
27文章
1383瀏覽量
74475
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論