機器學(xué)習(xí)是許多生物學(xué)家用來分析大量數(shù)據(jù)的計算工具,幫助他們識別潛在的新藥。麻省理工學(xué)院的研究人員現(xiàn)在已經(jīng)在這些類型的機器學(xué)習(xí)算法中加入了一個新的特性,從而提高了他們的預(yù)測能力。
利用這種新的方法,計算機模型可以解釋他們分析數(shù)據(jù)的不確定性,麻省理工學(xué)院的研究小組發(fā)現(xiàn)了幾種有希望的化合物,這些化合物的目標是導(dǎo)致結(jié)核病的細菌所需的一種蛋白質(zhì)。
這種方法以前曾被計算機科學(xué)家使用過,但尚未在生物學(xué)上得到應(yīng)用,也可能在蛋白質(zhì)設(shè)計和許多其他生物學(xué)領(lǐng)域有用,西蒙斯數(shù)學(xué)系教授、麻省理工學(xué)院計算機科學(xué)和人工智能實驗室(CSAIL)計算和生物學(xué)小組負責(zé)人邦尼·伯杰(Bonnie Berger)說。
“這項技術(shù)是已知的機器學(xué)習(xí)子領(lǐng)域的一部分,但人們還沒有把它引入生物學(xué),”Berger說。“這是一個范式的轉(zhuǎn)變,絕對是生物探索的方式。”
Berger和Bryan Bryson是麻省理工學(xué)院的生物工程助理教授,也是MGH、MIT和哈佛的拉根研究所的成員,他們是這項研究的高級作者。細胞系統(tǒng)。麻省理工學(xué)院研究生BrianHie是論文的主要作者。
更好的預(yù)測
機器學(xué)習(xí)是一種計算機建模,在這種模型中,算法學(xué)習(xí)根據(jù)已經(jīng)看到的數(shù)據(jù)進行預(yù)測。近年來,生物學(xué)家開始利用機器學(xué)習(xí)來搜索潛在藥物化合物的龐大數(shù)據(jù)庫,以找到與特定目標相互作用的分子。
這種方法的一個局限性是,當(dāng)他們分析的數(shù)據(jù)與他們接受訓(xùn)練的數(shù)據(jù)相似時,這些算法表現(xiàn)得很好,但它們并不擅長評估那些與他們已經(jīng)看到的分子有很大不同的分子。
為了克服這一問題,研究人員使用了一種叫做高斯過程的技術(shù),將不確定性值分配給算法所訓(xùn)練的數(shù)據(jù)。這樣,當(dāng)模型分析訓(xùn)練數(shù)據(jù)時,他們也會考慮到這些預(yù)測的可靠性。
例如,如果進入模型的數(shù)據(jù)預(yù)測某一特定分子與目標蛋白質(zhì)的結(jié)合程度,以及這些預(yù)測的不確定性,該模型可以利用這些信息對蛋白質(zhì)-目標相互作用進行預(yù)測,這是它以前從未見過的。該模型還估計了自己預(yù)測的確定性。在分析新的數(shù)據(jù)時,模型的預(yù)測對于與訓(xùn)練數(shù)據(jù)有很大不同的分子來說,其確定性可能較低。研究人員可以利用這些信息來幫助他們決定實驗測試哪些分子。
這種方法的另一個優(yōu)點是該算法只需要少量的訓(xùn)練數(shù)據(jù)。在這項研究中,麻省理工學(xué)院的研究小組用72個小分子及其與400多個蛋白質(zhì)的相互作用(稱為蛋白激酶)對模型進行了訓(xùn)練。然后,他們能夠使用這個算法分析近11000個小分子,這些小分子是從鋅數(shù)據(jù)庫中提取的,鋅數(shù)據(jù)庫是一個公開可用的儲存庫,含有數(shù)百萬種化合物。其中許多分子與訓(xùn)練數(shù)據(jù)中的分子非常不同。
利用這一方法,研究人員能夠識別出與他們所加入的蛋白激酶具有非常強的結(jié)合親緣關(guān)系的分子。其中包括三種人類激酶,以及在結(jié)核分枝桿菌中發(fā)現(xiàn)的一種激酶。這種激酶,PknB,是細菌生存的關(guān)鍵,但不是任何一線結(jié)核病抗生素的目標。
研究人員隨后通過實驗測試了他們的一些最成功之處,以了解他們與目標的結(jié)合程度,并發(fā)現(xiàn)模型的預(yù)測非常準確。在模型給出的最確定的分子中,大約90%被證明是真正的命中--遠高于現(xiàn)有用于藥物篩選的機器學(xué)習(xí)模型的30%到40%的命中率。
研究人員還使用相同的訓(xùn)練數(shù)據(jù)來訓(xùn)練不包含不確定性的傳統(tǒng)機器學(xué)習(xí)算法,然后讓它分析相同的11000個分子庫。他說:“沒有不確定性,這個模型就會變得非常混亂,它提出了與激酶相互作用的非常奇怪的化學(xué)結(jié)構(gòu)。”
然后,研究人員采取了一些最有前途的PknB抑制劑,并測試他們在細菌培養(yǎng)培養(yǎng)基中生長的結(jié)核分枝桿菌,并發(fā)現(xiàn)它們抑制細菌的生長。這些抑制劑也在感染細菌的人免疫細胞中起作用。
一個好的起點
這種方法的另一個重要因素是,一旦研究人員獲得額外的實驗數(shù)據(jù),他們就可以將其添加到模型中,并對其進行再培訓(xùn),從而進一步改進預(yù)測。研究人員說,即使是少量的數(shù)據(jù)也能幫助模型變得更好。
Hie說:“每次迭代都不需要非常大的數(shù)據(jù)集。”“你可以用10個新的例子重新訓(xùn)練這個模型,這是一個生物學(xué)家很容易產(chǎn)生的東西。”
布萊森說,這項研究是多年來首次提出新的分子,可以針對PknB,并且應(yīng)該給藥物開發(fā)人員一個很好的起點,可以嘗試開發(fā)針對激酶的藥物。他說:“我們現(xiàn)在為他們提供了一些新的線索,超出了已經(jīng)公布的范圍。”
研究人員還表明,他們可以利用同樣的機器學(xué)習(xí)來提高綠色熒光蛋白的熒光輸出,綠色熒光蛋白通常用于標記活細胞內(nèi)的分子。它也可以應(yīng)用于許多其他類型的生物學(xué)研究,Berger說,他現(xiàn)在正用它來分析推動腫瘤發(fā)展的突變。
責(zé)任編輯:YYX
-
人工智能
+關(guān)注
關(guān)注
1792文章
47354瀏覽量
238832 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132743
發(fā)布評論請先 登錄
相關(guān)推薦
評論