第二部分編譯后的內容:
3. 問題遇見方法:從機器學習的視角去解決化學問題的方法
在將機器學習的具體內容應用于實踐中的過程中,有大量可供參考的資源,包括大量的書籍、評論和互聯網資源等。本節將從機器學習研究人員和社區的高層視角出發,探討他們如何看待和解決問題。首先,我們將重新分類前文提到的各種化學問題,將其作為已確認的機器學習問題實例。然后,再通過梳理機器學習社區共同關注的主題和實踐,來探討其在化學應用中的具體體現,并重點關注基準測試、領域知識的作用以及社區價值觀相關的因素。
3.1 機器學習工具箱
機器學習為利用數據解決問題提供了一套算法和理論工具。機器學習已經界定了一組明確的問題框架,用于處理語言、視覺、音頻、視頻、表格數據、科學數據等多個領域的多樣化任務。每個問題都設定了一組輸入要求和期望的目標,這有助于在一個共同框架下對不同算法進行經驗基準測試和理論分析。在表1中,我們列出了一些重要的機器學習問題及其預期的輸入和目標,并將不同的化學問題重新歸類為這些機器學習問題的實例。
機器學習問題 | 輸入 | 目標 | 化學問題 | 算法 |
---|---|---|---|---|
回歸和分類 | 成對的數據{()} | 預測 | 屬性預測 神經網絡勢 產率預測 快速預測的代理模型 光譜預測 圖像分割 3D結構預測 | 經典機器學習:線性回歸 隨機森林 支持向量機 梯度提升機 高斯過程 神經網絡 圖神經網絡 等變神經網絡 transformers |
生成模型 | 數據集 | 繪制樣本或 | 構象搜索 分子對接 晶體結構預測 過渡態搜索 結構鑒定 正向合成預測 分子設計 | 變分自編碼器 生成對抗網絡 歸一化流 自回歸模型 去噪擴散和流匹配 |
采樣 | 能量 | 繪制樣本 | 平衡采樣 過渡態路徑采樣 分子設計 | 馬爾可夫鏈蒙特卡洛 序貫蒙特卡洛 GFlow網絡(生成流網絡) |
基于梯度的優化 | 損失函數 | 優化參數 | 神經網絡波函數 物理信息神經網絡 可微分模擬 分子設計 | 一階:(隨機)梯度下降 Adam 優化 二階:k-FAC |
黑箱優化 | 預言機函數 | 最優解 | 反應和過程優化 分子設計 | 貝葉斯優化 賭博機優化 強化學習 遺傳算法 |
智能體 | 環境的: 狀態集合{} 動作集合{} 狀態轉移 獎勵函數 | 從最優策略中抽取動作: | 提取文獻數據 執行模擬 回答問題 合成規劃 | 大預言模型提示詞框架 強化學習 |
回歸和分類的目標是根據輸入 x 預測標簽 y,前提是有一組配對數據。標簽可以是一維的,例如在預測屬性、能量或產量時,也可以是高維的,例如與力場、光譜預測和分割相關的機器學習回歸問題。當數據集較小且為表格形式時,梯度提升機(如 XGBoost)通常表現良好。高斯過程同樣適用于小規模數據,并能為貝葉斯優化提供良好的不確定性。然而,深度神經網絡則是處理高維復雜數據(如圖像、文本和分子)的首選算法。神經網絡架構的選擇受到具體問題約束的影響:對于二維圖使用圖神經網絡,而對于三維數據則采用等變架構。最近,Transformer 的出現徹底改變了語言、圖像、圖形和 3D 分子的建模方式。
生成模型的目的是從由數據集 {x} 定義的分布 p(x) 中抽取樣本 x。無條件生成建模旨在匹配數據分布,而條件生成建模則接受一個標簽或提示 y,并試圖學習條件分布 p(x|y),這在一定程度上模糊了無監督學習與有監督學習之間的界限。盡管無條件生成建模在化學領域的應用價值較低,但條件生成建模非常適合解決逆問題或一對多問題。例如,構象搜索(一個二維結構對應多個三維構象)、結構解析(一個信號可能與多種分子一致)以及前向合成預測(給定反應物,可能產生多種產品)都屬于這種情況。生成模型天生適合于提供多個高質量答案的能力,而回歸方法則會對所有可能的答案進行平均,這樣得到的結果可能并不代表一個高質量的答案。例如,AlphaFold2使用回歸方法根據一個序列預測出一個三維結構,而AlphaFold3則利用擴散模型為相同輸入結構預測多個生物分子組裝。目前存在許多類型的生成模型,如變分自編碼器、生成對抗網絡和歸一化流,但目前主導作用的是用于語言處理的自回歸模型,以及用于圖像等感知數據的擴散/流匹配模型。在化學領域,這轉化為 SMILES 的化學語言模型和三維分子結構的擴散模型。而這兩種方法都依賴于通過神經網絡(通常是變壓器)進行逐步生成和迭代預測。由于無條件生成模型學習重現數據分布,這些數據往往是大量豐富且未標記的數據,因此訓練生成模型也可以被視為將這些數據壓縮到網絡權重中,從而賦予一種理解概念。隨后,就可以基于這種理解來構建諸如采樣和智能體行為等任務了。
采樣的目標也是從某個分布中抽取樣本,但它與生成模型不同,因為采樣只能通過一個能量函數 ( E(x) ) 來訪問,該函數定義了一個未歸一化的概率密度。由于沒有提供數據集,因此無法簡單地訓練生成模型。此外,要生成一個數據集,首先需要進行樣本抽取。而且,能量函數的計算通常成本很高。因此,采樣問題在機器學習和計算化學中被認為是最具挑戰性的問題之一。文獻中存在許多采樣算法,其中大多都源自于統計力學,如馬爾可夫鏈蒙特卡洛(MCMC)和朗之萬動力學。這些傳統方法開始將現代機器學習的理念融入其中,例如從擴散模型中獲取靈感用于MCMC,或將可學習組件納入序慣蒙特卡羅方法。有些方法則學習偏置勢以進行過渡態路徑采樣,而其他方法則將擴散模型轉化為可解決組合優化問題的采樣器。因此采樣方法對于解決平衡取樣問題至關重要,因為其對于預測許多化學過程的熱力學和動力學是必不可少的。而生成模型可以作為采樣算法的組件,例如在Boltzmann生成器中,通過能量和示例進行訓練。此外,Boltzmann生成模型開始利用生成模型在不同樣本之間進行遷移學習。而生成流網絡(GFlowNets)是通過學習在生成圖中如何分配流量來解決采樣問題的,其在生成多樣化的離散數據方面具有獨特的優勢。事實上,越來越多的文獻將GFlowNets應用到了分子和材料設計問題中來了。
基于梯度的優化算法旨在優化與參數相關的平滑損失函數,該函數用于訓練神經網絡,以解決幾乎所有其他機器學習問題。為此,機器學習領域發展了一系列優化算法,如隨機梯度下降、Adam以及利用二階導數信息的K-FAC等二階優化方法。諸如PyTorch、JAX和Tensorflow等機器學習框架已經實現了自動微分和GPU加速,使得優化神經網絡變得更加容易。而神經網絡能夠被如此出色地優化這一事實,激發了將其作為求解波函數的試探方法,以滿足薛定諤方程的需求。這種方法本身是物理信息神經網絡(PINN)的一個應用實例,它通過將偏微分方程(PDE)本身作為損失函數,來尋找這些方程的神經網絡的解。此外自動微分還允許在模擬過程中傳遞導數,這能夠使網絡學習到成對交互的勢能,為過渡態路徑采樣學習偏置勢,并執行逆向設計。
黑箱優化方法嘗試以無導數的方式,盡可能少地調用預言機函數 ( f(x) ) 來優化它。在許多實驗問題中都是這種情況,例如優化反應參數以提高產率、優化設備處理參數以提高性能,或優化液體處理參數。為了以高樣本效率解決這些問題,會應用如貝葉斯優化和賭博機優化等算法。當樣本效率不是問題時,也可以應用諸如強化學習和遺傳算法等元啟發式優化算法。黑箱優化也可以被視為采樣的一個實例,其中目標分布集中在全局最優解周圍。
智能體在環境中解決復雜的多步驟問題。環境定義了可能的狀態、動作、狀態之間的轉換以及獎勵函數。例如,逆合成規劃中,分子作為狀態,化學反應作為動作,產率和成本作為獎勵函數。像逆合成規劃或機器人運動規劃這樣的規劃問題自然可以通過智能體的行為來解決,而學習最優智能體行為的標準算法被稱為強化學習。但是,由于強化學習在樣本效率上表現不佳,常見的方法是使用生成模型來初始化智能體:例如,像ChatGPT這樣的有用的助手被初始化為在大規?;ヂ摼W文本上預訓練的大型語言模型,然后通過微調來最大化滿足人類偏好的獎勵。此外,提示框架作為一套迅速發展的方法,可用于增強這些智能體的能力,使它們能夠逐步推理、使用工具、檢索信息、執行代碼,并不斷重復這些步驟。
3.1.1 工具箱的優勢
共享問題接口可以對許多不同算法進行廣泛且清晰的基準測試。例如,Song等人在其文章中提供了一個例子,在表1中,他們提出了一種新的生成模型類,并將其方法與27種不同類別的生成模型在相同數據集和基準上進行了廣泛比較。
每個機器學習問題都有其自身的理論基礎。數學理論可以分析算法在收斂時的性質或證明其收斂過程,解釋為何某些方法比其他方法更為有效。而共享的問題接口也有助于分析,可以用來確定一種方法是否與另一種方法相同,或者哪些方法比其他方法更具普適性,從而有助于統一多樣性的文獻研究。
3.1.2 工具可以相互疊加使用
機器學習問題常常相互交織在一起。例如,生成模型,如擴散模型,會利用經過訓練的神經網絡進行回歸去噪處理。智能體是建立在生成文本模型之上的,而生成模型本身的核心是一個用于預測下一個標記的神經網絡。這意味著在機器學習中,不同的技術和模型往往可以相互構建和擴展,形成更為復雜和強大的系統。這些網絡都是通過像 Adam 這樣的隨機優化方法進行訓練的,而黑箱優化則用于選擇網絡的超參數。此外,采樣算法、黑箱優化和智能體也可以結合之前數據訓練的生成模型,用來提高數據生成的質量 。
表1中列舉的問題并非詳盡無遺。其他問題包括不確定性量化,這在貝葉斯優化和主動學習中很有幫助,還有在保護隱私的同時合并工業制藥數據的聯邦學習,以及用于普遍適用的分子描述符的表示學習,因果學習,檢索和壓縮等問題。
3.1.3 選擇適當的工具來完成任務
盡管機器學習工具功能強大,但只有在正確的任務上使用時才能發揮最大作用。例如,如前所述,生成模型更適合處理一對多問題,例如3D結構預測?;谔荻鹊膬灮m用于損失函數可微分且能夠快速評估的情況,比如優化神經網絡,但并不一定適用于優化分子結構。盡管分子設計常被視為一個黑箱優化問題,但可以認為,采樣更適合用于分子設計:即通過尋找多樣且高質量的結果來解決多目標問題。相比之下,黑盒優化通常只專注于當前見過的最優解。因此,分子設計不能僅僅依靠生成模型,因為生成模型學習的是給定數據集的分布。而分子設計則需要在已知數據分布之外尋找卓越的候選分子。
在化學領域,通常將問題視為一種搜索,就像在稻草堆中尋找一根針一樣。像傳統的對接方法會搜索所有可行的配體位置,而晶體結構預測則會全面的搜索所有可能的原子排列。而基于虛擬篩選的分子設計會假設在龐大的虛擬庫中會找到足夠優秀的“針”。當可用計算資源足夠時,基于搜索的視角非常有用,因為這可以全面建模一個空間,以證明不存在良好的解決方案。然而,對于許多應用來說,全面的搜索可能過于繁瑣。想象一下,這就好比試圖在所有可能的英語文本中進行搜索來寫一篇論文。這個時候一個有幫助的思考是,是否可以利用現有數據和算法將搜索問題重新框定為生成模型或采樣問題。
3.2 機器學習社區的主題與實踐
解決化學問題可以通過高級視角和社區實踐來輔助。為了將機器學習的觀點放在算法開發的背景下進行說明,我們描述了ML社區中的共同主題和實踐,比如基準測試、高度跨學科性,以及深度學習的痛苦教訓。所有這些都將在下文展開。
3.2.1 基準測試的作用
基準測試在機器學習的發展過程中發揮著至關重要的作用,它推動著模型和方法的持續改進。在機器學習社區非常重視能夠提升現有技術水平的方法。因此每年至少有三大計算機科學會議(NeurIPS、ICML 和 ICLR),使得漸進式的進展時常出現。這些對現有基準的細微迭代改進,隨著時間的推移,從而獲得的顯著性能提升。對于研究人員而言,基準測試提供了明確的評估標準,以幫助他們識別模型中哪些組成部分對性能影響最大,進而可以實現更有針對性和更具影響力的發展。
機器學習研究的一個顯著特點是使用排行榜,提出的方法根據其在既定基準測試中的表現進行排名。為了能在主要會議上被接收,論文必須在技術上有所進步或與當前最先進的水平相比具有競爭力。因此這一評價機制推動了各個領域的顯著進展,從圖像分類到機器翻譯,再到圖像生成,甚至解決奧林匹克數學問題。如Open Catalyst Project正是利用這一機制為神經網絡勢設定了一個基準,用來弛豫金屬表面上的有機吸附物。此外,該項目還提供了一個比以往更大的數據集,激勵了更強大的等變架構的持續發展。從2020年到2023年,預測吸附能的成功率從1%提升至14%,所以目前的模型在預測吸附方面已開始變得實用起來了。而另一個名為Matbench Discovery的基準則是在工業界引發了神經力場的軍備競賽。
然而,盡管基準測試是一種強大的工具,但在化學領域的應用中,我們必須持批判態度。因為,雖然領域專家在定義能夠轉化為實驗室實際結果的有效基準方面具有獨特優勢。但在機器學習文獻中,問題的設置雖然針對計算性能進行了優化,卻仍可能與實驗驗證的實際情況不符。這種不一致可能導致關注點從解決實際問題轉移到單純推動機器學習技術的發展上。隨著方法的成熟和基準的飽和,新的、更相關的基準亟需出現。
為機器學習研究人員定義和框定問題是一項至關重要的任務。這需要以一種更廣泛的機器學習社區易于理解的方式來提出重要的問題和行動呼吁。通過這種方式,化學家能夠引導機器學習工具的發展,使其在實驗研究中更有實際應用的可能性。盡管創建數據集和基準可能被視為機械性的工作,但它可以通過利用機器學習社區的共同努力來推動解決困難問題的進展。假設一個化學問題能夠被清晰地提煉并轉化為一個適當基準化的機器學習問題。那么,化學家們可以思考:如果這些舊任務能夠以顯著更快或更高的準確性來解決,那么現在又有哪些新問題變得可以解決呢?如此一來,在化學與材料這一廣闊而激動人心的領域中,還有許多科學問題等待探索。
3.2.2 跨學科:化學對機器學習的影響
雖然在計算機科學領域,基準測試的迭代改進是方法驅動的機器學習的重要組成部分,但另一種創新方法則充分利用了機器學習社區的高度跨學科特性。眾所周知,機器學習已被廣泛應用于健康、農業、氣候、保護、物理和天文學等多個領域。因此我們最近提出了“應用驅動的機器學習[1]”作為一種新興范式,該范式根據不同領域中的實際任務來評估成功,方法和評估同時也受到領域知識的啟發與背景的影響。應用驅動的創新承認了這些來自多樣領域的任務融入機器學習發展所帶來的影響。因此這些新任務激勵著新的算法的產生。
在化學領域,圖神經網絡的發展源于對分子圖建模的需求。這一需求推動了對社交網絡、引用網絡、計算機程序和數據庫等其他圖數據建模的實際進展。反過來,圖機器學習也取得了理論上的進展,特別是在通過Weisfeiler–Lehman測試分析圖神經網絡的表達能力方面。此外,神經網絡需要遵循三維空間的旋轉對稱性,這進一步促成了等變架構的發展。所有這些在尊重對稱性方面的方法論發展被統一到幾何深度學習的理論中去了,該理論展示了卷積神經網絡、圖神經網絡與Transformer之間的緊密聯系。
除了理論和方法,機器學習研究者們對機器學習在解決全球健康和氣候變化等現實問題方面的潛力感到興奮。這種興奮表現為強烈的學習熱情,這體現在了博客文章、教學材料以及包含錄制講座的在線閱讀小組社區的蓬勃發展上。許多關注機器學習在化學領域應用的研討會在主要的機器學習會議上舉行,如神經信息處理系統大會(NeurIPS)、國際機器學習大會(ICML)和國際學習表征會議(ICLR)。這些資源的廣泛可用性也反映了機器學習社區對開放性的重視。會議論文可以被免費發布,預印本受到重視,并且共享代碼被視為理所當然。甚至還有專門接受博客文章的會議類別
在與機器學習(ML,Machine Learning)研究人員交流時,要對他們最初的假設保持耐心。通常,在機器學習文獻中會提出多個假設,但這些假設在實際實驗中往往并不適用。例如,在分子設計中,常常忽略了分子的可合成性,或者在反應預測中忽略了反應條件。這反映了不同領域審稿人的價值觀和假設差異。我們很容易對這些問題做出評判,并認為這些方法幼稚,這樣的批評也是有益的。但我們不應因此而全盤否定所有努力:我們應該問,如果能夠妥善處理這些額外的假設,這種方法是否能幫助解決我們的具體問題?由于機器學習從業者來自不同背景,他們可能不會立即理解化學領域的行話、假設和實驗設置,但他們是渴望學習的。
3.2.3 慘痛的教訓:平衡可擴展性與領域知識
AlexNet的問世標志著深度學習革命的開始,展示了神經網絡在利用圖形處理單元(GPU)的計算能力進行訓練時,如何在圖像分類方面的準確性上遠超基于手工設計特征的模型。通過觀察神經擴展法則,我們明確看到了計算規模的力量,這些法則經驗性地且可靠地預測了隨著計算能力、數據量和參數數量的增加,模型性能將如何改善。這些擴展法則激勵了GPT系列語言模型的發展,最終催生了諸如ChatGPT這樣的先進應用。
根據規模法則,在設計算法時,我們應謹慎運用領域知識。機器學習中的“慘痛的教訓”提醒我們不要過于依賴領域知識來設計算法。雖然手工制作的領域特定設計選擇可能在短期內帶來改進,但那些更好地利用計算規模的方法往往在長期內表現得更為出色。在文本、圖像、語音、國際象棋和圍棋等多個領域,依賴人類直覺和歸納偏差的方法已經被可以充分利用摩爾定律所帶來的計算能力指數增長的“窮舉方法”所取代。
作為化學家,令人感到愉快的是開發受到我們化學知識啟發的方法,例如通過將量子化學描述符注入回歸分析,或對系統施加物理約束。然而,我們必須提醒自己,人類對問題的理解并不直接意味著我們能夠設計出解決該問題的算法。盡管在機器學習研究中對語言學有著廣泛的知識,但像ChatGPT這樣的模型也是直到研究人員在大規模數據集上進行訓練后才得以實現。
規模的力量可能讓人感到恐懼。即便是像在神經網絡中強制執行等變性這樣受到廣泛關注的假設,最近的研究也對此提出了挑戰:諸如概率對稱化和隨機幀平均等方法顯示,施加結構約束并不是絕對必要的。而像AlphaFold和分子構象場這樣的模型則證明,使用隨機旋轉的訓練樣本進行訓練的模型能夠自動學習旋轉等變性,但這需要更高的計算量和更長的訓練時間。
在當前階段,規模和數據仍然有限。例如,帶有反應規則的專家系統依然是當今合成規劃中最有效的方法,這可能是由于收集反應數據的困難所導致的。此外,我們可以進一步減少歸納偏差,訓練語言模型直接生成3D分子結構的.xyz文件,正如我們最近所做的那樣,與更為定制化的晶體結構預測方法相比,其效果也相當不錯。然而,正如Alampara等人所說,目前的語言模型無法編碼表示特定材料屬性所需的幾何信息。
因此,這個慘痛的教訓并不意味著對算法施加歸納偏置永遠是錯誤的。我們必須在利用計算能力和領域專業知識之間找到一個最佳平衡。這一點在化學領域尤為重要:與語言和圖像等可以在互聯網規模上獲取的數據不同,化學數據相對稀缺,并且需要通過真實世界的實驗來獲得。因此,設計能夠最有效利用這些有限數據的算法至關重要。手工設計的算法可以在短期內實現更好的預測和更快的仿真,從而推動數據生成,最終達到基礎模型所需的數據規模。
領域知識的另一個關鍵作用是確定問題的合適概念。我們應該是從基本原理出發進行建模,比如基于物理的模擬,還是將其視為一個化學信息學問題呢?這個問題在更廣泛的背景中如何體現的呢?例如,預測藥物對患者的影響可以通過模擬整個個體來實現,盡管目前這在實踐中并不可行,或者也可以通過統計建?;蛞蚬5姆椒▉硖幚?。在某個時刻,這些不同層次的模型需要進行協調,而領域科學家在描繪這一結構層級模型中是至關重要的。他們幫助判斷何時假設是合理的,何時又不合理。雖然機器學習工具無法獨立解決這些問題,但它們可以在整合不同模型組件方面提供顯著幫助。
參考文獻?????[1]
R. David, A. Aspuru-Guzik, B. Sara, D. Bistra, D. L. Priya, G. Marzyeh, K. Hannah, M. Claire, R. Esther, T. Milind and W. Adam, Position: Application-Driven Innovation in Machine Learning, Proceedings of the 41st International Conference on Machine Learning, ed. R. Salakhutdinov, Z.Kolter, K. Heller, A. Weller, N. Oliver, J. Scarlett and F. Berkenkamp, PMLR,2024, vol. 235, pp. 42707–42718[:https://proceedings.mlr.press/v235/rolnick24a.html
-
測試
+關注
關注
8文章
5336瀏覽量
126795 -
人工智能
+關注
關注
1792文章
47442瀏覽量
239006 -
機器學習
+關注
關注
66文章
8425瀏覽量
132775
發布評論請先 登錄
相關推薦
評論