色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于深度學(xué)習(xí)下的QSAR如何助力醫(yī)藥研發(fā)?

GPU視覺識別 ? 來源:GPU視覺識別 ? 作者:GPU視覺識別 ? 2023-01-05 11:13 ? 次閱讀

數(shù)學(xué)模型 | 分子結(jié)構(gòu) | QSAR

機(jī)器學(xué)習(xí) | CoMFA|Hansch

如今是算力、高性能為先的社會,隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的快速發(fā)展,用于生命科學(xué)醫(yī)藥研發(fā)的QSAR(定量結(jié)構(gòu)-活性關(guān)系)也在快速發(fā)展。伴隨著數(shù)據(jù)分析、數(shù)據(jù)挖掘數(shù)目的不斷增大,傳統(tǒng)的風(fēng)冷散熱方式已經(jīng)不足以滿足散熱需要,這就需要新興的液冷散熱技術(shù)以此滿足節(jié)能減排、靜音高效的需求。

作為國內(nèi)品牌服務(wù)器廠商,藍(lán)海大腦液冷GPU服務(wù)器擁有大規(guī)模并行處理能力和無與倫比的靈活性。它主要用于為計(jì)算密集型應(yīng)用程序提供足夠的處理能力。GPU的優(yōu)勢在于可以由CPU運(yùn)行應(yīng)用程序代碼,同時圖形處理單元(GPU)可以處理大規(guī)模并行架構(gòu)的計(jì)算密集型任務(wù)。GPU服務(wù)器是醫(yī)療成像、醫(yī)藥研發(fā)、QSAR研究的理想選擇。

本文將為大家全面介紹QSAR(定量結(jié)構(gòu)-活性關(guān)系)及其研究方法。

dG8nfxTD_YAYH.png?auth_key=1673193599-0-0-6357c3f6cc87a4dfb5d20310f2c8ea35

什么是QSAR?

定量結(jié)構(gòu)-活性關(guān)系(Quantitative Structure-Activity Relationship,QSAR)是目前國內(nèi)外一個活躍的研究領(lǐng)域。主要基于各種分子描述符和模型算法,建立化合物的結(jié)構(gòu)與其理化性質(zhì)、生物學(xué)活性、毒理學(xué)效應(yīng)、環(huán)境行為和歸趨等的定性/定量關(guān)系。

隨著計(jì)算機(jī)技術(shù)迅猛發(fā)展,QSAR的學(xué)術(shù)研究已步入到一個新水平,涉及化學(xué)、藥物、環(huán)境和健康等諸多領(lǐng)域。同時,隨著監(jiān)管機(jī)構(gòu)對其認(rèn)可度的提高,QASR在工業(yè)化學(xué)品、農(nóng)藥、 消毒劑、化妝品、食品接觸材料和添加劑、醫(yī)藥等的研發(fā)、風(fēng)險(xiǎn)評估、注冊和管理方面發(fā)揮著越來越重要的作用。

但QSAR并不是一個只要輸入物質(zhì)結(jié)構(gòu),甚至CAS號碼,就能輸出一份報(bào)告的簡單工具。事實(shí)上,QSAR 的應(yīng)用需要大量的理論和實(shí)踐基礎(chǔ)。只有對模型算法選擇、化學(xué)信息學(xué)、實(shí)驗(yàn)方法、毒性/生物活性的作用機(jī)制、 可靠性驗(yàn)證、法規(guī)知識等具備相當(dāng)深入的研究,才能準(zhǔn)確地將之運(yùn)用相關(guān)領(lǐng)域。因此QSAR模型的構(gòu)建和使用對專業(yè)知識要求比較高,這對新接觸QSAR的人來說往往會存在一定難度。

FT6vHwGa_ZQSr.jpg?auth_key=1673193599-0-0-a9240b7ec32b2991e05ac2dbca3b1432

QSAR建模過程

QSAR建模過程一般包含數(shù)據(jù)收集、計(jì)算與篩選分子描述符、模型建立、驗(yàn)證與評價(jià)四個步驟。

一、數(shù)據(jù)收集

廣義上,在藥物設(shè)計(jì)中,用以建模的化合物數(shù)據(jù)主要包括以下幾類:

1、針對靶標(biāo)的活性,如酶活性的半數(shù)抑制濃度和細(xì)胞活性的半數(shù)抑制濃度等

2、生物毒性,如口服急性毒性LD50、最小作用劑量MED、突變性和致癌性等

3、理化性質(zhì),如溶解性和血腦穿透能力等

4、環(huán)境中轉(zhuǎn)化的表征參數(shù),如水生毒性和降解速率等。數(shù)據(jù)的可靠性是模型有效的前提,只有通過可靠實(shí)驗(yàn)數(shù)據(jù)建立的模型才具有實(shí)際應(yīng)用價(jià)值。

二、計(jì)算與篩選分子描述符

在QSAR研究領(lǐng)域,人們可根據(jù)化合物結(jié)構(gòu)推導(dǎo)出來某種與之對應(yīng)的數(shù)值指標(biāo),這些指標(biāo)就是化合物物理化學(xué)性質(zhì)微觀上的描述,將此稱作其生物學(xué)性質(zhì)上某一“指紋”的“微觀顯示”,即分子描述符。

三、模型建立

QSAR模型可分為線性與非線性兩類建模方法。其中線性模型中主要應(yīng)用多元線性回歸(MLR)、主成分分析(PCA)和偏最小二乘法(PLS)等方法;遺傳算法(GA)、支持向量機(jī)(SVM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)則能較好地處理非線性關(guān)系。

1、遺傳算法

GA是根據(jù)大自然生物進(jìn)化規(guī)律,模擬生物基因發(fā)生改變的現(xiàn)象。探索復(fù)雜模型的組合優(yōu)化問題,通過選擇、交叉和變異等過程的模擬組合,得到備選的多組自變量與因變量,通過適應(yīng)度是否達(dá)到閾值或最優(yōu)個體適應(yīng)度上升趨勢來判斷其優(yōu)劣,直至滿足要求,得到最優(yōu)QSAR模型。

2、主成分分析

在含有多變量的分析中,PCA常被作為簡化數(shù)據(jù)的方法。該方法可以通過正交變換,完成變量線性到非線性的轉(zhuǎn)化,從而簡化QSAR建模進(jìn)程。Bernardo等,通過該方法構(gòu)建QSAR模型,對多環(huán)芳烴致癌毒性的預(yù)測得到了較好結(jié)果。

3、偏最小二乘法

PLS可以看作是MLR和PCA兩種方法的結(jié)合,通過最小化誤差的平方和篩選最優(yōu)數(shù)據(jù),排除原有信息中線性重迭的分子描述符,并且適合樣本容量不足時構(gòu)建QSAR模型。

4、人工神經(jīng)網(wǎng)絡(luò)

ANN是對人腦處理數(shù)據(jù)時神經(jīng)元的模擬,將大量節(jié)點(diǎn)之間構(gòu)成聯(lián)系,建立模型,常用于構(gòu)建非線性QSAR模型,但存在一定的不穩(wěn)定性,需要提前篩選描述符才能構(gòu)建有效模型。

5、支持向量機(jī)

SVM是一類監(jiān)督學(xué)習(xí)方式,它建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理基礎(chǔ)之上,通過尋找最優(yōu)超平面進(jìn)行非線性分類,從而將非線性特征問題的分析向線性分析轉(zhuǎn)變,被廣泛用于分類問題和回歸問題的解決中。

ndIwXcf7_PzgY.jpg?auth_key=1673193599-0-0-8b0e7af28ca1fa68e2f9989388654d7f

二維QSAR概念模式與研究方法

二維定量構(gòu)效關(guān)系方法是將分子整體的結(jié)構(gòu)性質(zhì)作為參數(shù),對分子生理活性進(jìn)行回歸分析,建立化學(xué)結(jié)構(gòu)與生理活性相關(guān)性模型的一種藥物設(shè)計(jì)方法,常見的二維定量構(gòu)效關(guān)系方法有hansch方法、free-wilson方法、分子連接性方法等,最為著名和應(yīng)用最廣泛的是hansch方法。

一、活性參數(shù)

活性參數(shù)是構(gòu)成二維定量構(gòu)效關(guān)系的要素之一,人們根據(jù)研究的體系選擇不同的活性參數(shù),常見的活性參數(shù)有:半數(shù)有效量、半數(shù)有效濃度、半數(shù)抑菌濃度、半數(shù)致死量、最小抑菌濃度等,所有活性參數(shù)均必須采用物質(zhì)的量作為計(jì)量單位,以便消除分子量的影響,從而真實(shí)地反映分子水平的生理活性。為了獲得較好的數(shù)學(xué)模型,活性參數(shù)在二維定量構(gòu)效關(guān)系中一般取負(fù)對數(shù)后進(jìn)行統(tǒng)計(jì)分析。

二、結(jié)構(gòu)參數(shù)

結(jié)構(gòu)參數(shù)是構(gòu)成定量構(gòu)效關(guān)系的另一大要素,常見的結(jié)構(gòu)參數(shù)有:疏水參數(shù)、電性參數(shù)、立體參數(shù)、幾何參數(shù)、拓?fù)鋮?shù)、理化性質(zhì)參數(shù)以及純粹的結(jié)構(gòu)參數(shù)等。

1、疏水參數(shù)

藥物在體內(nèi)吸收和分布的過程與其疏水性密切相關(guān),因而疏水性是影響藥物生理活性的一個重要性質(zhì),在二維定量構(gòu)效關(guān)系中采用的疏水參數(shù)最常見的是脂水分配系數(shù),其定義為分子在正辛醇與水中分配的比例,對于分子母環(huán)上的取代基,脂水分配系數(shù)的對數(shù)值具有加和性,可以通過簡單的代數(shù)計(jì)算獲得某一取代結(jié)構(gòu)的疏水參數(shù)。

2、電性參數(shù)

二維定量構(gòu)效關(guān)系中的電性參數(shù)直接繼承了哈密頓公式和塔夫托公式中的電性參數(shù)的定義,用以表征取代基團(tuán)對分子整體電子分配的影響,其數(shù)值對于取代基也具有加和性。

3、立體參數(shù)

立體參數(shù)可以表征分子內(nèi)部由于各個基團(tuán)相互作用對藥效構(gòu)象產(chǎn)生的影響以及對藥物和生物大分子結(jié)合模式產(chǎn)生的影響,常用的立體參數(shù)有塔夫托立體參數(shù)、摩爾折射率、范德華半徑等。

4、幾何參數(shù)

幾何參數(shù)是與分子構(gòu)象相關(guān)的立體參數(shù),因?yàn)檫@類參數(shù)常常在定量構(gòu)效關(guān)系中占據(jù)一定地位,故而將其與立體參數(shù)分割考慮,常見的幾何參數(shù)有分子表面積、溶劑可及化表面積、分子體積、多維立體參數(shù)等。

5、拓?fù)鋮?shù)

在分子連接性方法中使用的結(jié)構(gòu)參數(shù),拓?fù)鋮?shù)根據(jù)分子的拓?fù)浣Y(jié)構(gòu)將各個原子編碼,用形成的代碼來表征分子結(jié)構(gòu)。

6、理化性質(zhì)參數(shù)

偶極矩、分子光譜數(shù)據(jù)、前線軌道能級、酸堿解離常數(shù)等理化性質(zhì)參數(shù)有時也用做結(jié)構(gòu)參數(shù)參予定量構(gòu)效關(guān)系研究。

7、純粹的結(jié)構(gòu)參數(shù)

在free-wilson方法中,使用純粹的結(jié)構(gòu)參數(shù),這種參數(shù)以某一特定結(jié)構(gòu)的分子為參考標(biāo)準(zhǔn),依照結(jié)構(gòu)母環(huán)上功能基團(tuán)的有無對分子結(jié)構(gòu)進(jìn)行編碼,進(jìn)行回歸分析,為每一個功能基團(tuán)計(jì)算出回歸系數(shù),從而獲得定量構(gòu)效關(guān)系模型。

三、數(shù)學(xué)模型

二維定量構(gòu)效關(guān)系中最常見的數(shù)學(xué)模型是線性回歸分析,Hansch方程和Free-Wilson方法均采用回歸分析。

經(jīng)典的Hansch方程形式為:

NSROYVNH_bDBO.png?auth_key=1673193599-0-0-0a098aac6eb9246f7fa15ba5e081c8f5

其中π為分子的疏水參數(shù),其與分子脂水分配系數(shù)Px的關(guān)系為:

Vzn4Uhvg_6zMa.png?auth_key=1673193599-0-0-f2954d97e5436c1020a8fd6e72d574ab

,σ為哈密頓電性參數(shù),Es為塔夫托立體參數(shù),其中a,b,c,k均為回歸系數(shù)。

日本學(xué)者藤田稔夫?qū)?jīng)典的Hansch方程作出一定改進(jìn),用拋物線模型描述疏水性與活性的關(guān)系:

cGr8cgTk_eODa.png?auth_key=1673193599-0-0-0d6a747ec7ae8284b89c323f301e84b4

這一模型擬合效果更好。Hansch方程進(jìn)一步,以雙直線模型描述疏水性與活性的關(guān)系:

NbUW3SSt_WWST.png?auth_key=1673193599-0-0-fa8692344502355775bd55be0ebde6ad

其中的P為分子的脂水分配系數(shù),a,b,β為回歸系數(shù),D代表方程的其他部分。雙直線模型的預(yù)測能力比拋物線模型進(jìn)一步加強(qiáng)。

Free-Wilson方法的方程形式為:

Z63akr6c_bJeS.png?auth_key=1673193599-0-0-96d356bfda157a6b2984cf0ba1677883

其中

4fHrP9Ew_tuI5.png?auth_key=1673193599-0-0-084d3339477e56982d47444955849ef5

為結(jié)構(gòu)參數(shù),若結(jié)構(gòu)母環(huán)中第i個位置有第j類取代基則結(jié)構(gòu)參數(shù)取值為1否則為0,μ為參照分子的活性參數(shù),

vJVZUc92_h5tB.png?auth_key=1673193599-0-0-83248cf3caf1b11ca54fa60b23ac5e1c

為回歸系數(shù)。

除了回歸分析,遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、偏最小二乘分析、模式識別、單純形方法等統(tǒng)計(jì)分析方法也會應(yīng)用于二維定量構(gòu)效關(guān)系數(shù)學(xué)模型的建立。

四、發(fā)展

二維定量構(gòu)效關(guān)系的研究集中在兩個方向:結(jié)構(gòu)數(shù)據(jù)的改良和統(tǒng)計(jì)方法的優(yōu)化。

傳統(tǒng)的二維定量構(gòu)效關(guān)系使用的結(jié)構(gòu)數(shù)據(jù)常僅能反應(yīng)分子整體的性質(zhì),通過改良結(jié)構(gòu)參數(shù),使得二維結(jié)構(gòu)參數(shù)能夠在一定程度上反應(yīng)分子在三維空間內(nèi)的伸展?fàn)顩r,成為二維定量構(gòu)效關(guān)系的一個發(fā)展方向。

引入新的統(tǒng)計(jì)方法,如遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、偏最小二乘回歸等,擴(kuò)展二維定量構(gòu)效關(guān)系能夠模擬的數(shù)據(jù)結(jié)構(gòu)的范圍,提高QSAR模型的預(yù)測能力是2D-QSAR的主要發(fā)展方向。

3dCOxbaH_AmrR.png?auth_key=1673193599-0-0-dd3767fecfdb13949d62f947437b7678

三維QSAR概念模式與研究方法

由于二維定量構(gòu)效關(guān)系不能精確描述分子三維結(jié)構(gòu)與生理活性之間的關(guān)系,隨著構(gòu)效關(guān)系理論和統(tǒng)計(jì)方法的進(jìn)一步發(fā)展,引入了三維定量構(gòu)效關(guān)系。這種方法間接地反映了藥物分子與大分子相互作用過程中的非鍵相互作用特征,相對于二維定量構(gòu)效關(guān)系有更加明確的物理意義和更豐富的信息量,因此三維定量構(gòu)效關(guān)系逐漸取代了二維定量構(gòu)效關(guān)系的地位,成為基于機(jī)理的合理藥物設(shè)計(jì)的主要方法之一。

這是 3D-QSAR 的發(fā)展歷程,我們可以看出自從 80 年代提出以來,它的發(fā)展還是很快的,目前應(yīng)用最廣泛的三維定量構(gòu)效關(guān)系方法是比較分子場方法和比較分子相似性方法。

一、比較分子場分析方法

這種方法通過分析分子在三維空間內(nèi)的疏水場,靜電場和立體場分布,以這些參數(shù)為變量對藥物活性做回歸分析。它的基本原理是:如果一組相似化合物以同樣的方式作用于同一一靶點(diǎn),那么它們的生物活性就取決于每個化合物周圍分子場的差別,這種分子場可以反映藥物分子和靶點(diǎn)之間的非鍵相互作用特性。

優(yōu)勢:通過比較同系列分子附近空間各點(diǎn)的疏水性、靜電勢等理化參數(shù),將這些參數(shù)與小分子生理活性建立聯(lián)系,從而指導(dǎo)新化合物的設(shè)計(jì)

不足:分子的排列是該模型最關(guān)鍵、最困難的問題,也就是說化合物與受體作用位點(diǎn)結(jié)合的方向,任何小誤差出現(xiàn)在過程中都將導(dǎo)致計(jì)算結(jié)果的不精確。

二、比較分子相似因子分析法

與比較分子場分析方法最大的不同就是分子場的能量函數(shù)采用了與距離相關(guān)的高斯函數(shù)的形式,這種方法中共定義五種分子場的特征,包括立體場、靜電場、疏水場以及氫鍵給體場和氫鍵受體場。

這個方法是人們對比較分子場分析方法做了大量修正和改進(jìn)得到的更具優(yōu)勢的模型。

優(yōu)勢:采用了與距離相關(guān)的高斯函數(shù)形式,可以有效地避免在傳統(tǒng)比較分子場分析方法中由靜電場和立體場的函數(shù)形式所引起的

不足:由于分子場能量在格點(diǎn)上的迅速衰退,不需要定義能量的截?cái)嘀?/p>

三、距離幾何法

這種方法假定配體分子的活性基團(tuán)與受體分子間的結(jié)合位點(diǎn)之間是相互作用的,它將藥物分子劃分為若干功能區(qū)塊定義藥物分子活性位點(diǎn),計(jì)算構(gòu)象時各個活性位點(diǎn)之間的距離,形成距離矩陣;同時定義受體分子的結(jié)合位點(diǎn),獲得結(jié)合位點(diǎn)的距離矩陣,通過活性位點(diǎn)和結(jié)合位點(diǎn)的匹配為每個分子生成結(jié)構(gòu)參數(shù),對生理活性數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。

四、分子形狀分析法

研究步驟一般可分為:

分析藥物分子的構(gòu)象,得到分子構(gòu)象庫

確定分子的活性構(gòu)象

根據(jù)分子的活性構(gòu)象選定參考構(gòu)象

將其他分子構(gòu)象與參考構(gòu)象進(jìn)行重疊

根據(jù)重疊構(gòu)象確定公共重疊體積和其他的分子特征

最后根據(jù)重疊體積和分子特征,建立 QSAR 模型

uyumwurp_tELY.png?auth_key=1673193599-0-0-634b47349d53177bd60c8fffff34faeb

QSAR的應(yīng)用

一、微觀方面的應(yīng)用

1、藥物設(shè)計(jì)

近年來,分子生物學(xué)和計(jì)算機(jī)科學(xué)的迅速發(fā)展,使得計(jì)算機(jī)輔助藥物設(shè)計(jì)(CADD)在新藥物開發(fā)中起著非常重要的作用。按照是否已知受體的三維結(jié)構(gòu),可把這些方法分為兩大類,一類是直接藥物設(shè)計(jì),用于受體靶點(diǎn)三維結(jié)構(gòu)已知的情況下,研究藥物與受體的相互作用,根據(jù)受體受點(diǎn)的形狀和性質(zhì)設(shè)計(jì)新的藥物,如:對 DHFR 抑制劑、人體免疫缺陷病毒(HIV-1)蛋白酶抑制劑、5-羥色胺(5-HT)受體拮抗劑等的研究;另一類是間接藥物設(shè)計(jì),當(dāng)受體的三維結(jié)構(gòu)未知時,采用對一組具有類似活性的化合物建立定量結(jié)構(gòu)-活性關(guān)系模型,根據(jù) QSAR 計(jì)算結(jié)果的指導(dǎo)藥物化學(xué)家可以更有目的性地對生理活性物質(zhì)進(jìn)行結(jié)構(gòu)改造。

CoMFA 和 CoMISA是應(yīng)用最廣泛的合理藥物設(shè)計(jì)方法之一,這種方法認(rèn)為,藥物分子與受體間的相互作用取決于化合物周圍分子場的差別,以定量化的分子場參數(shù)作為變量,對藥物活性進(jìn)行回歸分析便可以反應(yīng)藥物與生物大分子之間的相互作用模式進(jìn)而有選擇地設(shè)計(jì)新藥。

2、模擬污染物對酶、生物作用的動力學(xué)過程

3D-QSAR 發(fā)展至今,已稱為計(jì)算機(jī)輔助農(nóng)藥設(shè)計(jì)的基本手段與分析方法。同時,在生物化學(xué)、生物醫(yī)學(xué)和生物毒理學(xué)方面,3D-QSAR 可用于研究酶的活性、生物體抗病毒能力的強(qiáng)弱、化合物的致癌致畸性等。

具體來說,3D-QSAR 已用來研究多種酶(如水解酶、氧化還原酶、連接酶)的作用物和抑制劑,受體(如 5-HT受體、GHRH 受體等)和運(yùn)輸載體。此外,3D-QSAR 在腫瘤學(xué)、抗菌劑、新陳代謝方面也有一些應(yīng)用。

O7zvTE4A_HBZZ.png?auth_key=1673193599-0-0-4f93d6b20321b44e949aa289d28f0cdd

二、宏觀方面的應(yīng)用

利用 3D-QSAR 解決環(huán)境化學(xué)問題才剛剛起步。目前,對于一些除草劑,如光系統(tǒng)Ⅱ(PSⅡ)抑制劑、氰基內(nèi)稀酸酯類化學(xué)物、光合作用抑制劑嘧啶硫苯甲酸類化合物等,已研究了其三維定量構(gòu)效關(guān)系。

如何將 3D-QSAR 研究深入,在環(huán)境化學(xué)中發(fā)揮更大作用,是迫切需要解決的問題。3D-QSAR與傳統(tǒng) OSAR 相結(jié)合,研究污染物水解、光解、生物降解以及土壤吸附等環(huán)境行為,將有助于更加深入的yanjiu研究這些環(huán)境行為的作用機(jī)理。同時,對于廣泛使用污染嚴(yán)重的化合物(如除草劑、殺蟲劑、洗滌劑等),在已有的 2D-QSAR 研究基礎(chǔ)上,進(jìn)行 3D-QSAR 分析,進(jìn)而了解化合物產(chǎn)生毒性的部位和發(fā)揮用途的機(jī)制,挑選出高效低毒的化合物,可達(dá)到減少污染的目的。使用 3D-QSAR 的方法,還可以了解污染物在與蛋白質(zhì)和核酸等生物大分子結(jié)合、作用(從而導(dǎo)致癌變等病理情況)的過程中其三維結(jié)構(gòu)所扮演的角色,更加深入的研究污染物在生物體內(nèi)的作用途徑,這對揭示人類的衰老、疾病機(jī)制,維護(hù)人類健康將發(fā)揮重要作用。

y5IVcCTj_QCuz.png?auth_key=1673193599-0-0-88ab118e1a6b4a5e9032ec9da95dddc2

QSAR模型內(nèi)部與外部驗(yàn)證方法綜述

最近幾十年,國內(nèi)外大量文獻(xiàn)報(bào)道定量結(jié)構(gòu)-活性/屬性相關(guān)(QSAR/OSPR)模型,王連生教授作為我國有機(jī)污染物定量構(gòu)效關(guān)系研究領(lǐng)域的開創(chuàng)者,為我國的 QSAR 研究做出了突出的貢獻(xiàn)。

經(jīng)濟(jì)合作與發(fā)展組織(OECD)提出 QSAR 模型需遵循5個法則:

1、確定的終點(diǎn)

2、明確的運(yùn)算方法

3、定義應(yīng)用范圍

4、適當(dāng)驗(yàn)證模型擬合優(yōu)度、穩(wěn)健性和預(yù)測能力

5、如果可能,進(jìn)行機(jī)理解釋。建立QSAR 模型的目的通常是為了:

預(yù)測未測定或新化合物的生物活性

確定哪些分子結(jié)構(gòu)屬性決定化合物的生物活性,例如,在藥物學(xué)研究中,通過 QSAR 研究可以修改藥物分子結(jié)構(gòu)進(jìn)而提高藥效或更進(jìn)一步理解生物學(xué)機(jī)理

為此,下面將詳細(xì)綜述 QSAR 模型的內(nèi)部驗(yàn)證和外部驗(yàn)證方法,為 QSAR 建模者提供指導(dǎo)與幫助。這些內(nèi)部驗(yàn)證和外部驗(yàn)證可作為 QSAR 的驗(yàn)證方法,以保證回歸模型的可靠性和有效性。

一、QSAR模型內(nèi)部驗(yàn)證方法

嚴(yán)格的 QSAR 模型驗(yàn)證程序應(yīng)包括內(nèi)部驗(yàn)證和外部驗(yàn)證.內(nèi)部驗(yàn)證方法包括留一法(LOO)交叉驗(yàn)證、留多法(leave-manv-out.LMO)或留N法(leave-N-out.LNO)交叉驗(yàn)證、隨機(jī)化驗(yàn)證和自舉法等。

1、LOO 交叉驗(yàn)證

LOO 交叉驗(yàn)證是模型內(nèi)部驗(yàn)證最簡單的方法之一。假設(shè)對于含n個樣本的數(shù)據(jù)集,LOO 交叉驗(yàn)證步驟如下:

1)抽出第1個樣本作為外部檢驗(yàn)樣本,余下的n-1 個樣本作為訓(xùn)練集建立回歸模型,并用這個模型去預(yù)測抽出的作為外部檢驗(yàn)樣本的因變量值。

2)將第1個樣本放回原樣本數(shù)據(jù)集,依次抽出第2個樣本作為外部檢驗(yàn)樣本,同樣以余下的n-1個樣本作為訓(xùn)練集建立回歸模型,并預(yù)測第2個樣本的因變量值。

3)將第2個樣本放回原樣本數(shù)據(jù)集。依次按照“抽出1個樣本→余下樣本建模一預(yù)測抽出樣本一放回抽出樣本”的順序?qū)υ瓨颖炯M(jìn)行操作,直到所有樣本均被抽出一次并進(jìn)行預(yù)測為止。

4)完成 LOO 交叉驗(yàn)證后。計(jì)算n次抽出樣本的因變量 LOO 預(yù)測值(γ)與原抽出樣本的因變量實(shí)驗(yàn)值(r)之間的相關(guān)系數(shù)( O?)及 LOO 交叉驗(yàn)證均方根誤差(RMSECV),以評價(jià)模型內(nèi)部預(yù)測能力。

2、LMO/LNO 交叉驗(yàn)證

LMO 或 LNO 交叉驗(yàn)證也是檢驗(yàn)?zāi)P头€(wěn)健性的另一種方法。LMO 與 LOO 的區(qū)別是 LMO 的計(jì)算過程每次從數(shù)據(jù)集中抽出多個樣本,用剩余的樣本建模并預(yù)測被抽出的多個樣本,該過程重復(fù)多次。

在LOO交叉驗(yàn)證中,對于樣本數(shù)為n的訓(xùn)練集,需要n次交叉驗(yàn)證,在LMO交叉中,訓(xùn)練集中n個樣本的順序?qū)?LMO 的結(jié)果將產(chǎn)生一定的影響。假設(shè)取 M =2,即 L20 交叉驗(yàn)證,對于給定順序的n個樣本訓(xùn)練集,需要進(jìn)行 n/2 次交叉驗(yàn)證并獲得 n/2 個模型。然而,該驗(yàn)證僅是所有可能2個樣本組合中(n/(n-2))的一種組合。因此,Kiralj 和 Ferreira 建議將數(shù)據(jù)集中樣本隨機(jī)排序后再進(jìn)行 LMO 交叉驗(yàn)證。在一些 LMO 交叉驗(yàn)證中,數(shù)據(jù)集進(jìn)行多次隨機(jī)化(如 10 次),取多個Q…值的平均值和標(biāo)準(zhǔn)偏差作為評價(jià)模型的穩(wěn)健性。在 LMO 交叉驗(yàn)證中,M 的取值目前仍然沒有固定的說法。對于大數(shù)據(jù)集,M可以取較大的數(shù)值,只要剩余的樣本數(shù)足夠用于建立一個有意義的模型,對于中度或較小的數(shù)據(jù)集(n<50),M的取值不應(yīng)過大,最好的 LMO 交叉驗(yàn)證是 LMO 30%(M=nx30%,n為數(shù)據(jù)集樣本數(shù))。

3、γ隨機(jī)化驗(yàn)證

隨機(jī)化驗(yàn)證是確保模型穩(wěn)健性常用的方法,其目的是檢驗(yàn)因變量和自變量之間的偶然相關(guān)。在該驗(yàn)證中,因變量Y被隨機(jī)排序并使用原始自變量矩陣X建立新的模型,該過程重復(fù)多次,例如隨機(jī)化 10-25 次。可以期望,產(chǎn)生的 QSAR 模型通常應(yīng)具有低的 R(v隨機(jī)化相關(guān)系數(shù))和低的 LOO 交叉驗(yàn)證O值(v隨機(jī)化O)如果v隨機(jī)化得到的所有模型都具有高的R,和O 值那么意味著對于給定的數(shù)據(jù)集,用當(dāng)前的建模方法不可能得到一個可接受的 QSAR 模型。

4、自舉法

自舉法的基本假設(shè)是抽出總體樣本的代表性數(shù)據(jù)集,在一個典型的自舉法驗(yàn)證中從原始數(shù)據(jù)集中隨機(jī)選擇K組且每組的樣本數(shù)都為 m。某些樣本可能被多次選取,而其它的一些樣本不會被選擇。對于m個隨機(jī)選擇樣本建立的模型用來預(yù)測那些被排除在外樣本的活性。在一個典型的模型驗(yàn)證中,重復(fù)抽取 10-25 次已足夠。自舉法驗(yàn)證中獲得高的平均相關(guān)系數(shù)(R?和Q),則表明模型具有高的穩(wěn)健性。

二、QSAR模型外部驗(yàn)證方法

模型外部驗(yàn)證的最好辦法是利用具體代表性和足夠大的檢驗(yàn)集(也稱為預(yù)測集)來驗(yàn)證,并且該檢驗(yàn)集的預(yù)測值可以與觀測值(實(shí)驗(yàn)值)相比較。外部驗(yàn)證通常把整體數(shù)據(jù)集拆分為訓(xùn)練集(training set)和檢驗(yàn)集(test set)用檢驗(yàn)集驗(yàn)證訓(xùn)練集模型。Tropsha將整體數(shù)據(jù)集拆分為訓(xùn)練集、檢驗(yàn)集和外部驗(yàn)證集(external validation sets)進(jìn)而驗(yàn)證模型的預(yù)測能力,模型外部預(yù)測能力通過不同統(tǒng)計(jì)量或方法進(jìn)行評價(jià),這些統(tǒng)計(jì)量包括 Q?(或R)、Golbraikh和 Tropsha 方法等,不同統(tǒng)計(jì)量的數(shù)學(xué)表達(dá)式詳細(xì)列于下表。

Nzwktqsa_mmaI.png?auth_key=1673193599-0-0-1f5ac8550a8906aabfbb352d0787c0c6

此外,Golbraikh 和Tropshal提出4個條件(簡稱 Golbraikh和Tropsha方法)評價(jià)檢驗(yàn)集預(yù)測值與觀測值之差,對于檢驗(yàn)集,他們推薦使用下列統(tǒng)計(jì)特征,預(yù)測與觀測活性之間的相關(guān)系數(shù)R應(yīng)接近于1相關(guān)系數(shù)R和R(預(yù)測對觀測活性的R和觀測對預(yù)測的 R?)至少一個(最好兩個)接近于R;通過原點(diǎn)的回歸線斜率k和k'應(yīng)該接近于1。該方法的相關(guān)統(tǒng)計(jì)量表達(dá)式詳見表。

三、統(tǒng)計(jì)量參考數(shù)值

利用上表中的統(tǒng)計(jì)量評價(jià) QSAR 模型的內(nèi)部預(yù)測能力和外部預(yù)測能力,當(dāng)統(tǒng)計(jì)量的數(shù)值滿足一定條件時,則認(rèn)為模型可接受。根據(jù)文獻(xiàn)中的經(jīng)驗(yàn)值,統(tǒng)計(jì)量的參考數(shù)值列于如下:

1、模型樣本數(shù)和變量數(shù)的比值建議大于等于 5 ∶ 1

2、R?> 0. 6,Q?大于 0. 5 認(rèn)為模型好,大于 0. 9 則模型優(yōu)秀

3、R?> Q?,校正均方根誤差(RMSEC) < 交叉驗(yàn)證均方根誤差(RMSECV);R?、Q?< 0. 3,如果差值大于 0. 3,則模型過擬合和有不相關(guān)的自變量或數(shù)據(jù)有離群值

4、在 y 隨機(jī)化中, R? yrand > Q? yrand;原始 Y 與隨機(jī)化后 Y 的 Pearson 相關(guān)系數(shù)的絕對值|r|與 R?yrand 的回歸線的截距(aR)小于 0. 3,|r|與 Q? yrand 的回歸線的截距(aQ)小于 0. 05

5、Roy 的 r?m 統(tǒng)計(jì)參數(shù):Δr?m < 0. 2 和 r?m > 0. 5

四、評價(jià) QSAR模型驗(yàn)證方法

一個可接受的 QSAR/ QSPR 模型,其必備條件之一是具有高的估計(jì)相關(guān)系數(shù)(R?)和低的標(biāo)準(zhǔn)偏差。然而高的 R?和低的標(biāo)準(zhǔn)偏差對模型的驗(yàn)證是不夠的,因?yàn)榛貧w模型可能包含很多參數(shù)。相關(guān)系數(shù)可能并不能反映變量間的真實(shí)關(guān)系,相關(guān)系數(shù)與樣本數(shù)和自變量數(shù)有關(guān)。大量樣本,其相關(guān)系數(shù)較小,但可能很顯著。小量樣本(例如小于 10),其相關(guān)系數(shù)較高,但可能不顯著。相同的樣本數(shù),自變量數(shù)增加,模型 R?值增加(最大等于 1)。因此,必須驗(yàn)證 QSAR 模型的穩(wěn)定性和預(yù)測能力。

對于一個 QSAR 模型,數(shù)據(jù)集(包括樣本數(shù)、自變量和因變量等)應(yīng)該滿足一定條件,才能保證模型具有顯著的統(tǒng)計(jì)意義和可預(yù)測能力。

1、所有化合物的活性值(因變量)分布不能集中一點(diǎn)或兩點(diǎn),活性值應(yīng)該均勻分布且具有變化較大的特點(diǎn)

2、應(yīng)該避免使用少量樣本建模,少量樣本不能滿足數(shù)據(jù)變化較大的特征,可能導(dǎo)致模型存在偶然相關(guān)和較低數(shù)值的統(tǒng)計(jì)量

3、線性回歸模型不應(yīng)包含太多的描述符(自變量),從而使得模型解釋更加復(fù)雜。對于多元線性回歸模型,一般認(rèn)為樣本數(shù)和描述符數(shù)的比值至少大于 5 倍(Topliss 比例)

4、對于線性回歸模型,描述符之間應(yīng)沒有明顯的相關(guān)性

LOO 交叉驗(yàn)證是模型內(nèi)部驗(yàn)證最常用的方法,LMO 和自舉法技術(shù)也被用于 QSAR 模型內(nèi)部驗(yàn)證。為了驗(yàn)證模型的穩(wěn)定性,除了 LOO 或 LMO(LNO)交叉驗(yàn)證與自舉法驗(yàn)證,建議使用 y 隨機(jī)化方法檢驗(yàn) 模型穩(wěn)定性,通過統(tǒng)計(jì)量是否滿足參考數(shù)值( |r| 與 R? yrand的回歸線的截距小于 0. 3,| r | 與 Q? yrand的回歸線的截距小于 0. 05)判定模型是否存在偶然相關(guān)。

研究表明相關(guān)系數(shù) R?與留一法(LOO)交叉驗(yàn)證相關(guān)系數(shù)(Q? LOO )并沒有相關(guān)性。同樣內(nèi)部預(yù)測能力和外部預(yù)測能力之間也沒有相關(guān)性。Q? LOO 不能用于評價(jià)模型的外部預(yù)測能力。QSAR 模型具有高的內(nèi)部預(yù)測能力,但外部預(yù)測能力可能很低,反之亦然。因此,QSAR 模型必須通過有效的外部驗(yàn)證,才能保證模型對外部樣本的預(yù)測能力。

總結(jié)

QSAR研究是人類最早的合理藥物設(shè)計(jì)方法之一,具有計(jì)算量小,預(yù)測能力好等優(yōu)點(diǎn)。在受體結(jié)構(gòu)未知的情況下,定量構(gòu)效關(guān)系方法是最準(zhǔn)確和有效地進(jìn)行藥物設(shè)計(jì)的方法,根據(jù)QSAR計(jì)算結(jié)果的指導(dǎo)藥物化學(xué)家可以更有目的性地對生理活性物質(zhì)進(jìn)行結(jié)構(gòu)改造。在1980年代計(jì)算機(jī)技術(shù)爆炸式發(fā)展之前,QSAR是應(yīng)用最廣泛也幾乎是唯一的合理藥物設(shè)計(jì)手段。

但是QSAR方法不能明確給出回歸方程的物理意義以及藥物-受體間的作用模式,物理意義模糊是對QSAR方法最主要的質(zhì)疑之一。另外在定量構(gòu)效關(guān)系研究中大量使用了實(shí)驗(yàn)數(shù)據(jù)和統(tǒng)計(jì)分析方法,因而QSAR方法的預(yù)測能力很大程度上受到試驗(yàn)數(shù)據(jù)精度的限制,同時時常要面對“統(tǒng)計(jì)方法欺詐”的質(zhì)疑。

審核編輯黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評論

    相關(guān)推薦

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?691次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?228次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的方法

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識別 圖像識別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?416次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?918次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    的應(yīng)用場景。 ? 可重構(gòu)性:在深度學(xué)習(xí)高速迭代的情況,F(xiàn)PGA 比一些專用芯片(如 ASIC)具有更強(qiáng)的靈活性。當(dāng)深度學(xué)習(xí)算法或模型結(jié)構(gòu)發(fā)
    發(fā)表于 09-27 20:53

    深度學(xué)習(xí)中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動識別、系統(tǒng)監(jiān)測、金融預(yù)測、醫(yī)療診斷等多個領(lǐng)域。隨著深度
    的頭像 發(fā)表于 07-09 15:54 ?1032次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個重要分支,近年來在多個領(lǐng)域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領(lǐng)域。然而,深度學(xué)習(xí)模型
    的頭像 發(fā)表于 07-09 10:50 ?825次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域中兩個非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。 深度
    的頭像 發(fā)表于 07-05 09:47 ?973次閱讀

    基于深度學(xué)習(xí)的小目標(biāo)檢測

    在計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測一直是研究的熱點(diǎn)和難點(diǎn)之一。特別是在小目標(biāo)檢測方面,由于小目標(biāo)在圖像中所占比例小、特征不明顯,使得檢測難度顯著增加。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN
    的頭像 發(fā)表于 07-04 17:25 ?947次閱讀

    深度學(xué)習(xí)中的模型權(quán)重

    深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石,更是模型智能的源泉。本文將從模型權(quán)重的定義、作用、優(yōu)化、管理以及應(yīng)用等多個方面,深入探討
    的頭像 發(fā)表于 07-04 11:49 ?1476次閱讀

    深度學(xué)習(xí)常用的Python庫

    深度學(xué)習(xí)作為人工智能的一個重要分支,通過模擬人類大腦中的神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜問題。Python作為一種流行的編程語言,憑借其簡潔的語法和豐富的庫支持,成為了深度學(xué)習(xí)研究和應(yīng)用的首選工具。
    的頭像 發(fā)表于 07-03 16:04 ?668次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)深度學(xué)習(xí)無疑是兩大核心驅(qū)動力。它們各自以其獨(dú)特的方式推動著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機(jī)器學(xué)習(xí)的范疇,但
    的頭像 發(fā)表于 07-01 11:40 ?1432次閱讀

    深度解析深度學(xué)習(xí)的語義SLAM

    隨著深度學(xué)習(xí)技術(shù)的興起,計(jì)算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展,例如目標(biāo)的檢測、識別和分類等領(lǐng)域。近年來,研究人員開始在視覺SLAM算法中引入深度學(xué)習(xí)技術(shù),使得
    發(fā)表于 04-23 17:18 ?1321次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>下</b>的語義SLAM

    為什么深度學(xué)習(xí)的效果更好?

    導(dǎo)讀深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個子集,已成為人工智能領(lǐng)域的一項(xiàng)變革性技術(shù),在從計(jì)算機(jī)視覺、自然語言處理到自動駕駛汽車等廣泛的應(yīng)用中取得了顯著的成功。深度
    的頭像 發(fā)表于 03-09 08:26 ?642次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的效果更好?

    什么是深度學(xué)習(xí)?機(jī)器學(xué)習(xí)深度學(xué)習(xí)的主要差異

    2016年AlphaGo 擊敗韓國圍棋冠軍李世石,在媒體報(bào)道中,曾多次提及“深度學(xué)習(xí)”這個概念。
    的頭像 發(fā)表于 01-15 10:31 ?1104次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>?機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的主要差異
    主站蜘蛛池模板: 久久91精品国产91久| 欧美video巨大粗暴18| 国产精品免费视频播放| 国产黄大片在线视频| 国产婷婷色综合AV蜜臀AV| 好爽胸大好深好多水| 久久两性视频| 欧美嫩freexxxhddvd| 日日碰狠狠添天天爽| 亚洲AV久久无码高潮喷水| 亚洲字幕久久| 99久久国产露脸精品国产吴梦梦 | 国产在线综合色视频| 精品无码国产自产在线观看 | 朝鲜女人性猛交| 国产精品无码久久av| 九九九精品国产在线| 欧美精品一区二区蜜臀亚洲| 四虎影院网红美女| 野花日本韩国视频免费高清观看| 4399日本电影完整版在线观看免费 | 麻豆天美国产一区在线播放| 青草伊人久久| 西西人体大胆牲交PP6777| 在线 中文字幕| 成3d漫二区三区四区| 国产永久免费高清在线观看| 龙广在线收听| 四虎4hu亚洲精品| 中文文字幕文字幕亚洲色| 草莓视频在线看免费高清观看 | 又紧又大又爽精品一区二区| 色悠久久久久综合网小说| 亚洲成人免费看| 999视频精品全部免费观看| 国产高清视频青青青在线| 九九热视频免费| 日本精油按摩| 一本色道久久综合一区| 成年女人色毛片免费| 寂寞夜晚看免费视频|