隨著近年來乳腺癌的發(fā)病率逐漸上升,在現(xiàn)代醫(yī)學(xué)的眾多研究領(lǐng)域中,如何盡早發(fā)現(xiàn)和治療乳腺癌,早已成為了一個(gè)十分重要的核心課題。
近日,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)和馬薩諸塞州綜合醫(yī)院(MGH)合作,共同打造了一個(gè)新的深度學(xué)習(xí)模型,可以通過分析乳房 X 光圖像,找出人眼不易察覺的特征和規(guī)律,從而預(yù)測女性是否可能在未來五年內(nèi)罹患乳腺癌(注意:是預(yù)測而非診斷)。
訓(xùn)練結(jié)果顯示,該模型的預(yù)測準(zhǔn)確率約為31%,遠(yuǎn)超傳統(tǒng)預(yù)測方法的18%。研究團(tuán)隊(duì)認(rèn)為,以深度學(xué)習(xí)驅(qū)動(dòng)的預(yù)測系統(tǒng)有望推動(dòng)新的乳腺癌篩查計(jì)劃,可以將基于年齡的傳統(tǒng)篩查建議,變成基于風(fēng)險(xiǎn)因素的更加科學(xué)的個(gè)性化篩查建議。
該研究成果以論文的形式發(fā)表于期刊Radiology上。
不完善的傳統(tǒng)篩查建議
乳腺 X 線攝影技術(shù),是目前醫(yī)療領(lǐng)域最常用的乳腺癌臨床檢查方法,經(jīng)過一個(gè)世紀(jì)的發(fā)展,已被證明可以降低乳腺癌的死亡率。但由于 X 光的強(qiáng)輻射性和乳腺本身的敏感性,業(yè)內(nèi)對篩查頻率和何時(shí)開始仍有爭議。
美國癌癥協(xié)會(huì)建議,所有女性都應(yīng)該從 45 歲開始進(jìn)行年度篩查。不過因?yàn)槊總€(gè)人的體質(zhì)和生長環(huán)境不同,罹患乳腺癌的風(fēng)險(xiǎn)也不一樣,以年齡劃分篩查頻率過于泛化,很容易錯(cuò)過乳腺癌的早期狀態(tài),錯(cuò)失最佳的治療時(shí)機(jī)(早期乳腺癌的5年生存率高達(dá) 98-100%)。
圖 | 乳腺X線攝影技術(shù)
在麻省理工學(xué)院的研究人員看來,相比采用一刀切的方式,如果能夠預(yù)測出女性罹患乳腺癌的風(fēng)險(xiǎn)系數(shù),就可以制定更完善的個(gè)性化篩查方案,比如讓高危人群在 30 多歲時(shí)就每年檢查一次,低危人群則每三年檢查一次,那么或許可以將更多的乳腺癌扼殺在搖籃中,抑制它的發(fā)病率增長趨勢。
這種預(yù)測類型的任務(wù),非常適合使用深度學(xué)習(xí)技術(shù)。實(shí)際上,已經(jīng)有很多關(guān)于乳腺癌的研究團(tuán)隊(duì),正在嘗試使用人工智能和深度學(xué)習(xí),幫助他們診斷乳腺癌(詳情請見:神經(jīng)網(wǎng)絡(luò)的巧妙組合,乳腺癌診斷準(zhǔn)確率竟媲美專業(yè)醫(yī)生)。
與眾不同的是,MIT團(tuán)隊(duì)想要打造的是預(yù)測模型,并非診斷模型。換句話說,當(dāng) X 光照片還沒有出現(xiàn)乳腺癌的癥狀時(shí),診斷模型只能給出沒有患病的結(jié)論,但預(yù)測模型應(yīng)該給出未來一段時(shí)間內(nèi)的患病概率,其難度可想而知。
設(shè)計(jì)預(yù)測模型
研究人員首先聯(lián)合了美國馬薩諸塞州綜合醫(yī)院,獲得了超過 6 萬名患者的 9 萬余張乳房 X 光圖像,以及她們是否在 5 年內(nèi)被診斷出乳腺癌的信息,其中有 2.1 萬人沒有跟蹤檢查信息或者出現(xiàn)了其它癌癥,因此被排除在外。由于很多女性進(jìn)行了多次 X 光掃描和跟蹤篩查,所以每一次掃描的圖像都會(huì)被分離出來,成為一個(gè)獨(dú)立的掃描案例。
之后,他們總結(jié)出了一系列與乳腺癌和個(gè)體有關(guān)的風(fēng)險(xiǎn)因素,包括族裔、年齡、體重和身高等基本信息,還有初次月經(jīng)年齡、乳房密度、是否生產(chǎn)、初次懷孕年齡、是否患有卵巢癌、家族乳腺癌史等高度差異化的信息,甚至精確到家族中患有乳腺癌的是父母,姐妹,還是兄弟。
圖 | 神經(jīng)網(wǎng)絡(luò)通過細(xì)微特征預(yù)測是否會(huì)出現(xiàn)乳腺癌(來源:MIT)
獲得這些精準(zhǔn)信息,可以讓預(yù)測模型考慮的因素更加全面。每一個(gè)風(fēng)險(xiǎn)因素都會(huì)經(jīng)過獨(dú)熱編碼(one-hot encoding)——一種在機(jī)器學(xué)習(xí)中常見的變量轉(zhuǎn)換機(jī)制,可以將某一變量的狀態(tài)用 0 和 1 組成的二進(jìn)制向量表示出來——將所有編碼整合起來,就組成了一個(gè)大的風(fēng)險(xiǎn)因素向量,作為邏輯回歸模型(Logistic Regression,預(yù)測模型的一部分)的輸入值。
在此基礎(chǔ)上,研究人員又開發(fā)了一套以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為核心的圖片識別模型,使用的是開源的預(yù)訓(xùn)練模型 ResNet-18。他們并沒有根據(jù)圖片分辨率變化調(diào)整模型,而是直接以1664 x 2048 像素的乳房 X 光圖片作為輸入值。
最后,他們整合了邏輯回歸和圖像識別兩個(gè)模型,制作了一個(gè)混合模型(Hybrid Model)。結(jié)合風(fēng)險(xiǎn)因素和圖像信息,該模型開始學(xué)習(xí)預(yù)測五年內(nèi)是否會(huì)出現(xiàn)乳腺癌。
訓(xùn)練和測試結(jié)果顯示,混合模型的 3-5 年患癌預(yù)測準(zhǔn)確率約為 31.2%。乍看之下這一數(shù)字似乎不夠亮眼,但要知道,目前業(yè)界主流的Tyrer-Cuzick(TC)乳腺癌風(fēng)險(xiǎn)預(yù)測模型,在相同測試中的準(zhǔn)確率只有 18.2%,不及麻省理工學(xué)院深度學(xué)習(xí)模型的六成。
圖 | 四套模型的準(zhǔn)確率(AUC)對比:TC傳統(tǒng)模型,邏輯回歸模型,圖像識別模型和混合模型(來源:MIT/Radiology)
更重要的是,深度學(xué)習(xí)模型對不同族裔女性的預(yù)測準(zhǔn)確率相同,而包括Tyrer-Cuzick 模型在內(nèi)的很多現(xiàn)有模型大多依照白人女性數(shù)據(jù)建立,對非白人族裔的預(yù)測效果較差,可能有超過10%的差距。在深度學(xué)習(xí)的幫助下,這一誤差或?qū)⒉粡?fù)存在。
混合模型還發(fā)現(xiàn)了一些與現(xiàn)有認(rèn)知矛盾的現(xiàn)象,比如業(yè)界主流聲音認(rèn)為,乳房密度與乳腺癌風(fēng)險(xiǎn)相關(guān),致密型乳房患癌風(fēng)險(xiǎn)較高(原因未知)。
但該模型預(yù)測結(jié)果顯示,存在有致密型乳房的低風(fēng)險(xiǎn)人群,也有低密度乳房的高風(fēng)險(xiǎn)人群,兩者患病率相差較大,因此僅憑乳房密度判斷患癌風(fēng)險(xiǎn)有失偏頗,可能會(huì)影響醫(yī)療決策。
圖 | 致密型乳房 + 低風(fēng)險(xiǎn)人群患癌率1.4%(左下)VS 低密度乳房 + 高風(fēng)險(xiǎn)人群發(fā)病率4.0%(右上)(來源:論文)
仔細(xì)分析和比對結(jié)果后,研究人員認(rèn)為這一模型擁有巨大潛力。經(jīng)過改進(jìn)的版本有望替代現(xiàn)有的傳統(tǒng)乳腺癌風(fēng)險(xiǎn)預(yù)測模型,甚至是推動(dòng)乳腺癌篩查策略的進(jìn)步,制定更科學(xué)的醫(yī)療建議。
下一步,他們將著重突破現(xiàn)有研究的局限性,比如收集更全面的患者信息,并且與更多醫(yī)療機(jī)構(gòu)合作,拓展 X 光圖像的來源,獲得不同設(shè)備拍攝的 X 光圖像,從而更好地改進(jìn)預(yù)測模型的準(zhǔn)確率。他們希望有朝一日,可以將其大規(guī)模拓展,用來預(yù)測心腦血管或胰腺癌等其它疑難疾病。
-
MIT
+關(guān)注
關(guān)注
3文章
253瀏覽量
23389 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121117
原文標(biāo)題:MIT用深度學(xué)習(xí)預(yù)測乳腺癌患病概率,五年內(nèi)準(zhǔn)確率幾乎翻倍!
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論