新型人臉識別軟件可助力罕見病診斷
將人工智能(AI)用于醫療輔助診斷早已經不是什么新鮮事,僅AI醫學影像輔助診療一項就有非常多的應用場景。然而,近日來自美國波士頓一家名為FDNA的數字醫療公司的研究人員大開腦洞,提出用深度學習技術僅僅通過“看面相”,就能幫助醫生識別罕見基因疾病,并付諸實踐。他們的研究于1月7日登上了《自然—醫學》雜志,引起業內關注。
中醫講究“望聞問切”,其中望即有“望五官知五臟”“望痰辨病”等含義。如果AI能“學會”這本領,相信很容易獲得人們青睞。不過,深度學習是一項比較“吃”數據的技術,而罕見病恰恰是臨床醫學上數據貧乏的領域。FDNA公司研究人員試圖依靠AI望五官辨識基因異常引發的罕見病,行得通嗎?
猜測準確率達65%
發表在《自然—醫學》上的這篇文章提出了一種深度學習算法Deep Gestalt,它通過一款名為Face2Gene的App在智能終端發揮作用。據論文介紹,該App依靠深度學習算法和類腦神經網絡來區分人類照片中與先天性和神經發育障礙有關的獨特面部特征,然后利用從照片中推斷出的模式,定位出可能的診斷結果,并提供可能的綜合征遺傳病選項。
在實驗開始之前,FDNA公司首席技術官Yaron Gurovich帶領研究者們首先訓練人工智能系統來區分“Cornelia de Lange綜合征”和“Angelman綜合征”,這兩種疾病患者都有區別于其他疾病的明顯面部特征;同時,研究人員還訓練該模型對“Noonan綜合征”的不同基因形式進行分類。接下來,研究者們給該算法模型輸入了涵蓋216種不同綜合征的 17000多張確診病例的圖像。
論文顯示,在對502 張不同圖像上的新面孔進行測試時,Face2Gene的最佳診斷猜測準確率達到65%。如果考慮多個預測結果,則Face2Gene 的top10準確率可以達到約90%。
這個結果顯然有其一定的醫學意義。FDNA 首席醫療官、該論文的共同作者之一Karen Gripp使用該算法幫助診斷了一名4歲女童的Wiedemann Steiner 綜合征——這是由一種叫作 KMT2A 的基因變異引起的罕見疾病。Gripp 在研讀了相關病例報告之后得知,該疾病會導致兒童牙齒過早生長。
由于年齡較小,這名小患者除了掉落大部分乳牙并長出多個恒牙,很多典型的軀體癥狀尚未顯現。Gripp將該女童的照片上傳至Face2Gene后,軟件上出現了“Wiedemann Steiner 綜合征”;接著,Gripp 用靶向DNA 測試進一步確診了這一結果。
雖然Gripp最終依靠的是DNA檢測進行確診,但這名醫生認為,該AI 方法可以幫助醫生縮小病癥范圍,節約了昂貴的多基因檢測費用。
目前,Face2Gene這款App處于開放下載狀態,全世界的醫療專家都可以免費使用它。當然,這也是FDNA公司想要獲取更多數據的策略,它需要更多數據來訓練模型,使Face2Gene能夠駕輕就熟地幫助醫生辨別患者可能的基因遺傳病。
Yaron Gurovich介紹,現在該項目的數據庫中已有大約15萬張照片。而隨著更多醫療專家將病人的照片上傳到該App,該項目的準確率也得到略微提升。
質疑:結論并不令人信服
并非沒有質疑。在記者的采訪中,長年致力于罕見病治療研究的中科院生物物理研究所研究員劉光慧告訴《中國科學報》,罕見病種類太多,AI難以達到100%識別。
“一般的罕見病都有特殊面容,比如兒童早衰癥及成人早衰癥患者,面容都很特殊,通過AI識別有一定道理,這是一個很好的方向。”劉光慧轉而說道,“但也有很多罕見病沒有特殊面容或面容特征不明顯,那么AI可能還不能做到100%識別。”
言外之意,如果在上述4歲女童案例中,換一種面容特征不那么明顯的罕見病來測試,Face2Gene則可能會失靈;而如果Face2Gene一開始就判斷錯了,那么最終到底能不能省下多基因檢測費,則又另當別論了。
更重要的是,該論文中的結論并不十分令人信服。
“502個圖的測試集,分了200個類,top10 的準確率達到90%——假設數據平均,每個類僅兩張圖片可測試,這樣的結果我不認為能得到‘識別遺傳病準確率91%’的結論。”有質疑者認為,該論文結論稍顯草率。
更有專業人士指出,該結論有“過擬合”之嫌,在實測中不一定可以達到這樣的準確率。通常,在一些統計中,為了得到一致假設而使假設變得過度嚴格,就會出現“過擬合”,而要避免過擬合的發生,通常需要使用增大數據量和測試樣本集的方法對分類樣本進行評價。
對此,中科院自動化所研究員、生物識別與安全技術研究中心主任李子青(注:該文引用了李子青團隊的一篇深度學習研究論文)對《中國科學報》記者談了他的看法。他指出,這篇文章提供了三個實驗結果:其中兩個實驗是從已確診綜合征的人臉圖像中,識別出一種特定的綜合征;另一個是區分Noonan綜合征的兩個子類型。可喜的是,三個都超過了門診專家的準確性。但這篇文章所解決的問題,是從已確診的人臉圖像進一步分類或區分子型;從深度學習和模式識別角度來看,都不算難。
李子青認為,真正有挑戰的是綜合征篩查,即從普通人群發現有綜合征的人,并對大規模人群診斷達到一定的準確度。這個問題更加有臨床診斷意義,并且技術上比該文所處理的問題的難度要大很多。
對于深度學習算法而言,李子青認為“只要有數據,總可以訓練出一個東西”,而至于效果如何,首先是取決于算法——在合理算法基礎上,就是拼數據和計算資源。至于如何判斷實效?則要看其推廣性及泛化性。他表示認同記者的這一觀點:罕見病病例少,數據難獲取,模型的推廣性不容易保證,這種方法的大眾普查中應用還不成熟。
技術風險仍存
一般而言,只有訓練數據集夠好,算法才足夠好用。從這個評價尺度上,Face2Gene的技術存在風險。對此,牛津大學計算生物學家Christoffer Nellker很是認同。他認為,尤其是涉及到那些全球患者人數極少的罕見疾病時,數據集的封閉化、商業化“會威脅到這項技術的主要潛在優勢”。
此外,訓練數據過于集中導致的種族偏見(大部分為白人)也是一大問題。2017年的一份兒童智力障礙研究表明,Face2Gene 對唐氏綜合征的識別率在比利時白人小孩中為80%,而在剛果黑人小孩中僅為37%。對此,Yaron Gurovich意識到“這個問題需要解決”,但他也認為隨著訓練數據集變得更加多樣化,算法對非洲面孔的識別準確率會隨之提升,“偏見會越來越少”。
除了數據量的問題外,數據維度也非常重要。匯醫慧影創始人兼CEO柴象飛在接受《中國科學報》記者采訪時說,有時更多維度的數據比簡單更大的數據更能幫助算法模型更精準地預測結果。
不過,科大訊飛智慧醫療事業部總經理陶曉東向《中國科學報》提出了類似算法在臨床上常被忽略掉的另一個技術風險,“這一波人工智能過度依賴于數據,忽略了很多數據之外的信息”。
“深度學習解決問題的基本思路,到目前為止還都沒有什么太大的突破。”陶曉東對記者說,在醫療領域里尤其如此,“你不可能像ImageNet那樣獲得幾百萬、上千萬的訓練數據”。因此,最基礎的醫學理論,應該被考慮在內。
“連基本的解剖信息都沒有用在深度學習的框架里。”陶曉東說,這是值得目前如火如荼的“AI+醫療”深思的。
柴象飛對此也表示贊同,他對記者說,一些基于經驗或常識的推理對于模型更精準地接近真相也非常重要,這或許對于數據樣本偏少的罕見病模型意義更大。
-
醫療
+關注
關注
8文章
1822瀏覽量
58743 -
人工智能
+關注
關注
1791文章
47208瀏覽量
238304 -
人臉識別
+關注
關注
76文章
4011瀏覽量
81867
原文標題:觀五官知罕見病,AI“望診”靠譜嗎
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論