1.介紹
在人工智能技術飛速發展的當下,基于人工智能方法的智慧醫療系統也逐漸吸引了大量研究人員的目光,計算機輔助的分診、診斷等應用可以一定程度地緩解部分地區的醫療條件緊張問題,同樣可以為醫生的決策提供輔助參考。在數字化醫療系統的普及下,與病患相關的醫療數據,如電子醫療記錄、醫囑、生物化學檢測結果以及基因組信息也已經基本實現電子化[1],因此,通過數據挖掘、深度學習等方法對上述電子化信息進行學習,進而得到患者與患者之間的相似程度,是實現疾病判斷、病情預測以及精準醫療(precision medicine)等應用的重要的前提條件,且上述過程也受啟發于實際臨床中醫生的診療過程。病患相似度度量方法的流程大致如圖1,首先根據患者的數據信息進行數據抽象化,并選擇合適算法與度量方法對抽象化結果進行相似度評估,進而將相似度結果應用于相應的下游任務中。
圖1 病患相似度分析工作的基本流程[3]
2.病患數據
病患相關數據是天然多模態(multi-modal)且異構(heterogeneous)的,可能涵蓋文本信息(如病歷)、圖像信息(如CT影像)、時序信號信息(如心電圖)和數值信息(如血常規檢查結果)等等,從病患相似度的歷史研究中所包括的類型來看,一般可將病患數據分為以下五類[2]:
臨床數據 Clinical data
分子數據 Molecular data
圖像與生物信號 Imaging and bio signals
實驗室結果 Lab results
病患所述結果 Patient-reported outcomes
臨床數據包括電子病歷信息、醫保數據等;分子數據包括DNA信息、蛋白質序列信息等;圖像與生物信號包括CT、MRI、心電圖等;實驗室結果包括血液檢測結果、核酸抗體檢測結果等;病患所述結果包括患者出院后的回訪信息以及相關口述信息等。從形式上看,病患數據等的醫學相關數據都屬于縱向數據(longitudinal data),即數據來源于不同個體在不同時間節點測得的數據。
根據以上信息可知,病患數據特征一般有著較多的維度,每維特征的采樣次數與分辨率有所不同,且數據完備程度也不一樣[3],因此病患數據中大多存在噪聲、異常數據以及數據缺失等問題。同時,由于患者在患病就醫后,病癥的減輕或加重都會導致患者的多次來訪和復檢,因此病患數據多為縱向數據,即數據來源于每個個體在不同時間點上的觀測值[4]。
3.病患相似度度量相關數據
3.1 UCI 數據集[5]
UCI數據集是機器學習社區中使用率很高的領域豐富的數據集倉庫,其中也涵蓋與醫學健康相關的數據集,相關數據也為病患相似度度量工作的數據來源,包括帕金森氏癥數據集[6]、心臟病數據集[7]、糖尿病數據集[8]、癌癥數據集[9]等等。
3.2 ADNI數據集[10]
ADNI(Alzheimer‘s Disease Neuroimaging Initiative)是一個通過生物標記與臨床數據追蹤阿爾茲海默癥發展過程的縱向研究計劃,數據內容包括臨床診斷、生物樣本、藥物使用歷史、基因組數據以及腦補成像數據,疾病的診斷工作每數月進行一次并持續數年,研究對象被分為三組,分別為正常對照組、中度認知障礙(MCI, Mild Cognitive Impairment)和阿爾茲海默癥患者(AD, Alzheimer’s Disease)。
3.3 SOF數據集[11]
SOF(Study of Osteoporotic Fracture)是一個長達二十余年的針對年長白人女性骨質疏松病癥的醫院來訪縱向研究,研究旨在分析高齡白人女性患骨質疏松的風險因素,研究對象被分為正常對照組、骨質減少(osteopenia)以及骨質疏松(osteoporosis)。
3.4 MIMIC數據集[12]
MIMIC-III(Medical Information Mart for Intensive Care III)是大規模的匿名化健康數據庫,包括了十余年間超過四千名患者在危重癥監護病房的相關記錄,包括患者個人信息、生命體征監測數據、實驗室監測數據、圖像報告等多種病患數據信息。
3.5 ICD-9-CM 編碼集[13]
ICD-9-CM(The international classification of disease, ninth revision, clinical modification) 是在臨床中將診斷結果編碼表示的一種官方標準,包括疾病編碼列表,疾病類型分類以及手術、診斷、診療手段分類系統。
4.深度病患相似度學習[14]
圖2 患者數據樣例(橫軸為病患來訪醫院序列,縱軸為醫療事件對應的ICD9編碼)
Suo等人[14]于2018年在IEEE TRANSACTIONS ON NANOBIOSCIENCE上發表了一種基于深度學習的病患相似度學習方法,模型分為兩個模塊,分別是表示學習和相似度學習。病患數據是由代表醫療相關事件對應的ICD編碼形成的獨熱編碼矩陣,如圖2,每名患者對應一個矩陣,橫軸代表患者來訪醫院的時間序列,縱軸為醫療事件對應的ICD9編碼,若患者患有疾病或有相關癥狀,則矩陣對應位置為1。在表示學習中,作者通過全連接層將患者的高維稀疏獨熱向量矩陣映射到低維稠密空間,并依托卷積神經網絡捕捉病患信息的連續的時序特征;對于相似度學習,作者使用基于softmax的有監督分類方法并通過triplet loss使每兩個患者對相似的患者距離更近而不相似的患者距離更遠,以此在患者聚類任務上實現較好的效果。
圖3 模型結構
5.病患相似度度量的可解釋性
在各種病患相似度度量方法被初步探索后,在真實的使用場景下,醫療相關從業人員在關注模型的性能的同時,更加關注模型輸出結果過程中的透明度和可解釋性。Huai等人[15]因此在BIBM 2020提出了一種為所學習到的病患相似度模型行為提供全局解釋的模型無關的方法。一般來說,病患相似度的研究工作可能包括數十種特征,作者認為通過篩選選擇眾多特征中數量最少且足以解釋模型判斷結果的特征子集作為解釋模型判斷的依據可以很好地為實際場景下的相關人員提供參考。對于數據集中的患者個體,每兩個患者間即可計算一次相似度,相似度結果一般為相似或相異,而當隨機減少數據集中的特征數量后重新計算每兩個患者間的相似度,結果會產生一定的變化,而通過量化評估這一變化即可評價去除的特征的重要性,并以此作為該特征在度量病患間相似度時的貢獻程度。
6.病患數據安全
在數據驅動的病患相似度度量方法不斷發展的同時,方法背后所使用數據的安全性也逐漸成為了患者、醫療機構以及相關監管部門關心的話題,同時很多醫療機構出于對患者個人信息的保護,不愿將敏感的醫療相關數據對研究人員開放,在這種背景下,在不訪問所有人數據的前提下進行模型學習成為了解決這一數據安全問題的前提。Huai等人[16]在SDM 2018上,在提出不相關特征提取模型的前提下,還考慮了上述數據安全問題,進而提出了分布式病患相似度度量模型,即分布在不同地點的數據在進行度量模型學習時,只將學習得到的參數上傳學習器,而學習器通過對全局參數進行優化迭代將結果回傳至每個節點進行迭代直至全局收斂。Xu等人[17]在AAAI 2019的工作中將聯邦學習(Federated Learning)方法引入病患相似度度量工作,實現在數據本地保存的同時完成模型的訓練,并通過最小化相似度留存損失以及異質信息損失進而同時保留同類與異類數據間的關系。
編輯:lyn
-
人工智能
+關注
關注
1791文章
47183瀏覽量
238265 -
數據挖掘
+關注
關注
1文章
406瀏覽量
24232 -
深度學習
+關注
關注
73文章
5500瀏覽量
121113
原文標題:【賽爾筆記】病患相似度度量簡述
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論