站在新的一年回望過去,不管是在基礎設施、AI醫療場景成熟度、資本注入等環節,以醫學影像AI產品為代表的醫療AI,終于迎來了一次集體綻放。
據雷鋒網《醫健AI掘金志》的統計,前后已經有八款產品獲批。事實上,醫療AI的商業化從來不是靠一己之力就能完成的任務:行業標準的形成、審批層面的規范、數據質量的提升、產業資源的整合,每一個環節都至關重要。
醫療AI發展的過程中,最重要的是做好頂層設計。
此前,中國醫學影像AI產學研用創新聯盟理事長、大會主席劉士遠主任曾向《醫健AI掘金志》表示,“現在行業缺少的就是標準,每個環節都是。雖然已經有企業拿到三類證,但是這僅僅是一個開端。進入臨床以前,任何一個醫療產品都要有效果考核體系,要考核有效性、安全性、穩定性。”
作為醫學影像人工智能建設的要素之一,我國數據庫建設仍然缺乏。目前可公開的數據庫不多,數據的標注標準也不統一。
而在2020年第二屆醫學影像AI大會上,醫學圖像數據庫放射影像數據庫建設項目正式啟動,建成后也將成為國內首個醫學影像的標準化數據庫。
醫療AI,每一步都走在持久但正確的道路上。
今天介紹的文章主題正是圍繞“醫學影像數據庫”,由浙江大學應用數學研究所的孔德興教授在第二屆醫學影像AI大會上發表。
孔德興教授是浙江大學特聘教授,博士生導師,應用數學研究所長,研究方向是醫學圖像處理與醫學人工智能。發表了將近70篇SCI文章,擁有已授權發明專利7項。作為AI技術的前沿觀察者與參與者,孔德興教授在醫療數據庫的建設方面具有許多獨到的心得。
以下為孔德興教授的演講內容,雷鋒網《醫健AI掘金志》作了不改變原意的編輯:
孔德興:非常高興能在大會上介紹我們團隊在數據庫建設方面的一些工作和探索,今天主要匯報數據庫的建設情況。
大數據是必須要做的,有以下三點:
一是現在的發展階段面臨大數據的支持;
二是國家的重大戰略;
三是大數據對科學研究也提出了一些挑戰性的問題,在工業、農業、商業、國防等等有重大的價值。
當今時代是大數據的時代,在這里我用廣義相對論表述一下對大數據的理解,有以下幾點,
第一點:協變性,任何一個數據都是對客觀對象的描述,如同用不同的坐標系描述物理規律,CT和超聲是對客觀對象不同模態的描述與刻畫。
第二點:從量變到質變過程中,人工智能測試的數據樣本量沒有一個準確的概念,然而這個對臨床的準確性是重要的,這關系到醫療人工智能產品的準確率。
第三點:醫學大數據有一個關聯聚合性原理。簡單來說,把每家醫院不共享的數據整合應用,就會產生匯聚數據。各大醫院匯聚的是不同分布式的中心數據,用一些分布式架構匯聚起來。
通過技術手段可以破解數據庫帶來的挑戰。每家數據都是描述醫學規律的內部本質的規律,只是我們從不同的數據點反映側重點不一樣,匯聚起來產生一個整體的現象。
第四點:數據的重整化,我們可以復制、標注、加工利用數據,使其不停完善,量變產生質變,匯聚產生價值。
數據是一種新型的資源,而處理數據的算法是一種資產,有了這些資源就有了算法。
好的數據是一種資源,是人工智能發展的基石,需要真實性、準確性、完整性、可溯性等等。
隨著研究和企業產業化的深入,當務之急是建立一些高質量高標準的數據庫。從量變到質變,從臨床醫學模式到循證醫學模式,從靜態處理到動態處理,從單科影像到多模塊交叉,建立好的人工智能算法。所有的一切都是建立在好的數據基礎上。
從建立數據庫時間關系,我簡單按四點給大家分享一下。首先,醫學影像人工智能對數據的要求,建立數據庫的規范,數據庫標準的規范化,最后是建立數據庫面臨的問題。
首先,我們要提幾個概念,第一個是數據治理,一個好的數據庫離不開數據治理。總的來講,數據治理是數據資產管理形成前的一個集成活動,包括建庫的計劃和監督執行的要求。
另外一點,數據治理有基本概念,是希望從零散的數據變成統一數據,從很少沒有組織的流程到全方位的綜合治理,從零散的變成一個有計劃、有執行、有治理的活動。
數據治理有以下幾個特征:第一,因為多模態多維度動態化的特點,數據采集難度大。第二,現階段方法手段較少。第三,數據關聯度高,關聯性復雜。
正如前面所說的,雖然超聲CT模態和表面形態不一樣,但是都是描述某一個人的肝癌信息。最后一點是,時間周期長。
我們希望,數據庫能做到這三個層面,第一是目前階段,數據庫把數據歸集起來變成一個有特殊結構的數據;
第二是把數據庫變成一個專家庫,有數據入駐要求和標準,數據質控標準,治療方法等;
第三,希望數據庫能做到動態,比如肝癌,醫生通過隨訪肝癌高發原因,給政府提建議,共享疾病的現狀,從現在的被動治療到疾病預防,這是至關重要的。
所以,我們的數據庫是有三個:傳統數據庫,專家數據庫,然后到國家的數據庫。
數據管理和數據治理有不同之處。
數據治理是很大的框架,而數據管理是數據治理的一部分,同時數據治理對數據管理有指導和評估的作用。
數據治理的體系是需要從全局范圍描述大數據治理的主要內容,包括保障機制,核心領域,實施評估等等。數據治理不是一個虛的東西,是一個系統的選擇,難度很大。
我希望,從不同模態數據整理出不同醫院的數據,抽象出一個數據治理指導性原則,現在這個目標對我們來說很有挑戰性,我們在數據治理做了大量的調研工作,今年年底能出來一個框架,可以進行參考。
我們有一個數據的管理體系,管理體系的落實和指導有相對應的管理工作機制,還有一個支撐數據管理的系統。
數據治理是一個全生命周期的管理過程,首先有一個數據采集,形成原始數據庫,數據歸集成為數據集;再做數據預處理,清洗成基礎的數據庫;通過醫學專家制定的標準指南來定義標注。
其中,我們對標注做了大量研究,發現各個研究機構包括不同的學會、不同的企業和醫院標準不一樣,同樣的數據讓不同的研究機構標注,結果都不相同。
我們一旦建成標準數據庫,就進行數據算法的訓練和調用。算法的測試可以在醫院進行,這對于整個數據庫的建設非常重要。因為醫院數據的維度不同,包括來源地域不一樣,方法不一樣。
比如,用上海同濟醫院數據研發做出的人工智能產品,而沒有其他醫院的數據,這個產品可能只適合同濟醫院。經過藥監局的批準也只能適用同濟醫院。
在數據質量管理體系中,對于數據的采集包括標注的房間光線都有要求。在這樣的要求下,才能做到高質量的數據結果。
隱私安全是建立數據庫的重中之重。國家衛健委啟動國家數據庫的建立,首要就是隱私保護,包括在倫理方面都有很大的要求。
醫學影像人工智能發展對數據的要求,首先是符合建庫要求,具有科學性、權威性、先進性,而且是動態的,能根據發展去更新數據,具體情況具體分析。
規范化構建數據庫,目的是建立一個安全合規數據共享的數據庫。其組織形式是需要專家隊伍制定數據標準和質量評估標準,然后討論實施。
標準建立以后每一個環節都需要一個規范化的執行操作過程。我們建庫的出發點是需求的驅動,以患者為中心建立一個長效全景的數據庫。
國家衛生健康委牽頭和浙江求是數理醫學研究院、清華大學長庚醫院、中國醫學影像AI產學研用創新聯盟正建設超聲、CT肺、肝臟臨床數據庫;
還有糖網病眼底數據庫和檢測數據庫,其他的比如浙江數理醫學學會等機構都在建立,但是需要統一的數據標準和規范。
數據庫建立基本原則是臨床和科研的需求,需要把臨床、科研和企業產業化的標準統一起來,是在質量控制體系下高效成本低的建庫標準。這是幾個基本原則。
數據的標注也要規范化。標準和專家共識是至關重要的。我們要做一個標準流程讓醫生勾畫,人工做的和智能做的在標準的軟件中進行。
數據標注有以下難點:首先,專家共識很難達成一致。比如如何合理組織專家隊伍,環境標準,使用工具的可信度,不同人有不同的理解。
到現在為止,我們面臨的挑戰很多。
第一,社會資源投入不夠。建庫是一個規范的事情,是一個長城工程,需要大量的社會投入,需要我們政府、企業和研究機構三方協同。
第二,數據庫建設滯后。
第三是數據類型比例不均,有的數據樣本量少,還有的數據更新比較快。
面對挑戰,我們希望加快建設,希望政府企業各方面一起投入,一起組建高質量的專家組進行數據標準的制定。我們需要衛健委統一國家數據資源,開放共享,不能讓勞動白白付出。
這是一個國家工程,需要各個方面的投入,是一個功蓋千秋的工程,需要大家關注的一件事情。謝謝大家。
原文標題:浙大孔德興:醫學影像數據庫,做持久且正確的事情 | 經典回顧
文章出處:【微信公眾號:IoT科技評論】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
AI
+關注
關注
87文章
32487瀏覽量
271689 -
智能醫療
+關注
關注
27文章
1386瀏覽量
74735
原文標題:浙大孔德興:醫學影像數據庫,做持久且正確的事情 | 經典回顧
文章出處:【微信號:IoT_talk,微信公眾號:醫健AI掘金志】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
《AI Agent 應用與項目實戰》閱讀心得3——RAG架構與部署本地知識庫
中信建投報告泄密,AI硬件正在重塑醫療影像與IVD領域的未來

評論