引言:近期,大型語言模型在各種任務上展現出優異的性能,展示了廣闊的應用前景。然而,在醫學領域,現有的模型主要是單一任務系統,缺乏足夠的表達能力和交互能力。因此,目前的模型與實際臨床工作流程中對它們的期望之間存在差距。雖然大型語言模型的出現和發展為交互式醫學系統帶來了希望,但由于其可能生成錯誤的輸出和產生幻覺等問題,不能直接應用于實際場景。目前關于大模型在醫學領域的研究主要集中在評估現有模型性能、構建適用的數據集以及指令微調等方面。
Large Language Models Encode Clinical Knowledge
http://arxiv.org/abs/2212.13138
本文的主要工作包括benchmark構建、LLM評測和指令微調。
提出一個涵蓋醫學檢查、醫學研究和消費者醫療問題的醫學問答benchmark:MultiMedQA。這是一個由七個醫學問答數據集組成的基準,包括六個現有數據集和新引入的一個數據集。這是一個評估LLM臨床知識和問答能力的多樣化基準,包括多項選擇題、需要對醫療專業人員的問題進行較長格式回答的數據集,以及需要對非專業人員可能提出的問題進行較長格式回答的數據集。本文還提出了一個醫生和非專業用戶評估框架,從多個維度來評估LLM性能。
本文在MultiMedQA上評估了PaLM及Flan-PaLM。通過結合各種提示策略(few-shot, chain-of-thought and self-consistency prompting),Flan-PaLM在MedQA(USMLE),MedMCQA,PubMedQA和MMLU臨床主題上超過了SOTA性能。特別是,它比之前的MedQA上的SOTA(USMLE)提高了17%以上。
由于在生成長文本的數據集上,Flan-PaLM和臨床醫生的結果顯示出一定gap。本文提出了使用Instruction Prompt Tuning對Flan-PaLM進行微調。使用soft prompt作為在多個醫學數據集之間共享的初始前綴,然后是相關的特定于任務的prompt(由instructions和/或few-shot示例組成,可能是CoT)以及實際問題和上下文。通過隨計選取和人工評估過濾,最終使用40個來自HealthSearchQA,MedicineQA和LiveQA的例子用于Instruction Prompt Tuning訓練,得到Med-PaLM模型。
Towards Expert-Level Medical Question Answering with Large Language Models
http://arxiv.org/abs/2305.09617
本文提出了Med-PaLM 2,是上面Med-PaLM工作的改進,它通過結合PaLM 2、醫學領域微調和提示策略(包括一種新穎的ensemble refinement策略)來提升性能。Med-PaLM 2 在 MedQA 數據集上的得分高達 86.5%,比 Med-PaLM 提高了19%。
在CoT和self-consistency的基礎上,本文提出了一個新的提示策略:ensemble refinement (ER)。ER涉及兩個階段:首先,給定一個prompt和一個問題,模型輸出多個解釋和答案。然后,以原始prompt、問題和上一步的生成輸出為條件進行提示,模型會生成更加精細的解釋和答案。這可以理解為self-consistency的泛化,LLM匯總第一階段的答案而不是簡單的投票,使LLM能夠考慮其生成的解釋的優點和缺點。在這里,為了提高性能而多次執行第二階段,然后最后對這些生成的答案進行多數投票以確定最終答案。
下表展示了Med-PaLM 2 在不同的提示策略下的性能??梢钥闯鰁nsemble refinement改進了CoT和SC,從而促使策略在這些基準測試中獲得了更好的結果。
本文還引入了兩個對抗性問題數據集來探索這些模型的安全性和局限性。
ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
http://arxiv.org/abs/2303.14070
ChatDoctor是一個主要在LLaMA上微調的醫學領域的大語言模型。
收集對話數據集:出于真實性的考慮,本文從在線醫療咨詢網站“HealthCareMagic”收集了約10萬條真實的醫患對話,并對這些數據進行了人工和自動過濾等預處理,并命名為 HealthCareMagic-100k。此外,從在線醫療咨詢網站 iCliniq2 收集了大約1萬條醫患對話用于以評估模型的性能。
外部知識大腦:如果模型能夠根據給定的權威可靠知識進行回答,那么模型的準確性將大大提高。對于醫療場景中的問答,本文收集并編譯了一個數據庫,其中包括大約 700 種疾病及其相關癥狀、進一步的醫學測試或措施以及推薦的藥物治療。該數據庫可以隨時更新,無需重新訓練模型。除了疾病數據庫,一些權威的信息源也可以作為外部知識大腦,例如維基百科。
ChatDoctor可以檢索相應的知識和可靠的來源,以更準確地回答患者的詢問。構建完外部知識大腦后,通過構造適當的prompt讓ChatDoctor自主檢索其所需要的知識。
本文先通過Stanford Alpaca的數據微調以獲得對話的能力,然后在收集的醫學對話數據集上微調。為了測試基于知識大腦的ChatDoctor模型的能力,向該模型詢問了一些最近的醫學問題,例如上圖中的Mpox(monkeypox,猴痘),由于這是一個新術語,ChatGPT 完全無法回答它,而 ChatDoctor 可以自主檢索 Mpox 的維基百科內容并給出準確的答案。
BenTsao: Tuning LLaMA Model With Chinese Medical Instructions
http://arxiv.org/abs/2304.06975
本文提出了本草模型(原叫“華駝“),一個生物醫學領域的中文LLM。BenTsao建立在開源LLaMa-7B模型的基礎上,整合了來自中國醫學知識圖譜(CMeKG)的結構化和非結構化醫學知識,并采用基于知識的指令數據進行微調。
數據集:醫學知識有各種類型,一般包括結構化的醫學知識,如醫學知識圖譜,和非結構化的醫學知識,如醫學指南等。本文利用了中國醫學知識圖譜CMeKG,該圖譜提供了有關疾病、藥物、癥狀等的醫學知識,并借助ChatGPT構造了8000 多個指令數據形成指令數據集,用于監督微調。
指標:對于醫學問答任務,本文引入了一個新的評估指標 SUS。SUS 指標由三個維度組成:安全性 Safety,可用性Usability和流暢性 Smoothness。Safety 評估生成的響應是否有可能誤導用戶并對他們的健康構成威脅,Usability 評估生成的響應反映醫學專業知識的程度,Smoothness 衡量生成的流暢度。
本文構建了一組中文對話場景測試集,同時為了評估模型性能招募了五名具有醫學背景的注釋員通過SUS維度進行評分。平均SUS分數如下表所示。盡管LLaMA獲得了最高的安全分數,但其回答中信息含量較低。本文的華拓模型顯著提高了知識的可用性。
Galactica: A Large Language Model for Science
http://arxiv.org/abs/2211.09085
本文指出,計算的最初希望是解決科學中的信息過載問題。本文訓練了一個大語言模型Galactica,能夠更好的自動組織科學知識。Galactica是在人類科學知識的大型語料庫上進行訓練的,語料庫包括4800 萬篇論文、教科書和講義、數百萬種化合物和蛋白質、科學網站、百科全書等。
本文提出了一組專門的tokenization用于不同的輸入模態。對于引用、氨基酸序列、DNA序列等輸入,使用[START_{ }]和[END_{ }]來包裝文本。比如,對于引用,使用[START_REF] 和 [END_REF]來包裝。本文還引入
本文將prompts與通用語料庫一起包含在預訓練中,并對Galactica各種科學任務上進行了測試。在醫學問答數據集 PubMedQA 上結果為77.6%,在MedMCQA上結果為52.9%,均在當時達到最高水平。
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding
http://arxiv.org/abs/2304.05368
本文在臨床語言理解任務上對GPT-3.5、GPT-4 和 Bard 進行了全面評估。任務包括命名實體識別、關系提取、自然語言推理、語義文本相似性、文檔分類和問答,并在此過程中提出了一種新穎的提示策略,self-questioning prompting(SQP)。SQP旨在通過鼓勵模型更加了解自己的思維過程來提高模型性能,使他們能夠更好地理解相關概念從而達到更深入的理解。下圖是 SQP 的一般構建過程:
下表將提出的SQP與現有的提示方法進行了比較,突出顯示了各自的指導方針和目的。
下面展示了六個任務的SQP模板,每個模板中突出顯示了核心的自我提問過程。這些帶下劃線和粗體的部分說明了 SQP 如何生成與任務相關的目標問題和答案,從而指導模型的推理。
本文的評估強調了采用特定任務學習策略和提示技術(如 SQP)的重要性,以最大限度地提高 LLM 在醫療保健相關任務中的有效性。實驗結果顯示 GPT-4 的整體性能更好,5-shot SQP 提示策略更好。
CAN LARGE LANGUAGE MODELS REASON ABOUT MEDICAL QUESTIONS?
http://arxiv.org/abs/2207.08143
本文主要測試 GPT-3.5(Codex 和 InstructGPT)是否可用于回答和推理基于現實世界的困難問題,即醫學問題。主使用兩個多項選擇的醫學考試問題和一個醫學閱讀理解數據集進行測試。本文研究了多種提示場景:CoT、zero- and few-shot和retrieval augmentation。
Retrieval augmentation探究了將模型與額外的上下文聯系起來是否可以提高回答的準確性,使用BM25檢索器和維基百科作為知識庫。給定一個問題 、一個答案選項,對文章進行檢索:
DoctorGLM: Fine-tuning your Chinese Doctor is not a Herculean Task
http://arxiv.org/abs/2304.01097
本文在ChatGLM的基礎上構造中文的醫學模型。
數據集構建:通過翻譯 ChatDoctor的數據集來利用英文的高質量數據集??紤]到專業的大規模翻譯代價較高,這里作者通過利用 ChatGPT 來采用一種簡單且低成本的方法進行大規模翻譯。首先構建高質量數據集:通過ChatGPT翻譯選取的示例;然后使用這部分數據配對的中英文數據微調一個語言模型(如BART-based model),該語言模型就能獲得專家級的知識并作為大語言模型的一個替代從而降低大規模翻譯成本。對于疾病數據庫里的知識,作者也利用 ChatGPT來構造指令數據。
Prompt Designer:為了得到更加可靠的模型輸出,本文利用Prompt Designer來預處理用戶輸入。Prompt Designer首先從輸入中提取相關關鍵字,如疾病名稱或癥狀,然后使用疾病名稱作為標簽并根據疾病知識庫生成簡短描述。Prompt Designer的輸出包括有關疾病癥狀、診斷、治療方案和預防措施的信息。然后將這部分輸出作為DoctorGLM輸入的Info {...}部分。通過提供專業生成的提示,提示設計者擴展了DoctorGLM針對特定疾病的專業知識和可靠性。
Visual Med-Alpaca: A Parameter-Efficient Biomedical LLM with Visual Capabilities
本文提出Visual Med-Alpaca,是一個開源的、參數高效的生物醫學基礎模型,可以與醫學“視覺專家”集成以進行多模態生物醫學任務。該模型建立在LLaMa-7B架構上,使用由GPT-3.5-Turbo和人類專家協作策劃的指令集進行訓練。利用幾個小時的指令調整和即插即用的視覺模塊,Visual Med-Alpaca 可以執行各種醫學任務。
數據集構建:從 BigBIO 存儲庫中的各種醫學數據集中提取醫學問題,然后提示 GPT-3.5-Turbo 合成這些問題的答案,之后執行多輪人工過濾和編輯來優化問答對,從而產生包含 54k 指令的高質量指令集。
視覺模態:Visual Med-Alpaca 支持兩個不同的視覺expert:Med-GIT 和 DePlot。Med-GIT 是一個用于圖像到文本生成的模型,這里使用 ROCO 數據集進行微調,以促進專門的放射學圖像字幕生成。DePlot可以將圖形或圖表的圖像轉換為表格,其輸出可以直接用于提示預訓練的大型語言模型。
由于基礎模型提供了一個模塊化且適應性強的框架用于整合各種視覺模塊,在此框架內,任何多模態的任務都可可以分為兩個基本階段:圖像到文本的轉換和基于文本的推理。在本文中,視覺專家(即視覺基礎模型)將醫學圖像轉換為中間文本表示,然后將轉換后的數據用于提示預訓練的 LLM,利用 LLM 固有的推理能力來生成適當的響應。
Visual Med-Alpaca 通過提示增強方法連接了文本和視覺模態。首先,圖像輸入被送入類型分類器,選擇對應的視覺模型后得到文本輸出,然后將其附加到文本輸入以用于后續推理過程。然后,prompt manager將從圖像和文本輸入中提取的文本信息合并到 Med-Alpaca 的prompt中,之后再進行文本的推理產生輸出。
XrayGLM: The first Chinese Medical Multimodal Model that Chest Radiographs Summarization
最近,大型通用語言模型取得了顯著的成功,能夠遵循指令并生成與人類類似的回應。這種成功在一定程度上推動了多模態大模型的研究和發展,例如MiniGPT-4等。然而,這些多模態模型在醫學領域的研究中很少見,雖然visual-med-alpaca在醫學多模態模型方面取得了一些有成效的工作,但其數據僅限于英文診斷報告,對于推動中文醫學多模態模型的研究和發展并不利。因此,為了解決這個問題,本文開發了XrayGLM模型。
本文借助ChatGPT和公開的胸片圖文對數據集,構造了中文的X光片-診斷報告數據集,并使用該數據集在 VisualGLM-6B上進行微調訓練。
總結:現有的大語言模型在醫學方面的工作集中在評測、微調、多語言、多模態、數據集構建等方面,仍然處于探索和初步階段,醫學領域的安全性問題更加重要,交互式醫學系統還需要進一步發展和完善。
-
語言模型
+關注
關注
0文章
520瀏覽量
10268 -
數據集
+關注
關注
4文章
1208瀏覽量
24689 -
大模型
+關注
關注
2文章
2423瀏覽量
2645 -
LLM
+關注
關注
0文章
286瀏覽量
327
原文標題:LLM in Medical Domain: 一文速覽大語言模型在醫學領域的應用
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論