多年來,大型語言模型(LLMs)已成為一項突破性技術,在醫療保健的各個方面都有巨大的潛力。這些模型,如GPT-3、GPT-4和Med-PaLM 2,在理解和生成類人文本方面表現出卓越的能力,使其成為應對復雜醫療任務和改善患者護理的寶貴工具。它們在各種醫療應用中都顯示出前景,例如醫療問答(QA)、對話系統和文本生成。此外,隨著電子健康記錄(EHRs)、醫學文獻和患者生成數據的指數級增長,LLMs可以幫助醫療專業人員提取有價值的見解並做出明智的決策。
然而,儘管大型語言模型(LLMs)在醫療保健中有巨大的潛力,但仍存在需要解決的重大和特定挑戰。
當模型被用於娛樂性對話時,錯誤很少會產生影響;然而,在醫療領域的應用中情況並非如此,錯誤的解釋和答案可能對患者護理和結果產生嚴重後果。語言模型提供的信息的準確性和可靠性可能是生死攸關的問題,因為它可能會影響醫療保健決策、診斷和治療計劃。
例如,當給出一個醫療查詢時(見下文),GPT-3錯誤地建議孕婦使用四環素,儘管它正確解釋了由於可能對胎兒造成傷害而禁忌使用四環素。按照這一錯誤建議行事可能導致嬰兒骨骼生長問題。
醫療大型語言模型公開排行榜旨在追蹤、排名和評估大型語言模型(LLMs)在醫療問答任務上的表現。它評估LLMs在各種醫療數據集上的表現,包括MedQA(USMLE)、PubMedQA、MedMCQA,以及與醫學和生物學相關的MMLU子集。該排行榜全面評估了每個模型的醫學知識和問答能力。
這些資料集涵蓋了醫學的各個方面,如一般醫學知識、臨床知識、解剖學、遺傳學等。它們包含需要醫學推理和理解的選擇題和開放式問題。有關數據集的更多詳細信息,請參見下面的"LLM基準測試細節"部分。
主要評估指標為準確率(ACC)。
醫療大型語言模型公開排行榜的後端使用Eleuther AI語言模型評估工具。為LLMs提供60多個標準學術基準,實現了數百個子任務和變體:
- 支持通過transformers加載模型(包括通過AutoGPTQ進行量化)、GPT-NeoX和Megatron-DeepSpeed,具有靈活的tokenizers無關接口。
- 支持使用vLLM進行快速和內存高效的推理。
- 支持商業API,包括OpenAI和TextSynth。
- 支持在HuggingFace的PEFT庫中支持的適配器(例如LoRA)上進行評估。
- 支持本地模型和基準。
- 使用公開可用的提示進行評估,確保論文之間的可重複性和可比性。
- 易於支持自定義提示和評估指標。
- 基於配置的任務創建和配置
- 更容易從外部定義的任務配置YAML中導入和共享
- 支持Jinja2提示設計,易於修改提示+從Promptsource導入提示
- 更高級的配置選項,包括輸出後處理、答案提取和每個文檔多個LM生成、可配置的少樣本設置等
- 支持加速和新的建模庫,包括:更快的數據並行HF模型使用、vLLM支持、使用HuggingFace的MPS支持等
- 日誌記錄和可用性變更
- 新任務,包括CoT BIG-Bench-Hard、Belebele、用戶定義的任務分組等
語言模型評估工具是Hugging Face廣受歡迎的Open LLM排行榜的後端,已在數百篇論文中使用,並被包括NVIDIA、Cohere、BigScience、BigCode、Nous Research和Mosaic ML在內的數十家組織內部使用。
GPT-4和Med-PaLM-2的結果取自其官方論文。由於Med-PaLM沒有提供零樣本準確性,我們使用其論文中的5樣本準確性進行比較。除了Med-PaLM-2使用5樣本準確性外,所有呈現的結果都是在零樣本設置下獲得的。Gemini的結果取自最近的Clinical-NLP(NAACL 24)論文。
該論文採用三個基準測試來評估Gemini在醫療領域的表現:
- MultiMedQA:涵蓋多個醫療QA資料集,包含需要複雜推理的多面向問題,用於評估模型在不同醫學專科的臨床推理能力。
- Med-HALT:專門測試醫療語言模型的幻覺(hallucination)傾向,分為推理型幻覺測試(RHT)和記憶型幻覺測試(MHT)。前者評估模型在面對挑戰性診斷場景時的邏輯分析與不確定性處理能力,後者考察模型對醫學文獻的精確記憶與檢索能力。
- 醫療視覺問答(VQA):評估模型在整合視覺與文本理解方面的能力,要求模型根據醫學圖像回答複雜的多選題。
此外,研究還採用了多種先進的prompt工程技術,如直接少樣本(few-shot)、思維鏈(CoT)、自我一致性(SC)和整體優化(ER)等,以提升模型在醫療任務上的表現。
在MultiMedQA基準測試中,Gemini展現出對各種醫學主題的廣泛理解,但在診斷準確性方面仍不及Med-PaLM2和GPT-4等頂尖模型。Gemini在MedQA、MedMCQA和PubMedQA等資料集上的得分分別為67%、62.2%和70.7%,落後於Med-PaLM2的86.5%、72.3%和81.8%。
Med-HALT基準測試揭示了Gemini在面對具有挑戰性的診斷場景時,容易產生過度自信的幻覺(RHT中的FCT測試只有36.21%的準確率)。此外,在檢索和匹配詳細的生物醫學信息方面,Gemini也表現出顯著的困難(MHT中多個任務的準確率低於40%)。這凸顯了Gemini在可靠性和可信度方面存在不足。
在VQA任務中,Gemini取得了61.45%的準確率,遠低於GPT-4V的88%,反映出其在整合視覺和文本理解以進行醫學圖像分析方面的局限性。Gemini難以突出異常、缺乏診斷詞彙、並在臨床知識方面存在不足。
通過對Gemini在不同醫學專科的表現進行細粒度分析,我們發現它在生物統計學、細胞生物學和流行病學等數據密集型和程式化的領域表現出色(達到100%的準確率),但在需要複雜推理或專業知識的領域如心臟病學(26.67%)和皮膚科(58.82%)則表現不佳。
醫療大型語言模型(Medical-LLM)排行榜旨在解決這些挑戰和限制,提供一個標準化的平台來評估和比較各種大型語言模型在不同醫療任務和數據集上的表現。通過對每個模型的醫學知識和問答能力進行全面評估,該排行榜旨在促進更有效、更可靠的醫療LLMs的發展。
這個平台使研究人員和從業者能夠識別不同方法的優缺點,推動該領域的進一步發展,最終為更好的患者護理和治療結果做出貢獻。
資料集、任務和評估設置
Medical-LLM排行榜包括各種任務,並使用準確度作為主要評估指標(準確度衡量語言模型在各種醫療QA資料集上提供正確答案的百分比)。
MedQA
MedQA資料集由美國醫師執照考試(USMLE)的選擇題組成。它涵蓋了一般醫學知識,包括開發集中的11,450個問題和測試集中的1,273個問題。每個問題有4或5個答案選項,該資料集旨在評估在美國獲得醫師執照所需的醫學知識和推理技能。
MedMCQA
MedMCQA是一個大規模的多項選擇題QA資料集,源自印度醫學入學考試(AIIMS/NEET)。它涵蓋了2.4k個醫療主題和21個醫學科目,開發集中有超過18.7萬個問題,測試集中有6,100個問題。每個問題有4個答案選項,並附有解釋。MedMCQA評估模型的一般醫學知識和推理能力。
PubMedQA
PubMedQA是一個封閉領域的QA數據集,其中每個問題都可以通過查看相關的上下文(PubMed摘要)來回答。它由1,000對專家標註的問答對組成。每個問題都附有一個PubMed摘要作為上下文,任務是根據摘要中的信息提供是/否/可能的答案。資料集分為500個開發問題和500個測試問題。PubMedQA評估模型理解和推理科學生物醫學文獻的能力。
MMLU子集(醫學和生物學)
MMLU基準(測量大規模多任務語言理解)包括來自各個領域的多項選擇題。對於Medical-LLM排行榜,我們專注於與醫學知識最相關的子集:
- 臨床知識:265個問題,評估臨床知識和決策技能。
- 醫學遺傳學:100個問題,涵蓋與醫學遺傳學相關的主題。
- 解剖學:135個問題,評估人體解剖學知識。
- 專業醫學:272個問題,評估醫療專業人員所需的知識。
- 大學生物學:144個問題,涵蓋大學水平的生物學概念。
- 大學醫學:173個問題,評估大學水平的醫學知識。
每個MMLU子集都由4個答案選項的多項選擇題組成,旨在評估模型對特定醫學和生物學領域的理解。
Medical-LLM排行榜全面評估了模型在醫學知識和推理的各個方面的表現。
洞見和分析
Medical-LLM排行榜評估了各種大型語言模型(LLMs)在不同醫療問答任務上的表現。以下是我們的主要發現:- 商業模型如GPT-4-base和Med-PaLM-2在各種醫療數據集上始終取得高準確度分數,表現出在不同醫療領域的強大表現。
- 開源模型,如Starling-LM-7B、gemma-7b、Mistral-7B-v0.1和Hermes-2-Pro-Mistral-7B,儘管參數量只有約70億,但在某些數據集和任務上表現出色。
- 商業和開源模型在理解和推理科學生物醫學文獻(PubMedQA)以及應用臨床知識和決策技能(MMLU臨床知識子集)等任務上都表現良好。
Google的Gemini Pro模型在各個醫療領域表現出色,特別是在生物統計學、細胞生物學和婦產科等數據密集型和程序性任務中表現優異。然而,它在解剖學、心臟病學和皮膚科等關鍵領域的表現中等到低,揭示了需要進一步完善才能全面應用於醫學的差距。
沒有留言:
發佈留言