code window

2024年5月8日星期三

Agent Hospital: 醫院模擬器

1 引言

大型語言模型(LLM)代理在各種任務中展現出了有前景的表現,包括代碼生成、資訊博弈和問答等。受到LLM代理能力的啟發,該研究採用它們來模擬人類互動和行為,而不僅是處理單一任務,例如在社交媒體上的資訊傳播和「Stanford Town」模擬器項目。學術界和工業界的人士都相信,LLM代理將對各種場景產生重大影響。



然現有研究取得了成功,但LLM代理通常用於解決特定任務或社會模擬。這引發了一個問題:該研究能否將這兩種能力結合起來?也就是說,社會模擬的過程是否可以提高LLM代理在特定任務上的表現?受此假設的啟發,該研究旨在通過設計一個醫院模擬器來驗證它,從而實現醫療LLM代理的進化。選擇醫療場景主要有兩個原因:一方面,醫療AI被廣泛認為是AI技術可以取得重大改進的理想場景,而有效的醫院模擬可以促進相關研究。另一方面,醫院環境涉及多個典型任務,例如疾病診斷和異構信號理解,這些都是檢驗模擬環境是否可以幫助LLM代理進化的極好基準。

在這項研究中,該研究開發了一個全面的模擬系統,涵蓋了醫院中幾乎所有的醫療過程,該研究將其命名為 Agent Hospital。圖1顯示了模擬環境的概覽。主要有兩類代理:居民(潛在患者)和醫療專業人員。每個居民在患病時都會選擇去醫院就診。在住院期間,他們會經歷一系列程式,就像醫院中的真實醫療過程一樣,包括分診、掛號、就診、檢查、診斷和治療。在 Agent Hospital 中,患者在獲得治療方案後,其健康狀況變化會在LLMs的幫助下預測,一旦康復,他們會主動向醫院匯報以進行隨訪。整個醫院互動過程的模擬為進一步研究提供了一個極好的平臺,例如,讓一位元元醫生代理通過治療無限的模擬患者來進化。

在 Agent Hospital 的基礎上,該研究的目標是訓練出精通醫療任務的醫生代理,如診斷和治療建議,這在醫院環境中至關重要。傳統研究通常通過預訓練、監督微調或檢索增強生成策略將醫學知識整合到LLMs/代理中,以構建強大的醫療模型。然而,該研究提出了一種新穎的策略,通過在模擬環境中模擬醫患互動來訓練醫生代理。由於沒有使用人工標注資料,該研究將該策略命名為 MedAgent-Zero。醫生代理與 Agent Hospital 中的各種患者代理互動,通過從成功病例中積累記錄和從失敗病例中總結經驗,從而逐漸進化為更出色的代理。由於醫生代理訓練的成本低、效率高,該研究可以輕鬆讓代理在短短幾天內處理數萬個病例,而現實世界的醫生可能需要數年時間。

該研究進行了兩類實驗來驗證通過我們醫院中的 MedAgent-Zero 策略進化的醫生代理的有效性。一方面,在虛擬醫院內,該研究進行了從100到10000個生成的患者互動實驗(人類醫生可能每週治療約100名患者),涵蓋了8種不同的呼吸系統疾病、十幾種類型的醫學檢查以及每種疾病的三種不同治療方案。通過 MedAgent-Zero 策略訓練的醫生代理在處理模擬患者的過程中不斷自我進化,最終在檢查、診斷和治療任務中分別實現了88%、95.6%和77.6%的準確率。另一方面,該研究採用進化後的醫生代理參加了 MedQA 資料集子集[7]的評估。令人驚訝的是,即使沒有任何人工標注資料,該研究的代理在 Agent Hospital 中進化後還是實現了最先進的性能。這些結果表明,模擬環境可以有效地幫助LLM代理進化,以處理特定任務。

該研究工作的主要貢獻總結如下:

- 據該研究所知,這是第一個醫院模擬器,全面反映了整個醫療過程,具有出色的可擴展性,使其成為研究醫療LLMs/代理的寶貴平臺。

- 在這個虛擬環境的基礎上,該研究提出了 MedAgent-Zero策略,旨在實現醫療代理的自我進化,無需人工標注資料。記錄累積和經驗總結模組使醫生代理能夠通過在Agent Hospital中處理醫療病例並進行自我反饋來不斷進化其能力,從而提高他們處理各種醫療任務的能力。

- 在模擬病例的實驗中,MedAgent-Zero可以在幾天內處理數萬個病例(人類醫生可能需要兩年多),並展示出強大的性能。此外,在Agent Hospital中自動累積的經驗甚至使我們的醫生代理在真實世界評估資料集(MedQA的子集)上實現了最先進的性能,即使沒有任何人工標注資料。

论文来源: https://arxiv.org/pdf/2405.02957

2 相關工作

2.1 基於LLM的真實世界模擬

最近的研究倡議利用LLMs來複製真實世界的動態。在流行病學、社會學和經濟學等多個領域,研究人員正在利用基於LLMs的代理來模擬人類決策,導致各個領域出現了許多令人興奮的新興現象。

基於LLMs的代理在具有競爭性和動態性的真實世界模擬中展示了互動能力,通過提供服務和接收反饋,使其行為與現有的社會學和市場理論保持一致,以確保各個代理之間的公平競爭。由LLM驅動的代理通過理解用戶查詢和溝通需求,在推薦框架內模擬用戶偏好和行為,從而提供深度個性化的推薦服務。

LLMs被用於通過開發能夠理解人類決策過程的代理來模擬巨集觀經濟活動,從而適應複雜的經濟環境,改善對經濟行為和趨勢的預測。社交網絡模擬系統使用LLMs賦予代理模擬個人情感、態度和互動行為等人類行為的能力,利用真實的社交網絡資料構建模擬環境。

基於生成代理的公共管理危機模擬系統使非技術社會科學研究人員能夠輕鬆進行複雜的模擬,並分析公共管理危機中的個人和群體行為。此外,基於LLMs的多智能體戰爭模擬系統被設計用於模擬和分析大規模歷史衝突,如世界大戰。該系統重構了歷史軍事事件、政治談判和戰略規劃,探索了通向和平和未來預防衝突的過程。

在流行病學領域,研究人員整合了LLMs來開發模擬個人行為的模型。每個代理由其自身的性格、健康狀況和對疫情傳播的感知所驅動,模擬真實世界的行為模式,從而理解社會行為與疾病傳播之間的動態關係。

這些應用表明,LLMs能夠模擬真實世界的動態,為該研究提供了許多令人興奮的見解。利用基於LLMs的代理進行醫療保健模擬也是一個有前景的方向。然而,現有研究主要側重於模擬治療任務,而不是全面模擬患者疾病治療的整個閉環。它們也未能讓醫生在這個過程中不斷進化,更不用說模擬季節性流感暴發等社會醫療事件。該研究旨在填補現有研究的空白,希望能更好地利用LLMs進行診斷和治療,為醫療決策提供更準確、更有效的支援。


2.2 代理的進化

最近LLMs的進步極大地啟發了它們在各個領域的集成和應用。目前的LLMs已經通過預訓練、微調和其他形式的人工監督訓練等方法取得了多項突破。然而,隨著任務複雜性和多樣性的增加,當前的LLMs可能會遇到性能瓶頸。現有的訓練範式需要使用大量的資料語料庫或大量的人工監督,代價高昂。因此,自我進化方法的發展勢頭正猛。這些方法使LLM驅動的代理能夠通過自我進化策略自主獲取、完善和學習。

一種方法涉及直接明確地整合外部知識,以增強解決任務的能力。例如,Self-Align使用主題引導方法收集跨20個科學領域的主題,包括科學和法律專業知識。SOLID生成實體的結構化知識來發起對話。UltraChat編譯來自20種不同類型文本材料的非結構化知識,圍繞30個元概念組織,以設計對話任務。這種經驗的積累使代理能夠處理更廣泛的任務。

代理還可以在解決方案生成過程中進行反思,以促進自我進化。STaR在解決任務時產生理由。如果發生錯誤,它會修改理由和答復,然後指導模型的微調,以提高模型性能。LSX引入了兩個相互關聯的模塊,協同進化:一個學習者模塊執行基礎任務,一個評論者模塊評估學習者提供的解釋的質量。此外,SelfEvolve和LDB通過使代理能夠反思和學習操作過程中產生的反饋,增強了代理在代碼生成方面的能力。通過這種反思過程,代理可以自我進化、完善方法,從而實現性能的提高。



代理自我進化策略的發展前景看好。然而,目前關於代理進化的研究主要集中在孤立的獨立任務上,缺乏與真實世界模擬的整合,特別是在醫療保健模擬等情境中,患者的病情隨時間動態演變。因此,在沒有真實世界環境的情況下使用自我進化的LLM代理具有相當大的潛力。


3 醫院模擬器


3.1 環境設置

為了可視化整個就診過程,該研究首先設計了一個醫院沙箱模擬環境。受之前研究[17]的啟發,醫院沙箱由Tiled1和Phaser2實現,其中Tiled是一個高度靈活的地圖設計工具,Phaser是一個管理代理在沙箱中的移動和互動的框架。最後,如圖2所示,Agent Hospital中有16個具有不同功能的區域,包括分診台、診室、檢查室等。


3.2 代理角色


該研究為醫院中的互動設計了兩種角色,包括醫療專業代理和居民代理(隨時可能成為患者)。這些角色的資訊是使用LLM(GPT-3.5)生成的,可以輕鬆擴展。

3.2.1 醫療專業代理。如圖2所示,有各種診室和檢查室,因此該研究需要一系列醫療專業代理在Agent Hospital工作,包括14名醫生和4名護士。該研究的醫生(醫師)代理專門用於診斷疾病和制定詳細的治療計劃,而該研究的護理代理專注於分診,支援日常的治療幹預。圖3總結了幾個模擬醫療專業代理的更多資訊,例如,Elise Martin是一名在內科診室工作的女性內科醫生,Zhao Lei是一名擅長解讀醫學影像的男性放射科醫生。

3.2.2 居民代理。醫院中的另一類角色是患者。該研究的模擬從患者代理健康時開始,所以該研究更喜歡稱他們為居民代理(一旦生病就可能轉變為患者代理)。為了簡化互動,該研究假設醫療專業代理不會像居民代理那樣患病。每個居民代理都有不同的人口統計資訊,可能會隨機患病。如圖3所示,Kenneth Morgan是一名患有疾病的男性居民。這些代理在患病後會自動啟動尋求醫療幫助的過程,反映了臨床環境中典型的患者行為。




3.3 規劃


為了增強我們Agent Hospital的真實性,居民代理和醫療專業代理的行為和互動都是戰略性規劃的,並在代理收到指令(例如,去特定診室)時動態重新安排。這種方法不僅僅是模擬獨立的治療過程,而是全面模擬疾病的進展和隨時間的恢復情況。

3.3.1 居民的規劃。居民(患者)在醫院中扮演最活躍的角色,所以該研究首先介紹他們的計劃。主要有兩類計劃:1)日常規劃。居民代理隨機出現疾病,如果發病,他們會安排就醫。2)動態規劃。患者代理一到醫院,就會到分診台。患者代理的行為和移動根據分診、掛號、就診、檢查、診斷和治療流程的順序動態調整。這些流程是根據患者資料和醫療專業代理對不斷變化的臨床情況的反應動態生成的。患者根據其特定資料和疾病的動態進展情況,遵循這一適應性序列。這種動態配置使得能夠全面評估治療效果和疾病管理策略,為受控但真實的虛擬環境提供准確的模擬。



此外,代理的健康狀況受到持續監測。根據治療和用藥的有效性,他們的病情可能會好轉或惡化。如果病情惡化,代理會安排第二天再次就醫。相反,如果有所改善,代理會留在家中,每天逐步康復,直到完全恢復健康。對於康復並保持健康狀態的代理,系統每天隨機生成新的症狀和疾病,反映了現實世界醫療條件的不可預測性。這引發了另一個就醫和就診的週期。


3.3.2 醫療專業人員的規劃。醫療專業代理被分配到醫院內的特定崗位,根據其指定的角色履行職責。他們的行動類型比居民少,但他們應該提高自己的專業技能,以在Agent Hospital中獲得更好的治療水準。他們從兩種類型的行動中接受訓練:1) 實踐。醫生代理被安排在各自的科室,在輪班期間管理臨床會診,為分配給他們的患者提供護理。患者的隨訪資訊將幫助他們完善醫療記錄經驗。2) 學習。在非工作時間,他們通過研究過去的醫療記錄來獲得臨床經驗,並通過閱讀醫學教科書來擴展知識。


3.4 患者事件/互動

患者代理通常經歷八種主要類型的事件或互動,這是Agent Hospital中最活躍的角色。為了清晰起見,我們將從一個例子開始。圖4展示了一個案例研究,主角是居民代理Kenneth Morgan,他醒來時皮膚狀況不佳,決定到醫院尋求醫療幫助。最初,他在分診站接受初步評估,評估他的症狀。根據這一評估,他被轉介到皮膚科與專家會診。到達後,Morgan在醫院前臺登記,安排他的會診時間表。然後,他在指定區域等待,直到被叫到皮膚科醫生的辦公室。在會診期間,皮膚科醫生代理確定需要進行醫學檢查,Morgan接受了檢查。皮膚科醫生代理在審查結果後提供診斷,概述治療策略,並開具藥物處方。最後,Morgan從醫院藥房領取藥物,回家開始康復。


接下來,我們詳細介紹患者事件和互動:


3.4.1 發病


居民代理從預定義的資料集中隨機感染疾病。每種疾病被歸類為三個嚴重程度之一:輕度、中度或重度。模擬為每個居民分配LLM生成的特定疾病症狀、診斷結果、潛在並發症、各類檢查結果、鑑別診斷、確診、治療方案和預防措施。這些細節被封裝在完整的病歷中,如附錄中的圖16所示。請注意,所有疾病資訊對醫療專業代理來說都是不可見的,他們只能通過詢問患者/進行醫學檢查來獲取資訊。


3.4.2 分診


患者一到Agent Hospital,就從分診台開始就診。患者到達後向護理代理描述他們的症狀。護理人員根據患者的描述做出判斷,決定將患者導向哪個科室進行進一步的診斷。


3.4.3 掛號


在初步評估之後,患者遵循分診站的建議,在登記處登記。然後,他們在指定的等候區等待與各科室專家會診。


3.4.4 會診


輪到會診時,患者與醫生代理進行初步對話,描述他們的症狀和發病時間。然後,醫生決定需要進行哪些醫學檢查以調查病因,並協助診斷和治療。在當前版本中,根據醫生代理的決定,每個患者只會進行一種類型的醫學檢查。


3.4.5 醫學檢查


患者在收到開具的醫學檢查單後,前往相關科室接受檢查。由LLM預先生成的醫學資料隨後呈現給患者和醫生。這一過程旨在模擬實時診斷反饋,與圖16中患者資料所示的症狀一致。


3.4.6 診斷


在醫學檢查之後,患者被引導到相應科室,由醫生代理進行診斷。患者向醫生代理披露他們的症狀,並分享醫學檢查結果,然後醫生代理根據預定義的疾病集進行診斷。診斷結果立即反饋給患者,展示了該模型整合複雜醫學資料和先進診斷能力的能力。


3.4.7 治療建議


醫療代理獲得患者的症狀、醫學檢查結果以及他們做出的疾病診斷。此外,還提供了三種針對輕度、中度和重度病情定制的不同治療方案。醫生的任務是根據患者的特定需求,從輕度、中度或重度方案中選擇適當的方案。如果開具任何藥物,患者需要到藥房領取。


3.4.8 康復(隨訪)


在診斷和治療過程結束時,患者提供有關其健康狀況的反饋或更新,以便採取後續行動。為了準確模擬疾病的動態進展,增強LLM的模擬涉及幾個關鍵步驟:醫生根據患者的詳細健康資訊和檢查結果制定治療計劃,然後將這些細節(特別是患者的症狀、開具的治療計劃和診斷的疾病)納入模擬範本。


3.5 醫療專業事件


除了與患者代理互動外,醫療專業代理(特別是醫生代理)主要從事以下兩類行動。這兩類行動都旨在實現Agent Hospital內醫療代理的自我進化。


3.5.1 實踐


醫生代理在Agent Hospital的治療過程中不斷學習和積累經驗,從而像人類醫生一樣提高他們的醫療能力。我們假設醫生代理在所有工作時間內都在不斷重複這一過程。第4.3節詳細介紹了一種新設計的進化策略。


3.5.2 學習


除了通過臨床實踐提高技能外,醫生代理還通過在工作時間之外閱讀醫學文獻主動積累知識。這一過程主要涉及避免代理參數化知識學習的策略,我們也將在第4節介紹


4 方法

4.1 醫療任務的定義


LLM評估任務通常採用多項選擇格式,其性能比生成任務更容易衡量。因此,我們也以這種方式格式化一些有代表性的醫療任務,以評估醫療代理的能力,包括檢查判斷、診斷和治療計劃。值得注意的是,我們的方法著重於如何增強醫生(醫師)代理。


我們在這裡定義三個醫療任務:


(1) 檢查決策:患者代理講述她/他的症狀,醫生代理應從可用選項中選擇一項醫學檢查。由於每種疾病都有幾種檢查選項,如果醫生代理選擇的檢查在真實答案列表中,則可以視為正確答案。

(2) 診斷:根據患者的症狀和醫學檢查結果,醫生代理應給患者做出診斷。所有候選疾病都包含在提示中,只有當醫生代理生成的疾病名稱與患者的實際疾病相同時,答案才是正確的。

(3) 治療計劃:根據患者的症狀和診斷結果,醫生代理應決定適合患者的治療計劃。為避免難以評估的多樣化輸出,所有疾病分為輕度、中度和重度三個治療級別。如果輸出與真實情況一致,則答案正確。


4.2 資料集

4.2.1 模擬醫學資料集

在第3.4節中,我們介紹了如何基於LLMs為患者生成模擬電子健康記錄。生成此類記錄也需要基礎領域知識。因此,我們主要從《傳染病學》第8版[10]中收集了8種有代表性的呼吸系統疾病的資料,包括急性鼻咽炎、急性鼻炎、支氣管哮喘、慢性支氣管炎、COVID-19、甲型流感、乙型流感和支原體感染。對於每種疾病,我們收集了症狀、實驗室檢查/檢查結果和治療計劃。圖15顯示了有關COVID-19的醫學知識。


之後,將疾病知識添加到病歷生成提示中。我們通過LLM生成了大約一萬條記錄,其中10,000條記錄用於訓練,500條記錄用於測試。每條記錄涉及三項醫學測試(檢查、診斷和治療),以幫助醫生代理在實踐中進化。這個資料集被命名為模擬醫學資料集。


4.2.2 醫學文獻資料集


醫生代理也通過學習來提升自己,因此我們收集了一些關於呼吸系統疾病的醫學新聞/教科書資料集。從醫學新聞網站3收集了超過500萬個標記,從默克手冊網站4收集了大約400萬個標記。為了幫助代理從中學習,這些文檔被用來生成與模擬醫學資料集一樣的多項選擇題。雖然與模擬醫學資料集不同,後者的選擇來自預定義的集合(例如,診斷選擇是提到的八種疾病),但這裡的多項選擇題都是由LLM生成的。這個資料集被命名為醫學文獻資料集。


這些工具和資源提供了豐富的資料,使得模擬環境得以有效地複製真實的臨床情景,從而提升醫生代理在面對真實疾病時的診斷和治療能力。透過這些模擬醫療資料,Agent Hospital的模擬環境不僅能夠訓練醫生代理應對各種病例,還能持續反覆運算和完善他們的決策技能和專業知識,特別是在處理復雜或少見疾病時的能力。


4.3 進化


為了促進LLM驅動的醫療代理的進化,我們提出了MedAgent-Zero策略,如圖5所示。MedAgent-Zero是一種無參數策略,沒有像AlphaGo-Zero那樣應用人工標注資料。該策略有兩個重要模塊,即醫療記錄庫和經驗庫。成功的病例被編譯並儲存在醫療記錄庫中,用作未來醫療幹預的參考。對於治療失敗的病例,醫生需要反思和分析診斷不準確的原因,並提煉指導原則,用作後續治療過程中的警示提醒。第4.3.1節和第4.3.2節將詳細介紹構建細節。


在患者治療過程中,我們採用密集檢索器從醫療記錄庫和經驗庫中檢索相關的歷史醫療記錄和指導原則,幫助醫生提供更好的患者護理。隨著經驗和記錄的積累,它們被積極應用,醫療記錄庫和經驗庫都在不斷更新。


4.3.1 醫療記錄庫建設


在實施治療的過程中,醫生查閱和參考之前經過驗證的醫療記錄是非常有益的。這些醫療記錄包含豐富的知識,展示了對各種醫療條件做出準確和充分反應的基本原則。因此,我們建議為醫生代理建立一個醫療記錄庫,以提高他們的醫療能力,包括醫院實踐中的歷史醫療記錄和醫學文獻中的示例病例。該庫的結構採用問答對的形式,其中問題詳細說明需要決策的醫療狀況,答案包含經過驗證的反應和思維鏈。


4.3.2 經驗庫擴展


從診斷錯誤中學習對醫生的成長也至關重要。我們相信,LLM驅動的醫療專業代理可以從這些錯誤中進行自我反思,提煉出相關原則(經驗),以確保在將來遇到類似問題時做出正確診斷。


我們從之前的研究中獲得靈感,讓醫生代理從失敗中學習。如圖5下部所示,如果答案錯誤,代理將反思最初的問題、生成的答案和正確答案,以總結可重用的原則。所有生成的原則都要經過驗證過程。生成後,將原則整合到最初回答錯誤的原問題中,允許醫療專業代理重新診斷。只有在診斷正確的情況下,原則才會被添加到經驗庫中。


為了消除噪音的影響並最大限度地利用經驗庫,我們在利用經驗時納入了額外的判斷。這種判斷涉及評估基於語義相似性檢索到的前K個經驗是否有助於治療過程。有用的經驗將被納入提示,而無用的經驗將被排除。


我們利用和積累經驗的框架是動態的。具體而言,一旦醫療專業代理初始化,他們就開始從錯誤中學習並不斷積累經驗。一旦經驗庫中至少有前k個經驗,他們就開始利用經驗,這反映了現實世界醫生的做法。不同任務的經驗庫與醫療記錄庫一樣單獨積累。


4.4 推理


基於上面介紹的醫療記錄庫和經驗庫,我們通過使用從其中檢索到的成功醫療記錄和有效經驗來增強醫療代理的提示。對於醫療記錄,我們通過比較醫療記錄庫中現有的查詢與當前查詢來獲取最相似的記錄。然後,將選定的記錄按查詢和答案組合成提示中的少樣本示例。


對於經驗,在真實世界評估中,我們通過計算經驗本身與當前查詢之間的相似性來識別最相關的經驗。在模擬評估中,對於檢查決策任務,我們計算當前患者的症狀與經驗庫中以前患者症狀之間的相似性。對於診斷和治療計畫任務,我們計算當前查詢與經驗查詢之間的相似性以檢索經驗。在將這些檢索到的經驗添加到提示之前,我們將使用LLMs判斷它們是否有助於回答問題。一些有價值的經驗被選中,其他的被丟棄。


5 模擬評估

5.1 實驗設置

如第4.2.1節所述,利用GPT Turbo-3.5的見解和我們全面的醫學資料庫,我們可以動態生成詳細的患者資料和完整的病史。我們使用模擬醫學資料集進行評估,其中包括姓名、年齡、性別等個人資訊,以及當前疾病、嚴重程度、生理症狀和必要的診斷檢查等醫療細節。為了提高實驗的可重複性,我們構建了一個包含10,000個實例的平衡訓練資料集和一個包含500個實例的獨立測試集。表5顯示了這些記錄在附錄中的詳細分佈。


5.1.2 評估指標

我們提出了一種評估策略,通過三種主要能力來評估Agent Hospital中的醫生代理:醫學評估、診斷和治療建議。首先,根據患者症狀,測試每個代理在醫學檢查任務上從16個候選項中選擇醫學檢查的能力。如果選擇與預定義的適合患者的醫學檢查真實答案列表中的任何項目匹配,則認為選擇是正確的。其次,在給定患者症狀和醫學檢查結果的情況下,通過提示從8種疾病中選擇正確的一種來評估代理的疾病診斷技能。最後,要求代理根據患者的症狀和檢查結果,從為輕度、中度和重度病情定制的三種治療方案中推薦最合適的治療方案。


准確性被用作評估每項任務中代理性能的指標。請注意,這些指標旨在整體關聯,以複製現實世界中觀察到的順序決策過程,因為前一階段的結果會影響下一階段。特別是,由於治療計劃與診斷結果高度相關,一旦診斷錯誤,治療結果就被視為不正確。


5.1.3 實施細節

對於每個查詢,檢索後使用的醫療記錄和原則數量設置為3,即只採用前3個相關經驗和記錄在提示中。醫療記錄庫和經驗庫從空開始訓練,並在訓練過程中動態更新,以支持進一步的決策。因此,醫生代理的訓練類似於一名新醫生通過實踐提高她/他的醫療技能。我們所有的模擬實驗都基於gpt-3.5-turbo-1106 API。


5.2 實驗結果

基於所描述的設置,我們進行實驗以驗證所提出的MedAgent-Zero的有效性。圖6顯示了訓練期間三項任務的準確性變化,圖7顯示了訓練過程中測試集上的準確性變化(每100個訓練樣本評估一次)。



從實驗結果來看,我們有以下結論。首先,提出的MedAgent-Zero策略有效地增強了醫生代理在三項任務上的能力,對10,000個訓練樣本的累積準確性顯示出持續增長。檢查、診斷和治療的最佳表現分別為88%、95.6%和77.6%。這表明,我們的代理在訓練階段不斷進化,就像人類醫生在治療數千名患者後變得經驗豐富一樣。此外,代理進化比人類更有效,因為人類醫生可能需要兩年多的時間來治療一萬名患者。


其次,原始GPT-3.5在三項醫療任務上的表現較差(沒有訓練樣本時的準確性),測試集上的精確度都低於0.4。然而,經過訓練,醫生代理在測試集上的表現迅速提高。雖然存在波動,但診斷和治療任務的準確性持續提高。檢查任務的表現變化更大,可能是由於任務的複雜性(每個問題可能有多個正確答案)。


第三,儘管僅使用醫療記錄庫或經驗庫進行訓練時准確性也在不斷提高,但測試集上的表現不如同時使用兩者。





5.3 進一步分析

5.3.1 不同疾病的表現

為了進一步驗證MedAgent-Zero在不同疾病上的表現,我們繪製了圖8、圖9和圖10來分別展示檢查、診斷和治療準確性。


根據結果,一個共同趨勢是,更多的訓練樣本有助於在不同任務的不同疾病上獲得更好的表現。此外,乙型流感是一種難以處理的疾病,因為我們的醫生代理在所有三項任務中對這種疾病的表現最差。而支氣管哮喘很容易處理,其檢查和治療精確度最高。





5.3.2 經驗積累

圖11、圖12和圖13分別顯示了檢查、診斷和治療任務中有效經驗和錯誤答案的累積情況。當訓練樣本增加時,經驗數量和錯誤答案數量都緩慢增加。如圖所示,經驗曲線低於錯誤答案曲線。原因是我們的代理無法從所有失敗中反思經驗。此外,診斷經驗比其他任務更容易積累。





請注意,所有正確樣本都添加到醫療記錄庫中,因此數量和趨勢與圖6相似。


5.3.3 案例研究

為了進一步分析醫療記錄庫和經驗庫的有用性,我們在此進行案例研究。表1說明瞭經驗庫、醫療記錄庫分別以及MedAgent-Zero在患者病例的三項任務上的表現。最初,沒有經驗或醫療記錄時,所有答案都是錯誤的。當只添加經驗時,檢查和診斷反應是正確的,但治療反應是錯誤的。當只添加相關醫療記錄時,檢查反應是錯誤的,而診斷和治療水平反應是正確的。最後,當經驗和記錄同時添加時,醫生可以為所有三項任務提供正確的反應。



圖14顯示,通過添加經驗和記錄,MedAgent-Zero在所有三項任務上都能正確回答,檢索到的每項任務的經驗和示例都有助於最終答案。經驗庫提供了潛在的錯誤觀點和回答時需要特別注意的關鍵點。記錄庫根據累積的醫療記錄提供前k個最相關的參考答案。這個案例說明,經驗庫和醫療記錄庫都有助於完成所有三項任務,它們可以相互補充以獲得更好的結果。





6 真實世界評估

在第5節中,在模擬醫學資料集上驗證了所提出的MedAgent-Zero的有效性。雖然醫療記錄可能只對三類醫療任務有幫助,但我們想驗證累積的醫療經驗是否對現實世界的醫學資料集有用。


6.1 任務定義

為了評估我們的進化設置在現實問題中的有效性,我們在MedQA上將我們的方法與其他基線進行比較,MedQA是一個廣泛認可和權威的醫學問答資料集。MedQA包括多項選擇格式的問題,反映了用於評估醫學專家能力的醫學執照考試問題。在這個資料集上的更高準確性表明醫生代理更好的醫療能力。


由於我們目前在Agent Hospital中只生成了有關呼吸道的疾病,如COVID-19和甲型流感,我們只通過GPT-3.5從MedQA測試集中選擇相關問題。最後,有一個由72個問題組成的子集,我們進一步的實驗在這個資料集上進行。


6.2 實施細節

對於推理,我們採用MedAgent-Zero,結合來自醫學文獻學習的醫療記錄庫(第4.2.2節)和來自Agent Hospital患者治療的經驗庫(第4.2.1節)。這種組合的原因是醫學文獻與現實情況很好地一致,因此派生的成功記錄包含準確的醫學資訊,而患者治療的經驗更具體,可以無限累積。經驗庫包括從醫生代理的錯誤檢查和診斷中得出的經驗,因為這些過程包含最有價值的醫學知識。



我們從零到十之間調整經驗和記錄的數量,選擇驗證經驗的前k個和最相似記錄的前k個來形成推理提示,都是2。對於累積的經驗庫,我們選擇在Agent Hospital中每診斷2,000個患者病例的關鍵幀。我們最終總共有8,000個患者病例,因為性能高於所有基線。醫生代理的LLM版本是gpt-3.5-turbo-1106和gpt-4-1106-preview。


6.3 實驗結果

實驗結果如表2所示。首先,MedAgent-Zero在呼吸系統疾病資料集上取得了最佳性能,當使用GPT-3.5時,優於SOTA方法Medprompt 2.78%,當使用GPT-4時,優於SOTA方法MedAgents[24] 1.39%。結果驗證了我們的模型有助於代理進化,只使用模擬和醫學文獻,而無需MedQA的任何訓練樣本,有效地增強了醫生代理的醫療能力。其次,基於GPT-4的MedAgent-Zero的最佳性能為93.06%,優於MedQA資料集中的人類專家(約87%)。第三,基於GPT-4的醫療代理在vanilla或任何其他方法中的表現都優於基於GPT-3.5的,表明GPT-4在醫療領域更強大。


綜上所述,我們的實驗結果表明,當在Agent Hospital中通過MedAgent-Zero策略進化時,醫療代理可以從模擬患者和醫學文獻中學習,並總結有用的經驗,在真實世界的醫學考試中取得最佳成績,即使沒有人工標注資料。


6.4 進一步分析

6.4.1 消融研究

為了進一步驗證所提出的兩個模塊的有效性,我們進行了消融研究,結果總結在表3中。首先,MedAgent-Zero同時利用醫療記錄庫和經驗庫,取得了最佳性能,表明兩個模塊都很有幫助。其次,當使用GPT-4推理時,記錄庫和經驗庫一起的結果比單獨使用記錄或經驗高1.39%和2.78%,表明這兩部分具有協同效應,記錄庫對最終結果有很大影響。第三,我們可以發現,當使用GPT-3.5時,僅使用醫療記錄庫或經驗庫進行推理的性能分別優於CoT方法8.33%和2.78%,這證明瞭MedAgent-Zero的兩個模塊的有效性。當我們使用GPT-4進行推理時,它保持相同的趨勢。


6.4.2 經驗積累分析

為了證明在Agent Hospital中治療模擬患者所積累的經驗對真實世界Agent Hospital的影響,我們使用從不同數量模擬患者總結的經驗進行實驗。我們保持實驗設置,使用前2個經驗和前2個成功記錄來幫助回答MedQA測試。我們選擇一些典型的病例點,範圍從0到8,000例。結果如表4所示。




我們可以發現,隨著患者病例的積累擴大經驗庫,準確性總體上越來越高。使用8,000個病例積累的經驗庫的性能高於使用2,000/4,000/6,000個病例的性能,無論使用GPT-3.5還是GPT-4。值得注意的是,更大的經驗庫並不總是更好,因為我們發現在2,000例和4,000例之間有明顯下降。原因可能是這一時期的病例分佈與呼吸系統疾病資料集有顯著差異,並得出了一些無用的經驗。然而,隨著越來越多高質量的經驗,總體趨勢越來越好。


7 討論

7.1 主要發現

首先,我們的研究驗證了在Agent Hospital中自我進化的可能性,為醫療LLMs/代理的研究提供了一種新方法。這一見解展示了代理在模擬環境中進化的新方式,代理可以在沒有人為幹預的情況下提高技能。其次,提出的MedAgent-Zero策略為無參數、無知識的代理進化提供了一種新方法。通過使代理能夠在模擬中通過持續的互動和反饋循環來完善和擴展他們的專業知識,該策略在沒有任何人工標注資料的情況下提高了他們的能力。第三,Agent Hospital展示了良好的可擴展性和互動性,使其適合更複雜的醫療模擬實驗。它的設計允許廣泛的定制和調整,使研究人員能夠在醫療保健領域測試各種場景和互動。


7.2 局限性

我們的工作仍有一些局限性: 1) 只採用GPT-3.5作為Agent Hospital的模擬器和評估。2) 由於代理之間的互動及其進化涉及API調用,我們醫院的效率受到LLM生成的限制。3) 儘管每個患者的健康記錄和檢查結果是在沒有領域知識的情況下生成的,以模擬真實的電子健康記錄,但可能與真實世界的記錄仍有一些差異。


7.3 未來工作

我們對Agent Hospital的未來計劃主要包括以下內容: 1) 擴大模擬中涵蓋的疾病範圍,擴展到更多醫療部門,旨在反映真正醫院提供的全面服務,以進行進一步研究。2) 增強代理的社會模擬方面,如納入醫療專業人員的完整晉升制度,隨時間改變疾病分佈,以及納入患者的歷史病歷。這些修改將增加代理互動和決策的深度。3) 優化基礎LLM模型的選擇和實現,旨在通過利用強大的開源模型來實現整個模擬過程的更高效執行。


8 結論

在本文中,我們基於LLM和代理技術為醫療場景構建了一個醫院模擬器,名為Agent Hospital。Agent Hospital不僅包括兩類角色(醫療專業人員和患者代理)和數十個特定代理,還涵蓋了院內流程,如分診、掛號、就診、檢查和治療計劃,以及院外階段,如患病和康復。在這個Agent Hospital中,我們提出了MedAgent-Zero策略來進化醫療代理,該策略是無參數和無知識的,允許通過模擬患者進行無限的代理訓練。該策略主要包含醫療記錄庫和經驗庫,使其能夠像人類醫生一樣從正確和失敗的治療中積累經驗。在模擬患者資料集上,我們觀察到,隨著患者記錄的增加,醫生代理在檢查、診斷和治療任務上的準確性不斷提高。醫生代理能夠在幾天內完成對數萬名患者的診斷和治療,而人類醫生通常可能需要至少兩年時間。此外,我們發現在Agent Hospital中積累的經驗可以顯著提高醫生代理在MedQA資料集子集上的準確性,甚至達到最先進的性能。我們的研究驗證了利用設計策略進行真實世界模擬可以提高LLM代理在特定任務上的性能。


附錄

B 涉及的疾病知識

B.1 疾病

圖15所描述的COVID-19資訊對於構建受COVID-19影響的患者的健康記錄至關重要。我們目前在知識庫中編譯了八種疾病的詳細醫學資訊,以構建模擬醫院環境。未來,我們將納入更廣泛的疾病,以確保患者資訊的多樣性和準確性。



B.2 資料分佈

我們研究中的患者病例資料在幾種疾病中均勻分佈,包括急性鼻咽炎、急性鼻炎、支氣管哮喘、慢性支氣管炎、COVID-19、甲型流感、乙型流感和支原體感染。下表和圖中詳細說明瞭這些資料的分佈情況。




B.3 患者電子健康記錄示例


個人資訊

姓名:Kenneth Morgan

年齡:42歲

性別:男

病史:糖尿病, 慢性阻塞性肺病

疾病資訊

疾病:急性鼻咽炎

嚴重程度:重度

症狀:咳嗽,高燒,呼吸困難,急性肌肉疼痛,完全失去嗅覺和味覺,喉嚨痛

持續時間:症狀在過去48小時內迅速升級

檢查結果

血液檢查:

ALT (丙氨酸氨基轉移酶): 45 IU/L (正常範圍 7-40)

AST (天門冬氨酸氨基轉移酶): 50 IU/L (正常範圍 13-35)

尿素: 7.0 mmol/L (正常範圍 2.6-8.8)

肌酐 (Cr): 95 μmol/L (正常範圍 41-81)

甘油三酯 (TG): 1.5 mmol/L (正常上限 1.7)

總膽固醇 (TC): 6.0 mmol/L (正常上限 5.18)

乙型肝炎表面抗原 (HBsAG): 陰性

HIV抗體檢測 (anti-HIV): 陰性

梅毒檢測 (RPR): 陰性

白細胞計數 (WBC): 3.0×10^9/L (正常範圍 3.5-9.5)

紅細胞計數 (RBC): 3.8×10^12/L (正常範圍 3.5-5.5)

紅細胞比容 (Hct): 35% (正常範圍 35-50)

血紅蛋白 (Hb): 110 g/L (正常範圍 115-150)

血小板計數 (PLT): 200×10^9/L (正常範圍 125-350)

淋巴細胞百分比 (LYMPH%): 15% (正常範圍 20-50)

中性粒細胞百分比 (NEUT%): 80% (正常範圍 40-75)

淋巴細胞絕對值 (LYMPH#): 0.45×10^9/L (正常範圍 1.3-3.2)

中性粒細胞絕對值 (NEUT#): 2.4×10^9/L (正常範圍 1.8-6.3)

單核細胞絕對值 (MONO#): 0.3×10^9/L (正常範圍 0.2-1.0)

單核細胞百分比 (MONO%): 10% (正常範圍 3-10)

嗜酸性粒細胞絕對值 (EO#): 0.02×10^9/L (正常範圍 0.02-0.52)

嗜酸性粒細胞百分比 (EO%): 0.7% (正常範圍 0.4-8.0)

嗜鹼性粒細胞絕對值 (BASO#): 0.01×10^9/L (正常範圍 0-0.06)

嗜鹼性粒細胞百分比 (BASO%): 0.3% (正常範圍 0-1)

平均血小板體積 (MPV): 11 fl (正常範圍 9-13)

乳酸脫氫酶: 250 U/L (正常範圍 135-225)

肌肉酶 (CK): 200 U/L (正常範圍 男性 22-198)

肌紅蛋白: 80 ng/mL (正常上限 90 ng/mL)

肌鈣蛋白I: 20 ng/L (正常上限 14 ng/L)

鐵蛋白: 600 ng/mL (正常範圍 男性 20-500)

C反應蛋白 (CRP): 50 mg/L (正常上限 3 mg/L)

紅細胞沉降率 (ESR): 40 mm/hr (正常範圍 0-20)

降鈣素原: 0.5 ng/mL (正常範圍 0.5)

D-二聚體: 1.0 mg/L FEU (正常範圍 0-0.5)

Rh血型: 陽性

ABO血型: O型

特異性抗原: SARS-CoV-2 核衣殼

血銀水準: 60 μg/L (正常範圍 50-150)

胸部X射線檢查: 肺實變伴雙側胸腔積液

胸部CT: 雙肺多發斑片狀磨玻璃影和浸潤影

血清學診斷: 正常

病毒抗原檢測: 陰性

過敏原檢測: 正常

鼻分泌物細菌培養: 正常

呼吸功能檢查: 嚴重受損

痰液檢查: 存在病毒顆粒

鼻咽檢查: 炎症和水腫

血清抗體檢測: SARS-CoV-2抗體陽性

肺功能檢查: 氣體交換受損

核酸擴增檢測: SARS-CoV-2陽性

痰液嗜酸性粒細胞計數: 異常

口咽檢查: 潰瘍和病變

鼻內鏡檢查: 黏膜炎症和充血



個人感想:

關於醫療AI和語言模型在醫療場景中的應用,這確實是一個充滿潛力和挑戰的領域。以下是我對這個主題的一些觀感:

1. **資料整合與處理**: 醫療資料的多樣性和複雜性要求AI系統能夠處理和整合來自不同來源的資料,如臨床記錄、影像學報告和基因組資訊。有效整合這些資料,AI能夠提供更全面、更精確的醫療見解。

2. **自我進化的AI模型**: 透過不斷的學習和適應,AI模型應該能夠不斷優化其診斷和治療建議。如同MedAgent-Zero策略所展示的,透過模擬環境和實際應用中的經驗積累,AI能夠在無需人工直接介入的情況下自我提升。

3. **說明性與透明度**: 在醫療決策中使用AI,尤其需要模型的決策過程是可解釋和透明的。這對於建立患者和醫療提供者對AI系統的信任至關重要。

4. **倫理與隱私**: 隨著AI在醫療領域的應用越來越廣泛,如何保護患者的隱私和確保AI應用符合倫理標準成為一個重要話題。必須確保所有AI系統都在嚴格的倫理框架內操作,尊重和保護患者資料的私密性。

5. **跨學科合作**: 醫療AI的成功實施需要計算機科學家、資料科學家、醫生、護理人員以及政策制定者之間的緊密合作。這種跨學科的合作能夠確保技術解決方案能夠有效地解決實際的醫療問題。

6. **持續監測與評估**: 就像任何醫療技術或治療方法一樣,持續監測AI模型的表現並定期評估其對患者結果的影響是必須的。這有助於及時識別並糾正可能的問題,確保患者接受最優質的護理。


沒有留言:

發佈留言

SambaNova SN40L: 利用Dataflow和專家組合(COE)來克服AI記憶牆的大模型

摘要 GPT-4等整體式大型語言模型(LLM)為現代生成AI應用鋪路。然而,大規模訓練、服務及維護整體式LLM仍然極其昂貴和充滿挑戰。現代AI加速器計算能力與記憶體比例的不成比例增長已經造成了記憶體壁障,需要新的方法來部署AI。最近的研究顯示,許多小型專家模型的組合,每個模型參數...