AI 也需要組隊打怪？揭開 AI「代理人團隊」如何優化醫院流程，以及人機協作的四個發現

簡介：當醫院的「待辦清單」追不上醫學進步

現代醫院的運作，仰賴成千上萬份標準化的「醫囑套餐」（order sets）來確保治療的一致性與效率。然而，醫學知識正以前所未有的速度更新，要讓這些關鍵文件跟上最新的臨床證據，是一場與時間的艱苦賽跑。這不僅是效率問題，更直接關係到潛在的照護品質差距。

以范德比爾特大學醫學中心（VUMC）為例，他們需要維護多達 1496 份醫囑套餐。純靠人力手動審查更新，是一項近乎西西弗斯式（Sisyphean task）的任務——繁重、緩慢，且永遠無法真正追上醫學發現的步伐。為此，一項發表在《JAMA Network Open》上的研究，探索了如何利用一個由大型語言模型（LLM）驅動的「AI 代理人團隊」來應對這項挑戰。這項研究不僅提供了一個可行的解決方案，更從中揭示了關於 AI 在高風險專業領域中應用的幾個深刻啟示。

要點一：AI 也需要團隊合作，單打獨鬥不如「專家小組」

該研究的核心設計並非使用單一、全能的 AI 模型，而是創建了一個由五位專業分工的「AI 代理人」組成的多代理人系統（multiagent system），模仿人類專家團隊的協作模式。這種架構是一項深思熟慮的策略，它採用「檢索增強生成」（retrieval-augmented generation）技術，旨在克服基礎大型語言模型固有的知識截止限制，並避免單一模型容易產生的「幻覺」。這使得系統能夠在不需重新訓練的情況下，持續適應未來的醫學進展。

每個代理人都被賦予了清晰的角色：

內容評論家 (Content Critic Agent): 負責審查醫囑套餐的臨床準確性與相關性，找出過時或不恰當的項目。
動態搜尋代理人 (Dynamic Search Agent): 負責在 PubMed 等公開資料庫中進行搜索，並執行腳本以抓取最新臨床指南的全文。
知識檢索代理人 (Knowledge Retrieval Agent): 負責盤問一個精心策劃的內部知識庫（如 NEJM Journal Watch、StatPearls 等權威醫學資源），以尋找具針對性的循證答案。
藥物驗證代理人 (Medication Verification Agent): 負責核實醫囑套餐中的藥物是否仍在市場上銷售，並確認其藥物分類資訊。
建議總結代理人 (Suggestion Summarizer Agent): 作為團隊的協調者，負責綜合所有代理人的意見，生成一份結構清晰、附有理由的最終建議清單。

這種「團隊合作」模式的價值在於，它透過明確的分工與合作來解決複雜問題。它證明了與其依賴一個試圖包山包海的「通才」AI，不如組建一個各司其職的「專家小組」，更能產出高品質且有實證依據的結果。

圖1：多代理系統架構與評估工作流程概述

圖示說明了多代理系統的開發與評估過程。開發期間使用了 45 個醫囑集。系統架構由五個代理組成——內容批評、動態搜尋、藥物驗證、知識檢索與建議摘要器——這些代理會互動產生建議。評估分為兩個階段進行。評估 1 包含 9 組醫囑，產生 96 項建議，由 3 位醫師評分，評估準確性、可行性、實用性及影響。評估 2 擴展至 62 組醫囑和 639 項建議，其中 1 位醫師辨識了有用的建議。

要點二：AI 建議的悖論：「技術上正確」不等於「臨床上有用」

研究的結果揭示了一個在醫療 AI 評估中的關鍵區別：事實準確性與臨床實用性之間的巨大鴻溝。AI 系統針對 9 份醫囑套餐生成了 96 條建議，人類醫生對其進行評分後，結果揭示了一個深刻的悖論。

數據顯示：

54% 的建議被評為高度準確 (factually correct)。
但只有 19% 被認為高度有用 (useful)。
僅有 16% 具備可行性 (feasible)。
更只有 12% 具有直接的臨床影響力 (impact)。

圖3：醫師對 AI 生成建議在四項關鍵指標上的評分

這張發散條狀圖顯示醫師對 96 項人工智慧（AI）產生建議的評分分布，該建議依據從「強烈不同意」（深灰色）到「強烈同意」（深藍色）的 5 分等級。建議涵蓋四項指標（由左至右）：準確性、實用性、可行性、影響力。

這個差異背後的原因，部分源於系統的設計初衷。研究人員解釋，他們優先考慮生成一個更廣泛的建議池，以避免遺漏任何有價值的見解。這是一種在「敏感度」（不錯過好點子）與「特異度」（減少噪音）之間的策略性權衡。然而，這也導致許多建議雖然在事實上是正確的，卻缺乏對特定臨床工作流程和情境（context）的理解。

例如，研究中提到一條建議是「為行為健康入院醫囑添加一個基礎實驗室檢查套餐」。這條建議之所以被評為低有用性，並非因為它不符合工作流程，而是因為其本身的「模糊性」——審閱的醫生指出，他們無法確定這個特定的檢查套餐是否符合「該醫囑套餐使用者」的正確臨床工作流程。

"The modest useful suggestion rate (19%) highlights a key challenge: many suggestions, while factually correct, lacked the specific clinical context to be deemed useful."

要點三：讓 AI 學會像專家一樣思考，只需一點點人類智慧的校準

面對「有用性」的難題，研究人員採用了一種名為「以 LLM 為評審」（LLM-as-a-judge）的巧妙方法。這個技術是利用第二個大型語言模型作為公正的評估者，來對第一個系統的輸出進行評分，從而實現評估過程的自動化與規模化。

他們首先讓一個 AI 評審對所有建議的「有用性」進行評分。結果，這個 AI 評審的初始評分與人類醫生的評分幾乎沒有一致性，其一致性指標（Cohen κ 值）僅為 0.06，代表「差劣的共識」（poor agreement）。這再次證明了 AI 最初無法掌握人類專家所看重的「臨床價值」。

然而，關鍵的轉折點發生了。研究人員僅用了 96 個由人類專家評分過的案例來「校準」（align）這個 AI 評審。經過這次簡短的「指導」，AI 評審的「有用性」內部模型成功地被重新校準，以更好地反映臨床專家的細微優先級。其評分與人類專家的一致性大幅提升至 0.41，達到了「中等的共識」（moderate agreement）水平。

這次校準的實際效益極其顯著：使用校準後的分數進行過濾，可以在減少 29% 建議總數的同時，保留 92% 的有用建議。這個發現極其重要，它證明了 AI 的效能可以透過少量、高品質的人類專家回饋來顯著提升。AI 不僅需要數據，更需要學習人類專家的「價值判斷」與「偏好」，才能進化成一個能理解情境的得力助手。

圖2：將 AI 生成建議與專家醫師偏好對齊的工作流程
此流程圖詳述了 LLM 作為評審建立自訂篩選器的流程。LLM 首先評估從 62 個醫囑集合中 639 個建議的實用性。這些初步分數會透過專家偏好對齊流程進行精煉，該流程使用醫師評分與來自較小資料集（96 項建議）的評論。LLM 的前後比對分數與醫師評分之間的一致性，則以 Cohen κ 來衡量。此過程產生量身訂做的過濾器，能保留專家認為有用的建議比例較高。

要點四：AI 最好的角色，或許是激發靈感的「思考夥伴」

研究還揭示了一個更深層次的觀點：即使 AI 的建議不完全正確或不直接適用，它仍然可以扮演一個極具價值的「思考夥伴」（thought partner）角色。正如研究中所述：「此外，一些建議雖然直接用處不大，但可以啟發專家，也可能與病人護理高度相關。」

一個最具啟發性的案例出現在「成人肺移植後常規門診方案」的醫囑套餐中。AI 建議，應考慮使用 metformin 或胰島素來管理移植後的糖尿病。一位醫生在評論中指出，雖然直接在這個套餐中開立這些藥物並不適用，但這條建議卻讓他反思了一個更根本的問題：「我們是否應該將『糖化血色素檢測』加入到套餐中，以更好地監測病人的血糖狀況？」

這個由 AI「不完美」建議所激發的靈感，最終可能帶來對病人護理的實質性改善。這說明，AI 的價值不僅在於提供完美的、可直接執行的答案，還在於它能提出新穎的觀點，激發人類專家從新的角度審視既有流程，從而產生更高層次的洞見。

這項研究為何如此重要

這項研究的意義遠不止於優化醫囑套餐。它實際上是 AI 在任何複雜、高風險專業領域（無論是法律、工程還是金融）中應用的縮影。它揭示了一個核心原則：在這些領域，脫離情境的技術準確性價值有限。真正的突破來自於將 AI 的計算能力與人類專家的領域知識、工作流程理解和價值判斷相結合。這項工作為我們提供了一個將 AI 從理論工具轉變為可信賴的協作夥伴的實踐藍圖。

結論：從「自動化」到「人機協同」的未來

這項研究為我們描繪了一幅關於 AI 應用的清晰藍圖。它告訴我們，AI 在複雜的專業領域中，以「團隊」形式工作比單打獨鬥更有效；臨床「情境」是衡量 AI 建議價值的最終標準；而最關鍵的是，AI 能夠學會使其建議與人類專家的臨床優先順序和情境判斷保持一致，而這只需要少量專家的「校準」。

這讓我們得以展望一個更具體的未來。想像一下，一個由「臨床決策支援專家」負責分類 AI 建議，再由「專科醫師」進行高效的非同步審查的工作流程。當醫院裡每一個複雜的臨床流程背後，都有這樣一個經過精心校準的 AI 團隊在輔助人類專家時，我們將能達到怎樣的醫療品質新高度？這或許預示著一個新時代的來臨——我們追求的不再是單純的「自動化」，而是實現深度、高效的「人機協同」。

參考文獻與心得

一、研究資料來源

本篇部落格文章主要基於以下學術研究論文，進行內容整理與個人學習筆記的撰寫：

中文標題：使用大型語言模型驅動的多代理系統來優化醫囑集
英文原始標題： Optimizing Order Sets With a Large Language Model–Powered Multiagent System
作者： Liu S, Huang SS, McCoy AB, Wright AP, Horst S, Wright A。
期刊： JAMA Network Open
卷期與頁碼： 2025;8(9):e2533277。
發布日期： 2025年9月23日（線上發布）。
DOI： 10.1001/jamanetworkopen.2025.33277
文章網址： https://doi.org/10.1001/jamanetworkopen.2025.33277

二、學習筆記與心得

這篇文章是林嶔教授在 AMIA 研討會聽到後分享給我的，他認為這篇研究展示了 LLM 的潛力，可能可以解決一些臨床需要進行 deep research ，而得到的資訊有可能可以改變 outcome 的情境。這次研讀這篇發表在 JAMA Network Open 上的論文，讓我對於 LLM 在高風險、高複雜度的臨床應用場景中，如何從「高準確度」邁向「高實用性」有了更深刻的理解。

1. 方法學的亮點：多代理 RAG 架構的必要性

這篇研究最吸引人的地方，在於它不是簡單地把 GPT-4o 丟進去讓它生成建議，而是建立了一個精密的五代理協作系統：從內容評論、動態搜尋、知識檢索到藥物驗證，最後由摘要代理整合輸出。

這套架構的核心是檢索增強生成（RAG）。這解決了 LLM 應用於醫療領域的兩大痛點：知識截止限制（Knowledge Cutoff）事實幻覺（Hallucination）。透過 RAG，系統能夠從超過 5,100 萬字的臨床知識庫中檢索內容，並將建議建立在最新的臨床證據上。這使得其生成的 96 條建議中，沒有一條被判定為幻覺。

2. 關鍵的挑戰：從「技術正確」到「臨床有用」

研究結果揭示了一個對 AI 落地來說極為重要的現實：生成的建議雖然有 54% 被評為高度準確，但高度實用（Useful）的比例卻只有 19%。

身為研究者，這個數字給我們敲響了警鐘。許多建議在事實上是正確的，但卻缺乏對特定臨床工作流程和機構優先順序的理解。例如，建議增加某項實驗室檢查，但如果這個檢查不符合該科別的工作流程，醫生就不會認為它有用。

3. 克服鴻溝：專家對齊（Expert Alignment）是王道

這篇論文最精華的部分，是它如何透過「LLM 作為評審」（LLM-as-a-judge）的方法，並結合專家偏好對齊來彌補這個「實用性鴻溝」。

研究人員使用少量醫師註釋的案例（96條建議）去「訓練」另一個 LLM 評審，使其理解人類專家判斷「有用性」的標準。結果非常驚人：LLM 評分與醫師評級的一致性 Cohen κ 值，從對齊前的 0.06（一致性差）大幅提升到 0.41（中等一致性）。

這說明了在複雜領域，AI 必須透過人機協作的回饋迴路進行校準，才能真正滿足終端用戶（臨床醫師）的需求。最終開發出的篩選器，能夠在保留 92% 有用建議的同時，將醫師需要審查的總建議數減少 29%—這才是真正的效率提升！

未來的 LLM 應用，重點可能不在於模型多大，而是如何設計有效的多代理協作機制，以及如何高效地進行小樣本的專家偏好對齊，以確保系統輸出的不是「學術上正確」，而是「臨床上實用」。

三、結構化摘要

本研究旨在應對臨床醫囑集（Order Sets）人工審查耗時且難以即時跟上臨床證據更新的挑戰，藉此開發並驗證一個具備高度可擴展性的智慧化解決方案。

具體目標 (Specific Objectives)

系統開發與評估： 開發並評估由大規模語言模型（LLM）驅動的多代理系統在優化醫囑集方面的實用性（utility）。

提升決策支持： 旨在開發並評估一個與專家偏好對齊的LLM多代理系統，以提升臨床決策支持（CDS）中醫囑集優化的準確性、相關性及效率。

研究問題 (Research Question)

與專家評估相比，由大規模語言模型驅動的多代理系統在生成醫囑集優化建議方面的實用性（utility）為何？。

研究方法 (Methodology)

研究設計與場域： 本研究為一項世代研究（cohort study），遵循流行病學觀察性研究報告強化指南（STROBE）進行報告。研究執行於范德堡大學醫學中心（VUMC）。

系統架構與模型：

開發了一個基於檢索增強生成（RAG）過程的LLM驅動多代理系統。
基礎模型採用 Generative Pre-trained Transformer 4o (GPT-4o)。
系統包含五個協作代理：內容批評代理（Content Critic Agent）、動態搜尋代理（Dynamic Search Agent）、知識檢索代理（Knowledge Retrieval Agent）、藥物驗證代理（Medication Verification Agent）和建議總結代理（Suggestion Summarizer Agent）。

知識庫： 知識檢索代理使用了超過 5,100 萬字（51,562,594 字）的內容，來源包括《新英格蘭醫學雜誌》的 Journal Watch（2022年1月至2024年7月）、Pocket Medicine（第7版）、StatPearls，以及 VUMC 的住院醫師手冊（VIMBook）。

實驗設計： 包含兩項實驗，總共評估了 71個醫囑集，產生 735 條建議。

實驗一：多代理系統評估

評估一： 針對 9 個高使用率醫囑集生成的 96 條建議，由 3 位 EHR 認證的醫師建構者（physician builders）使用 1 到 5 分的李克特量表（Likert scale）進行評級，評估指標包括準確性（Accuracy）、實用性（Usefulness）、可行性（Feasibility）和影響（Impact）。同時分析建議與歷史醫囑數據（25th至75th百分位數使用閾值）的對齊程度。

評估二： 針對額外的 62 個醫囑集生成的 639 條建議，由 1 位醫師進行二元實用性評級（有用或無用）。

實驗二：定製化過濾器開發

實施 「LLM即評判者」（LLM-as-a-judge）方法，使用來自評估一（96條建議）的少量專家註釋作為少量樣本提示（few-shot prompting）來校準（align）單獨的 GPT-4o 模型，使其評分與專家偏好對齊。

隨後訓練邏輯迴歸模型作為過濾器，用於根據校準後的實用性分數來篩選建議。

結果 (Results)

系統初始準確度： 在針對 45 個手動修改的醫囑集進行開發測試時，系統的總體準確度達到 88% (移除藥物正確率 91%，新增藥物正確率 84%)。

專家評級分佈（96條建議）： 雖然有 54% 的建議被評為高度準確（得分 ≥ 4），但被評為高度實用、可行或具備直接影響的比例則低得多，分別為 19%、16% 和 12%。

實用性率（639條建議）： 總體而言，只有 19% (122 條) 的建議被評為有用。中位數而言，每個醫囑集有 2 條有用建議。

過濾器性能與對齊效果：

在專家對齊之前，LLM 生成的實用性分數與醫師評分之間沒有關聯性。

透過少量樣本對齊後，LLM 評分與醫師評分的一致性 (Cohen κ) 從 0.06（一致性差）顯著提升至 0.41（一致性中等）。

使用經校準的分數進行過濾，可將總建議數量減少 29% (保留 453 條建議)，同時保留了 92% 的有用建議。

結論 (Conclusions)

1. 貢獻 (Contributions)

提供可擴展的解決方案： 證明 LLM 驅動的多代理系統在優化醫囑集方面的可行性，為傳統上資源密集型的手動審查任務提供了一個系統化、具備證據基礎且可擴展的基礎。

專家角色轉變： 系統能自動生成具體、有針對性的建議清單，將臨床決策支持（CDS）專家的角色從手動發現潛在改進項轉變為高效的驗證。

增強 LLM 評估準確性： 透過使用少量專家註釋（96 條）進行對齊，顯著提高了 LLM 對大規模建議集（639 條）實用性評估的一致性，Cohen κ 值從 0.06 提升至 0.41。

優化審核工作量： 開發出的定製過濾器能夠在僅減少 8% 有用建議的前提下，將總審核工作量減少 29%，有效平衡了保留臨床價值與減輕醫師負擔的需求。

2. 限制 (Limitations)

單一中心限制： 本研究僅在單一學術中心（VUMC）進行，儘管 EHR 基礎設施增強了技術的可轉移性，但研究結果的普遍性可能受到限制。

樣本代表性： 所選擇的高使用率醫囑集可能不具備全面的代表性。

評審者數量限制： 醫師建構者評估員數量少，可能無法反映所有臨床醫生的觀點。

假陰性未量化： 研究設計未系統性地量化假陰性（false negatives）。

可追溯性未直接評估： 未直接評估建議對其證據來源的可追溯性（traceability）。

3. 未來方向 (Future Directions)

增強推理與知識基礎： 未來的研究應專注於完善模型的推理能力（reasoning capabilities）和擴展知識庫。

系統比較： 應比較此多代理架構與單一代理系統的效能。

定量評估框架： 應實施量化評估建議忠實性（faithfulness）和證據可追溯性的框架（如 eAppendix 5 中詳述的框架），以建立臨床信任並促進 EHR 整合。

整合與參與： 促進有用建議整合至電子健康記錄（EHRs），並積極讓醫囑集終端使用者作為人工智慧支持的人類審查者參與其中。

臨床實施： 遵循擬議的真實世界實施和維護工作流程（eAppendix 3），實現自動生成、CDS 專家分流，並由領域醫師專家進行高效異步審查.

本研究證實，利用 LLM 和多代理系統能為醫囑集優化提供一種系統化且可擴展的方法。透過與一小部分專家評分進行校準，能夠顯著增強 LLM 的評估能力。

學術隱喻 (Academic Metaphor):

如果說臨床醫囑集是醫院臨床知識和工作流程的「憲法典」，那麼傳統的人工審查就像是憲法修訂委員會，雖然專業但修訂速度緩慢，難以跟上日新月異的醫學證據。而這個 LLM 驅動的多代理系統，則像是一個由五個專門領域的法律助理組成的「AI 偵查團隊」：它們能夠大規模且系統地掃描所有最新的醫學判例和法律（RAG），高效地找出「憲法典」中過時、缺失或有爭議的條款（生成建議）。隨後，定制化篩選器（由專家校準的邏輯迴歸模型）則扮演了「高效法律書記官」的角色，確保只將最有機會被通過並實際執行的修訂案（實用性高的建議）提交給最終的憲法修訂委員會（人類專家）審批，從而大幅減少專家的工作量，提高審查流程的吞吐量。

備註：上述內容為 AI 撰寫，內容經發布者編修審閱，供個人進修與學習使用。

HackMD

mushrooba

2025-11-18

[研究] 使用大型語言模型驅動的多代理系統來優化醫囑集 Optimizing Order Sets With a Large Language Model–Powered Multiagent System