2025-11-14

[研究] 基於文獻回顧建立的醫療領域大型語言模型人工評估框架 A Framework for Human Evaluation of Large Language Models in Healthcare Derived from Literature Review


1. 簡介:我們如何真正評估醫療 AI?

生成式 AI (如 GPT-4) 正以前所未有的速度席捲醫療保健領域,為輔助診斷、解答病患疑問描繪出革命性的前景。然而,在這股浪潮之下,一個攸關生死的根本問題正威脅著整個醫療 AI 的未來:「在我們將這些強大的模型部署到診所與醫院之前,我們如何真正確保它們是安全、可靠且有效的?」

傳統的自動化指標(如準確率)在評估複雜的臨床推理與溝通品質時顯得捉襟見肘,這使得「人為評估」成為了確保 AI 品質的最後一道、也是最重要的一道防線。然而,我們用來守護這道防線的方法本身,是否足夠嚴謹?一篇針對 142 項研究的系統性文獻回顧,揭示了當前評估實踐中一個令人不安的現實:我們的評估方法,可能遠遠跟不上 AI 的發展速度。這不僅是一個學術發現,更是整個行業面臨的關鍵瓶頸。以下,是這份報告中揭示的四個發現。


2. 核心發現:醫療 AI 評估的四大發現


2.1. 最高風險,最少審查:臨床決策 AI 的監督漏洞

根據文獻回顧,大型語言模型在醫療領域最普遍的應用是「臨床決策支援」(Clinical Decision Support, CDS),佔比高達 28.1%。這類應用直接影響醫生的診斷和治療建議,無疑是所有應用中風險最高的領域。

在我們最需要嚴謹性的地方,反而投入了最少的監督資源。數據顯示,儘管 CDS 屬於高風險應用,但相關研究中,參與評估的「人為評估員」中位數僅有 2 人——這是所有應用類別中的最低數字。這意味著最關鍵的應用,正由最薄弱的監督體系在進行驗證。試想,一家醫院部署一個僅由兩位專家審核過的 AI 決策工具,將面臨多大的潛在責任風險?這揭示了在「快速部署 AI」的熱潮與「確保臨床驗證嚴謹性」的需求之間,存在著一道危險的鴻溝。


圖 1:大型語言模型在醫療領域的應用。



2.2. 看不見的偏見:多數研究竟忽略了評估的「黃金標準」

在科學研究中,「盲評」(Blinded Assessment)是確保客觀性、避免偏見的黃金標準。這意味著評估者在評分時,並不知道他們審核的內容來自 AI 還是人類專家,從而能僅憑內容品質做出公正判斷。

這項研究揭示了一個重大的方法學缺陷:在 142 篇研究中,僅有 29% 明確表示使用了盲評,而高達 56% 的研究甚至完全沒有提及是否進行了盲評。缺乏盲評,意味著超過一半的研究結果可能受到了評估者預設立場的污染,可能系統性地高估或低估了 AI 的真實能力。當我們談論的是關乎生命的醫療決策時,這種潛在的偏見是不可接受的,它嚴重削弱了研究結果的可信度,也為未來的監管審批埋下了隱憂。


2.3. 一場沒有對手的比賽: 26% 研究缺乏任何客觀比較基準

要判斷一個醫療 AI 模型的好壞,不能只看它自己的表現。我們必須將其與一個基準進行比較——無論是人類專家、其他 AI 模型,還是既定的臨床指南。唯有比較,才能衡量其真正的價值。

約 26% 的研究根本沒有進行任何比較分析。這相當於舉辦一場只有一名選手的比賽,然後宣布他跑得「不錯」。沒有對照組,我們無法判斷 AI 的表現是卓越、平庸還是危險。這不僅讓超過四分之一的研究成果價值大打折扣,更反映出在評估設計上普遍存在的嚴謹性不足。如果連最基本的比較基準都缺乏,我們又該如何信賴這些研究的結論?


已審查研究中的比較分析方法分佈

根據文獻回顧(Supplementary Figure 2),超過一半的研究將 LLM 的結果與人類進行比較,但令人驚訝的是,約有 26% 的研究完全沒有進行任何比較分析。


2.4. 深度或廣度?研究揭示評估資源的「不可能三角」

直覺上,我們可能會認為,研究的樣本量越大,理應需要越多的評估員來確保評估品質。

然而,數據(Figure 5)揭示了一個反直覺的「反向關係」:評估的樣本越多,人為評估員的數量反而越少。這揭示了研究者在現實中被迫做出的艱難權衡,一個關於評估資源的「不可能三角」。他們不得不在「深度」(由多位專家對少量樣本進行深入剖析)和「廣度」(由極少數專家或非專家對大量樣本進行淺層審查)之間做出選擇。

這引出了一個關鍵的戰略問題:當一個號稱可靠的 AI 模型,其驗證報告是基於數千個臨床案例,卻僅由一兩位評估員審核時,我們還能信任其結論嗎?這顯示出業界可能正傾向於追求可擴展但膚淺的評估,而這對病患安全構成了直接威脅。


評估樣本數與人為評估員數量的關係

如圖所示(Figure 5),這兩者之間存在明顯的反向關係,顯示了在招募大量評估員來評估大量樣本方面可能面臨的挑戰。


3. 前進的道路:隆重介紹 QUEST 框架

指出現有的混亂與不足只是第一步。值得慶幸的是,該研究不僅僅是敲響警鐘,更為我們提供了一張走出這片方法學迷霧的地圖——一個名為「QUEST」的綜合性人為評估框架。這不僅是一個學術建議,更是整個行業急需的標準化「劇本」,旨在引導我們進行更嚴謹、更可靠的 AI 驗證。QUEST 框架為負責任的創新提供了一條清晰的路徑。


表 1 QUEST:用於醫療領域大型語言模型人工評估的五大原則與對應面向


QUEST 框架是一項專為醫療保健領域大型語言模型(LLMs)所設計的全面且標準化的人類評估框架。這項框架是透過對 142 篇現有文獻進行範圍審查後提出的,旨在克服當前人類評估實踐中在可靠性、通用性和適用性方面存在的顯著不足。QUEST 框架的內涵包含三個系統化的工作流程階段:規劃(Planning)、實施與裁決(Implementation and Adjudication)、以及計分與審查(Scoring and Review)。

QUEST 的核心在於其五大評估原則,這些原則由首字母縮寫 QUEST 代表:

  1. Quality of Information(資訊品質):檢視 LLM 回應的準確性、相關性、時效性、全面性、一致性、一致性與實用性等多個維度。
  2. Understanding and Reasoning(理解與推理):評估 LLM 解讀使用者提示的能力及其回應中是否應用了邏輯推理。
  3. Expression Style and Persona(表達風格與角色):衡量 LLM 回應的清晰度與同理心。
  4. Safety and Harm(安全與傷害):關注回應中是否存在偏見、潛在傷害、自我意識,以及編造、偽造或剽竊等安全問題。
  5. Trust and Confidence(信任與信心):考量使用者對 LLM 回應所賦予的信任度與滿意度。

QUEST 的價值與貢獻在於它為醫療 AI 的評估工作提供了可執行的指南。由於 LLMs 仍是「黑箱」模型,缺乏可追溯性、可靠性與信任度,且傳統的自然語言處理(NLP)定量評估方法難以有效評估 LLMs 生成文本的新穎性、臨床實用性和準確性,因此,建立一套與人類價值觀相符的評估框架至關重要。QUEST 透過提供一個全面且系統化的方法來評估 LLM 的安全性、可靠性及有效性,是實現 LLMs 在醫療保健中發揮全部潛力的關鍵基礎。

若讀者希望將 QUEST 框架應用於實際的評估工作中,特別是在設計人類專家評量表時,該框架提供了極為有用的指導。您可以參考原文中的附錄表 1(Supplementary Table 1),其中列出了如急診科病患檢傷分流等特定臨床情境下,實際用於評估 LLM 輸出的詳細問卷範例。同時,主文中的表 1 詳細定義了 QUEST 的五大原則和 17 個評估維度,而表 2 則提供了與這些維度相對應的具體評估問題範例。

這個框架的出現,意味著我們有機會從現在開始,為未來的醫療 AI 研究建立一個更堅實、更值得信賴的評估基礎。


4. 結論

大型語言模型在醫療領域的潛力無可限量,但通往安全、有效應用的道路必須建立在嚴謹的科學驗證之上。當前的評估實踐中存在的系統性漏洞,是對這份潛力的巨大威脅。人為評估是我們確保 AI 醫生值得信賴的最後一道防線,而這道防線,迫切需要加固與標準化。

當我們準備將健康託付給 AI 時,我們敢用比要求人類醫生更寬鬆的標準來審視它們嗎?


------------------------------------------------------------------------------------------

結構化總結:醫療保健領域大型語言模型人類評估框架


一、 研究問題與目標 (Research Questions and Objectives)

本研究旨在透過系統性文獻回顧,解決 LLMs 在醫療保健中日益普及所帶來的安全性與有效性評估問題。

  • 主要研究動機/現狀挑戰:
    • 目前的人類評估實踐在可靠性、通用性(Generalizability)和適用性方面存在明顯的不足和差距
    • LLMs 仍是「黑箱」(black boxes)模型,缺乏可追溯性、可靠性和信任度。
    • 傳統的自然語言處理(NLP)定量評估指標(如 BLEU、ROUGE)無法充分評估 LLMs 的生成性質、臨床實用性和準確性
    • 缺乏針對醫療保健 LLMs 人類評估的既定指南或最佳實踐,這可能導致評估不一致、不可靠,最終危及患者安全
  • 主要研究目標:
    1. 識別與分析:識別並分析報告人類對跨越不同醫學領域、任務和專業的 LLMs 進行評估的研究。
    2. 探索變異性:探索在複雜醫療保健情境中,用於評估 LLMs 的人類評估方法維度和變異性。
    3. 綜合實踐:根據文獻見解,綜合提出設計和實施嚴謹、可靠、有效且合乎倫理的人類評估的建議實踐。
    4. 制定指引:為開發標準化的人類評估框架提供可行性指引,以應用於醫療保健領域的 LLMs。


二、 研究方法 (Research Methods)

本研究採用了範圍審查(Scoping Review)方法。

  • 審查規範:遵循《系統性回顧和薈萃分析的首選報告項目:範圍審查擴展》(PRISMA-ScR)的指引,以確保方法嚴謹且可複製。
  • 文獻範圍
    • 涵蓋時間:從 2018 年 1 月 1 日至 2024 年 2 月 22 日期間的出版物。
    • 語言與來源:主要在 PubMed 資料庫中進行檢索,重點是英文的同行評審期刊文章和會議記錄。
  • 篩選與排除
    • 排除非實驗性質的文章類型,如評論(Comment)、預印本(Preprint)、社論(Editorial)和綜述(Review)等。
    • 排除僅檢測非生成式預訓練語言模型(如 BERT、RoBERTa)或多模態研究的文章。
    • 經過兩階段篩選,最終選定 142 篇文章進行全面的文獻回顧。
  • 框架開發:根據文獻回顧的發現,研究開發了一個綜合且實用的 LLM 人類評估框架,命名為 QUEST


三、 主要結果 (Results and Findings)

文獻回顧揭示了 LLMs 在醫療保健中的應用分佈、評估實踐的多樣性,以及當前方法的局限性。

  • LLM 應用分佈 (Top 4):

    • 臨床決策支持 (CDS):佔已分類任務的 28.1%,是最普遍的應用。
    • 醫學教育與考試:佔 24.8%
    • 病患教育:佔 19.6%
    • 醫學問答:佔 15.0%
  • 醫學專業分佈放射科領先(n=12),其次是泌尿科(n=9)和普通外科(n=8)。

  • 評估樣本與評估者數量:

    • 大多數研究的人類評估樣本量為 100 或更少
    • 大多數文章報告的評估者人數為 20 人或更少
    • 研究中觀察到一個潛在的深度與廣度之間的權衡:使用非專家評估的研究,評估維度數量減少,但評估者人數增加。
  • 評估方法與維度:

    • 比較分析:超過一半的研究將 LLM 輸出與人類結果進行比較,約 20% (n=29) 的研究將 LLM 輸出與其他 LLM 輸出進行比較。
    • 盲法評估:在 142 項研究中,只有 41 項 (29%) 明確提及使用盲法評估。
    • 統計分析:最常用的統計方法包括 T 檢驗(n=17)、Mann–Whitney U 檢驗(n=11)和卡方檢驗(Chi-Square test, n=11)。Cohen's Kappa 和 ICC 則用於評估評估者間的一致性或可靠性
  • QUEST 評估原則 (五大原則與 17 個維度)

    1. Quality of Information(資訊品質):包含準確性 (Accuracy)、相關性 (Relevance)、時效性 (Currency)、全面性 (Comprehensiveness) 等 7 個維度。
    2. Understanding and Reasoning(理解與推理):包含理解 (Understanding) 和推理 (Reasoning)。
    3. Expression Style and Persona(表達風格與形象):衡量清晰度 (Clarity) 和同理心 (Empathy)。
    4. Safety and Harm(安全與傷害):關注偏見 (Bias)、傷害 (Harm)、自我意識 (Self-awareness)、以及編造、偽造或剽竊 (Fabrication, Falsification, or Plagiarism) 等安全維度。
    5. Trust and Confidence(信任與信心):考慮使用者對 LLM 回應的信任 (Trust) 和滿意度 (Satisfaction)。


四、 結論與建議 (Conclusion and Recommendations)

研究總結了當前評估的不足,並提出了 QUEST 框架作為標準化的解決方案,以確保 LLMs 在臨床應用中的安全性和有效性。

  • 核心建議:QUEST 評估框架
    • 目的:提供一個全面且標準化的方法,以有條理地評估 LLMs 的安全性、可靠性和有效性。
    • 三大階段:該框架系統性地概述了三個工作流程階段:規劃(Planning)、實施與裁決(Implementation and Adjudication)、以及計分與審查(Scoring and Review)。

  • 關鍵實施指南:
    • 樣本量建議:對於臨床決策支持(CDS)和醫患問答等高風險應用,建議至少採用 130 個或更多的樣本量(基於文獻回顧中樣本量的第 75 百分位數)。
    • 評估者建議:對於臨床應用,建議組建至少 6 名評估者的團隊。
    • 共識達成:在「實施與裁決」階段,應進行循環式的專家裁決,並根據修訂後的指南重新培訓審稿人,直到評估者間達成共識,例如 Cohen’s kappa 值達到 0.7 或更高
    • 全面審查:在「計分與審查」階段,應將人類評估結果與自動化評估指標(如 F1 測量和 AUROC)進行比較,以確保評估的全面性。

  • 未來展望
    • 未來的研究工作應著重於在人類評估和自動定量評估之間取得平衡。同時,醫學界、計算機科學家和主要科技公司之間需要合作,以開發出更透明、更可靠的綜合評估方法。

這項工作為我們在醫療保健領域部署 LLMs 提供了一個明確的行動指南,如同在複雜的臨床環境中,為 AI 產品的品質控制設立了嚴格的標準檢驗流程。


來源:https://www.nature.com/articles/s41746-024-01258-7

DOI: https://doi.org/10.1038/s41746-024-01258-7

備註:上述內容為AI撰寫,內容經發布者審閱,供個人進修與學習使用。


沒有留言:

張貼留言