開放醫療大型語言模型排行榜:醫療領域大型語言模型基準測試

釋出於 2024 年 4 月 19 日
在 GitHub 上更新

Image source : https://arxiv.org/pdf/2311.05112.pdf

多年來,大型語言模型(LLM)已成為一項突破性技術,在徹底改變醫療保健的各個方面方面具有巨大潛力。這些模型,如 GPT-3GPT-4Med-PaLM 2,在理解和生成類人文字方面展現出卓越的能力,使其成為解決複雜醫療任務和改善患者護理的寶貴工具。它們在醫療問答(QA)、對話系統和文字生成等各種醫療應用中尤其展現出前景。此外,隨著電子健康記錄(EHR)、醫學文獻和患者生成資料呈指數級增長,大型語言模型可以幫助醫療專業人員提取有價值的見解並做出明智的決策。

然而,儘管大型語言模型(LLM)在醫療保健領域具有巨大潛力,但仍存在需要解決的重大且具體的挑戰。

當模型用於娛樂性對話方面時,錯誤造成的後果微乎其微;然而,在醫療領域使用時,錯誤的解釋和答案可能會對患者護理和結果造成嚴重後果。語言模型提供資訊的準確性和可靠性可能事關生死,因為它可能會影響醫療決策、診斷和治療計劃。

例如,當被問及醫療問題時(見下文),GPT-3 錯誤地為孕婦推薦了四環素,儘管它正確地解釋了由於可能對胎兒造成傷害而停用的原因。根據這一不正確的建議行事可能會導致嬰兒骨骼生長問題。

Image source : [https://arxiv.org/pdf/2311.05112.pdf](https://arxiv.org/abs/2307.15343)

為了充分利用大型語言模型在醫療保健領域的力量,開發和基準測試專門為醫療領域設計的模型至關重要。此設定應考慮醫療保健資料和應用程式的獨特特徵和要求。開發評估醫療大型語言模型的方法不僅具有學術意義,而且具有實際重要性,因為它們在醫療保健領域存在現實風險。

開放醫療大型語言模型排行榜旨在透過提供一個標準化平臺來解決這些挑戰和限制,該平臺用於評估和比較各種大型語言模型在各種醫療任務和資料集上的效能。透過對每個模型的醫學知識和問答能力進行全面評估,該排行榜旨在促進開發更有效和更可靠的醫療大型語言模型。

該平臺使研究人員和從業人員能夠識別不同方法的優缺點,推動該領域的進一步發展,並最終為更好的患者護理和結果做出貢獻。

資料集、任務和評估設定

醫療大型語言模型排行榜包含各種任務,並以準確度作為其主要評估指標(準確度衡量語言模型在各種醫療問答資料集中提供正確答案的百分比)。

MedQA

MedQA 資料集包含來自美國執業醫師資格考試 (USMLE) 的多項選擇題。它涵蓋一般醫學知識,開發集包含 11,450 個問題,測試集包含 1,273 個問題。每個問題有 4 或 5 個答案選項,該資料集旨在評估美國醫療執業所需的醫學知識和推理技能。

MedQA question

MedMCQA

MedMCQA 是一個大型多項選擇問答資料集,源自印度醫學入學考試 (AIIMS/NEET)。它涵蓋 2.4k 個醫療保健主題和 21 個醫學科目,開發集包含超過 187,000 個問題,測試集包含 6,100 個問題。每個問題有 4 個答案選項,並附有解釋。MedMCQA 評估模型的通用醫學知識和推理能力。

MedMCQA question

PubMedQA

PubMedQA 是一個封閉領域問答資料集,其中每個問題都可以透過檢視相關上下文(PubMed 摘要)來回答。它由 1,000 對專家標記的問答對組成。每個問題都附有 PubMed 摘要作為上下文,任務是根據摘要中的資訊提供是/否/可能答案。該資料集分為 500 個問題用於開發,500 個問題用於測試。PubMedQA 評估模型理解和推理科學生物醫學文獻的能力。

PubMedQA question

MMLU 子集(醫學和生物學)

MMLU 基準測試(衡量大規模多工語言理解)包含來自各個領域的多項選擇題。對於開放醫療大型語言模型排行榜,我們重點關注與醫學知識最相關的子集

  • 臨床知識:265 個問題評估臨床知識和決策技能。
  • 醫學遺傳學:100 個問題涵蓋醫學遺傳學相關主題。
  • 解剖學:135 個問題評估人體解剖學知識。
  • 專業醫學:272 個問題評估醫療專業人員所需的知識。
  • 大學生物學:144 個問題涵蓋大學水平的生物學概念。
  • 大學醫學:173 個問題評估大學水平的醫學知識。

每個 MMLU 子集都包含 4 個答案選項的多項選擇題,旨在評估模型對特定醫學和生物學領域的理解。

MMLU questions

開放醫療大型語言模型排行榜對模型在醫學知識和推理的各個方面的表現進行了可靠評估。

洞察與分析

開放醫療大型語言模型排行榜評估各種大型語言模型 (LLM) 在各種醫療問答任務上的效能。以下是我們的主要發現:

  • GPT-4-base 和 Med-PaLM-2 等商業模型在各種醫療資料集中始終取得高準確度分數,在不同醫療領域表現出強大的效能。
  • 儘管尺寸較小,引數約為 70 億,但 Starling-LM-7Bgemma-7b、Mistral-7B-v0.1 和 Hermes-2-Pro-Mistral-7B 等開源模型在某些資料集和任務上表現出有競爭力的效能。
  • 商業和開源模型在科學生物醫學文獻理解和推理(PubMedQA)以及應用臨床知識和決策技能(MMLU 臨床知識子集)等任務上表現良好。

Image source : [https://arxiv.org/abs/2402.07023](https://arxiv.org/abs/2402.07023)

谷歌的模型 Gemini Pro 在各個醫療領域表現出色,尤其擅長生物統計學、細胞生物學和婦產科等資料密集型和程式性任務。然而,它在解剖學、心臟病學和皮膚病學等關鍵領域表現中等或偏低,這表明在全面的醫療應用方面仍需要進一步完善。

Image source : [https://arxiv.org/abs/2402.07023](https://arxiv.org/abs/2402.07023)

提交您的模型進行評估

要提交您的模型以在開放醫療大型語言模型排行榜上進行評估,請遵循以下步驟:

1. 將模型權重轉換為 Safetensors 格式

首先,將您的模型權重轉換為 safetensors 格式。Safetensors 是一種用於儲存權重的新格式,載入和使用更安全、更快速。將您的模型轉換為此格式還將允許排行榜在主表中顯示模型的引數數量。

2. 確保與 AutoClasses 相容

在提交模型之前,請確保您可以使用 Transformers 庫中的 AutoClasses 載入您的模型和分詞器。使用以下程式碼片段測試相容性:

from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained(MODEL_HUB_ID)
model = AutoModel.from_pretrained("your model name")
tokenizer = AutoTokenizer.from_pretrained("your model name")

如果此步驟失敗,請按照錯誤訊息除錯您的模型,然後再提交。很可能是您的模型上傳不當。

3. 公開您的模型

確保您的模型是公開可訪問的。排行榜無法評估私有或需要特殊訪問許可權的模型。

4. 遠端程式碼執行(即將推出)

目前,開放醫療大型語言模型排行榜不支援需要 use_remote_code=True 的模型。然而,排行榜團隊正在積極努力新增此功能,敬請關注更新。

5. 透過排行榜網站提交您的模型

一旦您的模型採用 safetensors 格式,與 AutoClasses 相容並公開可訪問,您就可以使用開放醫療大型語言模型排行榜網站上的“在此提交!”面板提交模型進行評估。填寫所需資訊,例如模型名稱、描述和任何其他詳細資訊,然後單擊提交按鈕。

排行榜團隊將處理您的提交併評估您的模型在各種醫療問答資料集上的效能。評估完成後,您的模型分數將新增到排行榜中,以便您將其效能與其他已提交模型進行比較。

下一步是什麼?擴充套件開放醫療大型語言模型排行榜

開放醫療大型語言模型排行榜致力於擴充套件和適應,以滿足研究社群和醫療保健行業不斷發展的需求。主要關注領域包括:

  1. 透過與研究人員、醫療保健組織和行業合作伙伴合作,納入更廣泛的醫療資料集,涵蓋醫療保健的各個方面,如放射學、病理學和基因組學。
  2. 透過探索除準確度之外的額外效能指標,如點式得分和捕捉醫療應用獨特要求的領域特定指標,增強評估指標和報告功能。
  3. 目前,一些努力已經在此方向上進行。如果您有興趣與我們合作開展我們計劃提出的下一個基準測試,請加入我們的 Discord 社群 以瞭解更多資訊並參與進來。我們很樂意與您合作並集思廣益!

如果您對人工智慧與醫療保健的交叉點、為醫療保健領域構建模型以及關注醫療大型語言模型的安全和幻覺問題充滿熱情,我們邀請您加入我們在 Discord 上充滿活力的社群。

鳴謝

Credits

特別感謝所有為此做出貢獻的人,包括 Clémentine Fourrier 和 Hugging Face 團隊。我要感謝 Andreas Motzfeldt、Aryo Gema 和 Logesh Kumar Umapathi 在排行榜開發過程中提供的討論和反饋。衷心感謝 Pasquale Minervini 教授提供的時間、技術援助以及愛丁堡大學提供的 GPU 支援。

關於開放生命科學人工智慧

開放生命科學人工智慧是一個旨在徹底改變人工智慧在生命科學和醫療保健領域應用的S專案。它作為醫療模型、資料集、基準和會議截止日期跟蹤列表的中心樞紐,促進了人工智慧輔助醫療保健領域的合作、創新和進步。我們致力於將開放生命科學人工智慧打造成為所有對人工智慧和醫療保健交叉領域感興趣的人的首選目的地。我們提供一個平臺,供研究人員、臨床醫生、政策制定者和行業專家進行對話、分享見解並探索該領域的最新發展。

OLSA logo

引文

如果我們的評估對您有用,請考慮引用我們的工作:

醫療大型語言模型排行榜

@misc{Medical-LLM Leaderboard,
author = {Ankit Pal, Pasquale Minervini, Andreas Geert Motzfeldt, Aryo Pradipta Gema and Beatrice Alex},
title = {openlifescienceai/open_medical_llm_leaderboard},
year = {2024},
publisher = {Hugging Face},
howpublished = "\url{https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard}"
}

社群

大家好,我想問一下從提交模型到完成測試需要多長時間

註冊登入 以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.