如何搭建你自己的 Hugging Face 排行榜:一個使用 Vectara 幻覺排行榜的端到端示例

釋出日期:2024年1月12日
在 GitHub 上更新

Hugging Face 的 Open LLM 排行榜(最初由 Ed Beeching 和 Lewis Tunstall 建立,並由 Nathan Habib 和 Clémentine Fourrier 維護)以跟蹤開源 LLM 的效能而聞名,它比較了 LLM 在各種任務中的表現,例如 TruthfulQAHellaSwag

這對開源社群具有巨大的價值,因為它為從業者提供了一種跟蹤最佳開源模型的方法。

2023年末,Vectara 推出了Hughes 幻覺評估模型(HHEM),這是一個開源模型,用於衡量 LLM 產生幻覺(生成無意義或與提供的源內容不符的文字)的程度。該模型涵蓋了 Llama 2 或 Mistral 7B 等開源模型,以及 OpenAI 的 GPT-4、Anthropic Claude 或 Google 的 Gemini 等商業模型,它突出了當前模型在產生幻覺的可能性方面存在的顯著差異。

隨著我們不斷向 HHEM 新增新模型,我們一直在尋找一個開源解決方案來管理和更新 HHEM 排行榜。

最近,Hugging Face 排行榜團隊釋出了排行榜模板(此處此處)。這些是 Open LLM 排行榜本身的輕量級版本,它們都是開源的,並且比原始程式碼更易於使用。

今天,我們很高興地宣佈釋出 新 HHEM 排行榜,它由 HF 排行榜模板 提供支援。

Vectara 的 Hughes 幻覺評估模型 (HHEM)

Hughes 幻覺評估模型 (HHEM) 排行榜致力於評估大型語言模型 (LLM)(例如 GPT-4、Google Gemini 或 Meta 的 Llama 2)生成的文件摘要中幻覺的頻率。要使用它,您可以遵循此處的說明。

透過開源此模型,我們 Vectara 旨在使 LLM 幻覺的評估民主化,提高人們對 LLM 在產生幻覺傾向方面存在的效能差異的認識。

HHEM 的初始釋出是一個Huggingface 模型以及一個Github 儲存庫,但我們很快意識到我們需要一種機制來評估新型別的模型。透過使用 HF 排行榜程式碼模板,我們能夠快速構建一個新的排行榜,該排行榜允許動態更新,我們鼓勵 LLM 社群提交新的相關模型進行 HHEM 評估。


對我們 Vectara 而言,值得一提的是,HHEM 是以我們的同事 Simon Hughes 的名字命名的,他於 2023 年 11 月因自然原因意外去世;為了紀念他在該領域的持久遺產,我們決定以他的名字命名。

使用 LLM 排行榜模板設定 HHEM

為了設定 Vectara HHEM 排行榜,我們必須遵循幾個步驟,根據我們的需求調整 HF 排行榜模板程式碼。

  1. 在將空間倉庫克隆到我們自己的組織後,我們建立了兩個相關的資料集:“requests”和“results”;這些資料集分別維護使用者提交的新 LLM 評估請求和這些評估的結果。
  2. 我們使用初始釋出中的現有結果填充了結果資料集,並更新了“關於”和“引用”部分。

對於一個簡單的排行榜,如果評估結果由您的後端推送到結果資料集,那麼您只需要這些!

由於我們的評估更為複雜,我們隨後定製了原始碼以適應 HHEM 排行榜的需求——具體細節如下:

  1. leaderboard/src/backend/model_operations.py:該檔案包含兩個主要類 - SummaryGeneratorEvaluationModel。 a. SummaryGenerator 根據 HHEM 私有評估資料集生成摘要並計算回答率和平均摘要長度等指標。 b. EvaluationModel 載入我們專有的 Hughes 幻覺評估模型 (HHEM) 來評估這些摘要,從而得出事實一致性率和幻覺率等指標。
  2. leaderboard/src/backend/evaluate_model.py:定義了 Evaluator 類,該類利用 SummaryGeneratorEvaluationModel 來計算並以 JSON 格式返回結果。
  3. leaderboard/src/backend/run_eval_suite.py:包含一個 run_evaluation 函式,該函式利用 Evaluator 獲取評估結果並將其上傳到上述 results 資料集,從而使其顯示在排行榜中。
  4. leaderboard/main_backend.py:管理待處理的評估請求並使用上述類和函式執行自動評估。它還包括一個選項,供使用者複製我們的評估結果。

最終的原始碼可以在我們的 HHEM 排行榜倉庫檔案選項卡中找到。透過所有這些更改,我們現在已準備好評估管道,並且可以輕鬆地作為 Huggingface Space 進行部署。

總結

HHEM 是一種新穎的分類模型,可用於評估 LLM 產生幻覺的程度。我們使用 Hugging Face 排行榜模板為任何排行榜的常見需求提供了急需的支援:管理新模型評估請求的提交以及隨著新結果出現而更新排行榜的能力。

非常感謝 Hugging Face 團隊將這個有價值的框架開源,並支援 Vectara 團隊的實施。我們預計其他社群成員將重用此程式碼,他們旨在釋出其他型別的 LLM 排行榜。

如果您想透過新模型為 HHEM 做出貢獻,請在排行榜上提交——我們非常感謝任何關於評估新模型的建議。

如果您對 Hugging Face LLM 前端或 Vectara 有任何疑問,請隨時在 VectaraHuggingface 論壇中提出。

社群

註冊登入評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.