使用 Big Bench Audio 評估音訊推理能力

釋出於 2024 年 12 月 20 日
在 GitHub 上更新

原生語音到語音模型的出現為增強語音代理能力和簡化支援語音的工作流程提供了激動人心的機會。然而,評估這種簡化是否以犧牲模型效能或引入其他權衡為代價至關重要。

為了支援對此的分析,Artificial Analysis 正在釋出 Big Bench Audio,這是一個用於評估音訊語言模型推理能力的新評估資料集。該資料集改編自 Big Bench Hard 中的問題——因其對高階推理的嚴格測試而被選中——並將其應用於音訊領域。

本文介紹了 Big Bench Audio 資料集,以及 GPT-4o 和 Gemini 1.5 系列模型的初步基準測試結果。我們的分析考察了這些模型在多種模態下的表現:原生語音到語音、語音到文字、文字到語音以及文字到文字。我們在下方以及 Artificial Analysis 網站的新語音到語音頁面上展示了結果摘要。我們的初步結果顯示存在顯著的“語音推理差距”:雖然 GPT-4o 在僅文字版本的資料集上實現了 92% 的準確率,但其語音到語音效能下降到 66%。

Big Bench Audio 資料集

Big Bench Audio 包含從 Big Bench Hard 的四個類別中選出的 1,000 個音訊問題,每個類別都因其適合音訊評估而被選中

  • 形式謬誤:評估基於給定陳述的邏輯推導能力
  • 導航:判斷導航步驟是否能返回起點
  • 物件計數:在集合中計算特定專案的數量
  • 謊言之網:評估以自然語言表達的布林邏輯

每個類別貢獻 250 個問題,建立了一個平衡的資料集,避免了嚴重依賴視覺元素或在口語化時可能產生歧義的文字的任務。

資料集中的每個問題都結構化為

{
  "category": "formal_fallacies",
  "official_answer": "invalid",
  "file_name": "data/question_0.mp3",
  "id": 0
}

音訊檔案是使用 Artificial Analysis Speech Arena 中排名靠前的文字到語音模型的 23 種合成聲音生成的。每個音訊生成都透過與轉錄文字的萊文斯坦距離進行嚴格驗證,並且對邊緣案例進行了手動審查。要了解更多關於資料集建立過程的資訊,請檢視資料集卡片

評估音訊推理能力

為了評估音訊對每個模型推理效能的影響,我們在 Big Bench Audio 上測試了四種不同的配置

  1. 語音到語音:提供一個輸入音訊檔案,模型生成一個包含答案的輸出音訊檔案。
  2. 語音到文字:提供一個輸入音訊檔案,模型生成一個文字答案。
  3. 文字到語音:提供問題的文字版本,模型生成一個包含答案的輸出音訊檔案。
  4. 文字到文字:提供問題的文字版本,模型生成一個文字答案。

基於這些配置,我們進行了十八項實驗

模型 語音到語音 語音到文字 文字到語音 文字到文字
GPT-4o 即時預覽版 (24年10月)
GPT-4o 即時預覽版 (24年12月)
GPT-4o mini 即時預覽版 (24年12月)
GPT-4o ChatCompletions 音訊預覽版
語音到語音流程 (whisper, GPT-4o, tts-1)1
GPT-4o (24年8月)
Gemini 1.5 Flash (24年5月)
Gemini 1.5 Flash (24年9月)
Gemini 1.5 Pro (24年5月)
Gemini 1.5 Pro (24年9月)
Gemini 2.0 Flash (實驗性)

(表1 - 實驗配置)

備註

  1. 使用 OpenAI 的 Whisper 將輸入音訊檔案轉錄。然後將轉錄內容輸入 GPT-4o 以生成答案。最後,使用 OpenAI 的 TTS-1 模型將此答案轉換為音訊。

評估方法

為了確保在所有配置中進行一致且可擴充套件的評估,我們開發了一個使用 LLM 評估器的自動化評估系統。其工作原理如下:

  1. 對於音訊回應,我們首先使用 OpenAI 的 Whisper API 將其轉錄為文字。
  2. 對於文本回應,我們直接將其用作“候選答案”。
  3. LLM 評估器會接收:
    • 候選答案
    • 官方答案
    • 原始問題(作為上下文)

LLM 評估器被提供候選答案、官方答案和原始問題作為上下文,並被提示將候選答案標記為正確或不正確。我們使用 Anthropic 的 Claude 3.5 Sonnet(24年10月版)作為 LLM 評估器,用於 Artificial Analysis 上列出的 Big Bench Audio 分數。

LLM 評估器提示

Assess whether the following CANDIDATE ANSWER is CORRECT or INCORRECT.
For the CANDIDATE ANSWER to be correct, it must be consistent with the OFFICIAL ANSWER.
If the CANDIDATE ANSWER contradicts itself, assess the first proposed answer.
If the CANDIDATE ANSWER provides a final answer and working, assess the final answer only.
If the CANDIDATE ANSWER includes irrelevant information, assess only the relevant information.
If the CANDIDATE ANSWER includes a numeric value it is ok if it is spelled e.g. 7 or seven
It is ok if the CANDIDATE ANSWER involves a misspelling of a person's name e.g. Leda or Lida, Autry or Audrie.
  
The question, for reference only: START QUESTION {question} \n\nEND QUESTION

The OFFICIAL ANSWER:{official_answer}

BEGIN CANDIDATE ANSWER TO ASSESS

{candidate_answer}

END CANDIDATE ANSWER TO ASSESS

Reply only with CORRECT or INCORRECT.

示例

以下是一些回應示例。

語音到語音

  • 模型: GPT-4o,即時預覽版

  • 輸入

  • 輸出

  • 是否正確: True

語音到語音流程

  • 模型: 語音到語音流程(whisper、GPT-4o、tts-1)

  • 輸入

  • 輸出

  • 是否正確: True

語音到文字

  • 模型: Gemini 1.5 Flash (24年9月)

  • 輸入

  • 輸出

    The argument is deductively valid.
    
    The premise states: Every close friend of Myra is neither a cousin of Sue nor a daughter of Tommy.  This is a
    universal statement.  The conclusion correctly reverses this statement using contraposition: No cousin of Sue and no daughter of Tommy is a close friend of Myra.
    
    This is a valid application of contraposition.  If A implies not (Bor C), then (B or C) implies not A.  The argument is structured correctly and the conclusion follows logically from the premise.
    
  • 是否正確: True

文字到語音

  • 模型: GPT-4o, ChatCompletions 音訊預覽版

  • 輸入

    If you follow these instructions, do you return to the starting point? Turn right. Take 10 steps. Turn around. Take 10 steps.
    Options:
    - Yes
    - No
    Answer the question
    
  • 輸出

  • 是否正確: True

文字到文字

  • 模型: Gemini 1.5 Pro (24年9月)

  • 輸入

    I have four oranges, a peach, a plum, three apples, three grapes, two
    raspberries, a nectarine, a strawberry, a blackberry, and a banana.
    How many fruits do I have?. Answer the question"
    
  • 輸出

    You have 18 fruits.
    
  • 是否正確: True

結果

Analysis Results

(圖1 - 結果摘要)

所有呈現的結果均為在每個資料集上進行三次獨立評估執行的平均值。

音訊推理差距

我們的分析揭示了文字推理和音訊推理之間存在巨大的效能差距。GPT-4o(24年8月版)在資料集的文字到文字版本中實現了92%的準確率,而其對應的語音到語音版本(GPT-4o 即時預覽版 24年10月版)的得分僅為66%。文字到語音配置的效能居中,為74%,這表明語音輸入和語音輸出都對效能差距有所貢獻。

目前語音到語音流程在推理方面優於原生音訊模型

與純文字處理相比,傳統的流程方法(使用 Whisper 進行轉錄,GPT-4o (24年8月) 進行推理,TTS-1 進行語音生成)顯示出極小的效能下降。這表明,對於推理準確性至關重要的應用,流程方法目前提供了效能和音訊能力的最佳平衡。

我們預計這一差距會隨著時間的推移而縮小,並將繼續使用 Big Bench Audio 測試新的語音到語音模型。敬請期待即將釋出的谷歌 Gemini 2.0 Flash 語音到語音模式的更新!

如何貢獻或聯絡我們

如需進一步分析語音到語音模型,請訪問 Artificial Analysis 網站上的新語音到語音頁面:https://artificialanalysis.ai/speech-to-speech

如需獲取更新,請在 TwitterLinkedIn 上關注我們。我們歡迎所有反饋,您可以透過 Twitter 訊息以及我們網站上的聯絡表單與我們聯絡。

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.