推理提供商文件

自動語音識別

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

自動語音識別

自動語音識別(ASR),也稱為語音轉文字(STT),是將給定音訊轉錄為文字的任務。

應用示例

  • 轉錄播客
  • 構建語音助手
  • 為影片生成字幕

有關 `automatic-speech-recognition` 任務的更多詳細資訊,請檢視其專用頁面!您將找到示例和相關材料。

推薦模型

在此探索所有可用模型並找到最適合您的模型。

使用 API

import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="fal-ai",
    api_key=os.environ["HF_TOKEN"],
)

output = client.automatic_speech_recognition("sample1.flac", model="openai/whisper-large-v3")

API 規範

請求

標頭
授權 字串 身份驗證頭,格式為 `Bearer: hf_****`,其中 `hf_****` 是具有“推理提供商”許可權的個人使用者訪問令牌。您可以從您的設定頁面生成一個。
有效負載
inputs* 字串 輸入音訊資料,採用 base64 編碼字串形式。如果未提供 `parameters`,您也可以將音訊資料作為原始位元組負載提供。
引數 物件
        return_timestamps 布林值 是否隨生成的文字輸出相應的時間戳
        generation_parameters 物件
                temperature 數字 用於調節下一個 token 機率的值。
                top_k 整數 保留用於 top-k 過濾的最高機率詞彙 token 數量。
                top_p 數字 如果設定為小於 1 的浮點數,則只保留機率總和達到 top_p 或更高的最小機率最高令牌集用於生成。
                typical_p 數字 區域性典型性衡量預測下一個目標令牌的條件機率與在已生成部分文字的情況下預測下一個隨機令牌的預期條件機率的相似程度。如果設定為小於 1 的浮點數,則保留機率總和達到 typical_p 或更高的最小區域性典型令牌集用於生成。更多詳情請參閱此論文
                epsilon_cutoff 數字 如果設定為嚴格介於 0 和 1 之間的浮點數,則只對條件機率大於 epsilon_cutoff 的令牌進行取樣。在論文中,建議值範圍為 3e-4 到 9e-4,具體取決於模型大小。更多詳情請參閱截斷取樣作為語言模型平滑去噪
                eta_cutoff 數字 Eta 取樣是區域性典型取樣和 epsilon 取樣的混合。如果設定為嚴格介於 0 和 1 之間的浮點數,只有當令牌大於 eta_cutoff 或 sqrt(eta_cutoff) * exp(-entropy(softmax(next_token_logits))) 時才考慮該令牌。後者直觀地說是預期的下一個令牌機率,按 sqrt(eta_cutoff) 縮放。在論文中,建議值範圍為 3e-4 到 2e-3,具體取決於模型大小。更多詳情請參閱截斷取樣作為語言模型平滑去噪
                max_length 整數 生成文字的最大長度(以令牌為單位),包括輸入。
                max_new_tokens 整數 要生成的最大令牌數。優先於 max_length。
                min_length 整數 生成文字的最小長度(以令牌為單位),包括輸入。
                min_new_tokens 整數 要生成的最小令牌數。優先於 min_length。
                do_sample 布林值 生成新令牌時是否使用取樣而不是貪婪解碼。
                early_stopping 列舉 可能的值:never、true、false。
                num_beams 整數 用於束搜尋的束數。
                num_beam_groups 整數 將 num_beams 分成組的數量,以確保不同束組之間的多樣性。更多詳情請參閱此論文
                penalty_alpha 數字 該值平衡了對比搜尋解碼中的模型置信度和退化懲罰。
                use_cache 布林值 模型是否應使用過去的鍵/值注意力來加速解碼

響應

正文
文字 字串 識別出的文字。
chunks 物件陣列 當啟用 returnTimestamps 時,chunks 包含模型識別的音訊塊列表。
        文字 字串 模型識別出的文字塊
        時間戳 數字[] 與文字對應的開始和結束時間戳
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.