自動語音識別

自動語音識別（ASR），也稱為語音轉文字（STT），是將給定音訊轉錄為文字的任務。

應用示例

轉錄播客
構建語音助手
為影片生成字幕

有關 `automatic-speech-recognition` 任務的更多詳細資訊，請檢視其專用頁面！您將找到示例和相關材料。

使用 API

語言

客戶端

提供商

設定

import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="fal-ai",
    api_key=os.environ["HF_TOKEN"],
)

output = client.automatic_speech_recognition("sample1.flac", model="openai/whisper-large-v3")

API 規範

請求

標頭
授權	字串	身份驗證頭，格式為 `Bearer: hf_**`，其中 `hf_**` 是具有“推理提供商”許可權的個人使用者訪問令牌。您可以從您的設定頁面生成一個。

有效負載
inputs*	字串	輸入音訊資料，採用 base64 編碼字串形式。如果未提供 `parameters`，您也可以將音訊資料作為原始位元組負載提供。
引數	物件
return_timestamps	布林值	是否隨生成的文字輸出相應的時間戳
generation_parameters	物件
temperature	數字	用於調節下一個 token 機率的值。
top_k	整數	保留用於 top-k 過濾的最高機率詞彙 token 數量。
top_p	數字	如果設定為小於 1 的浮點數，則只保留機率總和達到 top_p 或更高的最小機率最高令牌集用於生成。
typical_p	數字	區域性典型性衡量預測下一個目標令牌的條件機率與在已生成部分文字的情況下預測下一個隨機令牌的預期條件機率的相似程度。如果設定為小於 1 的浮點數，則保留機率總和達到 typical_p 或更高的最小區域性典型令牌集用於生成。更多詳情請參閱此論文。
epsilon_cutoff	數字	如果設定為嚴格介於 0 和 1 之間的浮點數，則只對條件機率大於 epsilon_cutoff 的令牌進行取樣。在論文中，建議值範圍為 3e-4 到 9e-4，具體取決於模型大小。更多詳情請參閱截斷取樣作為語言模型平滑去噪。
eta_cutoff	數字	Eta 取樣是區域性典型取樣和 epsilon 取樣的混合。如果設定為嚴格介於 0 和 1 之間的浮點數，只有當令牌大於 eta_cutoff 或 sqrt(eta_cutoff) * exp(-entropy(softmax(next_token_logits))) 時才考慮該令牌。後者直觀地說是預期的下一個令牌機率，按 sqrt(eta_cutoff) 縮放。在論文中，建議值範圍為 3e-4 到 2e-3，具體取決於模型大小。更多詳情請參閱截斷取樣作為語言模型平滑去噪。
max_length	整數	生成文字的最大長度（以令牌為單位），包括輸入。
max_new_tokens	整數	要生成的最大令牌數。優先於 max_length。
min_length	整數	生成文字的最小長度（以令牌為單位），包括輸入。
min_new_tokens	整數	要生成的最小令牌數。優先於 min_length。
do_sample	布林值	生成新令牌時是否使用取樣而不是貪婪解碼。
early_stopping	列舉	可能的值：never、true、false。
num_beams	整數	用於束搜尋的束數。
num_beam_groups	整數	將 num_beams 分成組的數量，以確保不同束組之間的多樣性。更多詳情請參閱此論文。
penalty_alpha	數字	該值平衡了對比搜尋解碼中的模型置信度和退化懲罰。
use_cache	布林值	模型是否應使用過去的鍵/值注意力來加速解碼

響應

正文
文字	字串	識別出的文字。
chunks	物件陣列	當啟用 returnTimestamps 時，chunks 包含模型識別的音訊塊列表。
文字	字串	模型識別出的文字塊
時間戳	數字[]	與文字對應的開始和結束時間戳

< > 在 GitHub 上更新

推理服務提供商

自動語音識別

推薦模型

使用 API

API 規範

請求

響應