推理提供商文件
自動語音識別
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
自動語音識別
自動語音識別(ASR),也稱為語音轉文字(STT),是將給定音訊轉錄為文字的任務。
應用示例
- 轉錄播客
- 構建語音助手
- 為影片生成字幕
有關 `automatic-speech-recognition` 任務的更多詳細資訊,請檢視其專用頁面!您將找到示例和相關材料。
推薦模型
- openai/whisper-large-v3:OpenAI 強大的 ASR 模型。
在此處探索所有可用模型並找到最適合您的模型。
使用 API
語言
客戶端
提供商
import os
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="fal-ai",
api_key=os.environ["HF_TOKEN"],
)
output = client.automatic_speech_recognition("sample1.flac", model="openai/whisper-large-v3")
API 規範
請求
標頭 | ||
---|---|---|
授權 | 字串 | 身份驗證頭,格式為 `Bearer: hf_****`,其中 `hf_****` 是具有“推理提供商”許可權的個人使用者訪問令牌。您可以從您的設定頁面生成一個。 |
有效負載 | ||
---|---|---|
inputs* | 字串 | 輸入音訊資料,採用 base64 編碼字串形式。如果未提供 `parameters`,您也可以將音訊資料作為原始位元組負載提供。 |
引數 | 物件 | |
return_timestamps | 布林值 | 是否隨生成的文字輸出相應的時間戳 |
generation_parameters | 物件 | |
temperature | 數字 | 用於調節下一個 token 機率的值。 |
top_k | 整數 | 保留用於 top-k 過濾的最高機率詞彙 token 數量。 |
top_p | 數字 | 如果設定為小於 1 的浮點數,則只保留機率總和達到 top_p 或更高的最小機率最高令牌集用於生成。 |
typical_p | 數字 | 區域性典型性衡量預測下一個目標令牌的條件機率與在已生成部分文字的情況下預測下一個隨機令牌的預期條件機率的相似程度。如果設定為小於 1 的浮點數,則保留機率總和達到 typical_p 或更高的最小區域性典型令牌集用於生成。更多詳情請參閱此論文。 |
epsilon_cutoff | 數字 | 如果設定為嚴格介於 0 和 1 之間的浮點數,則只對條件機率大於 epsilon_cutoff 的令牌進行取樣。在論文中,建議值範圍為 3e-4 到 9e-4,具體取決於模型大小。更多詳情請參閱截斷取樣作為語言模型平滑去噪。 |
eta_cutoff | 數字 | Eta 取樣是區域性典型取樣和 epsilon 取樣的混合。如果設定為嚴格介於 0 和 1 之間的浮點數,只有當令牌大於 eta_cutoff 或 sqrt(eta_cutoff) * exp(-entropy(softmax(next_token_logits))) 時才考慮該令牌。後者直觀地說是預期的下一個令牌機率,按 sqrt(eta_cutoff) 縮放。在論文中,建議值範圍為 3e-4 到 2e-3,具體取決於模型大小。更多詳情請參閱截斷取樣作為語言模型平滑去噪。 |
max_length | 整數 | 生成文字的最大長度(以令牌為單位),包括輸入。 |
max_new_tokens | 整數 | 要生成的最大令牌數。優先於 max_length。 |
min_length | 整數 | 生成文字的最小長度(以令牌為單位),包括輸入。 |
min_new_tokens | 整數 | 要生成的最小令牌數。優先於 min_length。 |
do_sample | 布林值 | 生成新令牌時是否使用取樣而不是貪婪解碼。 |
early_stopping | 列舉 | 可能的值:never、true、false。 |
num_beams | 整數 | 用於束搜尋的束數。 |
num_beam_groups | 整數 | 將 num_beams 分成組的數量,以確保不同束組之間的多樣性。更多詳情請參閱此論文。 |
penalty_alpha | 數字 | 該值平衡了對比搜尋解碼中的模型置信度和退化懲罰。 |
use_cache | 布林值 | 模型是否應使用過去的鍵/值注意力來加速解碼 |
響應
正文 | ||
---|---|---|
文字 | 字串 | 識別出的文字。 |
chunks | 物件陣列 | 當啟用 returnTimestamps 時,chunks 包含模型識別的音訊塊列表。 |
文字 | 字串 | 模型識別出的文字塊 |
時間戳 | 數字[] | 與文字對應的開始和結束時間戳 |