Hugging Face 與印度科學理工學院合作,加速印度多語種模型構建

釋出於 2025 年 2 月 27 日
在 GitHub 上更新

印度科學理工學院(IISc)和 ARTPARK 與 Hugging Face 合作,讓全球開發者能夠訪問 Vaani。Vaani 是印度最多樣化的開源、多模態、多語言資料集。雙方共同致力於構建包容、易於訪問且技術先進的 AI 技術,以尊重語言和文化的多樣性。

合作伙伴關係

Hugging Face 與 IISc/ARTPARK 的合作旨在提高 Vaani 資料集的可訪問性和可用性,鼓勵開發能更好地理解印度多樣化語言並滿足其人民數字需求的 AI 系統。

關於 Vaani 資料集

Vaani 專案由 IISc/ARTPARK 和 Google 於 2022 年啟動,是一項開創性的舉措,旨在建立一個真正代表印度語言多樣性的開源多模態資料集。該資料集的獨特之處在於其以地理為中心的方法,允許收集偏遠地區的方言和語言,而不僅僅是主流語言。

Vaani 計劃從全印度 773 個地區的 100 萬人中收集超過 15 萬小時的語音資料和 1.5 萬小時的轉錄文字資料,以確保語言、方言和人口統計學的多樣性。

該資料集分階段建設,第一階段已覆蓋 80 個地區並已開源。第二階段正在進行中,將資料集擴充套件到另外 100 個地區,進一步加強 Vaani 在印度多樣化語言環境中的覆蓋範圍和影響力。

Key Highlights 截至 2025 年 2 月 15 日,已開源的 Vaani 資料集的主要亮點:

各地區語言分佈

Vaani 資料集展示了印度各地區豐富的語言分佈,突顯了地方層面的語言多樣性。這些資訊對於希望構建針對特定地區和方言的語音模型的研究人員、AI 開發者和語言技術創新者來說非常有價值。要檢視詳細的各地區語言分佈,請訪問:Hugging Face 上的 Vaani 資料集

已轉錄子集

如果您只需要訪問已轉錄的資料,並希望跳過未轉錄的純音訊資料,這裡已開源了一個較大資料集的子集。該資料集包含 790 小時的轉錄音訊,來自約 70 萬名說話者,覆蓋 7 萬張圖片。該資源包括與精確轉錄匹配的更小、分段的音訊單元,可用於不同任務,包括:

  • 語音識別:訓練模型準確轉錄口語。
  • 語言建模:構建更精煉的語言模型。
  • 分段任務:識別不同的語音單元,以提高轉錄準確性。

這個額外的資料集是對 Vaani 主資料集的補充,使得開發端到端語音識別系統和更具針對性的 AI 解決方案成為可能。

Vaani 在大語言模型時代的應用價值

Vaani 資料集具有幾個關鍵優勢,包括廣泛的語言覆蓋(54 種語言)、跨不同地理區域的代表性、多樣的教育和社會經濟背景、非常大的說話者覆蓋範圍、自發語音資料以及真實生活中的資料收集環境。這些特性可以為以下方面構建包容性 AI 模型:

  • 語音轉文字和文字轉語音:為基於大語言模型和非大語言模型的應用微調這些模型。此外,轉錄標籤有助於開發程式碼轉換(印度語言和英語)的自動語音識別(ASR)模型。
  • 印度語言的基礎語音模型:資料集顯著的語言和地理覆蓋範圍支援為印度語言開發強大的基礎模型。
  • 說話人識別/驗證模型:資料集擁有超過 8 萬名說話者的資料,非常適合開發強大的說話人識別和驗證模型。
  • 語種識別模型:能夠為各種現實世界應用建立語種識別模型。
  • 語音增強系統:資料集的標籤系統支援先進語音增強技術的開發。
  • 增強多模態大語言模型:獨特的資料收集方法使其在與其他多模態資料集結合時,對於構建和改進大語言模型的多模態能力非常有價值。
  • 效能基準測試:由於其多樣的語言、地理和真實世界資料屬性,該資料集是語音模型基準測試的理想選擇。

這些 AI 模型可以支援廣泛的對話式 AI 應用。從教育工具到遠端醫療平臺、醫療保健解決方案、選民幫助熱線、媒體本地化和多語言智慧裝置,Vaani 資料集在現實世界場景中可能成為改變遊戲規則的關鍵。

下一步計劃

IISc/ARTPARK 和 Google 已將合作擴充套件至第二階段(新增 100 個地區)。至此,Vaani 將覆蓋印度所有邦!我們很高興能將這個資料集帶給大家。

Map of districts where data has been collected 該地圖示示了截至 2025 年 2 月 5 日,已在印度各地收集資料的地區

如何貢獻

您可以做出的最有意義的貢獻就是使用 Vaani 資料集。無論是構建新的 AI 應用、進行研究,還是探索創新的用例,您的參與都有助於改進和擴充套件該專案。

如果您在使用資料集後有任何反饋或見解,我們非常樂意聽取您的意見。請透過 vaanicontact@gmail.com 分享您的經驗/諮詢合作機會,或者請填寫此 反饋表

為印度的語言多樣性,我們用心製作 ❤️

社群

📻 🎙️ 嘿,我為這篇博文生成了一個 AI 播客,快來聽聽看吧!

此播客透過 ngxson/kokoro-podcast-generator 生成,使用了 DeepSeek-R1Kokoro-TTS

我有興趣與 Hugging Face 探討合作可能性。我可以給負責合作關係的負責人傳送郵件嗎?

註冊登入 以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.