Hugging Face Hub 面向畫廊、圖書館、檔案館和博物館
美術館、圖書館、檔案館和博物館的 Hugging Face Hub
什麼是 Hugging Face Hub?
Hugging Face 旨在讓每個人都能接觸到高質量的機器學習。這一目標透過多種方式實現,包括開發開原始碼庫(如廣泛使用的 Transformers 庫)、提供免費課程以及提供 Hugging Face Hub。
Hugging Face Hub 是一箇中央儲存庫,人們可以在其中共享和訪問機器學習模型、資料集和演示。Hub 託管了超過 190,000 個機器學習模型、33,000 個數據集以及超過 100,000 個機器學習應用程式和演示。這些模型涵蓋了從預訓練語言模型、文字、影像和音訊分類模型、目標檢測模型到各種生成模型等廣泛任務。
Hub 上託管的模型、資料集和演示涵蓋了廣泛的領域和語言,並且社群一直在努力擴充套件 Hub 可用內容的範圍。本部落格文章旨在幫助在美術館、圖書館、檔案館和博物館(GLAM)領域工作或與該領域相關的人員瞭解如何使用 Hugging Face Hub 併為其做出貢獻。
您可以閱讀整篇文章,也可以直接跳到最相關的部分!
- 如果您不知道 Hub 是什麼,請從這裡開始:什麼是 Hugging Face Hub?
- 如果您想了解如何在 Hub 上查詢機器學習模型,請從這裡開始:如何使用 Hugging Face Hub:在 Hub 上查詢相關模型
- 如果您想了解如何在 Hub 上共享 GLAM 資料集,請從這裡開始:演練:如何將 GLAM 資料集新增到 Hub?
- 如果您想檢視一些示例,請查閱:Hugging Face Hub 的使用示例
您可以在 Hugging Face Hub 上找到什麼?
模型
Hugging Face Hub 提供訪問涵蓋各種任務和領域的機器學習模型。許多機器學習庫都與 Hugging Face Hub 整合,允許您透過這些庫直接使用或共享模型到 Hub。
資料集
Hugging Face Hub 託管著超過 30,000 個數據集。這些資料集涵蓋了各種領域和模態,包括文字、影像、音訊和多模態資料集。這些資料集對於訓練和評估機器學習模型非常有價值。
Spaces
Hugging Face Spaces 是一個允許您託管機器學習演示和應用程式的平臺。這些 Spaces 從簡單的演示(讓您探索機器學習模型的預測)到更復雜的應用程式。
Spaces 使託管和使您的應用程式易於他人使用變得更加簡單。您可以使用 Spaces 託管 Gradio 和 Streamlit 應用程式,或者您可以使用 Spaces 自定義 Docker 映象。結合使用 Gradio 和 Spaces 通常意味著您可以在幾分鐘內建立並託管應用程式,供他人使用。如果您想完全控制您的應用程式,可以使用 Spaces 託管 Docker 映象。還有一些 Docker 模板可以快速訪問許多流行工具的託管版本,包括 Argailla 和 Label Studio 註釋工具。
如何使用 Hugging Face Hub:在 Hub 上查詢相關模型
在 GLAM 領域中,機器學習模型有許多潛在的用例。雖然有些機構可能擁有從頭開始訓練機器學習模型所需的資源,但您可以使用 Hub 來查詢已經實現您所需功能或非常接近您目標的開放共享模型。
例如,如果您正在處理一份元資料極少的挪威數字化文件集合。更好地瞭解該集合內容的一種方法是使用命名實體識別 (NER) 模型。此模型從文字中提取實體,例如,識別文字中提到的位置。瞭解文字中包含哪些實體是更好地理解文件內容的寶貴方法。
我們可以在 Hub 上透過任務篩選模型來查詢 NER 模型。在此示例中,我們選擇 token-classification
,它包含命名實體識別模型。此篩選器返回標記為執行 token-classification
的模型。由於我們正在處理挪威文件,我們可能還需要按語言篩選;這會將我們帶到一小組我們想要探索的模型。這些模型中的許多模型還將包含一個模型小部件,允許我們測試模型。
模型小部件可以快速顯示模型在我們的資料上可能表現如何。一旦您找到了感興趣的模型,Hub 提供不同的方式來使用該工具。如果您已經熟悉 Transformers 庫,您可以單擊“在 Transformers 中使用”按鈕,彈出一個視窗,顯示如何在 Transformers 中載入模型。
如果您更喜歡透過 API 使用模型,單擊模型儲存庫中的 deploy
按鈕會提供多種選項,用於在 API 後託管模型。如果您想在大量資料上試用模型,但缺乏在本地執行模型的基礎設施,這會特別有用。
類似的方法也可以用於在 Hugging Face Hub 上查詢相關模型和資料集。
演練:如何將 GLAM 資料集新增到 Hub?
我們可以透過多種方式在 Hugging Face Hub 上提供資料集。我將演示一個將 CSV 資料集新增到 Hugging Face Hub 的示例。
透過瀏覽器介面將資料集上傳到 Hub 的過程概述
對於我們的示例,我們將致力於透過 Hub 提供 On the Books 訓練集。此資料集包含一個 CSV 檔案,其中包含可用於訓練文字分類模型的資料。由於 CSV 格式是上傳資料到 Hugging Face Hub 的支援格式之一,我們可以直接在 Hub 上共享此資料集,而無需編寫任何程式碼。
建立新的資料集儲存庫
上傳資料集到 Hub 的第一步是建立一個新的資料集儲存庫。這可以透過點選 Hugging Face Hub 右上角下拉選單中的 New Dataset
按鈕來完成。
完成此操作後,您可以為新的資料集儲存庫選擇一個名稱。您還可以將資料集建立在不同的所有者(即組織)之下,並可選擇指定許可證。
上傳檔案
建立資料集儲存庫後,您需要上傳資料檔案。您可以透過在資料集儲存庫的 Files
選項卡下單擊 Add file
來完成此操作。
您現在可以選擇要上傳到 Hub 的資料。
您可以使用上傳介面上傳單個檔案或多個檔案。上傳檔案後,您需要提交更改以完成上傳。
新增元資料
為資料集儲存庫新增元資料非常重要,以便使您的資料集更易於發現和對他人更有幫助。這將允許其他人找到您的資料集並瞭解其包含的內容。
您可以使用 Metadata UI
編輯器編輯元資料。這允許您為資料集指定許可證、語言、標籤等。
此外,更詳細地描述您的資料集是什麼、如何以及為何構建它,以及它的優點和缺點,也非常有幫助。這可以在資料集儲存庫中透過填寫 README.md
檔案來完成。此檔案將作為您資料集的資料集卡片。資料集卡片是一種半結構化的機器學習資料集文件形式,旨在確保資料集得到充分的文件記錄。當您編輯 README.md
檔案時,您將獲得匯入模板資料集卡片的選項。此模板將為您提供有用的提示,說明在資料集卡片中包含哪些內容是有用的。
提示:編寫一份好的資料集卡片可能需要大量工作。但是,您不必一次性完成所有這些工作,而且由於人們可以在 Hub 上託管的資料集提出問題或提出建議,因此記錄資料集的過程可以是一種集體活動。
資料集預覽
將資料集上傳到 Hub 後,我們將獲得資料集的預覽。資料集預覽是更好地理解資料集的有用方式。
其他共享資料集的方式
您可以使用許多其他方法在 Hub 上共享資料集。資料集文件將幫助您更好地瞭解哪種方法最適合您的特定用例。
為什麼美術館、圖書館、檔案館和博物館希望使用 Hugging Face Hub?
機構希望為 Hugging Face Hub 做出貢獻的原因有很多
接觸新受眾:Hub 已成為機器學習、人工智慧及相關領域工作人員的中心目的地。在 Hub 上共享將有助於將您的藏品和工作展示給這些受眾。這也為與這些受眾進一步合作提供了機會。
社群: Hub 擁有許多面向社群的功能,允許您的材料的使用者和潛在使用者提問並透過 Hub 與您共享的材料進行互動。共享訓練好的模型和機器學習資料集還允許人們在彼此的工作基礎上進行構建,並降低了在該領域使用機器學習的障礙。
訓練資料多樣性: GLAM 使用機器學習的障礙之一是缺乏用於訓練和評估機器學習模型的相關資料。在基準資料集上表現良好的機器學習模型可能在 GLAM 組織的資料上表現不佳。建立一個共享特定領域資料集的社群將確保在 GLAM 領域更有效地開展機器學習。
氣候變化: 訓練機器學習模型會產生碳足跡。這個足跡的大小取決於多種因素。我們可以集體減少這個足跡的一種方法是與社群共享已訓練的模型,這樣人們就不會重複訓練相同的模型(並在此過程中產生更多的碳排放)。
Hugging Face Hub 的使用示例
個人和組織已經在使用 Hugging Face Hub 來共享與 GLAM 領域相關的機器學習模型、資料集和演示。
BigLAM
一項源自 BigScience 專案 的倡議,旨在使與機器學習相關的 GLAM 資料集更易於訪問。BigLAM 迄今已透過 Hugging Face Hub 提供了 30 多個與 GLAM 相關的資料集。
挪威國家圖書館人工智慧實驗室
挪威國家圖書館的人工智慧實驗室是 Hugging Face Hub 的活躍使用者,已公開共享約 120 個模型、23 個數據集和 6 個機器學習演示。這些模型包括在挪威國家圖書館的挪威文字上訓練的語言模型,以及在薩米語言上訓練的 Whisper(語音轉文字)模型。
史密森尼學會
史密森尼學會共享了一個託管在 Hugging Face Spaces 上的應用程式,演示了兩個用於識別亞馬遜魚類物種的機器學習模型。該專案旨在為社群提供工具,以便更準確地測量亞馬遜地區的魚類物種數量。透過 Spaces 演示提供此類工具進一步降低了人們使用這些工具的障礙。
面向美術館、圖書館、檔案館和博物館的 Hub 功能
Hub 支援許多有助於使機器學習更易於訪問的功能。對於 GLAM 機構特別有用的一些功能包括:
- 組織:您可以在 Hub 上建立一個組織。這允許您建立一個地方來共享您組織的文物。
- 鑄造 DOI:DOI(數字物件識別符號)是物件的持久數字識別符號。DOI 已成為為出版物、資料集和軟體建立持久識別符號必不可少的工具。期刊、會議或研究資助者在引用學術成果時通常要求使用持久識別符號。Hugging Face Hub 支援為在 Hub 上共享的模型、資料集和演示釋出 DOI。
- 使用情況跟蹤:您可以按月檢視託管在 Hub 中的資料集和模型的下載統計資訊,或檢視所有時間的總下載量。這些統計資訊可以成為機構展示其影響力的寶貴方式。
- 基於指令碼的資料集共享:如果您已經將資料集託管在某個地方,您仍然可以透過 Hugging Face Hub 使用資料集載入指令碼來訪問它們。
- 模型和資料集門控:在某些情況下,您希望對訪問模型和資料集的人員進行更多控制。Hugging Face Hub 支援模型和資料集門控,允許您新增訪問控制。
如何在使用 Hub 時獲得幫助?
Hub 文件更詳細地介紹了 Hugging Face Hub 的各種功能。您還可以找到有關在 Hub 上共享資料集以及共享 Transformers 模型到 Hub 的更多資訊。
如果您在使用 Hugging Face Hub 時需要任何幫助,可以透過多種途徑尋求幫助。您可以利用討論論壇或透過 Discord 尋求幫助。