Hub 文件
模型釋出清單
並獲得增強的文件體驗
開始使用
模型釋出清單
Hugging Face Hub 是共享機器學習模型的首選平臺。一次成功的釋出可以提高您模型的可見性和影響力。本節涵蓋了簡潔、資訊豐富且使用者友好的模型釋出的基本步驟。
⏳ 準備模型釋出
上傳權重
將模型上傳到 Hub 時,建議遵循一組最佳實踐
上傳權重
為不同的模型權重使用單獨的倉庫。 例如,您可以將同一模型的量化變體儲存在一個倉庫中,但為不同的模型權重使用單獨的倉庫。
優先使用
safetensors
而不是pickle
進行權重序列化。safetensors
比 Python 的pickle
提供了更好的安全性和效能。
編寫全面的模型卡片
精心製作的模型卡片(倉庫中的 README.md
檔案)對於可發現性、可復現性和有效共享至關重要。您的模型卡片應包括:
元資料配置:模型卡片頂部的元資料部分(YAML 格式)對於可發現性和正確分類至關重要。請務必包括:
--- pipeline_tag: text-generation # Specify the task library_name: transformers # Specify the library language: - en # List language for your model license: apache-2.0 # Specify a license datasets: - username/dataset # List datasets used for training base_model: username/base-model # If applicable ---
詳細模型描述:清晰地解釋您的模型功能、架構及其預期用例。這有助於使用者快速瞭解您的模型是否符合他們的需求。
使用示例:提供清晰、可操作的程式碼片段,演示如何使用您的模型進行推理、微調或其他常見任務。這些示例應可直接複製並執行,只需進行最少的修改。
額外提示:您可以透過在模型倉庫中放置結構良好的 notebook.ipynb
來展示您的模型功能。這將允許使用者直接開啟您的筆記本並在Google Colab 和 Kaggle Notebooks 中直接執行。
技術規格:包含有關訓練引數、硬體要求以及有助於使用者瞭解如何有效使用您的模型的任何其他技術細節。
效能指標:分享全面的基準測試和評估結果。包括定量指標和定性示例,以向用戶全面展示模型的功能和侷限性。
侷限性和偏見:透明地記錄與您的模型相關的任何已知侷限性、偏見或道德考量。這有助於使用者就是否以及如何使用您的模型做出明智的決定。
增強模型可發現性和可用性
為了最大限度地提高模型的影響力和可用性
庫整合:如果可能,請新增對 Hugging Face Hub 整合的眾多庫(如 Transformers 或 Diffusers)之一的支援。這種整合顯著增加了您的模型的可訪問性,併為使用者提供了使用您模型的程式碼片段。
例如,要指定您的模型與 Transformers 庫一起使用
--- library_name: transformers ---
您還可以建立自己的模型庫或將 Hub 支援新增到另一個現有庫或程式碼庫。
最後,在推送自定義 PyTorch 模型時,您可以採用Mixin 類。
額外提示:一個公認的庫還可以讓您跟蹤模型的下載量。
正確的元資料:
- Pipeline Tag(流水線標籤): 選擇正確反映模型主要任務的流水線標籤。此標籤決定了模型在搜尋結果中的顯示方式以及模型頁面上顯示的小部件。
常見流水線標籤示例
text-generation
- 用於生成文字的語言模型text-to-image
- 用於文字到影像生成模型image-text-to-text
- 用於生成文字的視覺語言模型 (VLM)text-to-speech
- 用於從文字生成音訊的模型許可證: 許可證資訊對於使用者瞭解如何使用模型至關重要。
研究論文:如果您的模型有相關的研究論文,您可以在模型卡片中引用它們,它們將自動連結。這提供了學術背景,允許使用者更深入地研究您工作的理論基礎,並增加引用。
## References * [Model Paper](https://arxiv.org/abs/xxxx.xxxxx)
集合:如果您要釋出多個相關模型或變體,請將它們組織到集合中。集合有助於使用者發現相關模型並瞭解不同版本或變體之間的關係。
演示:使用模型的互動式演示建立Hugging Face Space。這允許使用者無需編寫任何程式碼即可直接試用您的模型,顯著降低了採用門檻。您還可以從 Space 中連結模型,使其顯示在模型專用 UI 頁面上。
## Demo Try this model directly in your browser: [Space Demo](https://huggingface.co/spaces/username/model-demo)
建立演示時,請從 Hub 上的模型倉庫下載模型(而不是使用 Google Drive 等外部來源);它將模型工件和演示交叉連結在一起,並提供了更多可見性路徑。
量化版本:考慮上傳模型的量化版本(例如,GGUF 或 DDUF 格式),以提高計算資源有限的使用者可訪問性。在量化模型卡片上使用
base_model
元資料欄位連結這些版本。您還可以清楚地記錄原始版本和量化版本之間的效能差異。--- base_model: username/original-model base_model_relation: quantized ---
在模型頁面上鍊接資料集:在您的
README.md
元資料中連結資料集,以直接從您的模型頁面顯示使用的那些資料集。--- datasets: - username/dataset - username/dataset-2 ---
新模型版本:如果您的模型是現有模型的更新,您可以在舊版本模型卡片上指定它。這將在舊模型的頁面上顯示一個橫幅,直接連結到此更新版本。
--- new_version: username/updated-model ---
視覺示例:對於影像或影片生成模型,使用
<Gallery>
卡片元件直接在模型頁面上包含示例。視覺示例提供了對模型功能的直接洞察。<Gallery>   </Gallery>
碳排放:如果可能,請指定與模型訓練相關的碳排放量。此資訊有助於具有環保意識的使用者和組織做出明智的決策。
--- co2_eq_emissions: emissions: 123.45 source: "CodeCarbon" training_type: "pre-training" geographical_location: "US-East" hardware_used: "8xA100 GPUs" ---
訪問控制和可見性
可見性設定:一旦一切敲定並且您準備好與世界分享您的模型,請在您的模型設定中將您的模型切換為公共可見性。在此之前,請仔細檢查所有文件和程式碼示例,確保它們準確和完整。
受限訪問:如果您的模型需要受控訪問,請使用受限訪問功能,並清楚地指定使用者必須滿足的條件才能獲得訪問許可權。這對於具有潛在雙重用途或商業限制的模型尤其重要。
🏁 釋出模型後
成功的模型釋出不僅僅是首次釋出。為了最大限度地提高影響力和保持質量
維護與社群互動
驗證功能:釋出後,透過在乾淨的環境中測試,驗證所有提供的程式碼片段是否正常工作。這確保使用者可以成功地實現您的模型,而不會遇到挫折。
例如,如果您的模型是與 transformers 相容的 LLM,您可以嘗試以下程式碼片段
from transformers import pipeline # This should work without errors pipe = pipeline("text-generation", model="your-username/your-model") result = pipe("Your test prompt")
分享分享再分享:大多數人透過社交媒體或公司 Slack 或電子郵件執行緒等內部聊天渠道發現模型,因此請毫不猶豫地分享您的模型連結。分發模型的好方法是在您的網站或 GitHub 專案中新增連結。訪問和喜歡您的模型的人越多,它在 Hugging Face 熱門部分的排名就越高,從而獲得更多的可見性!
社群互動:在社群標籤中與使用者互動,透過回答問題、處理反饋和快速解決問題。澄清疑問,採納有用的建議,並關閉不相關的話題討論或拉取請求,以使空間保持專注。
跟蹤使用情況和影響力
使用指標:監控下載量和點贊量,以跟蹤模型的受歡迎程度和採用情況。您可以在模型設定中訪問總下載量指標。
監控貢獻:定期檢查您的模型樹,以發現社群所做的貢獻。這些貢獻可以提供寶貴的見解和潛在的合作機會。
企業功能
Hugging Face Enterprise 訂閱提供額外的功能
訪問控制:設定資源組以控制特定團隊或使用者的訪問,確保組織內具有適當的許可權。
儲存區域:選擇模型檔案的資料儲存區域(美國/歐盟),以符合區域資料法規和要求。
高階分析:使用企業分析功能,深入瞭解使用模式和採用指標。
擴充套件儲存:隨著模型組合的增長,訪問額外的私有儲存容量,以託管更多模型和更大的工件。
透過遵循這些全面的指南和示例,您將確保您在 Hugging Face 上的模型釋出清晰、有影響力且有價值。這將最大限度地發揮您的工作對 AI 社群的價值,並提高其可見性。期待您的貢獻!
< > 在 GitHub 上更新