TRL 文件
社群教程
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
社群教程
社群教程由 Hugging Face 社群的活躍成員製作,他們希望與他人分享自己的知識和專業技能。這些教程是瞭解該庫及其功能、並開始使用核心類和模態的絕佳方式。
語言模型
任務 | 分類 | 描述 | 作者 | 教程 | Colab |
---|---|---|---|---|---|
強化學習 | GRPOTrainer | 在 TRL 中使用 GRPO 對 LLM 進行推理後訓練 | Sergio Paniego | 連結 | |
強化學習 | GRPOTrainer | Mini-R1:復現Deepseek R1的“頓悟時刻”——RL教程 | Philipp Schmid | 連結 | |
強化學習 | GRPOTrainer | 使用 GRPO 和 Unsloth 最佳化在 LLaMA 3.1-8B 上進行強化學習 | Andrea Manzoni | 連結 | |
指令微調 | SFTTrainer | 使用 ChatML 格式和 QLoRA 微調 Google Gemma LLM | Philipp Schmid | 連結 | |
結構化生成 | SFTTrainer | 使用 QLoRA 和 PEFT 微調 Llama-2-7B 以生成 JSON 格式的波斯語產品目錄 | Mohammadreza Esmaeilian | 連結 | |
偏好最佳化 | DPOTrainer | 使用直接偏好最佳化對 Mistral-7b 進行對齊以符合人類偏好 | Maxime Labonne | 連結 | |
偏好最佳化 | ORPOTrainer | 使用 ORPO 微調 Llama 3,結合指令微調和偏好對齊 | Maxime Labonne | 連結 | |
指令微調 | SFTTrainer | 如何在 2025 年使用 Hugging Face 微調開放式 LLM | Philipp Schmid | 連結 |
視覺語言模型
任務 | 分類 | 描述 | 作者 | 教程 | Colab |
---|---|---|---|---|---|
視覺問答 | SFTTrainer | 在 ChartQA 資料集上微調 Qwen2-VL-7B 用於視覺問答 | Sergio Paniego | 連結 | |
視覺問答 | SFTTrainer | 在消費級 GPU 上使用 TRL 微調 SmolVLM | Sergio Paniego | 連結 | |
SEO 描述 | SFTTrainer | 微調 Qwen2-VL-7B 以從影像生成對 SEO 友好的描述 | Philipp Schmid | 連結 | |
視覺問答 | DPOTrainer | PaliGemma 🤝 直接偏好最佳化 | Merve Noyan | 連結 | |
視覺問答 | DPOTrainer | 在消費級 GPU 上使用 TRL 和直接偏好最佳化 (DPO) 微調 SmolVLM | Sergio Paniego | 連結 | |
目標檢測定位 | SFTTrainer | 使用 TRL 微調視覺語言模型 (VLM) 以進行目標檢測定位 | Sergio Paniego | 連結 | |
視覺問答 | DPOTrainer | 使用 TRL 和 MPO 微調視覺語言模型 | Sergio Paniego | 連結 | |
強化學習 | GRPOTrainer | 使用 TRL 和 GRPO 對 VLM 進行推理後訓練 | Sergio Paniego | 連結 |
貢獻
如果您有希望新增到此列表的教程,請提交一個 PR 以新增它。我們將進行稽核,如果它與社群相關,我們將合併它。
< > 在 GitHub 上更新