TRL 文件

社群教程

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

社群教程

社群教程由 Hugging Face 社群的活躍成員製作,他們希望與他人分享自己的知識和專業技能。這些教程是瞭解該庫及其功能、並開始使用核心類和模態的絕佳方式。

語言模型

任務 分類 描述 作者 教程 Colab
強化學習 GRPOTrainer 在 TRL 中使用 GRPO 對 LLM 進行推理後訓練 Sergio Paniego 連結 Open In Colab
強化學習 GRPOTrainer Mini-R1:復現Deepseek R1的“頓悟時刻”——RL教程 Philipp Schmid 連結 Open In Colab
強化學習 GRPOTrainer 使用 GRPO 和 Unsloth 最佳化在 LLaMA 3.1-8B 上進行強化學習 Andrea Manzoni 連結 Open In Colab
指令微調 SFTTrainer 使用 ChatML 格式和 QLoRA 微調 Google Gemma LLM Philipp Schmid 連結 Open In Colab
結構化生成 SFTTrainer 使用 QLoRA 和 PEFT 微調 Llama-2-7B 以生成 JSON 格式的波斯語產品目錄 Mohammadreza Esmaeilian 連結 Open In Colab
偏好最佳化 DPOTrainer 使用直接偏好最佳化對 Mistral-7b 進行對齊以符合人類偏好 Maxime Labonne 連結 Open In Colab
偏好最佳化 ORPOTrainer 使用 ORPO 微調 Llama 3,結合指令微調和偏好對齊 Maxime Labonne 連結 Open In Colab
指令微調 SFTTrainer 如何在 2025 年使用 Hugging Face 微調開放式 LLM Philipp Schmid 連結 Open In Colab

視覺語言模型

任務 分類 描述 作者 教程 Colab
視覺問答 SFTTrainer 在 ChartQA 資料集上微調 Qwen2-VL-7B 用於視覺問答 Sergio Paniego 連結 Open In Colab
視覺問答 SFTTrainer 在消費級 GPU 上使用 TRL 微調 SmolVLM Sergio Paniego 連結 Open In Colab
SEO 描述 SFTTrainer 微調 Qwen2-VL-7B 以從影像生成對 SEO 友好的描述 Philipp Schmid 連結 Open In Colab
視覺問答 DPOTrainer PaliGemma 🤝 直接偏好最佳化 Merve Noyan 連結 Open In Colab
視覺問答 DPOTrainer 在消費級 GPU 上使用 TRL 和直接偏好最佳化 (DPO) 微調 SmolVLM Sergio Paniego 連結 Open In Colab
目標檢測定位 SFTTrainer 使用 TRL 微調視覺語言模型 (VLM) 以進行目標檢測定位 Sergio Paniego 連結 Open In Colab
視覺問答 DPOTrainer 使用 TRL 和 MPO 微調視覺語言模型 Sergio Paniego 連結 Open In Colab
強化學習 GRPOTrainer 使用 TRL 和 GRPO 對 VLM 進行推理後訓練 Sergio Paniego 連結 Open In Colab

貢獻

如果您有希望新增到此列表的教程,請提交一個 PR 以新增它。我們將進行稽核,如果它與社群相關,我們將合併它。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.