LLM 課程文件
監督式微調
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
監督式微調
在第2章第2節中,我們看到生成式語言模型可以針對摘要和問答等特定任務進行微調。然而,如今更常見的是同時針對廣泛任務對語言模型進行微調;這種方法被稱為監督式微調 (SFT)。這個過程有助於模型變得更通用,能夠處理各種用例。人們在ChatGPT等平臺上與大多數LLM的互動都經過了SFT,以使其更具幫助性並符合人類偏好。本章我們將分為四個部分:
1️⃣ 聊天模板
聊天模板構建使用者與AI模型之間的互動,確保一致且符合上下文的響應。它們包括系統提示和基於角色的訊息等元件。
2️⃣ 監督式微調
監督式微調 (SFT) 是使預訓練語言模型適應特定任務的關鍵過程。它涉及使用帶標籤的示例在任務特定資料集上訓練模型。有關 SFT 的詳細指南,包括關鍵步驟和最佳實踐,請參閱 TRL 文件的監督式微調部分。
3️⃣ 低秩適應 (LoRA)
低秩適應 (LoRA) 是一種透過向模型層新增低秩矩陣來微調語言模型的技術。這使得能夠高效地進行微調,同時保留模型的預訓練知識。LoRA 的主要優勢之一是它顯著節省了記憶體,使得在資源有限的硬體上微調大型模型成為可能。
4️⃣ 評估
評估是微調過程中的關鍵步驟。它允許我們衡量模型在特定任務資料集上的效能。
⚠️ 為了充分利用模型中心和 🤗 Transformers 的所有可用功能,我們建議建立一個賬戶。
參考文獻
- Transformers 關於聊天模板的文件
- TRL 中監督式微調的指令碼
- TRL 中的
SFTTrainer
- 直接偏好最佳化論文
- 使用 TRL 進行監督式微調
- 如何使用 ChatML 和 Hugging Face TRL 微調 Google Gemma
- 微調 LLM 以 JSON 格式生成波斯語產品目錄