LLM 課程文件

監督式微調

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

監督式微調

第2章第2節中,我們看到生成式語言模型可以針對摘要和問答等特定任務進行微調。然而,如今更常見的是同時針對廣泛任務對語言模型進行微調;這種方法被稱為監督式微調 (SFT)。這個過程有助於模型變得更通用,能夠處理各種用例。人們在ChatGPT等平臺上與大多數LLM的互動都經過了SFT,以使其更具幫助性並符合人類偏好。本章我們將分為四個部分:

1️⃣ 聊天模板

聊天模板構建使用者與AI模型之間的互動,確保一致且符合上下文的響應。它們包括系統提示和基於角色的訊息等元件。

2️⃣ 監督式微調

監督式微調 (SFT) 是使預訓練語言模型適應特定任務的關鍵過程。它涉及使用帶標籤的示例在任務特定資料集上訓練模型。有關 SFT 的詳細指南,包括關鍵步驟和最佳實踐,請參閱 TRL 文件的監督式微調部分

3️⃣ 低秩適應 (LoRA)

低秩適應 (LoRA) 是一種透過向模型層新增低秩矩陣來微調語言模型的技術。這使得能夠高效地進行微調,同時保留模型的預訓練知識。LoRA 的主要優勢之一是它顯著節省了記憶體,使得在資源有限的硬體上微調大型模型成為可能。

4️⃣ 評估

評估是微調過程中的關鍵步驟。它允許我們衡量模型在特定任務資料集上的效能。

⚠️ 為了充分利用模型中心和 🤗 Transformers 的所有可用功能,我們建議建立一個賬戶

參考文獻

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.