TRL 文件

情感調整示例

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

情感調整示例

本示例中的 Notebook 和指令碼展示瞭如何使用情感分類器(例如 lvwerra/distilbert-imdb)微調模型。

以下是 trl 倉庫中 Notebook 和指令碼的概述

檔案 描述
examples/scripts/ppo.py 在 Colab 中開啟 此指令碼展示瞭如何使用 PPOTrainer 和 IMDB 資料集微調情感分析模型
examples/notebooks/gpt2-sentiment.ipynb 此 Notebook 演示瞭如何在 Jupyter Notebook 上覆現 GPT2 imdb 情感調整示例。
examples/notebooks/gpt2-control.ipynb 在 Colab 中開啟 此 Notebook 演示瞭如何在 Jupyter Notebook 上覆現 GPT2 情感控制示例。

用法

# 1. run directly
python examples/scripts/ppo.py
# 2. run via `accelerate` (recommended), enabling more features (e.g., multiple GPUs, deepspeed)
accelerate config # will prompt you to define the training configuration
accelerate launch examples/scripts/ppo.py # launches training
# 3. get help text and documentation
python examples/scripts/ppo.py --help
# 4. configure logging with wandb and, say, mini_batch_size=1 and gradient_accumulation_steps=16
python examples/scripts/ppo.py --log_with wandb --mini_batch_size 1 --gradient_accumulation_steps 16

注意:如果您不想使用 wandb 進行日誌記錄,請從指令碼/Notebook 中刪除 log_with="wandb"。您也可以將其替換為 accelerate 支援的您喜歡的實驗跟蹤器。

關於多 GPU 的幾點注意事項

要在 DDP(分散式資料並行)的多 GPU 設定中執行,請將 device_map 值更改為 device_map={"": Accelerator().process_index},並確保使用 accelerate launch yourscript.py 執行您的指令碼。如果您想應用樸素流水線並行,可以使用 device_map="auto"

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.