深度強化學習課程文件

決策型Transformer

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

決策型Transformer

決策型Transformer模型由 Chen L. 等人的“決策型Transformer:透過序列建模進行強化學習”引入。它將強化學習抽象為條件序列建模問題。

主要思想是,我們不使用RL方法(例如擬合值函式)來訓練策略以最大化回報(累積獎勵),而是使用序列建模演算法(Transformer),該演算法在給定期望回報、過去狀態和動作的情況下,生成未來的動作以實現此期望回報。它是一個自迴歸模型,以期望回報、過去狀態和動作作為條件,生成實現期望回報的未來動作。

這徹底改變了強化學習正規化,因為我們使用生成軌跡建模(建模狀態、動作和獎勵序列的聯合分佈)來取代傳統的RL演算法。這意味著在決策型Transformer中,我們不最大化回報,而是生成一系列實現期望回報的未來動作。

🤗 Transformers團隊將決策型Transformer(一種離線強化學習方法)整合到庫中以及Hugging Face Hub中。

瞭解決策型Transformer

要了解更多關於決策型Transformer的資訊,您應該閱讀我們撰寫的部落格文章:Hugging Face上的決策型Transformer介紹

訓練您的第一個決策型Transformer

現在您已經透過Hugging Face上的決策型Transformer介紹瞭解了決策型Transformer的工作原理,您已準備好從頭開始訓練您的第一個離線決策型Transformer模型,以使半豹奔跑。

在此處開始教程 👉 https://huggingface.co/blog/train-decision-transformers

延伸閱讀

如需瞭解更多資訊,我們建議您查閱以下資源

作者

本節由Edward Beeching撰寫

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.