決策型Transformer

決策型Transformer模型由 Chen L. 等人的“決策型Transformer：透過序列建模進行強化學習”引入。它將強化學習抽象為條件序列建模問題。

主要思想是，我們不使用RL方法（例如擬合值函式）來訓練策略以最大化回報（累積獎勵），而是使用序列建模演算法（Transformer），該演算法在給定期望回報、過去狀態和動作的情況下，生成未來的動作以實現此期望回報。它是一個自迴歸模型，以期望回報、過去狀態和動作作為條件，生成實現期望回報的未來動作。

這徹底改變了強化學習正規化，因為我們使用生成軌跡建模（建模狀態、動作和獎勵序列的聯合分佈）來取代傳統的RL演算法。這意味著在決策型Transformer中，我們不最大化回報，而是生成一系列實現期望回報的未來動作。

🤗 Transformers團隊將決策型Transformer（一種離線強化學習方法）整合到庫中以及Hugging Face Hub中。

瞭解決策型Transformer

要了解更多關於決策型Transformer的資訊，您應該閱讀我們撰寫的部落格文章：Hugging Face上的決策型Transformer介紹

訓練您的第一個決策型Transformer

現在您已經透過Hugging Face上的決策型Transformer介紹瞭解了決策型Transformer的工作原理，您已準備好從頭開始訓練您的第一個離線決策型Transformer模型，以使半豹奔跑。

在此處開始教程 👉 https://huggingface.co/blog/train-decision-transformers

延伸閱讀

如需瞭解更多資訊，我們建議您查閱以下資源

作者

本節由Edward Beeching撰寫

< > 在 GitHub 上更新

深度強化學習課程

決策型Transformer

瞭解決策型Transformer

訓練您的第一個決策型Transformer

延伸閱讀

作者