Diffusers 文件

價值引導規劃

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

價值引導規劃

🧪 這是一個用於強化學習的實驗性管道!

這個管道基於 Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine 的 用擴散進行規劃實現靈活行為合成 論文。

論文摘要如下:

基於模型的強化學習方法通常僅將學習用於估計近似動力學模型,而將其餘的決策工作交給經典的軌跡最佳化器。儘管概念簡單,但這種組合存在一些經驗上的缺點,表明學習到的模型可能不適合標準的軌跡最佳化。在本文中,我們考慮如何將盡可能多的軌跡最佳化管道摺疊到建模問題中,從而使從模型取樣和用模型規劃變得幾乎相同。我們技術方法的核心在於一個擴散機率模型,它透過迭代去噪軌跡來規劃。我們展示瞭如何將分類器引導取樣和影像修復重新解釋為連貫的規劃策略,探索了基於擴散的規劃方法的不尋常和有用特性,並證明了我們的框架在強調長時程決策和測試時靈活性的控制設定中的有效性。

您可以在 專案頁面原始程式碼庫 或在 演示筆記本 中試用該模型,瞭解更多資訊。

執行模型的指令碼可在此處找到。

務必查閱排程器指南,瞭解如何權衡排程器速度和質量,並參閱跨管道重用元件部分,瞭解如何高效地將相同元件載入到多個管道中。

ValueGuidedRLPipeline

class diffusers.experimental.ValueGuidedRLPipeline

< >

( value_function: UNet1DModel unet: UNet1DModel scheduler: DDPMScheduler env )

引數

  • value_function (UNet1DModel) — 一個專門用於根據獎勵微調軌跡的 UNet。
  • unet (UNet1DModel) — 用於對編碼軌跡進行去噪的 UNet 架構。
  • scheduler (SchedulerMixin) — 一個與 unet 結合使用的排程器,用於對編碼軌跡進行去噪。此應用程式的預設值是 DDPMScheduler
  • env () — 一個遵循 OpenAI gym API 的環境,用於執行動作。目前只有 Hopper 有預訓練模型。

用於從訓練預測狀態序列的擴散模型中進行價值引導取樣的管道。

該模型繼承自 DiffusionPipeline。請檢視超類文件,瞭解所有管道通用的方法(下載、儲存、在特定裝置上執行等)。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.