深度強化學習課程文件
什麼是強化學習?
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
什麼是強化學習?
為了理解強化學習,讓我們從宏觀角度開始。
宏觀角度
強化學習背後的理念是,一個智慧體(AI)將透過與環境互動(透過試錯)並接收獎勵(負面或正面)作為執行動作的反饋來從環境中學習。
從與環境的互動中學習源於我們的自然經驗。
例如,想象一下讓你的小弟弟玩一個他從未玩過的電子遊戲,給他一個控制器,然後讓他一個人玩。
你的弟弟會透過按下正確的按鈕(動作)與環境(電子遊戲)互動。他得到了一枚硬幣,這是一個 +1 的獎勵。這是正面的,他剛明白在這個遊戲中他必須得到硬幣。
但是,他再次按下右鍵,然後他碰到了一個敵人。他剛剛死了,所以這是一個 -1 的獎勵。
透過與環境的試錯互動,你的小弟弟明白到他需要在這個環境中獲得硬幣,但要避開敵人。
在沒有任何監督的情況下,這個孩子玩遊戲會越來越好。
這就是人類和動物學習的方式,透過互動。強化學習只是從行動中學習的一種計算方法。
正式定義
我們現在可以給出一個正式定義
強化學習是一種解決控制任務(也稱為決策問題)的框架,透過構建智慧體,這些智慧體透過與環境互動、試錯並接收獎勵(正面或負面)作為獨特的反饋來從環境中學習。
但是強化學習是如何工作的呢?
< > 在 GitHub 上更新