強化學習（RL）文件簡介

在這個高階主題中，我們探討了一個問題：我們應該如何監控和跟蹤我們正在現實世界中訓練並與人類互動的強大強化學習代理？

隨著機器學習系統對現代生活的影響日益增長，對這些系統文件化的呼聲也越來越高。

此類文件可以涵蓋諸如所使用的訓練資料（儲存位置、收集時間、參與人員等）或模型最佳化框架（架構、評估指標、相關論文等）等方面。

如今，模型卡片和資料表變得越來越普及。例如，在 Hub 上（參見此處的文件）。

如果您點選Hub 上的熱門模型，您可以瞭解其建立過程。

這些模型和資料專用日誌旨在模型或資料集建立時完成，但在未來將這些模型構建到不斷發展的系統中時，它們將不會得到更新。

激勵獎勵報告

強化學習系統從根本上是為了根據獎勵和時間的測量進行最佳化。雖然獎勵函式的概念可以很好地對映到許多已知的監督學習領域（透過損失函式），但對機器學習系統如何隨時間演變知之甚少。

為此，作者引入了強化學習獎勵報告（這個簡潔的命名旨在模仿流行的論文《模型報告的模型卡片》和《資料集的資料表》）。目標是提出一種專注於獎勵的人為因素和時變反饋系統的文件型別。

基於 Mitchell 等人及 Gebru 等人提出的模型卡片和資料表文件框架，我們認為人工智慧系統需要獎勵報告。

獎勵報告是針對提議的強化學習部署的活文件，用於劃分設計選擇。

然而，關於該框架在不同強化學習應用中的適用性、系統可解釋性的障礙以及已部署的監督機器學習系統與強化學習中使用的順序決策之間的共鳴，仍有許多問題有待解決。

至少，獎勵報告為強化學習實踐者提供了一個機會，讓他們可以認真思考這些問題，並開始著手決定如何在實踐中解決這些問題。

專門為強化學習和反饋驅動的機器學習系統設計的核心文件是更改日誌。更改日誌會更新來自設計者（更改的訓練引數、資料等）的資訊，以及來自使用者注意到的更改（有害行為、意外響應等）。

更改日誌附帶了更新觸發器，以鼓勵監控這些效果。

一些最具影響力的強化學習驅動系統本質上是多方利益相關的，並且處於私人公司的封閉環境中。這些公司大部分不受監管，因此文件的負擔落在了公眾身上。

如果您有興趣貢獻，我們正在GitHub上建立熱門機器學習系統的獎勵報告的公共記錄。如需進一步閱讀，您可以訪問獎勵報告的論文或檢視示例報告。

本節由Nathan Lambert撰寫。