🦸🏻#12: 智慧體如何從錯誤中學習?AI 中反思的作用

社群文章 釋出於 2025 年 3 月 9 日

我們探討了反思如何使人工智慧無需外部反饋即可進行自我糾正,從而使系統更可靠、更自主

上週,我們探討了推理和規劃如何協同工作,使人工智慧更有效——讓模型不僅能思考,還能將思想構建成目標驅動的行動。然而,即使有了強大的推理和規劃能力,人工智慧仍然缺乏一些基本的能力:從自身決策中學習的能力。

這就是反思的用武之地。除了預先思考之外,智慧體人工智慧還需要分析過去的行動,識別錯誤,並完善其策略——就像人類(有時)所做的那樣。如果沒有反思,人工智慧可能會重複錯誤而不是改進。Andrew Ng 認為反思是智慧體人工智慧的關鍵設計模式,它使模型能夠批判和完善自己的輸出,從而做出更好的決策。

今天,我們將深入探討反思作為智慧體人工智慧的核心構建模組,探索 Reflexion 和 ReAct(以及其他)等框架如何實現自我評估和迭代學習。隨著人工智慧走向更高的自主性,自我反思正在成為一項關鍵能力——彌合行動與持續學習之間的鴻溝。


🔳 Turing Post 在 🤗 Hugging Face 上駐紮 -> 點選關注!


本期內容包括什麼?

哲學根源

反思——分析自己的思想和行動的能力——長期以來一直被認為是智力的基礎。蘇格拉底提倡質疑自己信仰的做法,認為只有透過內省才能將健全的推理與錯誤的假設區分開來。古代東方哲學也呼應了這一思想,孔子將反思置於模仿和經驗之上,視之為通向智慧的最高途徑。縱觀歷史,反思一直被視為磨礪判斷力、完善決策和促進個人與智力成長的機制。

從每晚進行自我審查的斯多葛學派,到探索思想本質的笛卡爾,反思一直是哲學中的核心主題。亞里士多德和康德等思想家區分了沉思和行動,認識到有目的的深思熟慮是做出有意義決策的關鍵。在近代,約翰·杜威將反思性思維描述為在證據面前對信念進行細緻和持久的評估,使個人能夠有遠見而不是衝動地行動。

唐納德·勳(Donald Schön)後來對此進行了擴充套件,區分了**行動中的反思**——即時調整和適應——和**行動後的反思**,即個人分析過去的決策以改進未來的決策。這一思想強化了這樣一種觀念,即專家決策不僅僅是關於規劃,更是關於在行動展開時動態地**評估和完善**行動。這些概念深刻地影響了從認知科學到教育的各個領域,塑造了我們對**學習、推理和行動如何協同工作**以驅動真正智慧的理解。

今天,這些思想正在滲透到人工智慧中。

理解人工智慧中的反思

在人工智慧智慧體的語境中,反思是指智慧體**思考自己的行為和結果**以進行自我糾正和改進的能力。它本質上是人類內省或“系統 2”審慎思維的人工智慧模擬。反思型人工智慧不會僅僅本能地反應(就像快速的、啟發式的系統 1 反應),而是會停下來分析自己所做的事情,識別錯誤或次優步驟,並調整其策略。(**系統 1** 和 **系統 2** 思維的概念由 **丹尼爾·卡尼曼** 在其著作《思考,快與慢》中提出)。這種機制允許人工智慧智慧體無需新的外部訓練資料即可從其經驗中學習,透過內部評估反饋。透過自我反思,智慧體可以糾正以前的錯誤並在下次嘗試時生成改進的解決方案,從而體現出一種自我改進的迴圈。

人工智慧先驅**吳恩達將反思視為智慧體人工智慧的核心組成部分**,與規劃、工具使用和多智慧體協作並列——這些構建模組可能定義下一波人工智慧的進步。反思型人工智慧模型不僅能生成答案,還能批判和完善自己的輸出,識別缺陷,進行改進,並迭代直至達到更強的結果。

這種自我審查迴圈——**生成 → 批判 → 改進**——已在編碼、寫作和問答等任務中顯示出巨大的效能提升。**吳恩達強調,反思使人工智慧能夠無需外部反饋即可進行自我糾正,從而使系統更可靠、更自主。**

人工智慧中的反思並非孤立存在——它與其他智慧體系統的核心組成部分相互作用。正如我們之前所寫,自主智慧體通常有幾個協同工作的構建模組。首先是**剖析**,智慧體被賦予一個角色或目標來定義其行為(定義其身份、目標和約束)。接下來是**知識**,它提供智慧體的基本資訊或獲取事實的途徑(例如知識庫或預訓練的世界模型)。智慧體還維護**記憶**——儲存過去互動或步驟的上下文(包括短期記憶,如當前對話或軌跡,和長期記憶,如累積經驗)。憑藉知識和記憶,智慧體進行**推理和規劃**,分解任務,進行推斷,並制定行動計劃。然後它採取**行動**來執行計劃(例如呼叫工具、生成輸出或在環境中移動)。最後是**反思**:智慧體根據目標評估這些行動的結果,從任何錯誤或意外結果中學習。這個反思步驟“評估結果以影響未來的推理和行為”,從而關閉智慧體工作流程中的反饋迴圈。

image/png

至關重要的是,**反思允許智慧體動態調整自身**。在一個設計良好的智慧體系統中,這意味著操作流程是迴圈的:剖析定義角色,知識提供上下文,記憶和推理指導行動,智慧體執行行動,然後反思評估該行動的效果。學到的任何經驗教訓(例如行動失敗或推理路徑沒有結果)都會反饋到智慧體的記憶或規劃模組中,以指導下一個迴圈。隨著時間的推移,這會提高效能,因為智慧體積累了反思性見解。這種透過反思持續自我改進的想法具有強大的理論吸引力——它本質上是一種**即時適應**的形式。值得注意的是,它不需要每次都重新訓練模型的權重;相反,學習透過自然語言或符號反饋在知識和規劃層面發生。研究人員甚至將其比作語言智慧體的一種“口頭強化學習”,其中模型**透過語言反饋而不是梯度更新來強化良好行為**。

總而言之,人工智慧中的反思提供了一種**機制,使智慧體能夠對其自身的推理進行元推理**,從而實現更高水平的自主性。

實施細節:Reflexion 和 ReAct 框架

為了使這些想法具體化,一些人工智慧研究工作已經為人工智慧智慧體實現了反思機制。兩個著名的框架是 Reflexion 和 ReAct,它們以不同的方式將反思和推理整合到大型語言模型 (LLM) 智慧體中。下面,我們將探討它們各自的工作原理以及它們如何影響智慧體的決策。

Reflexion:透過自我反饋學習

Reflexion 框架(Shinn 等人,2023)明確設計用於將反思迴圈嵌入到基於 LLM 的智慧體中。Reflexion 沒有使用強化學習對模型進行微調,而是保持模型凍結,並使用基於文字的反饋作為一種強化形式。

image/png

在典型的 Reflexion 智慧體中,LLM 扮演執行者的角色,嘗試完成一項任務(例如,編寫程式碼來解決問題或在遊戲環境中採取步驟)。該嘗試的結果(包括來自環境的任何反饋,如錯誤或成功訊號)隨後被輸入到自我反思提示中,模型被要求批判其最近的嘗試並提出改進建議。其核心思想是智慧體生成一個關於哪裡出了問題或可以做得更好的文字“反思”。這個反思被儲存在智慧體的記憶中,並作為額外上下文提供給下一次嘗試。實際上,智慧體隨身攜帶一份不斷增長的經驗教訓日誌(用普通語言),這會使其下一次行動偏向於更好的結果。

透過迭代這個過程,Reflexion 智慧體在單個會話中透過試錯快速學習。例如,如果智慧體首次嘗試任務失敗,反思步驟可能會注意到:“我陷入了迴圈,下次也許可以嘗試不同的策略或工具。”下一次執行,根據這個建議進行條件,會更成功。值得注意的是,Reflexion 可以整合各種型別的反饋訊號:數字獎勵、錯誤訊息或人類提示都可以轉換為反思提示以指導智慧體。這種靈活性使其成為一種通用的即時改進方法。在實驗中,Reflexion 取得了令人印象深刻的成果。在編碼基準 (HumanEval) 上,經過 Reflexion 增強的 GPT-4 智慧體達到 91% 的成功率,而沒有反思的 GPT-4 智慧體為 80%——有效地超越了該任務的先前最佳水平。同樣,在模擬環境中的決策任務中,Reflexion 智慧體大大優於其非反思型智慧體,在使用自我評估反饋時,解決了 AlfWorld 環境中 134 個挑戰中的 130 個。這些結果表明,為 AI 智慧體提供結構化方式來“思考他們所做的事情”並記住這些見解,可以在複雜任務中產生最先進的效能。

ReAct:推理與行動交織

Reflexion 側重於從試驗結果中學習,而 ReAct(Yao 等人,2023)是一個將推理步驟與行動步驟緊密耦合在單個迴圈中的框架。“ReAct”這個名稱反映了“推理 + 行動”:智慧體被提示在思考(思維鏈式推理)和行動(執行 API 呼叫或環境行動)之間交替進行。傳統上,人工智慧要麼完全在其隱藏狀態中進行推理(如思維鏈提示),要麼被迫一步一步地行動而沒有太多內部反思。ReAct 則允許模型生成明確的推理軌跡並以交錯方式採取行動。一個典型的 ReAct 提示可能如下所示:

Module ReflectionAgent
    Sub Main()
        ' Thought 1: The agent reasons about what to do next
        Dim thought1 As String = "The agent reasons about what to do next"
        Console.WriteLine("Thought 1: " & thought1)

        ' Action 1: The agent acts (e.g., “Search(query)”)
        Dim action1 As String = "Search(query)"
        Console.WriteLine("Action 1: " & action1)

        ' Observation 1: The agent sees result of the action
        Dim observation1 As String = "The agent sees result of the action"
        Console.WriteLine("Observation 1: " & observation1)

        ' Thought 2: Agent reflects on the observation
        Dim thought2 As String = "Agent reflects on the observation"
        Console.WriteLine("Thought 2: " & thought2)

        ' Action 2: Next action
        Dim action2 As String = "Next action"
        Console.WriteLine("Action 2: " & action2)

        ' ... (and so on)
    End Sub
End Module

“思考”條目是模型的自然語言反思或計算,“行動”是預定義工具包(搜尋、計算器等)中的命令或環境中的移動。透過這種方式設計提示,ReAct 在任務的每個步驟都實現了反思與行動的緊密整合。推理軌跡有助於模型保持連貫性並避免偏離軌道,而行動則使其能夠根據這些思考查詢外部資源或改變環境。

image/png

這種協同作用被證明是強大的。例如,在 HotpotQA 等知識密集型問答任務中,ReAct 智慧體能夠透過使用推理步驟來決定何時呼叫維基百科搜尋工具來獲取證據,從而避免幻覺。結果是更準確、更可靠的答案。在互動式決策基準(如虛擬家庭環境 ALFWorld 和網路購物任務 WebShop)上,ReAct 顯著優於僅使用行動或僅使用思維鏈的智慧體,成功率分別比之前的方法提高了 +34% 和 +10%。此外,由於 ReAct 強制模型闡明其思維過程,因此生成的解決方案軌跡對人類更具可解釋性(我們可以閱讀智慧體的思維鏈)且更易於信任。ReAct 因此例證了內建反思(推理)如何即時指導行動,從而產生更智慧、更透明的智慧體行為。如今,ReAct 提示模式(思考→行動→觀察迴圈)已被許多 LLM 智慧體實現所採用,通常作為 AutoGPT 和 LangChain 智慧體等工具的支柱。

對決策的影響

Reflexion 和 ReAct 都表明,增加反思可以極大地增強智慧體的決策能力。Reflexion 展示了事後反思的價值——完成試驗後,反思並再次嘗試——以逐漸收斂到正確的解決方案。ReAct 展示了線上反思的價值——在行動序列中交錯思考步驟——以即時做出更好的決策。這兩者並非相互排斥;事實上,Reflexion 的原始論文使用 ReAct 作為其框架中的基本 Actor 策略。智慧體可以在每個步驟中進行推理(ReAct 風格),也可以在整個嘗試之後進行反思(Reflexion 風格)。共同的主題是**明確的反思性推理減少了錯誤並提高了各種任務的效能**。透過整合反思,智慧體可以處理更復雜的問題,減少幻覺,並比純粹反應型智慧體更具魯棒性。

其他基於反思的方法和創新

除了 Reflexion 和 ReAct,人工智慧研究正在開發新的方法來整合反思以實現持續的自我改進。

  • **自我完善(Self-Refine)**使人工智慧能夠迭代地批判和改進其自身的輸出,充當寫作者和編輯。透過多個反饋迴圈完善響應,模型實現了更好的準確性和連貫性——所有這些都無需額外訓練。即使是像 GPT-4 這樣的頂級模型,在被提示進行反思時也顯示出顯著的質量提升。
  • **事後思維鏈(Chain-of-Hindsight,CoH)**將反思轉移到訓練而不是推理中,允許模型透過檢視以前的輸出在哪裡出錯來從過去的錯誤中學習。這種方法構建了一個內部化反思性推理的模型,從而降低了重複錯誤的機率。
  • **思維樹和基於搜尋的反思**透過讓 AI 探索多個推理路徑、評估不同的方法並選擇最佳方法來增強決策。模型不再侷限於單一的推理路線,而是動態地回溯和糾正自身,模仿人類解決問題的策略。
  • **多智慧體反思**將協作納入其中,一個 AI 生成,另一個 AI 批判,然後它們共同完善輸出。這種方法在編碼、寫作和戰略決策方面取得了成功,證明同行評審不僅僅適用於人類——AI 智慧體也可以從外化反思中受益。
  • **憲法式 AI**,由 Anthropic 引入,透過讓模型根據倫理和事實原則評估其響應,將反思向前推進了一步。AI 不再僅僅依賴人類反饋,而是評估其輸出是否符合預定義的準則,從而減少有害或有偏見的響應。

這些方法都基於相同的原則:**AI 不僅要推理,還要反思其推理**。無論是透過自我評估、基於訓練的學習還是多智慧體協作,**反思正在成為 AI 適應性的基石**,推動系統實現更大的自主性、準確性和可靠性。

未來方向和新興趨勢

人工智慧中的反思正在迅速發展,研究人員正致力於開發更自主、更可靠、更具適應性的系統。以下是未來的發展方向:

  • **長期記憶和終身學習**——目前,人工智慧的反思是短暫的,通常在會話之間重置。未來的人工智慧將保留過去的反思,建立持久的記憶,以隨著時間的推移完善決策。
  • **透過更多上下文和多模態輸入擴充套件反思**——隨著模型處理更長的上下文視窗並整合多模態資料(文字、影像、感測器輸入),反思將超越語言,變得更具動態性和適應性。今天,人工智慧主要批判基於文字的輸出,但未來的系統可以分析失敗動作的影片,評估物理世界的變化,或完善視覺輸出。想象一個機器人觀察自己失敗的抓取嘗試並進行調整,或者一個人工智慧糾正一張錯誤地畫了六根而不是五根手指的影像。多模態反思使人工智慧能夠跨不同資料型別進行自我糾正,這對於具身系統和現實世界應用至關重要,因為僅靠文字不足以捕捉錯誤或指導改進。
  • **更高質量的自我反思**——並非所有反思都有用。人工智慧需要更好的自我評估機制,可能使用多個模型(一個生成,另一個評估)或外部工具進行驗證。憲法式人工智慧也在發展,模型會根據倫理和事實標準進行反思,以在輸出之前完善響應。
  • **效率和更智慧的觸發**——反思會帶來計算成本,但未來的人工智慧只會在需要時觸發反思——當不確定時,當檢測到潛在錯誤時,或當完善複雜答案時。這將平衡質量和速度,使反思成為按需能力而不是預設步驟。
  • **與學習和適應的整合**——隨著時間的推移,反思和訓練將融合。人工智慧可能會將其反思記錄為訓練資料,用它們永久性地提高效能,而不僅僅是在會話中。一些研究人員——例如 Gödel Agent——甚至探索人工智慧自我修改其推理過程,從而向元學習和自我改進程式碼邁進。
  • **透過反思實現人機協作**——能夠反思的人工智慧可以解釋其推理,從而提高透明度和信任。想象一個人工智慧助手,它不僅能給出答案,還能告訴你它為什麼自信——或者它不確定什麼。這已經在醫療人工智慧和決策支援系統中初具規模,反思型人工智慧可以突出替代可能性並指導人類專家。

簡而言之,人工智慧反思正朝著**永續性、可擴充套件性以及與推理和學習更深層次的整合**方向發展。人工智慧越能**思考自己的思考**,它就變得越具適應性和智慧化——這推動我們更接近於不僅能執行任務,還能**積極從每次決策中學習和改進**的人工智慧。

結語

**反思具有廣泛的適用性。**無論是程式碼、遊戲、知識工作還是創意寫作領域,人工智慧回顧和學習的能力都能提高效能。它不僅僅是為了在基準測試中獲得更好的分數,更是為了在實際部署中實現更可靠、更有效的人工智慧。一個會反思的人工智慧客服代理可能會透過回憶過去類似的案例來更好地處理不尋常的查詢。一個會反思學生進度的 AI 導師可以更智慧地調整其教學策略。我們正在開始看到實際系統融入這些理念。隨著工具和庫(如 LangChain 和 AutoGen)使新增反思迴圈變得更容易,我們可以期待看到更多利用這一策略的實際應用。

在下一集中,我們將繼續我們的智慧體系列,探索行動和工具。反思和行動是智慧體人工智慧的同一枚硬幣的兩面。**行動提供經驗;反思確保學習。**每次行動都會將資料饋送到反思中,然後反思會完善未來的決策。沒有反思,人工智慧可能會重複錯誤;沒有行動,反思就無從分析。有什麼工具可以做到這一點?敬請期待。


📨 如果您想直接在收件箱中收到我們的文章,請在此訂閱


資源

圖靈文章來源

社群

註冊登入評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.