智慧體課程文件
思考:內部推理和 ReAct 方法
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
思考:內部推理和 ReAct 方法
在本節中,我們將深入探討 AI 智慧體的內部運作——其推理和規劃能力。我們將探索智慧體如何利用其內部對話來分析資訊,將複雜問題分解為可管理步驟,並決定下一步採取何種行動。
此外,我們還將介紹 ReAct 方法,這是一種鼓勵模型在行動前“逐步思考”的提示技術。
思考代表智慧體解決任務的內部推理和規劃過程。
這利用了智慧體的大型語言模型 (LLM) 容量,用於分析提示中提供的資訊——本質上,是它在解決問題時的內心獨白。
智慧體的思考幫助它評估當前的觀察結果並決定下一步行動。透過這個過程,智慧體可以將複雜問題分解成更小、更易於管理的步驟,反思過去的經驗,並根據新資訊不斷調整其計劃。
🧠 常見思考型別的例子
思考型別 | 示例 |
---|---|
規劃 | “我需要將此任務分解為三個步驟:1) 收集資料,2) 分析趨勢,3) 生成報告” |
分析 | “根據錯誤訊息,問題似乎出在資料庫連線引數上” |
決策 | “考慮到使用者的預算限制,我應該推薦中檔選項” |
問題解決 | “為了最佳化此程式碼,我應該首先對其進行分析以識別瓶頸” |
記憶整合 | “使用者之前提到他們喜歡 Python,所以我將提供 Python 示例” |
自我反思 | “我上次的方法效果不佳,我應該嘗試不同的策略” |
目標設定 | “要完成此任務,我首先需要確定驗收標準” |
優先順序 | “應在新增新功能之前解決安全漏洞” |
注意: 對於為函式呼叫微調的 LLM,思考過程是可選的。更多詳情將在行動部分介紹。
🔗 思維鏈 (CoT)
思維鏈 (CoT) 是一種提示技術,引導模型在生成最終答案之前逐步思考問題。
它通常以
“讓我們一步一步地思考。”
這種方法有助於模型內部推理,尤其是對於邏輯或數學任務,而無需與外部工具互動。
✅ 示例 (CoT)
Question: What is 15% of 200?
Thought: Let's think step by step. 10% of 200 is 20, and 5% of 200 is 10, so 15% is 30.
Answer: 30
⚙️ ReAct:推理 + 行動
一個關鍵方法是 ReAct 方法,它結合了“推理”(思考)和“行動”(行動)。
ReAct 是一種提示技術,鼓勵模型逐步思考,並在推理步驟之間穿插行動(例如使用工具)。
這使得智慧體能夠透過交替進行以下操作來解決複雜的、多步驟的任務:
- 思考:內部推理
- 行動:工具使用
- 觀察:接收工具輸出
🔄 示例 (ReAct)
Thought: I need to find the latest weather in Paris.
Action: Search["weather in Paris"]
Observation: It's 18°C and cloudy.
Thought: Now that I know the weather...
Action: Finish["It's 18°C and cloudy in Paris."]

🔁 比較:ReAct 與 CoT
特性 | 思維鏈 (CoT) | ReAct |
---|---|---|
逐步邏輯 | ✅ 是 | ✅ 是 |
外部工具 | ❌ 否 | ✅ 是(行動 + 觀察) |
最適合 | 邏輯、數學、內部任務 | 資訊搜尋、動態多步驟任務 |
最近的模型,如 Deepseek R1 或 OpenAI 的 o1,經過微調以先思考再回答。它們使用結構化標記,如
和 ,明確地將推理階段與最終答案分開。
與 ReAct 或 CoT(它們是提示策略)不同,這是一種訓練級技術,模型透過示例學習思考。