思考：內部推理和 ReAct 方法

在本節中，我們將深入探討 AI 智慧體的內部運作——其推理和規劃能力。我們將探索智慧體如何利用其內部對話來分析資訊，將複雜問題分解為可管理步驟，並決定下一步採取何種行動。

此外，我們還將介紹 ReAct 方法，這是一種鼓勵模型在行動前“逐步思考”的提示技術。

思考代表智慧體解決任務的內部推理和規劃過程。

這利用了智慧體的大型語言模型 (LLM) 容量，用於分析提示中提供的資訊——本質上，是它在解決問題時的內心獨白。

智慧體的思考幫助它評估當前的觀察結果並決定下一步行動。透過這個過程，智慧體可以將複雜問題分解成更小、更易於管理的步驟，反思過去的經驗，並根據新資訊不斷調整其計劃。

🧠 常見思考型別的例子

思考型別	示例
規劃	“我需要將此任務分解為三個步驟：1) 收集資料，2) 分析趨勢，3) 生成報告”
分析	“根據錯誤訊息，問題似乎出在資料庫連線引數上”
決策	“考慮到使用者的預算限制，我應該推薦中檔選項”
問題解決	“為了最佳化此程式碼，我應該首先對其進行分析以識別瓶頸”
記憶整合	“使用者之前提到他們喜歡 Python，所以我將提供 Python 示例”
自我反思	“我上次的方法效果不佳，我應該嘗試不同的策略”
目標設定	“要完成此任務，我首先需要確定驗收標準”
優先順序	“應在新增新功能之前解決安全漏洞”

注意： 對於為函式呼叫微調的 LLM，思考過程是可選的。更多詳情將在行動部分介紹。

🔗 思維鏈 (CoT)

思維鏈 (CoT) 是一種提示技術，引導模型在生成最終答案之前逐步思考問題。

它通常以

“讓我們一步一步地思考。”

這種方法有助於模型內部推理，尤其是對於邏輯或數學任務，而無需與外部工具互動。

✅ 示例 (CoT)

Question: What is 15% of 200?
Thought: Let's think step by step. 10% of 200 is 20, and 5% of 200 is 10, so 15% is 30.
Answer: 30

⚙️ ReAct：推理 + 行動

一個關鍵方法是 ReAct 方法，它結合了“推理”（思考）和“行動”（行動）。

ReAct 是一種提示技術，鼓勵模型逐步思考，並在推理步驟之間穿插行動（例如使用工具）。

這使得智慧體能夠透過交替進行以下操作來解決複雜的、多步驟的任務：

思考：內部推理
行動：工具使用
觀察：接收工具輸出

🔄 示例 (ReAct)

Thought: I need to find the latest weather in Paris.
Action: Search["weather in Paris"]
Observation: It's 18°C and cloudy.
Thought: Now that I know the weather...
Action: Finish["It's 18°C and cloudy in Paris."]

🔁 比較：ReAct 與 CoT

特性	思維鏈 (CoT)	ReAct
逐步邏輯	✅ 是	✅ 是
外部工具	❌ 否	✅ 是（行動 + 觀察）
最適合	邏輯、數學、內部任務	資訊搜尋、動態多步驟任務

最近的模型，如 Deepseek R1 或 OpenAI 的 o1，經過微調以先思考再回答。它們使用結構化標記，如和，明確地將推理階段與最終答案分開。

與 ReAct 或 CoT（它們是提示策略）不同，這是一種訓練級技術，模型透過示例學習思考。

< > 在 GitHub 上更新