🦸🏻#11: 智慧體如何規劃和推理？

社群文章釋出於 2025 年 2 月 24 日

我們將探討推理領域的最新突破（DeepSeek！），以及實現精確性和適應性的主要規劃技術

上週，我們探討了生成式AI是否能夠真正推理，並對人類思維模式進行了分類以評估AI的推理能力。今天，我們將討論推理和規劃。孤立的推理通常是不夠的——AI還需要一個計劃，說明如何應用該推理來實現目標。規劃為推理過程提供了結構、順序和目標導向。沒有規劃，即使是非常智慧的模型也可能在複雜任務上表現不佳，產生部分或無組織的回應。大型語言模型（LLM）已經開始與規劃機制進行介面，無論是內部（透過模擬規劃的提示技術）還是外部（透過與專門的規劃模組或工具API協作）。結果是AI智慧體可以推斷問題，然後以有組織的方式執行這些推理步驟。這種結合正在開啟從個人助理到自主機器人的現實世界應用，其中推理指導行動的計劃——這與人類智慧中思想和行動並駕齊驅的方式非常相似。

例如，我們考察了DeepSeek為提升其模型推理能力所做的努力。本文篇幅較長，在文章末尾，您將找到一個關於推理和規劃的詳盡探索列表。隨著該領域的快速發展，我們預計將出現新的突破，使AI智慧體和系統能夠更有效地推理，並以更高的自主性和精確度進行規劃。這些進步可能導致AI不僅能夠理解複雜場景，還能無縫執行多步驟任務，並隨著新資訊的出現而動態調整。潛在的應用？無窮無盡。

🔳 Turing Post 在 🤗 Hugging Face 上駐紮 -> 點選關注！

本期內容包括什麼？

簡要歷史概覽
理解AI推理
推理領域的最新突破
沒有規劃，推理是不可能的
實現精確性和適應性的主要規劃技術
總結
資源

對於本文中散佈的擬人化術語，我們深表歉意——讓我們同意它們都在““中。

簡要歷史概覽

早期的人工智慧研究將推理視為機器智慧的關鍵，但通用推理的規模化在幾十年來被證明是一個無法解決的挑戰。從20世紀50年代到80年代末，符號AI試圖明確地編碼邏輯和規則，產生了能夠進行定理證明和醫學診斷的系統。然而，這些系統在現實世界的模糊性面前舉步維艱，並且缺乏適應性。

接著是專家系統。雖然它們在狹窄的任務中表現出色——例如醫學診斷（MYCIN）和計算機配置（XCON）——但它們依賴於手工製作的規則，無法泛化或適應新情況。

到了20世紀90年代，許多人工智慧研究人員轉向機器學習和統計方法，這些方法在模式識別方面表現出色，但在很大程度上避開了顯式推理。像視覺和語音這樣曾經被認為更難的問題，隨著神經網路的出現取得了進展，而抽象推理和常識仍然未解決。這個時代突出了一個悖論（被稱為“莫拉維克悖論”）：需要形式推理的任務（如下棋或解方程）對計算機來說比日常推理更容易。經典的深層推理有時可以透過暴力破解（深藍透過探索數百萬步擊敗了人類下棋）來解決，但複製人類兒童靈活的、知識驅動的推理則遙不可及。

這些年來，AI經歷了多次寒冬（這是我們最喜歡的關於所有四個AI寒冬的文章），其中符號AI遭受了特別沉重的打擊。然而，早期的符號推理努力奠定了重要的基礎，現在正在混合方法中重新浮現，例如神經符號AI和檢索增強生成（RAG）。這些方法將基於規則的推理與現代資料驅動技術相結合，突顯了在開放世界中通用推理的難度（關於開放性的章節）。

理解AI推理

AI推理（關於推理和思維模式的更詳細定義，請參考我們之前的文章）涉及根據事實、規則或證據得出結論。傳統的關鍵型別包括：

演繹推理：將一般規則應用於具體案例（例如，“所有鳥都有翅膀；麻雀是鳥，所以它有翅膀”）。
歸納推理：從示例中推斷出一般模式。
溯因推理：從不完整資料中做出有根據的猜測，例如診斷症狀。
機率推理：使用機率管理不確定性，如貝葉斯推理。

AI涵蓋了從嚴格邏輯到靈活模式識別的範圍。雖然LLM並不能像人類一樣真正“推理”，但它們在正確的提示下可以表現良好。多年來，純粹的神經網路被認為缺乏高階推理能力，但最近的突破改變了這一點。像OpenAI的o1、o3和DeepSeek R1這樣的模型展示了令人印象深刻的推理能力，使其成為一個熱門話題。哪些創新和研究推動了這一進展？讓我們深入探討 →

推理領域的最新突破

思維鏈提示

一項重大突破是思維鏈（CoT）提示的使用，其中模型被引導在給出最終答案之前產生一系列中間推理步驟。LLM不再立即回答，而是在其輸出中一步一步地解決問題（很像展示其工作過程）。例如，如果被問及一個複雜的數學應用題，模型會首先列出計算或邏輯步驟。這種方法顯著提高了需要多步推理的任務的效能。實驗表明，思維鏈提示使大型語言模型在處理複雜的算術、常識和符號推理任務方面遠優於直接給出答案。本質上，提示“讓我們一步一步地思考這個問題”鼓勵模型分解問題，減少錯誤並使其推理過程透明化。這是一個令人驚訝的發現：儘管模型沒有明確訓練來推理，但僅憑提示就解鎖了訓練期間學到的潛在能力。CoT提示現在是許多LLM高階用途的基礎，從數學問題求解器到邏輯謎題。它強調了提示的格式可以引發更“理性”的行為。（請也查閱這篇文章，其中我們探討了其他推理方法，如Auto-CoT、Multimodal-CoT、Tree-of-Thoughts (ToT)、Graph-of-Thoughts (GoT)、Algorithm-of-Thoughts (AoT)、Skeleton-of-Thought (SoT)）。

自我反思和自我一致性

在CoT的基礎上，研究人員引入了讓LLM反思或完善其自身推理的技術。其中一種方法是自洽解碼。模型不信任單一的思維鏈，而是生成多個不同的推理路徑（透過取樣不同的可能鏈），然後評估哪個答案在其中最一致。這減少了運氣不好的錯誤路徑導致錯誤答案的可能性。實際上，模型可能會為一道謎題產生例如五種不同的解決方案路徑，然後檢視哪個答案出現頻率最高。這種對其自身推理的“多數投票”通常會產生更準確的結果。自我反思的另一個角度是讓模型批判或檢查其答案。在得出初始答案後，LLM可以被提示一步一步地檢查解決方案是否存在錯誤（就像老師批改作業一樣），然後嘗試糾正發現的任何錯誤。這種迭代式的反思-改進迴圈已被證明可以提高諸如數學應用題和編碼等任務的效能。其核心思想是透過允許模型重新考慮並收斂到更可靠的答案來彌補模型一次性處理的侷限性。這種元推理技術使LLM的行為更像一個能夠核對自己工作的人類推理者。基於CoT的研究是廣泛的，並且每天都在帶來新的改進（請參閱“資源”部分以深入瞭解）。

少樣本和情境學習

推理領域的另一個飛躍是大型模型能夠進行情境學習。透過少樣本提示，我們提供一些任務示例（包括這些示例中的推理過程），模型無需任何引數更新即可推廣到新問題。里程碑式的GPT-3論文《語言模型是少樣本學習者》證明，一個足夠大的模型（擁有超過1000億個引數）可以僅透過示例來執行新任務。對於推理而言，這意味著我們可以在提示中向模型展示幾個邏輯演繹或類比推理的演示。然後模型會掌握這種模式並加以應用。這是開創性的，因為它是一種元學習形式：模型實際上是即時地弄清楚如何對任務進行推理。例如，給定幾個涉及地理推理的問答對（“問：如果X在Y的北方，Y在Z的北方，那麼X在Z的北方嗎？答：……（帶解釋）”），模型可以推斷出推理模式。少樣本示例通常包含中間步驟（很像思維鏈），這引導模型為查詢生成類似的步驟。本質上，情境學習無需顯式重新訓練即可解鎖推理——模型利用其大規模訓練期間吸收的模式。這種能力是LLM被稱為基礎模型的原因之一：它們可以透過條件化上下文來適應許多工（包括推理密集型任務）。

神經符號方法

近期研究的一個重要趨勢是符號推理元素的復興，並將其與神經網路結合，通常被稱為神經符號AI。研究人員不再將符號（基於邏輯的）和神經網路方法視為對立，而是找到方法將它們整合起來，以利用各自的優勢。現代LLM提供了神經部分——靈活的模式識別、對原始語言的理解以及從資料中學習到的知識。符號部分則透過引入形式規則、離散規劃演算法或知識圖譜來確保邏輯一致性和事實基礎。例如，LLM可能會生成一個候選推理路徑，但符號邏輯引擎會檢查其有效性，或者知識庫提供要使用的事實斷言。這種混合方法旨在實現更可靠的推理。神經符號系統可以，例如，透過讓神經元件解釋謎題的語言並提出動作，而符號求解器嚴格確保這些動作遵循遊戲規則來解決謎題。我們在視覺推理（神經網路解釋影像，符號程式對場景進行推理）和複雜問答等領域看到了這一點。神經符號AI的吸引力在於它結合了神經網路的靈活性和學習能力與符號邏輯的精確性和嚴謹性。最近的專案（如IBM的神經符號系統或將LLM與Cyc常識資料庫連線的努力）表明，在單獨使用任何一種方法都無法解決的任務上，效能得到了提升。在LLM的背景下，神經符號方法可能意味著使用LLM將問題轉換為求解器可以處理的形式表示，或者反過來使用邏輯規則來限制LLM的輸出。這種混合推理的復甦使我們更接近於能夠解釋其決策（歸因於符號元件）並處理新穎、非結構化問題（歸因於神經元件）的AI。這是實現魯棒AI推理的一條有前景的道路。

沒有規劃，推理是不可能的

推理和規劃是智慧行為的兩個方面。有效的推理需要一個結構化的計劃，特別是對於複雜的、多步驟的問題。如果推理是關於弄清楚事情，那麼規劃就是關於弄清楚如何去做。在人工智慧中，任何非平凡的推理任務——無論是證明定理、解決謎題還是回答多部分問題——都受益於規劃方法。沒有規劃，推理過程可能會變得隨意、停滯不前或遺漏考慮。人類問題解決者對此心知肚明：為了解決一個難題，我們通常會勾勒一個計劃（“首先，我要做X，然後考慮Y……”）。這同樣適用於AI系統；計劃為推理步驟提供了支架。

傳統上，AI規劃指的是找到一系列動作來實現目標。當目標是“得出正確答案”或“證明一個陳述”時，這些動作就是推理步驟。例如，自動定理證明器會規劃以何種順序應用哪些引理或公理——這是在邏輯推理空間中進行搜尋（證明的計劃）。一個更日常的例子：考慮一個語言模型，其任務是回答“如何不坐飛機從紐約到波士頓？”。該模型應該規劃一個思維鏈：它可能會首先考慮地面交通選項，然後一步步地推理火車與自駕的優劣，最後得出答案。如果它直接跳到答案而不勾勒這個內部計劃，它可能會忽略約束（例如，它可能會建議乘坐汽車，但忘記考慮時間或成本）。因此，即使在LLM的內部，規劃推理路徑也能帶來更好的結果。

現代LLM越來越多地被用作智慧體，這意味著它們不僅僅是孤立地生成文字——它們在環境中採取行動或呼叫工具，規劃一系列操作以滿足使用者的請求。在這種設定中，LLM的推理迴圈與規劃交織在一起。一個突出的例子是ReAct框架（推理+行動），其中模型交替進行思考和行動。在這裡，LLM可能會推理“我需要更多關於X的資訊”（推理），然後計劃下一步“所以我應該呼叫一個網路搜尋工具”（行動）。在獲得結果後，它再次推理結果如何融入解決方案，然後計劃另一步。這個迴圈持續進行，有效地說明了推理驅動規劃，而規劃指導推理。根據研究人員的說法，這種方法使LLM智慧體能夠解決純粹基於文字的模型無法解決的決策問題，透過將推理與顯式行動規劃相結合。

實際應用展示了推理和規劃的緊密結合。例如，在機器人領域，控制機器人的AI必須推理目標，並規劃一系列運動動作來實現這些目標。以PaLM-SayCan為例，這是一個使用大型語言模型（PaLM）幫助機器人在廚房中規劃“給我拿一杯飲料”等任務的系統。LLM推理需要哪些步驟（去冰箱、開啟、拿罐子等），而低階規劃器/執行器則檢查哪些動作對機器人是可行的並執行它們。短語“將語言基於機器人能力”描述了這一點：語言模型的高階推理由一個瞭解機器人能力的規劃器所支援，從而實現了成功完成物理任務的長期規劃。如果沒有結構化的規劃元件，語言模型可能會提出機器人無法執行的動作，或者儘管抽象推理正確，但卻弄錯了順序。因此，規劃是將推理轉化為成功執行的支柱。

另一個例子是複雜的流程自動化。想象一個AI助手管理你的日曆和電子郵件。如果你讓它“下週與Alice安排一次會議，並準備我們上一個專案的摘要”，助手（由LLM驅動）必須推斷出需要什麼——查詢Alice的可用時間、回憶專案詳情等等——而且至關重要的是，規劃一系列步驟：檢查日曆、起草電子郵件、檢索專案筆記、撰寫摘要。像HuggingGPT這樣的高階系統透過使用LLM（ChatGPT）作為控制器來規劃呼叫哪些專業模型或工具來完成每個子任務，從而展示了這一原則。在HuggingGPT中，LLM將一個複雜的請求分解成多個部分（規劃），將每個部分委託給適當的工具或模型（例如，用於影像任務的視覺模型，用於計算的數學求解器），然後整合結果。這種規劃驅動的協調是解決多方面任務的關鍵。LLM本身可以推理請求，但它需要一個計劃來協調所有步驟來完成它。

實現精確性和適應性的主要規劃技術

為了構建既能精確執行又能適應變化的AI智慧體（包括那些使用LLM的智慧體），研究人員借鑑了豐富的規劃技術。每種技術在智慧體如何決策和執行其行動方面都有其優勢。讓我們探討一些關鍵的規劃方法以及它們如何與基於LLM的系統整合：

經典AI規劃（審慎規劃）

經典規劃透過搜尋一系列動作來解決問題，這些動作將初始狀態轉換為目標狀態。這些規劃器依賴於預定義的世界模型（狀態、動作和效果），使用STRIPS或PDDL等框架進行問題描述。深度優先搜尋、廣度優先搜尋和A*等演算法用於探索可能的動作序列。當條件滿足時，經典規劃器能夠高效地生成精確、最優的計劃，從而實現諸如倉庫機器人等任務。

在基於LLM的系統中，經典規劃增加了結構和可靠性。一種方法，即LLM-to-planner，讓LLM將自然語言請求翻譯成形式化的規劃問題（例如，PDDL），然後由經典規劃器解決。輸出——一系列動作——可以被執行或轉換回自然語言。最近的研究表明，將LLM的靈活性與符號規劃的嚴謹性結合可以改善結果：LLM處理開放式請求，而規劃器確保邏輯正確性。

主要限制是依賴於正確的動作模型——如果世界發生變化或模型不完整，計劃可能會失敗。在動態環境中，需要重新規劃或學習。

強化學習（透過獎勵學習規劃）

強化學習（RL）採用不同的方法：智慧體透過與環境互動並以獎勵形式接收反饋來學習決策序列。隨著時間的推移，智慧體學習一種策略（從狀態到動作的對映），從而最大化累積獎勵。實際上，智慧體透過試錯隱式地進行規劃，而不是使用顯式世界模型。RL對於我們沒有完美環境模型或環境過於複雜無法進行分析規劃的問題非常強大（例如在許多遊戲、機器人或經濟模擬中）。RL在規劃方面的經典成功案例是DeepMind的AlphaGo，它掌握了圍棋。AlphaGo將深度神經網路與規劃演算法（蒙特卡羅樹搜尋MCTS）相結合，並從自我對弈中學習。神經網路透過預測有希望的移動和位置來指導搜尋（從而減少搜尋空間），而MCTS演算法則明確地提前規劃幾步，評估潛在結果。這種學習和規劃的協同作用實現了超人的表現，說明了強化學習如何與規劃演算法攜手合作以實現精確性。

在LLM的背景下，強化學習以幾種方式出現。一種是來自人類反饋的強化學習（RLHF），用於微調像ChatGPT這樣的模型。在這裡，“規劃”體現在引數更新而不是即時決策——模型學習如何選擇其詞語（動作）以取悅使用者（獎勵）。但更具體地說，可以使用RL來訓練一個將LLM作為其決策過程一部分的智慧體。例如，智慧體可以使用LLM來想象一個行動的後果（一種心理模擬），然後使用RL來決定哪個行動能產生最佳結果。反之，在一個模擬環境（例如，一個基於文字的遊戲或一個網路導航任務）中 செயல்ப 的LLM智慧體可以透過RL進行改進，透過嘗試行動，觀察結果，並學習策略。RL的優勢在於其適應性：智慧體不需要預先構建的世界模型；即使在複雜、不確定的環境中，它也能學習適當的行為。這使得它非常適合對話管理（學習如何在對話中做出響應以獲得良好結果）或機器人控制（適應硬體怪癖或意外障礙）等場景。然而，純RL可能樣本效率低下（需要多次試驗），並且缺乏最優性保證。在實踐中，將RL與規劃或基於模型的方法結合可以產生更好的精度。現代技術，如基於模型的RL，明確地學習環境模型並在其中進行規劃，將經典規劃思想與學習相結合。

DeepSeek證明，強化學習可以推動AI複雜推理能力的提升，而無需龐大的監督資料集。

DeepSeek如何利用強化學習（RL）改進推理

DeepSeek 利用強化學習（RL）作為核心機制，以增強其大型語言模型（LLM），特別是DeepSeek-R1的推理能力。與傳統AI模型嚴重依賴大量標記資料集進行監督微調不同，DeepSeek的方法側重於透過基於RL的反饋機制進行自我改進。

DeepSeek RL訓練的關鍵方面

R1-Zero中的純RL訓練

DeepSeek的初始模型R1-Zero完全透過RL訓練，沒有任何監督微調。
該模型透過與環境（數學問題、邏輯謎題、編碼挑戰）互動並獲得正確答案的獎勵來學習推理模式。
雖然它展示了湧現的思維鏈推理和自我糾正能力，但由於缺乏明確的語言指導，其回應往往難以閱讀且缺乏連貫性。

DeepSeek-R1中的多階段RL管道 為了提高畫質晰度和可用性，DeepSeek引入了多階段RL訓練方法

冷啟動微調：模型首先在一小組精選的推理示例上進行訓練，以建立結構化推理模式。
基於RL的任務掌握：模型隨後透過RL在推理密集型任務上進行訓練，獎勵函式旨在鼓勵正確性和清晰度（避免語言混雜或不連貫的步驟）。
自蒸餾和拒絕取樣：過濾並使用生成出的最佳答案來完善模型的推理技能，從而強化結構化問題解決。
對齊RL（最終最佳化）：最終的RL階段優化了模型與使用者安全、有益地互動的能力，確保了使用者友好的行為。

DeepSeek RL方法的核心創新

基於獎勵的推理最佳化：與傳統的人類反饋強化學習（RLHF）依賴人類偏好模型不同，DeepSeek優先考慮基於任務的RL獎勵，最佳化模型以提高問題解決效率和連貫的逐步推理。
自我糾正和自主決策：透過迭代RL訓練，DeepSeek-R1發展了在推理過程中識別和糾正錯誤的能力，這是一種增強適應性的湧現特性。
高效的RL最佳化：雖然一些AI模型依賴蒙特卡羅樹搜尋（MCTS）進行規劃，但DeepSeek發現無模型RL（直接策略最佳化）在大型推理任務中更具可擴充套件性。

難怪，DeepSeek及其模型的結果震驚了世界。

分層規劃（分層策略）

複雜的任務通常具有自然的層級結構：您可以將高層目標分解為子目標或子任務，然後逐一解決。分層規劃透過在多個抽象級別進行規劃來利用這一點。在經典規劃中，這被形式化為分層任務網路（HTN）規劃，您擁有可以遞迴分解為更小任務的高層任務。例如，高層任務“做飯”可能會分解為“煮義大利麵”和“準備醬汁”，這些又進一步分解為“燒水”、“切番茄”等基本動作。透過首先在高層解決計劃（忽略低層細節），然後對其進行完善，規劃器可以比平面規劃更有效地處理非常複雜的任務。這類似於我們解決問題的方式：首先勾勒一個計劃，然後填充細節。分層規劃提供了適應性，因為如果一個子計劃失敗，您通常可以重新規劃該部分，而無需放棄整個計劃。它也與組織或多智慧體系統（戰略規劃與戰術執行）的運作方式很好地契合。

在基於LLM的系統或智慧體中，分層規劃可以透過在不同角色或階段使用LLM來實現。一種有趣的方法是讓LLM首先生成一個自然語言的高層計劃，然後根據該計劃逐步執行或提示自身。這有時被稱為計劃-解決策略。例如，給定一個複雜問題，LLM可能會輸出：“計劃：為了回答這個問題，我將1）收集關於X的事實，2）分析X如何影響Y，3）得出關於Z的結論。”然後，智慧體將逐一執行每個步驟，可能由LLM執行或呼叫工具。這類似於分層任務分解。它可以使推理過程更透明、更可控。如果答案錯誤，我們通常可以找出哪個步驟失敗了。存在一些提示工程技術，如“從少到多提示”（Least-to-Most Prompting），明確要求模型將問題分解為子問題並逐一解決——這實際上是從更簡單的子目標到最終目標的分層。分層規劃也用於多智慧體設定，其中一個領導智慧體規劃頂層任務，而工人智慧體處理具體細節。