🦸🏻#8: 重寫知識規則:現代代理如何學會適應
探索現代人工智慧代理從靜態規則到動態推理的轉變
在之前的劇集中,我們探討了剖析在代理工作流中的關鍵作用,探究了代理如何建立對其身份、行為、環境、效能和資源的認知。剖析成為了連線知識、記憶和行動的紐帶,將代理從靜態系統轉變為能夠進行細緻決策的動態協作體。使它們成為一種數字人格。
在本集中,我們將把重點轉向知識——這種數字人格專業知識的基礎。代理如何“知道”它所知道的?其專業知識背後的機制是什麼,它們又如何影響其行為?讓我們拭目以待。準備好迎接一場引人入勝的歷史深度探索吧!
🔳 Turing Post 在 🤗 Hugging Face 上駐紮 -> 點選關注!
今天這集有什麼內容?
- 代理仍然是基於知識的嗎?
- 從顯式知識到學習到的表示
- 約翰·麥卡錫的“具有常識的程式”
- 今天的知識是什麼樣子?
- 平衡基於知識的系統和學習型系統
- 知識的機制
- 歷史基礎:兩個框架的故事
- 總結
- 資源 (我們將所有連結都放在此部分)
對於本文中散佈的擬人化術語,我們深表歉意——讓我們同意它們都在““中。
代理仍然是基於知識的嗎?
斯圖爾特·羅素(Stuart Russell)和彼得·諾維格(Peter Norvig)在《人工智慧:現代方法》(Artificial Intelligence: A Modern Approach)中定義的“基於知識的代理”概念,標誌著人工智慧領域的一個轉折點。他們的願景清晰而邏輯:代理感知環境,做出決策,並以整潔的程式迴圈執行這些決策。這是一個組織精美的系統——但它是為變化不大的世界而構建的。
當今世界不再遵守這些規則。代理不再侷限於固定序列或可預測的環境。相反,它們已經從遵循程式性知識轉向更具宣告性的方法:定義結果,而不是步驟。想象一下,你告訴代理“我需要一個蛋糕”,然後它會想出剩下的部分——無論是獲取食材、尋找食譜,甚至是從麵包店訂購。
正是這一飛躍,使現代代理能夠在混亂、不可預測的環境中茁壯成長。它們不再遵循靜態規則,而是適應當前,即時學習,並動態協作。
從顯式知識到學習到的表示
一個關鍵的區別在於現代代理管理知識的方式。傳統框架依賴於顯式程式設計的規則,而現代代理——特別是那些由大型語言模型(LLM)驅動的代理——使用學習到的表示。現代代理更像是從小就沉浸在語言環境中的多語言者。它們不僅知道事實——它們還理解模式。
當代代理的目標不是基於規則的決策樹,而是學習模式並預測突發行為,使系統能夠動態地確定如何實現其目標。這種差異允許任務分解、迭代細化和多代理整合——所有這些都是當今代理系統的標誌。
有時,作為代理構建者的你的角色是教導你的代理,它認為正確的東西實際上可能是錯誤的。例如,在電視節目表中,“11月的第一週”實際上可能始於10月下旬。你的工作是指出這一點,讓代理自己弄清楚如何相應地調整其理解。
這種轉變——從顯式規則到學習到的表示——正是當今代理能夠即興發揮、適應並擅長其未明確程式設計的任務的原因。
約翰·麥卡錫的“具有常識的程式”
有趣的是,現代代理的許多定義早在大型語言模型和所有這些炒作之前,就已經在約翰·麥卡錫1958年開創性的論文《具有常識的程式》中預見到了。麥卡錫設想了一個“建議接受者”系統,能夠基於宣告性知識進行推理、學習和行動——實質上,這是當今代理工作流的早期藍圖。
- 使用宣告性知識進行推理:麥卡錫的系統編碼了關於世界的事實,使其能夠自主推匯出新的見解。
- 學習與適應:他強調了代理隨著時間獲取新抽象和概念的重要性,使其能夠隨環境演變。
- 可操作的知識:知識不僅僅是儲存;它驅動決策和現實世界的行動,在推理和行為之間形成一個反饋迴圈。
該論文中“去機場”的例子展示了代理如何利用邏輯規則和可用知識將一個高層次目標分解為更小的任務。這個過程正是當前代理系統所試圖實現的,代理將複雜問題分解為可管理的子任務。
雖然技術已經遠遠超出了麥卡錫所能想象的系統,但他的原則仍然具有驚人的相關性。重讀麥卡錫的著作,感覺就像在讀一個來自未來的時間膠囊。這提醒我們,人工智慧的根基比我們通常意識到的要深厚得多。
今天的知識是什麼樣子?
現代代理不僅僅是“知道”——它們以模仿人類智慧的方式處理知識。我們不只是將事實塞進一個系統——最重要的是要使知識動態化、適應性和可操作性。讓我們探討現代代理工作流中其他重要型別的知識。
結構知識:建立連線
這是將一切聯絡在一起的支架——概念如何關聯和互動。早期系統使用僵硬的語義網路,而現代代理則使用神經架構即時學習關係。例如,醫療診斷代理不僅知道“發燒=流感”。它從臨床資料中學習機率關係,使其能夠考慮罕見或複雜的疾病。
元知識:瞭解你所知道的
這就是事情變得元的地方。現代代理不僅僅是資訊的儲存庫,它們還意識到自己的知識。這種意識使它們能夠評估推理過程,識別差距,並尋找缺失的資訊。例如,語言模型在遇到模稜兩可的輸入時可能會請求澄清,這表明它對其侷限性具有自我意識。
啟發式知識:學習遊戲規則
啟發式方法——那些便捷的解決問題捷徑——過去是由人類手工製作的。曾經僅限於靜態經驗法則的啟發式知識,現在變得更加動態。像AlphaZero這樣的系統透過自學來發展自己的策略,超越了國際象棋等遊戲中數百年來人類設計的啟發式方法。這種演變反映了現代代理如何學習泛化和適應新的挑戰。
現代代理中知識形式的融合
現代人工智慧系統的真正力量不僅在於其單獨的知識型別,還在於這些知識形式如何相互作用和相互加強。思考一個現代語言模型如何處理編寫程式碼這樣的複雜任務
結構知識提供基礎,表示程式設計概念、語法模式和常見架構設計之間的關係。元知識允許系統評估其對不同程式設計正規化和庫的理解,並在需要時可能請求澄清。啟發式知識指導高效的問題分解和解決方案策略。所有這些都在宣告性框架內執行,系統專注於期望結果而不是預定步驟。
這種整合使得傳統系統中不可能實現複雜行為
- 基於上下文和可用資源的動態任務分解
- 結合多種知識形式的自適應問題解決策略
- 不同專業元件之間的無縫協作
- 根據反饋和中間結果即時調整方法
平衡基於知識的系統和學習型系統
雖然現代人工智慧已經轉向學習表示,但純粹的基於知識的方法在特定領域仍然至關重要。然而,這種區別正變得越來越模糊。許多當代系統採用混合方法,結合兩者的優點
- 醫療診斷系統保留了用於關鍵決策的顯式規則庫,同時使用學習到的模式來識別細微的症狀關係
- 工業控制系統將傳統安全約束與學習到的最佳化策略相結合
- 金融合規系統使用顯式規則來滿足法規要求,同時利用模式識別來檢測欺詐
- 法律推理系統將結構化論證與學習到的語言理解相結合
這種混合方法代表了一種成熟的理解,即不同型別的知識服務於不同的目的,關鍵在於知道何時使用每一種知識。
知識的機制
我們探討了從程式性知識到宣告性知識的轉變,並瞭解了與當前代理系統相關的其他型別的知識。但是,如果知識是燃料,那麼這些就是驅動它的引擎:表示、獲取和整合。
- 表示——知識的結構方式。早期系統依賴於語義網路等靜態工具,而現代代理則使用知識圖和神經嵌入等動態框架。例如,谷歌的知識圖連線實體和關係以情境化搜尋查詢,而神經模型則編碼複雜模式以進行細緻推理。
- 獲取——知識的學習方式。強化學習等技術允許代理透過試錯來完善策略,而少樣本學習則使它們能夠以最少的示例進行適應。自監督學習透過預測缺失資料來訓練模型,而互動式學習則透過即時反饋來完善知識,使代理在動態環境中具有高度適應性。
- 整合——如何將所有資訊整合在一起。它是一個將結構化、非結構化和多模態等多種知識來源合成為連貫見解,從而推動決策制定的過程。例如,氣候分析代理將衛星影像、歷史天氣模式和社會經濟資料相結合,以預測災害風險。這種合成使得代理能夠駕馭複雜的解決問題空間,從自動駕駛汽車融合感測器輸入到醫療人工智慧從多模態資料診斷疾病。
這些機制共同形成了一個迴圈:表示結構化知識,獲取擴充套件知識,整合應用知識。這種協同作用使代理能夠動態地理解、學習和行動,以智慧和適應性解決複雜的現實世界挑戰。
歷史基礎:兩個框架的故事
如果我們不放慢腳步,仔細回顧過去,那我們就不是圖靈郵報了,嗯……又一次 :) ——當今創新的根源就躺在那裡。許多近期關於代理和代理工作流的文章和論文僅僅觸及表面,常常將該領域標記為新興領域。但這遠非準確,約翰·麥卡錫不僅為此傾注心血——代理系統幾十年來一直是活躍研究和開發的主題!這些早期工作為我們今天所看到的一切奠定了基礎。隨著我們更深入地進入代理人工智慧時代,重溫這些基礎並理解將我們帶到這裡的根源至關重要。雖然涵蓋所有這些內容會太多,但我們選擇了一些在很大程度上被遺忘但卻對該領域產生了重大影響的幾個。
在20世紀80年代,出現了兩個關鍵的框架,每個框架都解決了代理行為中獨特但重疊的方面:Fagin、Halpern和Vardi的知識結構以及Moore的知識與行動理論。這些框架是同一枚硬幣的兩面。Fagin及其同事構建了工具來建模和分析知識的分層、遞迴性質,而Moore則增加了行動的關鍵維度——展示了知識如何隨著代理與世界的互動而演變。
知識建模:靜態框架
Fagin、Halpern 和 Vardi 的工作引入了知識深度的概念,這是一種優雅的方式來表示理解分散式系統所需的巢狀推理層。想象你是一個網路中的處理器,試圖與其他人達成共識。僅僅知道自己的狀態是不夠的——你還必須推理其他人知道什麼,他們知道你對知識的瞭解,等等。這些無限迴歸不僅僅是思想實驗;它們對於解決拜占庭協議等問題至關重要,在這些問題中,代理需要在通訊故障甚至惡意行為者的情況下進行協調。
為了解決這個問題,Fagin、Halpern 和 Vardi 引入了知識結構,它以歸納方式構建知識
他們的知識結構提供了一種系統的方法來處理這種複雜性。透過層層構建知識,從“原始現實”到越來越遞迴的狀態,他們提供了一種理解多代理推理的方法。這是一個知識上的飛躍,將理論計算機科學與分散式計算、密碼學和資料庫理論等實際應用聯絡起來。
但這個靜態框架有一個侷限性:它建模了代理在給定時間點知道什麼,但很少說明它們如何獲取或應用這些知識。這就是摩爾的貢獻發揮作用的地方。
動態視角:知識與行動相遇
摩爾的知識與行動形式理論透過將代理所知與它們所能做的事情聯絡起來彌補了這一空白。在他的框架中,知識不僅僅是一個靜態的儲存庫,而是一個動態過程,透過行動和結果不斷被塑造。
例如,考慮一個負責組裝產品的機器人代理。在行動之前,機器人必須驗證所有必要的元件都已存在(知識先決條件)。在工作過程中,它會獲得新的知識:元件是否按預期匹配,工具是否正常執行等等。每個行動都會生成新的資訊,這些資訊會輸入到機器人的決策迴圈中,從而在知識和行動之間形成一個持續的反饋迴圈。
知識與行動之間的這種相互作用形成了反饋迴圈
這種動態方法對於理解現代代理工作流至關重要,在這些工作流中,代理不僅推理其環境,而且透過其行動積極塑造環境。在摩爾的邏輯中,行動是轉換代理知識狀態的運算子。這為推理多步驟工作流打開了大門,其中代理在一個階段的選擇取決於早期行動的結果。
統一視角
這兩個框架——一個靜態,一個動態——共同為代理系統提供了全面的視角。Fagin 等人提供了關於知識狀態推理的框架,而 Moore 則使我們能夠理解這些狀態如何響應行動而演變。這種相互作用是現代人工智慧系統的核心,從協作機器人到自動駕駛汽車。
想象一輛自動駕駛汽車駛近一個有另一輛車的十字路口。使用Fagin的框架,我們可以正式表示複雜的知識結構,例如“自動駕駛汽車知道另一輛司機知道有停車標誌”或“兩輛車之間都知道先行權規則適用”。然後,摩爾的動態邏輯允許我們推理特定行動(例如汽車發出轉向訊號)如何建立新的知識狀態:“發出轉向訊號後,自動駕駛汽車打算轉向成為共同知識。”所有這些都始於20世紀80年代。
總結
關於知識,有太多話要說——其歷史的深厚和思考方式的多樣性令人驚歎。我們沒有試圖在此捕捉每一個細節或角度。相反,我們的目標是致敬數十年來嚴謹的研究和理論工作,這些工作將我們帶到了今天,並強調了從傳統的、基於規則的代理到自適應的、學習型代理的正規化轉變。
令人著迷的是,我們現在正在構建的許多東西都與很久以前提出的想法不謀而合。從程式系統到宣告式、動態框架的轉變,不僅推動了代理工作流的發展;它還改變了代理推理、學習和行動的方式,其靈活性曾經遙不可及。
展望未來,很明顯,真正的魔力在於知識、記憶、推理與規劃、反思和行動之間的相互作用。在下一集中,我們將探索記憶——這個機制讓代理能夠將時間線上的點連線起來,以有意義的、情境化的方式應用它們所知道的一切。代理智慧核心的旅程只會變得越來越有趣。
資源
用於撰寫本文的資源
- 《具有常識的程式》 (1958) 作者:J. McCarthy 博士
- 《知識與行動的形式理論》 (1984) 作者:Robert C. Moore
- 《知識的模型理論分析》 (1984) 作者:Ronald Fagin, Joseph Y. Halpern, Moshe Y. Vardi
- 《共同知識再探》 (1998) 作者:Ronald Fagin, Joseph Y. Halpern, Moshe Y. Vardi, Yoram Moses
- 人工智慧:現代方法 第三版(pdf)作者:Stuart Russell 和 Peter Norvig (我們也建議購買最新第四版
圖靈郵報的資源
我們還要感謝Will Schenk,他提供了寶貴的反饋,並幫助我們將這一理論付諸實踐。