在 DeepResearch Bench 上評估開源 Llama Nemotron 模型
貢獻者: David Austin, Raja Biswas, Gilberto Titericz Junior, NVIDIA
NVIDIA 的 AI-Q Blueprint——領先的行動式開源深度研究代理——最近榮登 Hugging Face “帶搜尋功能的 LLM” DeepResearch Bench 排行榜榜首。這是開源 AI 堆疊向前邁出的重要一步,證明開發者可訪問的模型可以支援先進的代理工作流,其效能可與閉源替代方案媲美或超越。
AI-Q 有何與眾不同之處?它融合了兩個高效能的開源 LLM——Llama 3.3-70B Instruct 和 Llama-3.3-Nemotron-Super-49B-v1.5——以協調長上下文檢索、代理推理和穩健合成。
核心堆疊:模型選擇與技術創新
- Llama 3.3-70B Instruct:Meta Llama 系列的衍生,開放許可,可不受限制地部署,是流暢、結構化報告生成的基礎。
- Llama-3.3-Nemotron-Super-49B-v1.5:一個最佳化過的、注重推理的模型變體。透過神經架構搜尋(NAS)、知識蒸餾以及連續的監督學習和強化學習迭代構建,它擅長多步推理、查詢規劃、工具使用和反思——所有這些都具有更小的記憶體佔用,可在標準 GPU 上高效部署。
AI-Q 參考示例還包括::
- NVIDIA NeMo Retriever 用於可擴充套件的多模態搜尋(內部+外部)。
- NVIDIA NeMo Agent toolkit 用於編排複雜的、多步驟的代理工作流。
該架構支援對本地和網路資料進行並行、低延遲搜尋,非常適合需要隱私、合規性或透過本地部署降低延遲的使用場景。
使用 Llama Nemotron 進行深度推理
NVIDIA Llama Nemotron Super 不僅僅是一個微調的指令模型——它經過後訓練,專門用於顯式代理推理,並透過系統提示支援推理 ON/OFF 切換。你可以在標準聊天 LLM 模式下使用它,或切換到深度思維鏈推理模式,用於代理管道——實現動態的、上下文敏感的工作流。
主要亮點
- 多階段後訓練:結合了指令遵循、數學/程式推理和工具呼叫能力。
- 透明模型血統:直接可追溯到開放的 Meta 權重,並圍繞合成數據和微調資料集提供額外的開放性。
- 效率:49B 引數,上下文視窗高達 128K 令牌,可以在單個 H100 GPU 或更小的裝置上執行,保持推理成本可預測且快速。
評估:指標的透明度和穩健性
AI-Q 的核心優勢之一是透明度——不僅體現在輸出上,還體現在推理軌跡和中間步驟上。在開發過程中,NVIDIA 團隊利用了標準和新的指標,例如:
- 幻覺檢測:在生成時檢查每個事實性宣告。
- 多源合成:從不同證據中合成新見解。
- 引用可信度:自動評估宣告與證據的連結。
- RAGAS 指標:自動評估檢索增強生成準確性。
該架構非常適合細粒度、逐步的評估和除錯——這是代理管道開發中最大的痛點之一。
基準測試結果:DeepResearch Bench
DeepResearch Bench 使用 100 多個長上下文、真實世界研究任務(涵蓋科學、金融、藝術、歷史、軟體等領域)來評估代理堆疊。與傳統的問答不同,這些任務需要報告長度的綜合和複雜的多跳推理。
- 截至 2025 年 8 月,AI-Q 在“帶搜尋功能的 LLM”類別中獲得了 40.52 的總分,目前在所有完全開放許可的堆疊中位居榜首。
- 最強指標:全面性(報告深度)、洞察力(分析質量)和引用質量。
致 Hugging Face 開發者社群
- Llama-3.3-Nemotron-Super-49B-v1.5 和 Llama 3.3-70B Instruct 均可在 Hugging Face 上直接使用/下載。您可以使用幾行 Python 程式碼在自己的管道中試用它們,或使用 vLLM 進行部署以實現快速推理和工具呼叫支援(請參閱模型卡以獲取程式碼/服務示例)。
- 開放的後訓練資料、透明的評估方法和寬鬆的許可使得實驗和重現成為可能。
總結
開源生態系統正在迅速縮小差距——並在某些領域領先——在重要的真實世界代理任務上。基於 Llama Nemotron 構建的 AI-Q 證明,您無需犧牲透明度或控制即可實現最先進的結果。
請從 Hugging Face 或 build.nvidia.com 嘗試該堆疊,或將其用於您自己的研究代理專案。