網頁搜尋

聊天 UI 具有強大的網頁搜尋功能。其工作原理的高階概述如下：

使用 TASK_MODEL 從使用者提示中生成適當的搜尋查詢
透過外部提供商（如 Serper）或本地抓取的 Google 結果進行網頁搜尋
將每個搜尋結果載入到 Playwright 中並抓取
將抓取的 HTML 轉換為以標題為父節點的 Markdown 樹
為每個 Markdown 元素建立嵌入
使用向量相似度搜索（內積）找到與使用者查詢最接近的嵌入
獲取相應的 Markdown 元素及其父節點，最多 8000 個字元
將資訊作為上下文提供給模型

提供商

網頁搜尋支援許多提供商，您也可以使用本地抓取的 Google 結果。

本地

對於本地抓取的 Google 結果，請在您的 .env.local 檔案中設定 USE_LOCAL_WEBSEARCH=true。請注意，您可能會達到速率限制，因為我們沒有嘗試讓流量看起來合法。為避免此問題，您可以選擇一個提供商，例如官方例項使用的 Serper。

SearXNG

SearXNG 是一個免費的網際網路元搜尋引擎，它聚合了來自各種搜尋服務和資料庫的結果。使用者既不會被跟蹤，也不會被分析。

您可以透過 SEARXNG_QUERY_URL 啟用支援，其中 <query> 將被替換為查詢關鍵字。更多資訊請參閱官方文件。

示例： https://searxng.yourdomain.com/search?q=<query>&engines=duckduckgo,google&format=json

第三方

也支援許多第三方提供商。官方例項使用 Serper。

YDC_API_KEY=docs.you.com api key here
SERPER_API_KEY=serper.dev api key here
SERPAPI_KEY=serpapi key here
SERPSTACK_API_KEY=serpstack api key here
SEARCHAPI_KEY=searchapi api key here

阻止/允許列表

您可以從網頁搜尋結果中阻止或允許特定網站。使用允許列表時，只有允許列表中的連結會被使用。對於支援的搜尋引擎，連結將直接從結果中被阻止。結果中任何與條目**部分或完全匹配**的 URL 都將被過濾掉。

WEBSEARCH_BLOCKLIST=`["youtube.com", "https://example.com/foo/bar"]`
WEBSEARCH_ALLOWLIST=`["stackoverflow.com"]`

停用 Javascript

預設情況下，Playwright 會執行頁面上的所有 Javascript。在某些網頁上，這可能會很耗費資源，需要多達 6 個核心才能達到最佳效能。您可以透過設定 WEBSEARCH_JAVASCRIPT=false 來阻止指令碼執行。但是，這不會阻止內聯在 HTML 中的 Javascript。

< > 在 GitHub 上更新

聊天使用者介面

網頁搜尋

提供商

本地

SearXNG

第三方

阻止/允許列表

停用 Javascript