Chat UI 文件
網頁搜尋
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
網頁搜尋
聊天 UI 具有強大的網頁搜尋功能。其工作原理的高階概述如下:
- 使用
TASK_MODEL
從使用者提示中生成適當的搜尋查詢 - 透過外部提供商(如 Serper)或本地抓取的 Google 結果進行網頁搜尋
- 將每個搜尋結果載入到 Playwright 中並抓取
- 將抓取的 HTML 轉換為以標題為父節點的 Markdown 樹
- 為每個 Markdown 元素建立嵌入
- 使用向量相似度搜索(內積)找到與使用者查詢最接近的嵌入
- 獲取相應的 Markdown 元素及其父節點,最多 8000 個字元
- 將資訊作為上下文提供給模型


提供商
網頁搜尋支援許多提供商,您也可以使用本地抓取的 Google 結果。
本地
對於本地抓取的 Google 結果,請在您的 .env.local
檔案中設定 USE_LOCAL_WEBSEARCH=true
。請注意,您可能會達到速率限制,因為我們沒有嘗試讓流量看起來合法。為避免此問題,您可以選擇一個提供商,例如官方例項使用的 Serper。
SearXNG
SearXNG 是一個免費的網際網路元搜尋引擎,它聚合了來自各種搜尋服務和資料庫的結果。使用者既不會被跟蹤,也不會被分析。
您可以透過 SEARXNG_QUERY_URL
啟用支援,其中 <query>
將被替換為查詢關鍵字。更多資訊請參閱官方文件。
示例: https://searxng.yourdomain.com/search?q=<query>&engines=duckduckgo,google&format=json
第三方
也支援許多第三方提供商。官方例項使用 Serper。
YDC_API_KEY=docs.you.com api key here
SERPER_API_KEY=serper.dev api key here
SERPAPI_KEY=serpapi key here
SERPSTACK_API_KEY=serpstack api key here
SEARCHAPI_KEY=searchapi api key here
阻止/允許列表
您可以從網頁搜尋結果中阻止或允許特定網站。使用允許列表時,只有允許列表中的連結會被使用。對於支援的搜尋引擎,連結將直接從結果中被阻止。結果中任何與條目**部分或完全匹配**的 URL 都將被過濾掉。
WEBSEARCH_BLOCKLIST=`["youtube.com", "https://example.com/foo/bar"]`
WEBSEARCH_ALLOWLIST=`["stackoverflow.com"]`
停用 Javascript
預設情況下,Playwright 會執行頁面上的所有 Javascript。在某些網頁上,這可能會很耗費資源,需要多達 6 個核心才能達到最佳效能。您可以透過設定 WEBSEARCH_JAVASCRIPT=false
來阻止指令碼執行。但是,這不會阻止內聯在 HTML 中的 Javascript。