Chat UI 文件

網頁搜尋

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

網頁搜尋

聊天 UI 具有強大的網頁搜尋功能。其工作原理的高階概述如下:

  1. 使用 TASK_MODEL 從使用者提示中生成適當的搜尋查詢
  2. 透過外部提供商(如 Serper)或本地抓取的 Google 結果進行網頁搜尋
  3. 將每個搜尋結果載入到 Playwright 中並抓取
  4. 將抓取的 HTML 轉換為以標題為父節點的 Markdown 樹
  5. 為每個 Markdown 元素建立嵌入
  6. 使用向量相似度搜索(內積)找到與使用者查詢最接近的嵌入
  7. 獲取相應的 Markdown 元素及其父節點,最多 8000 個字元
  8. 將資訊作為上下文提供給模型

提供商

網頁搜尋支援許多提供商,您也可以使用本地抓取的 Google 結果。

本地

對於本地抓取的 Google 結果,請在您的 .env.local 檔案中設定 USE_LOCAL_WEBSEARCH=true。請注意,您可能會達到速率限制,因為我們沒有嘗試讓流量看起來合法。為避免此問題,您可以選擇一個提供商,例如官方例項使用的 Serper。

SearXNG

SearXNG 是一個免費的網際網路元搜尋引擎,它聚合了來自各種搜尋服務和資料庫的結果。使用者既不會被跟蹤,也不會被分析。

您可以透過 SEARXNG_QUERY_URL 啟用支援,其中 <query> 將被替換為查詢關鍵字。更多資訊請參閱官方文件

示例: https://searxng.yourdomain.com/search?q=<query>&engines=duckduckgo,google&format=json

第三方

也支援許多第三方提供商。官方例項使用 Serper。

YDC_API_KEY=docs.you.com api key here
SERPER_API_KEY=serper.dev api key here
SERPAPI_KEY=serpapi key here
SERPSTACK_API_KEY=serpstack api key here
SEARCHAPI_KEY=searchapi api key here

阻止/允許列表

您可以從網頁搜尋結果中阻止或允許特定網站。使用允許列表時,只有允許列表中的連結會被使用。對於支援的搜尋引擎,連結將直接從結果中被阻止。結果中任何與條目**部分或完全匹配**的 URL 都將被過濾掉。

WEBSEARCH_BLOCKLIST=`["youtube.com", "https://example.com/foo/bar"]`
WEBSEARCH_ALLOWLIST=`["stackoverflow.com"]`

停用 Javascript

預設情況下,Playwright 會執行頁面上的所有 Javascript。在某些網頁上,這可能會很耗費資源,需要多達 6 個核心才能達到最佳效能。您可以透過設定 WEBSEARCH_JAVASCRIPT=false 來阻止指令碼執行。但是,這不會阻止內聯在 HTML 中的 Javascript。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.