Hub 文件

DuckDB

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

DuckDB

DuckDB 是一個程序內 SQL OLAP 資料庫管理系統。您可以使用 Hugging Face 路徑(hf://)訪問 Hub 上的資料。

DuckDB CLI (命令列介面) 是一個獨立的、無依賴的可執行檔案。還有其他可用於執行 DuckDB 的 API,包括 Python、C++、Go、Java、Rust 等。更多詳情,請訪問其客戶端頁面。

關於安裝詳情,請訪問安裝頁面

v0.10.3 版本開始,DuckDB CLI 原生支援透過 hf:// 協議的 URL 訪問 Hugging Face Hub 上的資料集。以下是您可以使用此強大工具的一些功能:

  • 查詢公共資料集以及您自己的受限和私有資料集
  • 分析資料集並執行 SQL 操作
  • 合併資料集並將其匯出為不同格式
  • 在嵌入資料集中進行向量相似性搜尋
  • 在資料集上實現全文搜尋

要獲取 DuckDB 功能的完整列表,請訪問 DuckDB 文件

要啟動 CLI,請在安裝資料夾中執行以下命令:

./duckdb

構建 Hugging Face URL

要訪問 Hugging Face 資料集,請使用以下 URL 格式:

hf://datasets/{my-username}/{my-dataset}/{path_to_file} 
  • my-username,資料集的使用者或組織,例如 ibm
  • my-dataset,資料集名稱,例如:duorc
  • path_to_parquet_file,parquet 檔案的路徑,支援 glob 模式,例如 **/*.parquet,用於查詢所有 parquet 檔案

您可以使用 @~parquet 分支查詢自動轉換的 Parquet 檔案,該分支對應於 refs/convert/parquet 修訂版。更多詳情,請參閱文件:https://huggingface.co/docs/datasets-server/en/parquet#conversion-to-parquet

要引用資料集的 refs/convert/parquet 修訂版,請使用以下語法:

hf://datasets/{my-username}/{my-dataset}@~parquet/{path_to_file} 

以下是遵循上述語法的示例 URL:

hf://datasets/ibm/duorc@~parquet/ParaphraseRC/test/0000.parquet

讓我們從一個快速演示開始,查詢資料集的所有行:

FROM 'hf://datasets/ibm/duorc/ParaphraseRC/*.parquet' LIMIT 3;

或使用傳統的 SQL 語法:

SELECT * FROM 'hf://datasets/ibm/duorc/ParaphraseRC/*.parquet' LIMIT 3;

在接下來的章節中,我們將介紹更多您可以在 Hugging Face 資料集上使用 DuckDB 執行的複雜操作。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.