Hub 文件
DuckDB
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
DuckDB
DuckDB 是一個程序內 SQL OLAP 資料庫管理系統。您可以使用 Hugging Face 路徑(hf://
)訪問 Hub 上的資料。

DuckDB CLI (命令列介面) 是一個獨立的、無依賴的可執行檔案。還有其他可用於執行 DuckDB 的 API,包括 Python、C++、Go、Java、Rust 等。更多詳情,請訪問其客戶端頁面。
關於安裝詳情,請訪問安裝頁面。
從 v0.10.3
版本開始,DuckDB CLI 原生支援透過 hf://
協議的 URL 訪問 Hugging Face Hub 上的資料集。以下是您可以使用此強大工具的一些功能:
- 查詢公共資料集以及您自己的受限和私有資料集
- 分析資料集並執行 SQL 操作
- 合併資料集並將其匯出為不同格式
- 在嵌入資料集中進行向量相似性搜尋
- 在資料集上實現全文搜尋
要獲取 DuckDB 功能的完整列表,請訪問 DuckDB 文件。
要啟動 CLI,請在安裝資料夾中執行以下命令:
./duckdb
構建 Hugging Face URL
要訪問 Hugging Face 資料集,請使用以下 URL 格式:
hf://datasets/{my-username}/{my-dataset}/{path_to_file}
- my-username,資料集的使用者或組織,例如
ibm
- my-dataset,資料集名稱,例如:
duorc
- path_to_parquet_file,parquet 檔案的路徑,支援 glob 模式,例如
**/*.parquet
,用於查詢所有 parquet 檔案
您可以使用 @~parquet 分支查詢自動轉換的 Parquet 檔案,該分支對應於 refs/convert/parquet
修訂版。更多詳情,請參閱文件:https://huggingface.co/docs/datasets-server/en/parquet#conversion-to-parquet。
要引用資料集的 refs/convert/parquet
修訂版,請使用以下語法:
hf://datasets/{my-username}/{my-dataset}@~parquet/{path_to_file}
以下是遵循上述語法的示例 URL:
hf://datasets/ibm/duorc@~parquet/ParaphraseRC/test/0000.parquet
讓我們從一個快速演示開始,查詢資料集的所有行:
FROM 'hf://datasets/ibm/duorc/ParaphraseRC/*.parquet' LIMIT 3;
或使用傳統的 SQL 語法:
SELECT * FROM 'hf://datasets/ibm/duorc/ParaphraseRC/*.parquet' LIMIT 3;
在接下來的章節中,我們將介紹更多您可以在 Hugging Face 資料集上使用 DuckDB 執行的複雜操作。
< > 在 GitHub 上更新