資料集檢視器文件

PostgreSQL

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

PostgreSQL

PostgreSQL 是一個功能強大的開源物件關係資料庫系統。它連續幾年成為應用開發人員最流行的資料庫。pgai 是一個 PostgreSQL 擴充套件,允許您輕鬆地將 Hugging Face 資料集攝取到您的 PostgreSQL 資料庫中。

安裝 pgai 後執行 PostgreSQL

您可以輕鬆執行包含 PostgreSQL 和 pgai 的 Docker 容器。

docker run -d --name pgai -p 5432:5432 \
-v pg-data:/home/postgres/pgdata/data \
-e POSTGRES_PASSWORD=password timescale/timescaledb-ha:pg17

然後執行以下命令將 pgai 安裝到資料庫中。

docker exec -it pgai psql -c "CREATE EXTENSION ai CASCADE;"

然後您可以使用容器中的 psql 命令列工具連線到資料庫。

docker exec -it pgai psql

或者使用您喜歡的 PostgreSQL 客戶端,使用以下連線字串:postgresql://postgres:password@localhost:5432/postgres

另外,您也可以將 pgai 安裝到現有的 PostgreSQL 資料庫中。有關如何將 pgai 安裝到現有 PostgreSQL 資料庫的說明,請遵循 GitHub 倉庫中的說明。

從資料集建立表

要將資料集載入到 PostgreSQL 中,您可以使用 ai.load_dataset 函式。此函式將建立一個 PostgreSQL 表,並以流式方式從 Hugging Face Hub 載入資料集。

select ai.load_dataset('rajpurkar/squad', table_name => 'squad');

您現在可以使用標準 SQL 查詢該表。

select * from squad limit 10;

ai.load_dataset 函式的完整文件可在此處找到。

只匯入資料集的子集

您還可以透過指定 max_batches 引數來匯入資料集的子集。如果資料集很大並且您想嘗試較小的子集,這將非常有用。

SELECT ai.load_dataset('rajpurkar/squad', table_name => 'squad', batch_size => 100, max_batches => 1);

將資料集載入到現有表中

您還可以將資料集載入到現有表中。如果您希望更好地控制資料模式或希望預定義資料上的索引和約束,這將非常有用。

select ai.load_dataset('rajpurkar/squad', table_name => 'squad', if_table_exists => 'append');
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.