資料集檢視器文件
PostgreSQL
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
PostgreSQL
PostgreSQL 是一個功能強大的開源物件關係資料庫系統。它連續幾年成為應用開發人員最流行的資料庫。pgai 是一個 PostgreSQL 擴充套件,允許您輕鬆地將 Hugging Face 資料集攝取到您的 PostgreSQL 資料庫中。
安裝 pgai 後執行 PostgreSQL
您可以輕鬆執行包含 PostgreSQL 和 pgai 的 Docker 容器。
docker run -d --name pgai -p 5432:5432 \ -v pg-data:/home/postgres/pgdata/data \ -e POSTGRES_PASSWORD=password timescale/timescaledb-ha:pg17
然後執行以下命令將 pgai 安裝到資料庫中。
docker exec -it pgai psql -c "CREATE EXTENSION ai CASCADE;"
然後您可以使用容器中的 psql
命令列工具連線到資料庫。
docker exec -it pgai psql
或者使用您喜歡的 PostgreSQL 客戶端,使用以下連線字串:postgresql://postgres:password@localhost:5432/postgres
另外,您也可以將 pgai 安裝到現有的 PostgreSQL 資料庫中。有關如何將 pgai 安裝到現有 PostgreSQL 資料庫的說明,請遵循 GitHub 倉庫中的說明。
從資料集建立表
要將資料集載入到 PostgreSQL 中,您可以使用 ai.load_dataset
函式。此函式將建立一個 PostgreSQL 表,並以流式方式從 Hugging Face Hub 載入資料集。
select ai.load_dataset('rajpurkar/squad', table_name => 'squad');
您現在可以使用標準 SQL 查詢該表。
select * from squad limit 10;
ai.load_dataset
函式的完整文件可在此處找到。
只匯入資料集的子集
您還可以透過指定 max_batches
引數來匯入資料集的子集。如果資料集很大並且您想嘗試較小的子集,這將非常有用。
SELECT ai.load_dataset('rajpurkar/squad', table_name => 'squad', batch_size => 100, max_batches => 1);
將資料集載入到現有表中
您還可以將資料集載入到現有表中。如果您希望更好地控制資料模式或希望預定義資料上的索引和約束,這將非常有用。
select ai.load_dataset('rajpurkar/squad', table_name => 'squad', if_table_exists => 'append');