Hub 文件
資料集下載統計
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
資料集下載統計
資料集下載如何計數?
統計資料集的下載量並非易事,因為一個數據集倉庫可能包含多個檔案,來自多個子集和分割(例如訓練/驗證/測試),有時一個分割中包含許多檔案。為了解決這個問題並避免重複計算同一使用者的多次下載,我們將在5分鐘內由使用者(基於其IP地址)下載的所有檔案視為一次資料集下載。當檔案透過GET或HEAD請求下載時,此計數會在我們的伺服器上自動發生,無需收集任何使用者資訊或進行額外呼叫。
2024年9月之前
Hub 過去只提供透過 datasets
庫載入的資料集的下載統計。為了確定下載量,Hub 以前會計算在 Python 中每次呼叫 load_dataset
的次數,不包括 Hugging Face 在 GitHub 上的 CI 工具。此過程中不會從使用者端傳送任何資訊,也不會進行額外呼叫。計數是在我們提供檔案下載時在伺服器端完成的。這意味著:
- 無論資料是直接儲存在 Hub 倉庫中,還是倉庫有一個從外部源載入資料的指令碼,下載計數都是相同的。
- 如果使用者使用
wget
或 Hub 的使用者介面 (UI) 等工具手動下載資料,這些下載不會包含在下載計數中。