Hub

資料集下載統計

資料集下載如何計數？

統計資料集的下載量並非易事，因為一個數據集倉庫可能包含多個檔案，來自多個子集和分割（例如訓練/驗證/測試），有時一個分割中包含許多檔案。為了解決這個問題並避免重複計算同一使用者的多次下載，我們將在5分鐘內由使用者（基於其IP地址）下載的所有檔案視為一次資料集下載。當檔案透過GET或HEAD請求下載時，此計數會在我們的伺服器上自動發生，無需收集任何使用者資訊或進行額外呼叫。

2024年9月之前

Hub 過去只提供透過 datasets 庫載入的資料集的下載統計。為了確定下載量，Hub 以前會計算在 Python 中每次呼叫 load_dataset 的次數，不包括 Hugging Face 在 GitHub 上的 CI 工具。此過程中不會從使用者端傳送任何資訊，也不會進行額外呼叫。計數是在我們提供檔案下載時在伺服器端完成的。這意味著：

無論資料是直接儲存在 Hub 倉庫中，還是倉庫有一個從外部源載入資料的指令碼，下載計數都是相同的。
如果使用者使用 wget 或 Hub 的使用者介面 (UI) 等工具手動下載資料，這些下載不會包含在下載計數中。

< > 在 GitHub 上更新