模型下載統計

模型下載是如何統計的？

統計模型的下載量並非易事，因為單個模型倉庫可能包含多個檔案，包括多個模型權重檔案（例如，分片模型）和根據庫（GGUF、PyTorch、TensorFlow 等）不同的格式。為了避免重複計算下載量（例如，將單個模型下載計算為多次下載），中心使用一組用於下載計數查詢的檔案。不會從使用者傳送任何資訊，也不會為此進行額外的呼叫。計數是在伺服器端完成的，因為中心會提供檔案供下載。

對這些檔案（包括 GET 和 HEAD）的每個 HTTP 請求都將被計為一次下載。預設情況下，未指定庫時，中心使用 config.json 作為預設查詢檔案。否則，查詢檔案取決於每個庫，中心可能會檢查 pytorch_model.bin 或 adapter_config.json 等檔案。

不同庫的查詢檔案有哪些？

預設情況下，中心會查詢 config.json、config.yaml、hyperparams.yaml、params.json 和 meta.yaml。某些庫透過指定自己的過濾器（指定 countDownloads）來覆蓋這些預設設定。定義這些覆蓋的程式碼是開源的。例如，對於 nemo 庫，所有具有 .nemo 副檔名的檔案都用於計算下載量。

我可以為我的庫新增查詢檔案嗎？

是的，你可以在此處提交拉取請求。這是一個新增 VFIMamba 下載指標的最小示例。有關更多詳細資訊，請檢視整合指南。

GGUF 檔案如何處理？

GGUF 檔案是自包含的，不與單個庫繫結，因此所有 GGUF 檔案都計入下載量。這會在使用者克隆整個倉庫時重複計算下載量，但大多數使用者和介面會為給定倉庫下載單個 GGUF 檔案。

Diffusers 如何處理？

diffusers 庫是一個特例，其過濾器在內部程式碼庫中配置。該過濾器確保標記為 diffusers 的倉庫會計算透過庫載入的檔案以及需要使用者手動下載頂級 safetensors 的 UI 中的檔案。

filter: [
		{
			bool: {
				/// Include documents that match at least one of the following rules
				should: [
					/// Downloaded from diffusers lib
					{
						term: { path: "model_index.json" },
					},
					/// Direct downloads (LoRa, Auto1111 and others)
					/// Filter out nested safetensors and pickle weights to avoid double counting downloads from the diffusers lib
					{
						regexp: { path: "[^/]*\\.safetensors" },
					},
					{
						regexp: { path: "[^/]*\\.ckpt" },
					},
					{
						regexp: { path: "[^/]*\\.bin" },
					},
				],
				minimum_should_match: 1,
			},
		},
	]
}

< > 在 GitHub 上更新