Datasets 文件

故障排除

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

故障排除

本指南旨在為您提供解決一些常見問題所需的工具和知識。如果本指南中列出的建議未能涵蓋您遇到的情況,請參閱尋求幫助部分,以瞭解如何就您的具體問題尋求幫助。

使用 push_to_hub 上傳資料集時遇到的問題

身份驗證問題

如果您在使用Dataset.push_to_hub()和 Hugging Face 訪問令牌在 🤗 Hub 上共享資料集時遇到身份驗證問題

  • 請確保您用於身份驗證的 Hugging Face 令牌具有寫入許可權。
  • 在 OSX 上,清理您鑰匙串訪問中所有的 huggingface.co 密碼,並重新配置 `git config --global credential.helper osxkeychain`,然後再使用 `huggingface-cli login`,可能會有所幫助。

另外,您可以使用 SSH 金鑰進行身份驗證——請在🤗 Hub 文件中閱讀更多資訊。

大型資料集上傳時連線丟失

當向 Hub 上傳大型資料集時,如果資料集分片數量很大,可能會在短時間內向 Hub 建立過多的提交。這將導致連線錯誤。連線錯誤也可能是由 Hub 內部使用的 AWS S3 儲存桶返回的 HTTP 500 錯誤引起的。無論哪種情況,您都可以重新執行Dataset.push_to_hub()來繼續上傳資料集。Hub 會檢查已上傳分片的 SHA 值以避免重複上傳。我們正在努力使上傳過程對暫時性錯誤更具魯棒性,因此更新到最新的庫版本總是一個好主意。

請求過多

透過 `push_to_hub()` 上傳大型資料集可能會導致錯誤。

HfHubHTTPError: 429 Client Error: Too Many Requests for url: ...
You have exceeded our hourly quotas for action: commit. We invite you to retry later.

如果您遇到此問題,需要將 `datasets` 庫升級到最新版本(或至少 `2.15.0`)。

從自定義資料建立資料集時遇到的問題

從資料夾載入影像和音訊

當從資料夾建立資料集時,最常見的問題之一是檔案結構不符合預期格式,或者元資料檔案有問題。

在相應的文件頁面瞭解更多關於所需資料夾結構的資訊:

Pickling 問題

使用 Dataset.from_generator 時的 Pickling 問題

建立資料集時,IterableDataset.from_generator()Dataset.from_generator() 都需要一個“可 pickle”的生成器函式。這是為了使用`pickle`對函式進行雜湊處理,以便能夠將資料集快取到磁碟上。

雖然生成器函式通常是“可 pickle”的,但請注意生成器物件不是。所以如果您使用生成器物件,您會遇到類似這樣的 `TypeError`。

TypeError: cannot pickle 'generator' object

當使用一個使用了不可“pickle”的全域性物件的生成器函式時,也可能發生此錯誤,例如資料庫連線。如果是這種情況,您可以直接在生成器函式內部初始化該物件以避免此錯誤。

使用 Dataset.map 時的 Pickling 問題

Pickling 錯誤也可能發生在多程序的 Dataset.map() 中——物件會被 pickle 以便傳遞給子程序。如果在轉換中使用的物件不可 pickle,則無法快取 `map` 的結果,從而導致引發錯誤。

以下是一些解決此問題的方法:

  • 解決 pickle 問題的一個通用方法是透過實現 `__getstate__` / `__setstate__` / `__reduce__` 來手動確保物件(或生成器類)是可 pickle 的。
  • 您還可以在 `map` 中使用 `new_fingerprint` 引數提供您自己的唯一雜湊值。
  • 您也可以透過呼叫 `datasets.disable_caching()` 來停用快取,但這是不推薦的——請閱讀更多關於快取重要性的資訊

尋求幫助

如果上述故障排除建議未能幫助您解決問題,請向社群和團隊尋求幫助。

論壇

在 Hugging Face 論壇上尋求幫助 - 在🤗 Datasets 類別中釋出您的問題。請確保寫一篇描述性的帖子,包含有關您的設定和可復現程式碼的相關上下文,以最大化您的問題得到解決的可能性!

Discord

Discord 上釋出問題,讓團隊和社群幫助您。

🤗 Hub 上的社群討論

如果您在 Hub 上建立自定義資料集時遇到問題,您可以在資料集的社群選項卡中發起討論,向 Hugging Face 團隊尋求幫助,並附上以下資訊:

# Dataset rewiew request for <Dataset name>

## Description

<brief description of the dataset>

## Files to review

- file1
- file2
- ...

cc @lhoestq @albertvillanova

GitHub Issues

最後,如果您懷疑發現了與庫本身相關的 bug,請在 🤗 Datasets 的 GitHub 倉庫中建立一個 Issue。請包含有關該 bug 的上下文資訊:可復現的程式碼片段、您的環境和資料詳情等,以幫助我們找出問題所在以及如何修復它。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.