Datasets 文件
故障排除
並獲得增強的文件體驗
開始使用
故障排除
本指南旨在為您提供解決一些常見問題所需的工具和知識。如果本指南中列出的建議未能涵蓋您遇到的情況,請參閱尋求幫助部分,以瞭解如何就您的具體問題尋求幫助。
使用 push_to_hub 上傳資料集時遇到的問題
身份驗證問題
如果您在使用Dataset.push_to_hub()和 Hugging Face 訪問令牌在 🤗 Hub 上共享資料集時遇到身份驗證問題
- 請確保您用於身份驗證的 Hugging Face 令牌具有寫入許可權。
- 在 OSX 上,清理您鑰匙串訪問中所有的 huggingface.co 密碼,並重新配置 `git config --global credential.helper osxkeychain`,然後再使用 `huggingface-cli login`,可能會有所幫助。
另外,您可以使用 SSH 金鑰進行身份驗證——請在🤗 Hub 文件中閱讀更多資訊。
大型資料集上傳時連線丟失
當向 Hub 上傳大型資料集時,如果資料集分片數量很大,可能會在短時間內向 Hub 建立過多的提交。這將導致連線錯誤。連線錯誤也可能是由 Hub 內部使用的 AWS S3 儲存桶返回的 HTTP 500 錯誤引起的。無論哪種情況,您都可以重新執行Dataset.push_to_hub()來繼續上傳資料集。Hub 會檢查已上傳分片的 SHA 值以避免重複上傳。我們正在努力使上傳過程對暫時性錯誤更具魯棒性,因此更新到最新的庫版本總是一個好主意。
請求過多
透過 `push_to_hub()` 上傳大型資料集可能會導致錯誤。
HfHubHTTPError: 429 Client Error: Too Many Requests for url: ...
You have exceeded our hourly quotas for action: commit. We invite you to retry later.
如果您遇到此問題,需要將 `datasets` 庫升級到最新版本(或至少 `2.15.0`)。
從自定義資料建立資料集時遇到的問題
從資料夾載入影像和音訊
當從資料夾建立資料集時,最常見的問題之一是檔案結構不符合預期格式,或者元資料檔案有問題。
在相應的文件頁面瞭解更多關於所需資料夾結構的資訊:
Pickling 問題
使用 Dataset.from_generator 時的 Pickling 問題
建立資料集時,IterableDataset.from_generator() 和 Dataset.from_generator() 都需要一個“可 pickle”的生成器函式。這是為了使用`pickle`對函式進行雜湊處理,以便能夠將資料集快取到磁碟上。
雖然生成器函式通常是“可 pickle”的,但請注意生成器物件不是。所以如果您使用生成器物件,您會遇到類似這樣的 `TypeError`。
TypeError: cannot pickle 'generator' object
當使用一個使用了不可“pickle”的全域性物件的生成器函式時,也可能發生此錯誤,例如資料庫連線。如果是這種情況,您可以直接在生成器函式內部初始化該物件以避免此錯誤。
使用 Dataset.map 時的 Pickling 問題
Pickling 錯誤也可能發生在多程序的 Dataset.map() 中——物件會被 pickle 以便傳遞給子程序。如果在轉換中使用的物件不可 pickle,則無法快取 `map` 的結果,從而導致引發錯誤。
以下是一些解決此問題的方法:
- 解決 pickle 問題的一個通用方法是透過實現 `__getstate__` / `__setstate__` / `__reduce__` 來手動確保物件(或生成器類)是可 pickle 的。
- 您還可以在 `map` 中使用 `new_fingerprint` 引數提供您自己的唯一雜湊值。
- 您也可以透過呼叫 `datasets.disable_caching()` 來停用快取,但這是不推薦的——請閱讀更多關於快取重要性的資訊。
尋求幫助
如果上述故障排除建議未能幫助您解決問題,請向社群和團隊尋求幫助。
論壇
在 Hugging Face 論壇上尋求幫助 - 在🤗 Datasets 類別中釋出您的問題。請確保寫一篇描述性的帖子,包含有關您的設定和可復現程式碼的相關上下文,以最大化您的問題得到解決的可能性!
Discord
在 Discord 上釋出問題,讓團隊和社群幫助您。
🤗 Hub 上的社群討論
如果您在 Hub 上建立自定義資料集時遇到問題,您可以在資料集的社群選項卡中發起討論,向 Hugging Face 團隊尋求幫助,並附上以下資訊:
# Dataset rewiew request for <Dataset name> ## Description <brief description of the dataset> ## Files to review - file1 - file2 - ... cc @lhoestq @albertvillanova
GitHub Issues
最後,如果您懷疑發現了與庫本身相關的 bug,請在 🤗 Datasets 的 GitHub 倉庫中建立一個 Issue。請包含有關該 bug 的上下文資訊:可復現的程式碼片段、您的環境和資料詳情等,以幫助我們找出問題所在以及如何修復它。
< > 在 GitHub 上更新