AutoTrain 文件
常見問題
並獲得增強的文件體驗
開始使用
常見問題解答
我的資料和模型安全嗎?
是的,您的資料和模型是安全的。AutoTrain 使用 Hugging Face Hub 儲存您的資料和模型。您所有的資料和模型都會作為私有儲存庫上傳到您的 Hugging Face 帳戶,並且只有您本人可以訪問。請在此處閱讀更多關於安全性的資訊:這裡。
你們會把我的資料上傳到 Hugging Face Hub 嗎?
如果您使用本地後端或在同一個 Space 中進行訓練,AutoTrain 不會將您的資料集上傳到 Hub。如果您正在使用 DGX Cloud 或使用本地 CLI 在 Hugging Face 的基礎設施上進行訓練等功能,AutoTrain 會將您的資料集推送到 Hub。
訓練完成後,您可以安全地從 Hub 中刪除資料集。如果上傳,資料集將作為私有儲存庫儲存在您的 Hugging Face 帳戶中,只有您和訓練過程可以訪問。訓練完成後,它將不再被使用。
我的訓練 Space 在訓練中途無故暫停
AutoTrain 訓練 Space 在訓練完成(或失敗)後會自動暫停。這樣做是為了節省資源和成本。如果您的訓練失敗,您仍然可以檢視 Space 日誌,找出問題所在。注意:如果您重新啟動 Space,將無法檢索到日誌。
Space 暫停的另一個原因是 Space 的休眠時間觸發。如果您的訓練任務執行時間較長,必須將休眠時間設定為一個更高的值。無論如何,訓練完成後 Space 都會自動暫停,從而為您節省成本。
我收到錯誤“Your installed package nvidia-ml-py is corrupted. Skip patch functions”
這個錯誤可以安全地忽略。它來自 `nvitop` 庫的警告,不會影響 AutoTrain 的功能。
使用使用者介面時我收到 409 衝突錯誤
當您嘗試建立一個與現有專案同名的專案時,會發生此錯誤。要解決此錯誤,您可以刪除現有專案或建立一個不同名稱的新專案。
當您試圖在同一個 Space 或本地環境中已有模型正在訓練時,再次訓練一個模型,也可能發生此錯誤。
我想使用的模型沒有出現在模型選擇下拉選單中。
如果您想使用的模型在模型選擇下拉選單中不可用,您可以在 Space 設定的環境變數 `AUTOTRAIN_CUSTOM_MODELS` 中新增它。例如,如果您想新增 `xxx/yyy` 模型,請轉到 Space 設定,建立一個名為 `AUTOTRAIN_CUSTOM_MODELS` 的變數,並將其值設定為 `xxx/yyy`。
您也可以將模型名稱作為 URL 中的查詢引數傳遞。例如,如果您想使用 `xxx/yyy` 模型,可以使用 URL `https://huggingface.co/spaces/your_autotrain_space?custom_models=xxx/yyy`。
我該如何本地使用 AutoTrain?
透過安裝 AutoTrain Advanced pypi 包可以在本地使用 AutoTrain。您可以在 *本地使用 AutoTrain* 部分閱讀更多資訊。
我可以在 Colab 上執行 AutoTrain 嗎?
要在 Colab 上啟動 UI,您只需點選以下連結即可。
請注意,要在 Colab 上執行該應用,您需要一個 ngrok 令牌。您可以在 ngrok 免費註冊獲取。這是因為 Colab 不允許直接將埠暴露到網際網路。
要在 Colab 上改用 CLI,您可以按照與本地使用 AutoTrain 相同的說明操作。
AutoTrain 有 Docker 映象嗎?
是的,AutoTrain 有 Docker 映象。您可以在 Docker Hub 上找到 Docker 映象:這裡。
是否支援 Windows?
不幸的是,AutoTrain 目前不正式支援 Windows。您可以嘗試使用 WSL(Windows Subsystem for Linux)在 Windows 上執行 AutoTrain,或使用 Docker 映象。
“—project-name”引數不能設定為目錄
--project-name
引數不應是路徑,它將在執行 autotrain 命令的位置建立。此引數必須是字母數字,並且可以包含連字元。
我收到 config.json not found 錯誤
這意味著您訓練了一個介面卡模型(peft=true),它不會生成 config.json。但這並不重要,模型仍然可以透過 AutoModelForCausalLM 或 Inference Endpoints 載入。如果您想將權重與基礎模型合併,您可以使用 `autotrain tools`。請在雜項部分閱讀相關內容。
AutoTrain 是否支援多 GPU 訓練?
是的,AutoTrain 支援多 GPU 訓練。AutoTrain 會自行判斷使用者是否在多 GPU 設定上執行命令,如果 GPU 數量大於 1 且小於 4,則使用多 GPU ddp;如果 GPU 數量大於等於 4,則使用 deepspeed。
我該如何使用具有多個配置的 Hub 資料集?
如果您的 Hub 資料集有多個配置,您可以使用 `train_split` 引數來指定配置和拆分。例如,在這個資料集這裡,有多個配置:`pair`、`pair-class`、`pair-score` 和 `triplet`。
如果我想使用 `pair-class` 配置的 `train` 拆分,我可以在 UI 或 CLI / 配置中將 `pair-class:train` 寫作 `train_split`。
下面顯示了一個示例配置
data:
path: sentence-transformers/all-nli
train_split: pair-class:train
valid_split: pair-class:test
column_mapping:
sentence1_column: premise
sentence2_column: hypothesis
target_column: label