AutoTrain 文件
物體檢測
並獲得增強的文件體驗
開始使用
目標檢測
目標檢測是一種監督學習形式,透過訓練模型來識別和分類影像中的物體。AutoTrain 簡化了這一過程,使您只需上傳帶有標籤的示例影像即可訓練出最先進的目標檢測模型。
準備資料
為確保您的目標檢測模型能有效訓練,請遵循以下指南準備您的資料
整理影像
準備一個包含您的影像和 metadata.jsonl 的 zip 壓縮檔案。
Archive.zip
├── 0001.png
├── 0002.png
├── 0003.png
├── .
├── .
├── .
└── metadata.jsonlmetadata.jsonl 示例
{"file_name": "0001.png", "objects": {"bbox": [[302.0, 109.0, 73.0, 52.0]], "category": [0]}}
{"file_name": "0002.png", "objects": {"bbox": [[810.0, 100.0, 57.0, 28.0]], "category": [1]}}
{"file_name": "0003.png", "objects": {"bbox": [[160.0, 31.0, 248.0, 616.0], [741.0, 68.0, 202.0, 401.0]], "category": [2, 2]}}請注意,邊界框 (bboxes) 需要使用 COCO 格式 [x, y, 寬度, 高度]。
影像要求
格式:確保所有影像均為 JPEG、JPG 或 PNG 格式。
數量:包含至少 5 張影像,以便為模型提供足夠的學習示例。
專一性:zip 檔案應僅包含影像和 metadata.jsonl。不應包含任何其他檔案或巢狀資料夾。
注意事項
- 影像必須是 jpeg、jpg 或 png 格式。
- 每個資料分割中應至少有 5 張影像。
- zip 壓縮檔案中不得包含任何其他檔案。
- zip 壓縮資料夾內不得有任何其他資料夾。
當 train.zip 解壓時,不會建立任何資料夾:只有影像和 metadata.jsonl。
引數
class autotrain.trainers.object_detection.params.ObjectDetectionParams
< 原始檔 >( data_path: str = None model: str = 'google/vit-base-patch16-224' username: typing.Optional[str] = None lr: float = 5e-05 epochs: int = 3 batch_size: int = 8 warmup_ratio: float = 0.1 gradient_accumulation: int = 1 optimizer: str = 'adamw_torch' scheduler: str = 'linear' weight_decay: float = 0.0 max_grad_norm: float = 1.0 seed: int = 42 train_split: str = 'train' valid_split: typing.Optional[str] = None logging_steps: int = -1 project_name: str = 'project-name' auto_find_batch_size: bool = False mixed_precision: typing.Optional[str] = None save_total_limit: int = 1 token: typing.Optional[str] = None push_to_hub: bool = False eval_strategy: str = 'epoch' image_column: str = 'image' objects_column: str = 'objects' log: str = 'none' image_square_size: typing.Optional[int] = 600 early_stopping_patience: int = 5 early_stopping_threshold: float = 0.01 )
引數
- data_path (str) — 資料集路徑。
- model (str) — 要使用的模型名稱。預設為“google/vit-base-patch16-224”。
- username (Optional[str]) — Hugging Face 使用者名稱。
- lr (float) — 學習率。預設為 5e-5。
- epochs (int) — 訓練輪數。預設為 3。
- batch_size (int) — 訓練批次大小。預設為 8。
- warmup_ratio (float) — 預熱比例。預設為 0.1。
- gradient_accumulation (int) — 梯度累積步數。預設為 1。
- optimizer (str) — 要使用的最佳化器。預設為“adamw_torch”。
- scheduler (str) — 要使用的學習率排程器。預設為“linear”。
- weight_decay (float) — 權重衰減。預設為 0.0。
- max_grad_norm (float) — 最大梯度範數。預設為 1.0。
- seed (int) — 隨機種子。預設為 42。
- train_split (str) — 訓練資料分割的名稱。預設為“train”。
- valid_split (Optional[str]) — 驗證資料分割的名稱。
- logging_steps (int) — 兩次日誌記錄之間的步數。預設為 -1。
- project_name (str) — 輸出目錄的專案名稱。預設為“project-name”。
- auto_find_batch_size (bool) — 是否自動尋找批次大小。預設為 False。
- mixed_precision (Optional[str]) — 混合精度型別(fp16、bf16 或 None)。
- save_total_limit (int) — 要儲存的檢查點總數。預設為 1。
- token (Optional[str]) — 用於身份驗證的 Hub Token。
- push_to_hub (bool) — 是否將模型推送到 Hugging Face Hub。預設為 False。
- eval_strategy (str) — 評估策略。預設為“epoch”。
- image_column (str) — 資料集中影像列的名稱。預設為“image”。
- objects_column (str) — 資料集中目標列的名稱。預設為“objects”。
- log (str) — 用於實驗追蹤的日誌記錄方法。預設為“none”。
- image_square_size (Optional[int]) — 影像將被調整到的最長邊尺寸,然後填充為正方形。預設為 600。
- early_stopping_patience (int) — 連續多少個輪次沒有改進後訓練將停止。預設為 5。
- early_stopping_threshold (float) — 視為改進所需的最小變化量。預設為 0.01。
ObjectDetectionParams 是一個用於目標檢測訓練引數的配置類。