SetFit 文件

訓練器類

SetFit

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

訓練器類

TrainingArguments

類 setfit.TrainingArguments

< 源 >

( output_dir: str = 'checkpoints' batch_size: Union[int, Tuple[int, int]] = (16, 2) num_epochs: Union[int, Tuple[int, int]] = (1, 16) max_steps: int = -1 sampling_strategy: str = 'oversampling' num_iterations: Optional[int] = None body_learning_rate: Union[float, Tuple[float, float]] = (2e-05, 1e-05) head_learning_rate: float = 0.01 loss: Callable = <class 'sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss'> distance_metric: Callable = <function BatchHardTripletLossDistanceFunction.cosine_distance at 0x7f2cdea71ea0> margin: float = 0.25 end_to_end: bool = False use_amp: bool = False warmup_proportion: float = 0.1 l2_weight: Optional[float] = 0.01 max_length: Optional[int] = None samples_per_label: int = 2 show_progress_bar: bool = True seed: int = 42 report_to: str = 'all' run_name: Optional[str] = None logging_dir: Optional[str] = None logging_strategy: str = 'steps' logging_first_step: bool = True logging_steps: int = 50 eval_strategy: str = 'no' evaluation_strategy: Optional[str] = None eval_steps: Optional[int] = None eval_delay: int = 0 eval_max_steps: int = -1 save_strategy: str = 'steps' save_steps: int = 500 save_total_limit: Optional[int] = 1 load_best_model_at_end: bool = False metric_for_best_model: Optional[str] = 'embedding_loss' greater_is_better: bool = False )

引數

output_dir (str, 預設為 "checkpoints") — 模型預測和檢查點將被寫入的輸出目錄。
batch_size (Union[int, Tuple[int, int]], 預設為 (16, 2)) — 分別設定嵌入和分類器訓練階段的批次大小，如果提供整數則設定兩者。請注意，分類器的批次大小僅在可微分 PyTorch 頭中使用。
num_epochs (Union[int, Tuple[int, int]], 預設為 (1, 16)) — 分別設定嵌入和分類器訓練階段的 epoch 數，如果提供整數則設定兩者。請注意，分類器的 epoch 數僅在可微分 PyTorch 頭中使用。
max_steps (int, 預設為 -1) — 如果設定為正數，則為要執行的訓練總步數。覆蓋 num_epochs。當所有資料耗盡時，訓練可能會在達到設定的步數之前停止。
sampling_strategy (str, 預設為 "oversampling") — 訓練中如何抽取對的取樣策略。可能的值有：
- "oversampling"：抽取偶數個正/負句子對，直到每個句子對都被抽取。
- "undersampling"：抽取最少數量的正/負句子對，直到少數類中的每個句子對都被抽取。
- "unique"：抽取所有句子對組合（可能導致正/負句子對數量不平衡）。
預設設定為"oversampling"，確保所有句子對至少被抽取一次。或者，設定num_iterations將覆蓋此引數並確定生成的句子對的數量。
num_iterations (int, 可選) — 如果未設定，sampling_strategy將決定要生成的句子對的數量。此引數設定生成句子對的迭代次數，並與Setfit 相容。如果使用三元組損失，此引數將被忽略。它僅與CosineSimilarityLoss一起使用。
head_learning_rate (float, 預設為 1e-2) — 設定分類器訓練階段的頭部學習率。僅與可微分 PyTorch 頭一起使用。
distance_metric (Callable, 預設為 BatchHardTripletLossDistanceFunction.cosine_distance) — 返回兩個嵌入之間距離的函式。它用於三元組損失，對於CosineSimilarityLoss和SupConLoss則被忽略。
end_to_end (bool, 預設為 False) — 如果為 True，則在分類器訓練階段對整個模型進行端到端訓練。否則，凍結SentenceTransformer主體並僅訓練頭部。僅與可微分 PyTorch 頭一起使用。
warmup_proportion (float, 預設為 0.1) — 預熱佔總訓練步數的比例。必須大於或等於 0.0 且小於或等於 1.0。
l2_weight (float, 可選) — 可選的 l2 權重，用於模型主體和頭部，在分類器訓練階段如果使用可微分 PyTorch 頭，則將其傳遞給 AdamW 最佳化器。
max_length (int, 可選) — 標記器可以生成的最大令牌長度。如果未提供，將使用SentenceTransformer主體的最大長度。
samples_per_label (int, 預設為 2) — 每個標籤連續、隨機且唯一的樣本數。這僅與三元組損失相關，對於CosineSimilarityLoss則被忽略。批次大小應為 samples_per_label 的倍數。
seed (int, 預設為 42) — 將在訓練開始時設定的隨機種子。為了確保跨執行的可復現性，如果模型有一些隨機初始化的引數，請使用Trainer的model_init引數來例項化模型。
"azure_ml"、"comet_ml"、"mlflow"、"neptune"、"tensorboard"、"clearml" 和 "wandb"。使用 "all" 報告給所有已安裝的整合，"none" 表示不整合。
和 mlflow 日誌記錄。
日誌目錄。預設為 *runs/CURRENT_DATETIME_HOSTNAME*。
- "no": 訓練期間不進行日誌記錄。
- "epoch": 在每個 epoch 結束時進行日誌記錄。
- "steps": 每 logging_steps 進行日誌記錄。
logging_steps (int, 預設為 50) — 如果logging_strategy="steps"，兩次日誌之間更新步數。
- "no": 訓練期間不進行評估。
- "steps": 每 eval_steps 進行評估（並記錄）。
- "epoch": 在每個 epoch 結束時進行評估。
logging_steps相同的值。
eval_delay (float, 可選) — 在進行第一次評估之前等待的 epoch 或步數，具體取決於 eval_strategy。
eval_max_steps (int, 預設為 -1) — 如果設定為正數，則為要執行的評估總步數。當所有資料耗盡時，評估可能會在達到設定的步數之前停止。
- "no": 訓練期間不儲存。
- "epoch": 在每個 epoch 結束時儲存。
- "steps": 每 save_steps 儲存。
save_total_limit (int, 可選, 預設為 1) — 如果傳入值，將限制檢查點總數。刪除output_dir中較舊的檢查點。請注意，如果eval_strategy不是"no"，則始終保留最佳模型。
load_best_model_at_end (bool, 可選, 預設為 False) — 訓練結束時是否載入訓練期間找到的最佳模型。

當設定為True時，引數save_strategy需要與eval_strategy相同，如果是“steps”，則save_steps必須是eval_steps的整數倍。

TrainingArguments 是與訓練迴圈本身相關的引數子集。請注意，SetFit 的訓練在幕後包含兩個階段：微調嵌入和訓練分類頭。因此，某些訓練引數可以是元組，其中兩個值分別用於兩個階段。第二個值通常僅在使用use_differentiable_head=True載入模型時才使用。

to_dict

< 源 >

( ) → Dict[str, Any]

Dict[str, Any]

此資料類的字典變體。

將此例項轉換為字典。

from_dict

< 源 >

( arguments: Dict[str, Any] ignore_extra: bool = False ) → TrainingArguments

引數

返回

TrainingArguments

例項化的 TrainingArguments 例項。

從字典初始化 TrainingArguments 例項。

複製

< 源 >

( )

建立此 TrainingArguments 例項的淺複製。

更新

< 源 >

( arguments: Dict[str, Any] ignore_extra: bool = False )

SetFit

訓練器類

TrainingArguments

類 setfit.TrainingArguments

to_dict

from_dict

複製

更新

類 setfit.Trainer

add_callback

apply_hyperparameters

評估

hyperparameter_search

pop_callback

push_to_hub

remove_callback

train

train_classifier

train_embeddings

DistillationTrainer

class setfit.DistillationTrainer

add_callback

apply_hyperparameters

評估

hyperparameter_search

pop_callback

push_to_hub

remove_callback

train

train_classifier

train_embeddings

AbsaTrainer

class setfit.AbsaTrainer

add_callback

評估

pop_callback

push_to_hub

remove_callback

train

train_aspect

train_polarity