SetFit 文件
實用函式
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
實用函式
setfit.get_templated_dataset
< 來源 >( dataset: typing.Optional[datasets.arrow_dataset.Dataset] = None candidate_labels: typing.Optional[typing.List[str]] = None reference_dataset: typing.Optional[str] = None template: str = 'This sentence is {}' sample_size: int = 2 text_column: str = 'text' label_column: str = 'label' multi_label: bool = False label_names_column: str = 'label_text' ) → Dataset
引數
- dataset (
Dataset
, 可選) — 要新增模板化示例的資料集。 - candidate_labels (
List[str]
, 可選) — 要饋送到模板中以構建示例的候選標籤列表。 - reference_dataset (
str
, 可選) — 如果未提供candidate_labels
,則從中獲取標籤的資料集。 - template (
str
, 可選, 預設為"This sentence is {}"
) — 用於將每個標籤轉換為合成訓練示例的模板。此模板必須包含一個 {},以便將候選標籤插入到模板中。例如,預設模板是“This sentence is {}.”。對於候選標籤“sports”,這將生成一個示例“This sentence is sports”。 - sample_size (
int
, 可選, 預設為 2) — 為每個候選標籤建立的示例數量。 - text_column (
str
, 可選, 預設為"text"
) — 包含示例文字的列的名稱。 - label_column (
str
, 可選, 預設為"label"
) —dataset
中包含示例標籤的列的名稱。 - multi_label (
bool
, 可選, 預設為False
) — 是否可以有多個候選標籤為真。 - label_names_column (
str
, 可選, 預設為“label_text”) —reference_dataset
中標籤列的名稱,在標籤列沒有 ClassLabel 特徵時使用。
返回
資料集
添加了模板化示例的輸入資料集的副本。
引發
ValueError
ValueError
— 如果輸入資料集不為空且提供的一個或兩個列名缺失。
為參考資料集或參考標籤建立模板化示例。
如果提供了 candidate_labels
,則使用它生成模板。否則,使用從 reference_dataset
載入的標籤。
如果提供了輸入資料集,則將示例新增到其中,否則建立一個新資料集。假設輸入資料集有一個名為 text_column
的文字列和一個名為 label_column
的標籤列,其中包含獨熱或多熱編碼的標籤序列。
setfit.sample_dataset
< 來源 >( dataset: Dataset label_column: str = 'label' num_samples: int = 8 seed: int = 42 )
對資料集進行取樣,以使每個類別(如果可能)具有相同數量的樣本。