SetFit 文件

實用函式

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

實用函式

setfit.get_templated_dataset

< >

( dataset: typing.Optional[datasets.arrow_dataset.Dataset] = None candidate_labels: typing.Optional[typing.List[str]] = None reference_dataset: typing.Optional[str] = None template: str = 'This sentence is {}' sample_size: int = 2 text_column: str = 'text' label_column: str = 'label' multi_label: bool = False label_names_column: str = 'label_text' ) Dataset

引數

  • dataset (Dataset, 可選) — 要新增模板化示例的資料集。
  • candidate_labels (List[str], 可選) — 要饋送到模板中以構建示例的候選標籤列表。
  • reference_dataset (str, 可選) — 如果未提供 candidate_labels,則從中獲取標籤的資料集。
  • template (str, 可選, 預設為 "This sentence is {}") — 用於將每個標籤轉換為合成訓練示例的模板。此模板必須包含一個 {},以便將候選標籤插入到模板中。例如,預設模板是“This sentence is {}.”。對於候選標籤“sports”,這將生成一個示例“This sentence is sports”。
  • sample_size (int, 可選, 預設為 2) — 為每個候選標籤建立的示例數量。
  • text_column (str, 可選, 預設為 "text") — 包含示例文字的列的名稱。
  • label_column (str, 可選, 預設為 "label") — dataset 中包含示例標籤的列的名稱。
  • multi_label (bool, 可選, 預設為 False) — 是否可以有多個候選標籤為真。
  • label_names_column (str, 可選, 預設為“label_text”) — reference_dataset 中標籤列的名稱,在標籤列沒有 ClassLabel 特徵時使用。

返回

資料集

添加了模板化示例的輸入資料集的副本。

引發

ValueError

  • ValueError — 如果輸入資料集不為空且提供的一個或兩個列名缺失。

為參考資料集或參考標籤建立模板化示例。

如果提供了 candidate_labels,則使用它生成模板。否則,使用從 reference_dataset 載入的標籤。

如果提供了輸入資料集,則將示例新增到其中,否則建立一個新資料集。假設輸入資料集有一個名為 text_column 的文字列和一個名為 label_column 的標籤列,其中包含獨熱或多熱編碼的標籤序列。

setfit.sample_dataset

< >

( dataset: Dataset label_column: str = 'label' num_samples: int = 8 seed: int = 42 )

對資料集進行取樣,以使每個類別(如果可能)具有相同數量的樣本。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.