構建器類

構建器

🤗 Datasets 在資料集構建過程中依賴兩個主要類：DatasetBuilder 和 BuilderConfig。

class datasets.DatasetBuilder

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

引數

cache_dir (str, 可選) — 用於快取資料的目錄。預設為 "~/.cache/huggingface/datasets"。
dataset_name (str, 可選) — 資料集的名稱，如果與構建器名稱不同。對於打包的構建器（如 csv、imagefolder、audiofolder 等）很有用，以反映使用相同打包構建器的資料集之間的差異。
config_name (str, 可選) — 資料集配置的名稱。它會影響在磁碟上生成的資料。不同的配置將有各自的子目錄和版本。如果未提供，則使用預設配置（如果存在）。

2.3.0 版本新增

引數 `name` 已重新命名為 `config_name`。
hash (str, 可選) — 特定於資料集構建器程式碼的雜湊值。用於在資料集構建器程式碼更新時更新快取目錄（以避免重用舊資料）。典型的快取目錄（在 `self._relative_data_dir` 中定義）是 `name/version/hash/`。
base_path (str, 可選) — 用於下載檔案的相對路徑的基礎路徑。這可以是一個遠端 URL。
features (Features, 可選) — 用於此資料集的特徵型別。例如，它可以用於更改資料集的 Features 型別。
token (str or bool, 可選) — 用於 Datasets Hub 上遠端檔案的 Bearer token 的字串或布林值。如果為 `True`，將從 `~/.huggingface` 獲取 token。
repo_id (str, 可選) — 資料集倉庫的 ID。用於區分名稱相同但來自不同名稱空間的構建器，例如 "rajpurkar/squad" 和 "lhoestq/squad" 倉庫 ID。在後者中，構建器名稱將是 "lhoestq___squad"。
data_files (str or Sequence or Mapping, 可選) — 源資料檔案的路徑。適用於需要使用者指定資料檔案的構建器，如 "csv" 或 "json"。它們可以是本地檔案或遠端檔案。為方便起見，您可以使用 `DataFilesDict`。
data_dir (str, 可選) — 包含源資料檔案的目錄路徑。僅在未傳遞 `data_files` 時使用，在這種情況下，它等同於將 `os.path.join(data_dir, "**")` 作為 `data_files` 傳遞。對於需要手動下載的構建器，它必須是包含手動下載資料的本地目錄的路徑。
storage_options (dict, 可選) — 要傳遞給資料集檔案系統後端的鍵/值對（如果有）。
writer_batch_size (int, 可選) — ArrowWriter 使用的批次大小。它定義了在寫入前儲存在記憶體中的樣本數量，也定義了 Arrow 塊的長度。`None` 表示 ArrowWriter 將使用其預設值。
**config_kwargs (額外的關鍵字引數) — 要傳遞給相應構建器配置類的關鍵字引數，設定在類屬性 DatasetBuilder.BUILDER_CONFIG_CLASS 上。構建器配置類是 BuilderConfig 或其子類。

所有資料集的抽象基類。

DatasetBuilder 有 3 個關鍵方法

DatasetBuilder.info：記錄資料集資訊，包括特徵名稱、型別、形狀、版本、拆分、引用等。
DatasetBuilder.download_and_prepare()：下載源資料並將其寫入磁碟。
DatasetBuilder.as_dataset()：生成一個 Dataset。

一些 `DatasetBuilder` 透過定義一個 `BuilderConfig` 子類並在構造時接受一個配置物件（或名稱），來提供資料集的多個變體。可配置的資料集在 `DatasetBuilder.builder_configs()` 中提供了一組預定義的配置。

as_dataset

< 原始碼 >

( split: typing.Union[str, datasets.splits.Split, list[str], list[datasets.splits.Split], NoneType] = None run_post_process = True verification_mode: typing.Union[datasets.utils.info_utils.VerificationMode, str, NoneType] = None in_memory = False )

引數

split (datasets.Split) — 返回哪個資料子集。
run_post_process (bool, 預設為 True) — 是否執行後處理資料集轉換和/或新增索引。
verification_mode (VerificationMode 或 str，預設為 BASIC_CHECKS) — 驗證模式，確定對已下載/處理的資料集資訊（校驗和/大小/拆分/…）執行哪些檢查。

2.9.1 版本新增
in_memory (bool, 預設為 False) — 是否將資料複製到記憶體中。

返回指定拆分的資料集。

示例

>>> from datasets import load_dataset_builder
>>> builder = load_dataset_builder('cornell-movie-review-data/rotten_tomatoes')
>>> builder.download_and_prepare()
>>> ds = builder.as_dataset(split='train')
>>> ds
Dataset({
    features: ['text', 'label'],
    num_rows: 8530
})

download_and_prepare

< 原始碼 >

( output_dir: typing.Optional[str] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None verification_mode: typing.Union[datasets.utils.info_utils.VerificationMode, str, NoneType] = None dl_manager: typing.Optional[datasets.download.download_manager.DownloadManager] = None base_path: typing.Optional[str] = None file_format: str = 'arrow' max_shard_size: typing.Union[str, int, NoneType] = None num_proc: typing.Optional[int] = None storage_options: typing.Optional[dict] = None **download_and_prepare_kwargs )

引數

output_dir (str, 可選) — 資料集的輸出目錄。預設為此構建器的 `cache_dir`，該目錄預設位於 `~/.cache/huggingface/datasets` 內部。

2.5.0 版本新增
download_config (DownloadConfig, 可選) — 特定的下載配置引數。
download_mode (DownloadMode 或 str, 可選) — 選擇下載/生成模式，預設為 `REUSE_DATASET_IF_EXISTS`。
verification_mode (VerificationMode 或 str，預設為 BASIC_CHECKS) — 驗證模式，確定對已下載/處理的資料集資訊（校驗和/大小/拆分/…）執行哪些檢查。

2.9.1 版本新增
dl_manager (DownloadManager, 可選) — 要使用的特定 `DownloadManager`。
base_path (str, 可選) — 用於下載檔案的相對路徑的基礎路徑。這可以是一個遠端 URL。如果未指定，將使用 `base_path` 屬性 (`self.base_path`) 的值。
file_format (str, 可選) — 資料集將寫入的資料檔案的格式。支援的格式：“arrow”、“parquet”。預設為 “arrow” 格式。如果格式為 “parquet”，則影像和音訊資料將嵌入到 Parquet 檔案中，而不是指向本地檔案。

2.5.0 版本新增
max_shard_size (Union[str, int], 可選) — 每個分片寫入的最大位元組數，預設為 “500MB”。該大小基於未壓縮的資料大小，因此在實踐中，由於 Parquet 壓縮等原因，您的分片檔案可能會小於 `max_shard_size`。

2.5.0 版本新增
num_proc (int, 可選，預設為 None) — 在本地下載和生成資料集時的程序數。預設情況下停用多程序。

2.7.0 版本新增
storage_options (dict, 可選) — 要傳遞給快取檔案系統後端的鍵/值對（如果有）。

2.5.0 版本新增
**download_and_prepare_kwargs (附加關鍵字引數) — 關鍵字引數。

下載並準備資料集以供讀取。

示例

將資料集下載並準備為可以使用 `builder.as_dataset()` 載入為 Dataset 的 Arrow 檔案。

>>> from datasets import load_dataset_builder
>>> builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
>>> builder.download_and_prepare()

在本地將資料集下載並準備為分片的 Parquet 檔案。

>>> from datasets import load_dataset_builder
>>> builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
>>> builder.download_and_prepare("./output_dir", file_format="parquet")

將資料集下載並準備為雲端儲存中的分片 Parquet 檔案。

>>> from datasets import load_dataset_builder
>>> storage_options = {"key": aws_access_key_id, "secret": aws_secret_access_key}
>>> builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
>>> builder.download_and_prepare("s3://my-bucket/my_rotten_tomatoes", storage_options=storage_options, file_format="parquet")

get_imported_module_dir

< 原始碼 >

( )

返回此類或其子類的模組路徑。

class datasets.GeneratorBasedBuilder

< 原始碼 >

基於字典生成器進行資料生成的資料集的基類。

`GeneratorBasedBuilder` 是一個便利類，它抽象了 `DatasetBuilder` 的大部分資料寫入和讀取工作。它期望子類實現跨資料集拆分的特徵字典生成器 (`_split_generators`)。詳情請參閱方法文件字串。

class datasets.ArrowBasedBuilder

< 原始碼 >

基於 Arrow 載入函式（CSV/JSON/Parquet）進行資料生成的資料集的基類。

class datasets.BuilderConfig

< 原始碼 >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None )

引數

name (str, 預設為 `default`) — 配置的名稱。
version (Version 或 str, 預設為 `0.0.0`) — 配置的版本。
data_dir (str, 可選) — 包含源資料的目錄路徑。
data_files (str 或 Sequence 或 Mapping, 可選) — 源資料檔案的路徑。
description (str, 可選) — 對配置的人類可讀描述。

用於 `DatasetBuilder` 資料配置的基類。

具有資料配置選項的 `DatasetBuilder` 子類應繼承 `BuilderConfig` 並新增自己的屬性。

	下載	資料集
`REUSE_DATASET_IF_EXISTS` (預設)	重用	重用
`REUSE_CACHE_IF_EXISTS`	重用	新的
`FORCE_REDOWNLOAD`	新的	新的

	驗證檢查
`ALL_CHECKS`	分割檢查，在 GeneratorBuilder 情況下生成的鍵的唯一性
	以及下載檔案的有效性（檔案數量、校驗和等）
`BASIC_CHECKS` (預設)	與 `ALL_CHECKS` 相同，但不檢查下載的檔案
`NO_CHECKS`	無

資料集

構建器類

構建器

class datasets.DatasetBuilder

as_dataset

download_and_prepare

get_imported_module_dir

class datasets.GeneratorBasedBuilder

class datasets.ArrowBasedBuilder

class datasets.BuilderConfig

create_config_id

下載

class datasets.DownloadManager

download

download_and_extract

extract

iter_archive

iter_files

class datasets.StreamingDownloadManager

download

download_and_extract

extract

iter_archive

iter_files

class datasets.DownloadConfig

class datasets.DownloadMode

驗證

class datasets.VerificationMode

分割

class datasets.SplitGenerator

class datasets.Split

class datasets.NamedSplit

class datasets.NamedSplitAll

class datasets.ReadInstruction

from_spec

to_absolute

Version

class datasets.Version