載入方法

datasets.load_dataset

( path: str name: typing.Optional[str] = None data_dir: typing.Optional[str] = None data_files: typing.Union[str, collections.abc.Sequence[str], collections.abc.Mapping[str, typing.Union[str, collections.abc.Sequence[str]]], NoneType] = None split: typing.Union[str, datasets.splits.Split, list[str], list[datasets.splits.Split], NoneType] = None cache_dir: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None verification_mode: typing.Union[datasets.utils.info_utils.VerificationMode, str, NoneType] = None keep_in_memory: typing.Optional[bool] = None save_infos: bool = False revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None streaming: bool = False num_proc: typing.Optional[int] = None storage_options: typing.Optional[dict] = None **config_kwargs ) → Dataset 或 DatasetDict

引數

path (str) — 資料集的路徑或名稱。
- 如果 path 是 HF Hub 上的資料集倉庫（使用 huggingface_hub.list_datasets 列出所有可用的資料集） -> 從倉庫中支援的檔案（csv、json、parquet 等）載入資料集，例如 'username/dataset_name'，一個包含資料檔案的 HF Hub 上的資料集倉庫。
- 如果 path 是本地目錄 -> 從目錄中支援的檔案（csv、json、parquet 等）載入資料集，例如 './path/to/directory/with/my/csv/data'。
- 如果 path 是資料集構建器的名稱，並且指定了 data_files 或 data_dir（可用的構建器有“json”、“csv”、“parquet”、“arrow”、“text”、“xml”、“webdataset”、“imagefolder”、“audiofolder”、“videofolder”） -> 從 data_files 或 data_dir 中的檔案載入資料集，例如 'parquet'。
name (str, 可選) — 定義資料集配置的名稱。
data_dir (str, 可選) — 定義資料集配置的 data_dir。如果為通用構建器（csv、text 等）或 Hub 資料集指定了此引數，且 data_files 為 None，則其行為等同於將 os.path.join(data_dir, **) 作為 data_files 傳遞，以引用目錄中的所有檔案。
data_files (str 或 Sequence 或 Mapping, 可選) — 源資料檔案的路徑。
split (Split 或 str) — 要載入的資料分割。如果為 `None`，則返回一個包含所有分割的 `dict`（通常是 `datasets.Split.TRAIN` 和 `datasets.Split.TEST`）。如果指定，則返回單個 Dataset。分割可以像 tensorflow-datasets 中那樣進行組合和指定。
cache_dir (str, 可選) — 讀/寫資料的目錄。預設為 "~/.cache/huggingface/datasets"。
features (Features, 可選) — 設定此資料集使用的特徵型別。
download_config (DownloadConfig, 可選) — 特定的下載配置引數。
download_mode (DownloadMode 或 str, 預設為 REUSE_DATASET_IF_EXISTS) — 下載/生成模式。
verification_mode (VerificationMode 或 str, 預設為 BASIC_CHECKS) — 驗證模式，用於確定對下載/處理的資料集資訊執行的檢查（校驗和/大小/分割/...）。

在 2.9.1 版本中新增
keep_in_memory (bool, 預設為 None) — 是否將資料集複製到記憶體中。如果為 None，除非透過將 datasets.config.IN_MEMORY_MAX_SIZE 設定為非零值來明確啟用，否則資料集不會被複制到記憶體中。更多詳情請參見提高效能部分。
revision (Version 或 str, 可選) — 要載入的資料集版本。由於資料集在 Datasets Hub 上有自己的 git 倉庫，預設版本“main”對應於它們的“main”分支。您可以使用資料集倉庫的提交 SHA 或 git 標籤來指定不同於預設“main”的版本。
token (str 或 bool, 可選) — 可選的字串或布林值，用作 Datasets Hub 上遠端檔案的 Bearer token。如果為 True 或未指定，將從 "~/.huggingface" 獲取 token。
streaming (bool, 預設為 False) — 如果設定為 True，則不下載資料檔案。而是在迭代資料集時逐步流式傳輸資料。在這種情況下，將返回一個 IterableDataset 或 IterableDatasetDict。

請注意，流式傳輸適用於使用支援迭代的資料格式的資料集，例如 txt、csv、jsonl。Json 檔案可能會被完全下載。還支援從遠端 zip 或 gzip 檔案進行流式傳輸，但其他壓縮格式（如 rar 和 xz）尚不支援。tgz 格式不支援流式傳輸。
num_proc (int, 可選, 預設為 None) — 在本地下載和生成資料集時的程序數。預設情況下停用多處理。

在 2.7.0 版本中新增
storage_options (dict, 可選, 預設為 None) — 實驗性。要傳遞給資料集檔案系統後端的鍵/值對（如果有）。

在 2.11.0 版本中新增
**config_kwargs (附加關鍵字引數) — 要傳遞給 BuilderConfig 並在 DatasetBuilder 中使用的關鍵字引數。

返回

Dataset 或 DatasetDict

如果 `split` 不為 `None`：請求的資料集，
如果 `split` 為 `None`，一個包含每個分割的 DatasetDict。

或 IterableDataset 或 IterableDatasetDict：如果 `streaming=True`

如果 `split` 不為 `None`，則請求該資料集
如果 `split` 為 `None`，則為一個包含每個分割的 `~datasets.streaming.IterableDatasetDict`。

從 Hugging Face Hub 或本地載入資料集。

您可以在 Hub 或使用 `huggingface_hub.list_datasets` 找到資料集列表。

資料集是一個目錄，其中包含一些通用格式（JSON、CSV、Parquet 等）的資料檔案，可能還包含通用結構（Webdataset、ImageFolder、AudioFolder、VideoFolder 等）。

此函式在後臺執行以下操作

載入一個數據集構建器
- 在資料集中找到最常見的資料格式，並選擇其關聯的構建器（JSON、CSV、Parquet、Webdataset、ImageFolder、AudioFolder 等）。
- 根據檔案和目錄名稱或 YAML 配置，確定哪個檔案進入哪個分割（例如 train/test）。
- 也可以手動指定 `data_files`，以及要使用的資料集構建器（例如 "parquet"）。
執行資料集構建器

在一般情況下
- 如果資料集的資料檔案尚未在本地或快取中可用，則下載它們。
- 處理資料集並將其快取在型別化的 Arrow 表中以進行快取。
  
  Arrow 表是任意長度、型別化的表，可以儲存巢狀物件，並可以對映到 numpy/pandas/python 通用型別。它們可以直接從磁碟訪問、載入到 RAM 中，甚至可以透過網路進行流式傳輸。
在流式傳輸的情況下
- 不下載或快取任何內容。相反，資料集是惰性載入的，並在迭代時動態流式傳輸。
返回一個根據 `split` 中請求的分割構建的資料集（預設為全部）。

示例

從 Hugging Face Hub 載入資料集

>>> from datasets import load_dataset
>>> ds = load_dataset('cornell-movie-review-data/rotten_tomatoes', split='train')

# Load a subset or dataset configuration (here 'sst2')
>>> from datasets import load_dataset
>>> ds = load_dataset('nyu-mll/glue', 'sst2', split='train')

# Manual mapping of data files to splits
>>> data_files = {'train': 'train.csv', 'test': 'test.csv'}
>>> ds = load_dataset('namespace/your_dataset_name', data_files=data_files)

# Manual selection of a directory to load
>>> ds = load_dataset('namespace/your_dataset_name', data_dir='folder_name')

載入本地資料集

# Load a CSV file
>>> from datasets import load_dataset
>>> ds = load_dataset('csv', data_files='path/to/local/my_dataset.csv')

# Load a JSON file
>>> from datasets import load_dataset
>>> ds = load_dataset('json', data_files='path/to/local/my_dataset.json')

載入一個 IterableDataset

>>> from datasets import load_dataset
>>> ds = load_dataset('cornell-movie-review-data/rotten_tomatoes', split='train', streaming=True)

使用 `ImageFolder` 資料集構建器載入影像資料集

>>> from datasets import load_dataset
>>> ds = load_dataset('imagefolder', data_dir='/path/to/images', split='train')

datasets.load_from_disk

< source >

( dataset_path: typing.Union[str, bytes, os.PathLike] keep_in_memory: typing.Optional[bool] = None storage_options: typing.Optional[dict] = None ) → Dataset 或 DatasetDict

引數

dataset_path (path-like) — Dataset 或 DatasetDict 目錄的路徑（例如 "dataset/train"）或遠端 URI（例如 "s3://my-bucket/dataset/train"），將從此處載入資料集/資料集字典。
keep_in_memory (bool, 預設為 None) — 是否將資料集複製到記憶體中。如果為 None，除非透過將 datasets.config.IN_MEMORY_MAX_SIZE 設定為非零值來明確啟用，否則資料集不會被複制到記憶體中。更多詳情請參見提高效能部分。
storage_options (dict, 可選) — 要傳遞給檔案系統後端的鍵/值對（如果有）。

在 2.9.0 版本中新增

返回

Dataset 或 DatasetDict

如果 `dataset_path` 是資料集目錄的路徑：請求的資料集。
如果 `dataset_path` 是資料集字典目錄的路徑，則為包含每個分割的 DatasetDict。

從資料集目錄或使用任何 `fsspec.spec.AbstractFileSystem` 實現的檔案系統載入先前使用 save_to_disk() 儲存的資料集。

示例

>>> from datasets import load_from_disk
>>> ds = load_from_disk('path/to/dataset/directory')

datasets.load_dataset_builder

< source >

( path: str name: typing.Optional[str] = None data_dir: typing.Optional[str] = None data_files: typing.Union[str, collections.abc.Sequence[str], collections.abc.Mapping[str, typing.Union[str, collections.abc.Sequence[str]]], NoneType] = None cache_dir: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None storage_options: typing.Optional[dict] = None **config_kwargs )

引數

path (str) — 資料集的路徑或名稱。
- 如果 path 是 HF Hub 上的資料集倉庫（使用 huggingface_hub.list_datasets 列出所有可用的資料集） -> 從倉庫中支援的檔案（csv、json、parquet 等）載入資料集構建器，例如 'username/dataset_name'，一個包含資料檔案的 HF Hub 上的資料集倉庫。
- 如果 path 是本地目錄 -> 從目錄中支援的檔案（csv、json、parquet 等）載入資料集構建器，例如 './path/to/directory/with/my/csv/data'。
- 如果 path 是資料集構建器的名稱，並且指定了 data_files 或 data_dir（可用的構建器有“json”、“csv”、“parquet”、“arrow”、“text”、“xml”、“webdataset”、“imagefolder”、“audiofolder”、“videofolder”） -> 從 data_files 或 data_dir 中的檔案載入資料集構建器，例如 'parquet'。
name (str, 可選) — 定義資料集配置的名稱。
data_dir (str, 可選) — 定義資料集配置的 data_dir。如果為通用構建器（csv、text 等）或 Hub 資料集指定了此引數，且 data_files 為 None，則其行為等同於將 os.path.join(data_dir, **) 作為 data_files 傳遞，以引用目錄中的所有檔案。
data_files (str 或 Sequence 或 Mapping, 可選) — 源資料檔案的路徑。
cache_dir (str, 可選) — 讀/寫資料的目錄。預設為 "~/.cache/huggingface/datasets"。
features (Features, 可選) — 設定此資料集使用的特徵型別。
download_config (DownloadConfig, 可選) — 特定的下載配置引數。
download_mode (DownloadMode 或 str, 預設為 REUSE_DATASET_IF_EXISTS) — 下載/生成模式。
revision (Version 或 str, 可選) — 要載入的資料集版本。由於資料集在 Datasets Hub 上有自己的 git 倉庫，預設版本“main”對應於它們的“main”分支。您可以使用資料集倉庫的提交 SHA 或 git 標籤來指定不同於預設“main”的版本。
token (str 或 bool, 可選) — 可選的字串或布林值，用作 Datasets Hub 上遠端檔案的 Bearer token。如果為 True 或未指定，將從 "~/.huggingface" 獲取 token。
storage_options (dict, 可選, 預設為 None) — 實驗性。要傳遞給資料集檔案系統後端的鍵/值對（如果有）。

在 2.11.0 版本中新增
**config_kwargs (附加關鍵字引數) — 要傳遞給 BuilderConfig 並在 DatasetBuilder 中使用的關鍵字引數。

載入一個數據集構建器，可用於

檢查構建資料集所需的一般資訊（快取目錄、配置、資料集資訊、特徵、資料檔案等）
在快取中下載並準備資料集為 Arrow 檔案
獲取一個流式資料集，無需下載或快取任何內容

您可以在 Hub 或使用 `huggingface_hub.list_datasets` 找到資料集列表。

資料集是一個目錄，其中包含一些通用格式（JSON、CSV、Parquet 等）的資料檔案，可能還包含通用結構（Webdataset、ImageFolder、AudioFolder、VideoFolder 等）。

示例

>>> from datasets import load_dataset_builder
>>> ds_builder = load_dataset_builder('cornell-movie-review-data/rotten_tomatoes')
>>> ds_builder.info.features
{'label': ClassLabel(names=['neg', 'pos']),
 'text': Value('string')}

datasets.get_dataset_config_names

< source >

( path: str revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None data_files: typing.Union[str, list, dict, NoneType] = None **download_kwargs )

引數

path (str) — 資料集倉庫的路徑。可以是：
- 包含資料檔案的本地資料集目錄路徑，例如 './dataset/squad'
- Hugging Face Hub 上的資料集識別符號（使用 huggingface_hub.list_datasets 列出所有可用的資料集和 ID），例如 'rajpurkar/squad'、'nyu-mll/glue' 或 'openai/webtext'
revision (Union[str, datasets.Version], 可選) — 如果指定，將從此版本的資料集倉庫載入資料集模組。預設情況下：
- 它被設定為庫的本地版本。
- 如果庫的本地版本不可用，它也會嘗試從 main 分支載入。指定與本地庫版本不同的版本可能會導致相容性問題。
download_config (DownloadConfig, 可選) — 特定的下載配置引數。
download_mode (DownloadMode or str, 預設為 REUSE_DATASET_IF_EXISTS) — 下載/生成模式。
data_files (Union[Dict, List, str], 可選) — 定義資料集配置的 data_files。
**download_kwargs (額外的關鍵字引數) — DownloadConfig 的可選屬性，如果提供，將覆蓋 download_config 中的屬性，例如 token。

獲取特定資料集的可用配置名稱列表。

示例

>>> from datasets import get_dataset_config_names
>>> get_dataset_config_names("nyu-mll/glue")
['cola',
 'sst2',
 'mrpc',
 'qqp',
 'stsb',
 'mnli',
 'mnli_mismatched',
 'mnli_matched',
 'qnli',
 'rte',
 'wnli',
 'ax']

datasets.get_dataset_infos

< source >

( path: str data_files: typing.Union[str, list, dict, NoneType] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None **config_kwargs )

引數

path (str) — 資料集倉庫的路徑。可以是：
- 包含資料檔案的本地資料集目錄路徑，例如 './dataset/squad'
- Hugging Face Hub 上的資料集識別符號（使用 huggingface_hub.list_datasets 列出所有可用的資料集和 ID），例如 'rajpurkar/squad'、'nyu-mll/glue' 或 'openai/webtext'
revision (Union[str, datasets.Version], 可選) — 如果指定，將從此版本的資料集倉庫載入資料集模組。預設情況下：
- 它被設定為庫的本地版本。
- 如果庫的本地版本不可用，它也會嘗試從 main 分支載入。指定與本地庫版本不同的版本可能會導致相容性問題。
download_config (DownloadConfig, 可選) — 特定的下載配置引數。
download_mode (DownloadMode or str, 預設為 REUSE_DATASET_IF_EXISTS) — 下載/生成模式。
data_files (Union[Dict, List, str], 可選) — 定義資料集配置的 data_files。
token (str 或 bool, 可選) — 可選的字串或布林值，用作 Datasets Hub 上遠端檔案的 Bearer token。如果為 True 或未指定，將從 "~/.huggingface" 獲取 token。
**config_kwargs (額外的關鍵字引數) — builder 類的可選屬性，如果提供，將覆蓋其屬性。

獲取有關資料集的元資訊，返回一個將配置名稱對映到 DatasetInfoDict 的字典。

示例

>>> from datasets import get_dataset_infos
>>> get_dataset_infos('cornell-movie-review-data/rotten_tomatoes')
{'default': DatasetInfo(description="Movie Review Dataset.
 is a dataset of containing 5,331 positive and 5,331 negative processed
ences from Rotten Tomatoes movie reviews...), ...}

datasets.get_dataset_split_names

< source >

( path: str config_name: typing.Optional[str] = None data_files: typing.Union[str, collections.abc.Sequence[str], collections.abc.Mapping[str, typing.Union[str, collections.abc.Sequence[str]]], NoneType] = None download_config: typing.Optional[datasets.download.download_config.DownloadConfig] = None download_mode: typing.Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None revision: typing.Union[str, datasets.utils.version.Version, NoneType] = None token: typing.Union[bool, str, NoneType] = None **config_kwargs )

引數

path (str) — 資料集倉庫的路徑。可以是：
- 包含資料檔案的本地資料集目錄路徑，例如 './dataset/squad'
- Hugging Face Hub 上的資料集識別符號（使用 huggingface_hub.list_datasets 列出所有可用的資料集和 ID），例如 'rajpurkar/squad'、'nyu-mll/glue' 或 'openai/webtext'
config_name (str, 可選) — 定義資料集配置的名稱。
data_files (str 或 Sequence 或 Mapping, 可選) — 源資料檔案的路徑。
download_config (DownloadConfig, 可選) — 特定的下載配置引數。
download_mode (DownloadMode or str, 預設為 REUSE_DATASET_IF_EXISTS) — 下載/生成模式。
revision (Version or str, 可選) — 要載入的資料集版本。由於資料集在 Datasets Hub 上有自己的 git 倉庫，預設版本“main”對應於它們的“main”分支。您可以使用資料集倉庫的 commit SHA 或 git 標籤來指定不同於預設“main”的版本。
token (str 或 bool, 可選) — 可選的字串或布林值，用作 Datasets Hub 上遠端檔案的 Bearer token。如果為 True 或未指定，將從 "~/.huggingface" 獲取 token。
**config_kwargs (額外的關鍵字引數) — builder 類的可選屬性，如果提供，將覆蓋其屬性。

獲取特定配置和資料集的可用拆分列表。

示例

>>> from datasets import get_dataset_split_names
>>> get_dataset_split_names('cornell-movie-review-data/rotten_tomatoes')
['train', 'validation', 'test']

class datasets.packaged_modules.text.TextConfig

< source >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None encoding: str = 'utf-8' encoding_errors: typing.Optional[str] = None chunksize: int = 10485760 keep_linebreaks: bool = False sample_by: str = 'line' )

用於文字檔案的 BuilderConfig。

class datasets.packaged_modules.text.Text

< source >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.csv.CsvConfig

< source >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None sep: str = ',' delimiter: typing.Optional[str] = None header: typing.Union[int, list[int], str, NoneType] = 'infer' names: typing.Optional[list[str]] = None column_names: typing.Optional[list[str]] = None index_col: typing.Union[int, str, list[int], list[str], NoneType] = None usecols: typing.Union[list[int], list[str], NoneType] = None prefix: typing.Optional[str] = None mangle_dupe_cols: bool = True engine: typing.Optional[typing.Literal['c', 'python', 'pyarrow']] = None converters: dict = None true_values: typing.Optional[list] = None false_values: typing.Optional[list] = None skipinitialspace: bool = False skiprows: typing.Union[int, list[int], NoneType] = None nrows: typing.Optional[int] = None na_values: typing.Union[str, list[str], NoneType] = None keep_default_na: bool = True na_filter: bool = True verbose: bool = False skip_blank_lines: bool = True thousands: typing.Optional[str] = None decimal: str = '.' lineterminator: typing.Optional[str] = None quotechar: str = '"' quoting: int = 0 escapechar: typing.Optional[str] = None comment: typing.Optional[str] = None encoding: typing.Optional[str] = None dialect: typing.Optional[str] = None error_bad_lines: bool = True warn_bad_lines: bool = True skipfooter: int = 0 doublequote: bool = True memory_map: bool = False float_precision: typing.Optional[str] = None chunksize: int = 10000 features: typing.Optional[datasets.features.features.Features] = None encoding_errors: typing.Optional[str] = 'strict' on_bad_lines: typing.Literal['error', 'warn', 'skip'] = 'error' date_format: typing.Optional[str] = None )

用於 CSV 的 BuilderConfig。

class datasets.packaged_modules.csv.Csv

< source >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.json.JsonConfig

< source >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None encoding: str = 'utf-8' encoding_errors: typing.Optional[str] = None field: typing.Optional[str] = None use_threads: bool = True block_size: typing.Optional[int] = None chunksize: int = 10485760 newlines_in_values: typing.Optional[bool] = None )

用於 JSON 的 BuilderConfig。

class datasets.packaged_modules.json.Json

< source >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.xml.XmlConfig

< source >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None encoding: str = 'utf-8' encoding_errors: typing.Optional[str] = None )

用於 xml 檔案的 BuilderConfig。

class datasets.packaged_modules.xml.Xml

< source >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.parquet.ParquetConfig

< source >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None batch_size: typing.Optional[int] = None columns: typing.Optional[list[str]] = None features: typing.Optional[datasets.features.features.Features] = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )

用於 Parquet 的 BuilderConfig。

class datasets.packaged_modules.parquet.Parquet

< source >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.arrow.ArrowConfig

< source >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None )

Arrow的BuilderConfig。

class datasets.packaged_modules.arrow.Arrow

< 源 >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.sql.SqlConfig

< 源 >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None sql: typing.Union[str, ForwardRef('sqlalchemy.sql.Selectable')] = None con: typing.Union[str, ForwardRef('sqlalchemy.engine.Connection'), ForwardRef('sqlalchemy.engine.Engine'), ForwardRef('sqlite3.Connection')] = None index_col: typing.Union[str, list[str], NoneType] = None coerce_float: bool = True params: typing.Union[list, tuple, dict, NoneType] = None parse_dates: typing.Union[list, dict, NoneType] = None columns: typing.Optional[list[str]] = None chunksize: typing.Optional[int] = 10000 features: typing.Optional[datasets.features.features.Features] = None )

SQL的BuilderConfig。

class datasets.packaged_modules.sql.Sql

< 源 >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.imagefolder.ImageFolderConfig

< 源 >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None metadata_filenames: list = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )

ImageFolder的BuilderConfig。

class datasets.packaged_modules.imagefolder.ImageFolder

< 源 >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.audiofolder.AudioFolderConfig

< 源 >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None metadata_filenames: list = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )

AudioFolder的Builder Config。

class datasets.packaged_modules.audiofolder.AudioFolder

< 源 >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.videofolder.VideoFolderConfig

< 源 >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None metadata_filenames: list = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )

ImageFolder的BuilderConfig。

class datasets.packaged_modules.videofolder.VideoFolder

< 源 >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.pdffolder.PdfFolderConfig

< 源 >

( name: str = 'default' version: typing.Union[str, datasets.utils.version.Version, NoneType] = 0.0.0 data_dir: typing.Optional[str] = None data_files: typing.Union[datasets.data_files.DataFilesDict, datasets.data_files.DataFilesPatternsDict, NoneType] = None description: typing.Optional[str] = None features: typing.Optional[datasets.features.features.Features] = None drop_labels: bool = None drop_metadata: bool = None metadata_filenames: list = None filters: typing.Union[pyarrow._compute.Expression, list[tuple], list[list[tuple]], NoneType] = None )

ImageFolder的BuilderConfig。

class datasets.packaged_modules.pdffolder.PdfFolder

< 源 >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

class datasets.packaged_modules.webdataset.WebDataset

< 源 >

( cache_dir: typing.Optional[str] = None dataset_name: typing.Optional[str] = None config_name: typing.Optional[str] = None hash: typing.Optional[str] = None base_path: typing.Optional[str] = None info: typing.Optional[datasets.info.DatasetInfo] = None features: typing.Optional[datasets.features.features.Features] = None token: typing.Union[bool, str, NoneType] = None repo_id: typing.Optional[str] = None data_files: typing.Union[str, list, dict, datasets.data_files.DataFilesDict, NoneType] = None data_dir: typing.Optional[str] = None storage_options: typing.Optional[dict] = None writer_batch_size: typing.Optional[int] = None **config_kwargs )

資料集

Datasets

datasets.load_dataset

datasets.load_from_disk

datasets.load_dataset_builder

datasets.get_dataset_config_names

datasets.get_dataset_infos

datasets.get_dataset_split_names

從檔案

文字

class datasets.packaged_modules.text.TextConfig

class datasets.packaged_modules.text.Text

CSV

class datasets.packaged_modules.csv.CsvConfig

class datasets.packaged_modules.csv.Csv

JSON

class datasets.packaged_modules.json.JsonConfig

class datasets.packaged_modules.json.Json

XML

class datasets.packaged_modules.xml.XmlConfig

class datasets.packaged_modules.xml.Xml

Parquet

class datasets.packaged_modules.parquet.ParquetConfig

class datasets.packaged_modules.parquet.Parquet

Arrow

class datasets.packaged_modules.arrow.ArrowConfig

class datasets.packaged_modules.arrow.Arrow

SQL

class datasets.packaged_modules.sql.SqlConfig

class datasets.packaged_modules.sql.Sql

影像

class datasets.packaged_modules.imagefolder.ImageFolderConfig

class datasets.packaged_modules.imagefolder.ImageFolder

音訊

class datasets.packaged_modules.audiofolder.AudioFolderConfig

class datasets.packaged_modules.audiofolder.AudioFolder

影片

class datasets.packaged_modules.videofolder.VideoFolderConfig

class datasets.packaged_modules.videofolder.VideoFolder

Pdf

class datasets.packaged_modules.pdffolder.PdfFolderConfig

class datasets.packaged_modules.pdffolder.PdfFolder

WebDataset

class datasets.packaged_modules.webdataset.WebDataset