Transformers 文件

Blenderbot Small

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

Blenderbot Small

請注意，BlenderbotSmallModel 和 BlenderbotSmallForConditionalGeneration 僅與檢查點 facebook/blenderbot-90M 結合使用。較大的 Blenderbot 檢查點應改用 BlenderbotModel 和 BlenderbotForConditionalGeneration。

概述

Blender 聊天機器人模型由 Stephen Roller、Emily Dinan、Naman Goyal、Da Ju、Mary Williamson、Yinhan Liu、Jing Xu、Myle Ott、Kurt Shuster、Eric M. Smith、Y-Lan Boureau、Jason Weston 於 2020 年 4 月 30 日在論文《構建開放域聊天機器人的秘訣》中提出。

論文摘要如下：

構建開放域聊天機器人是機器學習研究領域中一個具有挑戰性的方向。雖然先前的工作表明，擴大神經網路模型的引數數量和訓練資料規模可以改善結果，但我們發現其他因素對於高效能聊天機器人同樣重要。良好的對話需要專家級對話者無縫融合多項技能：提供引人入勝的談話要點並傾聽夥伴的意見，適當地展示知識、同理心和個性，同時保持一致的形象。我們證明，當給予適當的訓練資料和選擇合適的生成策略時，大規模模型可以學習這些技能。我們基於這些秘訣構建了引數量分別為 90M、2.7B 和 9.4B 的模型變體，並公開了我們的模型和程式碼。人類評估表明，在多輪對話中，我們的最佳模型在吸引力和人性化方面優於現有方法。然後，我們透過分析模型的失敗案例來討論這項工作的侷限性。

該模型由 patrickvonplaten 貢獻。作者的程式碼可以在這裡找到。

使用技巧

Blenderbot Small 是一個使用絕對位置嵌入的模型，因此通常建議在輸入的右側而不是左側進行填充。

資源

BlenderbotSmallConfig

class transformers.BlenderbotSmallConfig

< 源 >

( vocab_size = 50265 max_position_embeddings = 512 encoder_layers = 8 encoder_ffn_dim = 2048 encoder_attention_heads = 16 decoder_layers = 8 decoder_ffn_dim = 2048 decoder_attention_heads = 16 encoder_layerdrop = 0.0 decoder_layerdrop = 0.0 use_cache = True is_encoder_decoder = True activation_function = 'gelu' d_model = 512 dropout = 0.1 attention_dropout = 0.0 activation_dropout = 0.0 init_std = 0.02 decoder_start_token_id = 1 scale_embedding = False pad_token_id = 0 bos_token_id = 1 eos_token_id = 2 forced_eos_token_id = 2 **kwargs )

引數

vocab_size (int, 可選, 預設為 50265) — BlenderbotSmall 模型的詞彙表大小。定義了在呼叫 BlenderbotSmallModel 或 TFBlenderbotSmallModel 時，可以透過 inputs_ids 表示的不同標記的數量。
d_model (int, 可選, 預設為 512) — 層和池化層的維度。
encoder_layers (int, 可選, 預設為 8) — 編碼器的層數。
decoder_layers (int, 可選, 預設為 8) — 解碼器的層數。
encoder_attention_heads (int, 可選, 預設為 16) — Transformer 編碼器中每個注意力層的注意力頭數量。
decoder_attention_heads (int, 可選, 預設為 16) — Transformer 解碼器中每個注意力層的注意力頭數量。
decoder_ffn_dim (int, 可選, 預設為 2048) — 解碼器中“中間”層（通常稱為前饋層）的維度。
encoder_ffn_dim (int, 可選, 預設為 2048) — 編碼器中“中間”層（通常稱為前饋層）的維度。
activation_function (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果為字串，支援 "gelu"、"relu"、"silu" 和 "gelu_new"。
dropout (float, 可選, 預設為 0.1) — 嵌入、編碼器和池化器中所有全連線層的丟棄機率。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的丟棄率。
activation_dropout (float, 可選, 預設為 0.0) — 全連線層內部啟用函式的丟棄率。
max_position_embeddings (int, 可選, 預設為 512) — 此模型可能使用的最大序列長度。通常將其設定為一個較大的值以備不時之需（例如，512、1024 或 2048）。
init_std (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
encoder_layerdrop (float, 可選, 預設為 0.0) — 編碼器的 LayerDrop 機率。有關更多詳細資訊，請參閱 [LayerDrop 論文](參見 https://huggingface.co/papers/1909.11556)。
decoder_layerdrop (float, 可選, 預設為 0.0) — 解碼器的 LayerDrop 機率。有關更多詳細資訊，請參閱 [LayerDrop 論文](參見 https://huggingface.co/papers/1909.11556)。
scale_embedding (bool, 可選, 預設為 False) — 透過除以 sqrt(d_model) 來縮放嵌入。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。
forced_eos_token_id (int, 可選, 預設為 2) — 當達到 max_length 時，強制作為最後生成標記的 ID。通常設定為 eos_token_id。

這是一個用於儲存 BlenderbotSmallModel 配置的配置類。它用於根據指定的引數例項化一個 BlenderbotSmall 模型，定義模型架構。使用預設值例項化配置將產生與 BlenderbotSmall facebook/blenderbot_small-90M 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import BlenderbotSmallConfig, BlenderbotSmallModel

>>> # Initializing a BlenderbotSmall facebook/blenderbot_small-90M style configuration
>>> configuration = BlenderbotSmallConfig()

>>> # Initializing a model (with random weights) from the facebook/blenderbot_small-90M style configuration
>>> model = BlenderbotSmallModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

BlenderbotSmallTokenizer

class transformers.BlenderbotSmallTokenizer

< 源 >

( vocab_file merges_file bos_token = '__start__' eos_token = '__end__' unk_token = '__unk__' pad_token = '__null__' **kwargs )

引數

vocab_file (str) — 包含詞彙表的檔案。
merges_file (str) — 合併檔案的路徑。
bos_token (str, 可選, 預設為 "__start__") — 句子開始標記。
eos_token (str, 可選, 預設為 "__end__") — 句子結束標記。
unk_token (str, 可選, 預設為 "__unk__") — 未知詞元（token）。詞彙表中不存在的詞元無法轉換為 ID，將被設定為此詞元。
pad_token (str, 可選, 預設為 "__null__") — 用於填充的詞元，例如在批處理不同長度的序列時使用。
kwargs (可選) — 傳遞給 PreTrainedTokenizer 的其他關鍵字引數。

構建一個基於 BPE (Byte-Pair-Encoding) 的 Blenderbot-90M 分詞器。

該分詞器繼承自 PreTrainedTokenizer，其中包含了大部分主要方法。使用者應參考父類以獲取有關方法的更多資訊。

Transformers

Blenderbot Small

概述

使用技巧

資源

BlenderbotSmallConfig

class transformers.BlenderbotSmallConfig

BlenderbotSmallTokenizer

class transformers.BlenderbotSmallTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

BlenderbotSmallTokenizerFast

class transformers.BlenderbotSmallTokenizerFast

create_token_type_ids_from_sequences

BlenderbotSmallModel

class transformers.BlenderbotSmallModel

forward

BlenderbotSmallForConditionalGeneration

class transformers.BlenderbotSmallForConditionalGeneration

forward

BlenderbotSmallForCausalLM

class transformers.BlenderbotSmallForCausalLM

forward

TFBlenderbotSmallModel

class transformers.TFBlenderbotSmallModel

呼叫

TFBlenderbotSmallForConditionalGeneration

class transformers.TFBlenderbotSmallForConditionalGeneration

呼叫

FlaxBlenderbotSmallModel

class transformers.FlaxBlenderbotSmallModel

__call__

編碼

decode

FlaxBlenderbotForConditionalGeneration

class transformers.FlaxBlenderbotSmallForConditionalGeneration

__call__

編碼

decode

call

call