Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

PhoBERT

概述

PhoBERT 模型由 Dat Quoc Nguyen 和 Anh Tuan Nguyen 在論文 PhoBERT: 越南語預訓練語言模型中提出。

論文摘要如下：

我們推出了 PhoBERT 的兩個版本：PhoBERT-base 和 PhoBERT-large，它們是首批針對越南語預訓練的大規模單語語言模型。實驗結果表明，PhoBERT 在多項越南語 NLP 任務（包括詞性標註、依存句法分析、命名實體識別和自然語言推理）中始終優於最新的最佳預訓練多語言模型 XLM-R (Conneau et al., 2020)，並提升了這些任務的最新技術水平。

此模型由 dqnguyen 貢獻。原始程式碼可以在此處找到。

使用示例

>>> import torch
>>> from transformers import AutoModel, AutoTokenizer

>>> phobert = AutoModel.from_pretrained("vinai/phobert-base")
>>> tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base")

>>> # INPUT TEXT MUST BE ALREADY WORD-SEGMENTED!
>>> line = "Tôi là sinh_viên trường đại_học Công_nghệ ."

>>> input_ids = torch.tensor([tokenizer.encode(line)])

>>> with torch.no_grad():
...     features = phobert(input_ids)  # Models outputs are now tuples

>>> # With TensorFlow 2.0+:
>>> # from transformers import TFAutoModel
>>> # phobert = TFAutoModel.from_pretrained("vinai/phobert-base")

除了分詞之外，PhoBERT 的實現與 BERT 相同。有關配置類及其引數的資訊，請參閱 BERT 文件。PhoBERT 特定的分詞器將在下面進行說明。

Phobert分詞器

類 transformers.PhobertTokenizer

< 來源 >

( 詞彙檔案合併檔案起始標記 = '<s>' 結束標記 = '</s>' 分隔標記 = '</s>' 分類標記 = '<s>' 未知標記 = '<unk>' 填充標記 = '<pad>' 掩碼標記 = '<mask>' **kwargs )

引數

vocab_file (str) — 詞彙檔案路徑。
merges_file (str) — 合併檔案路徑。
bos_token (st, 可選, 預設為 "<s>") — 預訓練期間使用的序列開始標記。可用作序列分類器標記。

使用特殊標記構建序列時，這不是用於序列開頭的標記。使用的標記是 cls_token。
eos_token (str, 可選, 預設為 "</s>") — 序列結束標記。

使用特殊標記構建序列時，這不是用於序列結尾的標記。使用的標記是 sep_token。
sep_token (str, 可選, 預設為 "</s>") — 分隔標記，用於從多個序列構建序列時，例如用於序列分類的兩個序列或用於問答的文字和問題。它也用作使用特殊標記構建的序列的最後一個標記。
cls_token (str, 可選, 預設為 "<s>") — 分類器標記，用於序列分類（整個序列的分類而不是按標記分類）。使用特殊標記構建時，它是序列的第一個標記。
unk_token (str, 可選, 預設為 "<unk>") — 未知標記。不在詞彙表中的標記不能轉換為 ID，而是設定為此標記。
pad_token (str, 可選, 預設為 "<pad>") — 用於填充的標記，例如在批處理不同長度的序列時。
mask_token (str, 可選, 預設為 "<mask>") — 用於掩蓋值的標記。這是使用掩碼語言建模訓練此模型時使用的標記。這是模型將嘗試預測的標記。