Transformers 文件

ESM

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

ESM

概述

本頁面提供了來自 Meta AI 基礎人工智慧研究團隊的 Transformer 蛋白質語言模型的程式碼和預訓練權重，提供了最先進的 ESMFold 和 ESM-2，以及之前釋出的 ESM-1b 和 ESM-1v。Transformer 蛋白質語言模型是在 Alexander Rives、Joshua Meier、Tom Sercu、Siddharth Goyal、Zeming Lin、Jason Liu、Demi Guo、Myle Ott、C. Lawrence Zitnick、Jerry Ma 和 Rob Fergus 的論文 Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 中介紹的。該論文的第一個版本於 2019 年預印。

ESM-2 在一系列結構預測任務中優於所有已測試的單序列蛋白質語言模型，並實現了原子級解析度的結構預測。它與 Zeming Lin、Halil Akin、Roshan Rao、Brian Hie、Zhongkai Zhu、Wenting Lu、Allan dos Santos Costa、Maryam Fazel-Zarandi、Tom Sercu、Sal Candido 和 Alexander Rives 的論文 Language models of protein sequences at the scale of evolution enable accurate structure prediction 一同釋出。

這篇論文還介紹了 ESMFold。它使用一個 ESM-2 主幹和一個頭部，可以預測具有最先進精度的摺疊蛋白質結構。與 AlphaFold2 不同，它依賴於大型預訓練蛋白質語言模型主幹的詞元嵌入，並且在推理時不執行多序列比對（MSA）步驟，這意味著 ESMFold 檢查點是完全“獨立”的——它們不需要已知蛋白質序列和結構的資料庫以及相關的外部查詢工具來進行預測，因此速度要快得多。

“Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences” 一文的摘要如下：

在人工智慧領域，由無監督學習實現的資料規模和模型容量的結合，在表示學習和統計生成方面取得了重大進展。在生命科學領域，測序的預期增長有望提供關於自然序列多樣性的前所未有資料。演化規模的蛋白質語言模型是實現生物學預測性和生成性人工智慧的合乎邏輯的一步。為此，我們使用無監督學習，在跨越演化多樣性的 2.5 億個蛋白質序列的 860 億個氨基酸上訓練一個深度上下文語言模型。最終模型在其表示中包含了關於生物學特性的資訊。這些表示僅從序列資料中學習。學習到的表示空間具有多尺度組織，反映了從氨基酸生化特性到蛋白質遠緣同源性水平的結構。關於二級和三級結構的資訊被編碼在表示中，並可以透過線性投影來識別。表示學習產生了可在多種應用中泛化的特徵，從而實現了突變效應和二級結構的最先進監督預測，並改進了用於遠距離接觸預測的最先進特徵。

“Language models of protein sequences at the scale of evolution enable accurate structure prediction” 一文的摘要如下：

最近，大型語言模型已被證明隨著規模的擴大而發展出湧現能力，超越了簡單的模式匹配，可以執行更高層次的推理並生成逼真的影像和文字。雖然在較小規模上對蛋白質序列訓練的語言模型進行了研究，但隨著它們規模的擴大，它們對生物學的瞭解仍然知之甚少。在這項工作中，我們訓練了高達 150 億引數的模型，這是迄今為止評估過的最大的蛋白質語言模型。我們發現，隨著模型規模的擴大，它們會學習到能夠以單個原子解析度預測蛋白質三維結構的資訊。我們提出了 ESMFold，用於直接從蛋白質的單個序列進行高精度的端到端原子級結構預測。對於語言模型能夠很好理解的低困惑度序列，ESMFold 的準確性與 AlphaFold2 和 RoseTTAFold 相似。ESMFold 的推理速度比 AlphaFold2 快一個數量級，使得在實際時間尺度內探索宏基因組蛋白質的結構空間成為可能。

原始程式碼可以在這裡找到，由 Meta AI 的基礎人工智慧研究團隊開發。ESM-1b、ESM-1v 和 ESM-2 由 jasonliu 和 Matt 貢獻給 huggingface。

ESMFold 由 Matt 和 Sylvain 貢獻給 huggingface，非常感謝 Nikita Smetanin、Roshan Rao 和 Tom Sercu 在整個過程中的幫助！

使用技巧

ESM 模型使用掩碼語言模型（MLM）目標進行訓練。
HuggingFace 移植的 ESMFold 使用了 openfold 庫的部分程式碼。`openfold` 庫採用 Apache License 2.0 許可。

資源

EsmConfig

class transformers.EsmConfig

< 來源 >

( vocab_size = None mask_token_id = None pad_token_id = None hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 1026 initializer_range = 0.02 layer_norm_eps = 1e-12 position_embedding_type = 'absolute' use_cache = True emb_layer_norm_before = None token_dropout = False is_folding_model = False esmfold_config = None vocab_list = None **kwargs )

引數

vocab_size (int, 可選) — ESM 模型的詞彙表大小。定義了在呼叫 ESMModel 時，`inputs_ids` 可以表示的不同詞元的數量。
mask_token_id (int, 可選) — 詞彙表中掩碼詞元的索引。此項必須包含在配置中，因為“掩碼-丟棄”縮放技巧會根據掩碼詞元的數量來縮放輸入。
pad_token_id (int, 可選) — 詞彙表中填充詞元的索引。此項必須包含在配置中，因為 ESM 程式碼的某些部分使用它而不是注意力掩碼。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”層（通常稱為前饋層）的維度。
hidden_dropout_prob (float, 可選, 預設為 0.1) — 嵌入層、編碼器和池化層中所有全連線層的丟棄機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.1) — 注意力機率的丟棄率。
max_position_embeddings (int, 可選, 預設為 1026) — 此模型可能使用的最大序列長度。通常將其設定為一個較大的值以備不時之需（例如 512、1024 或 2048）。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon 值。
position_embedding_type (str, 可選, 預設為 "absolute") — 位置嵌入的型別。選擇 `“absolute”`、`“relative_key”`、`“relative_key_query”`、`“rotary”` 之一。對於位置嵌入，使用 `“absolute”`。有關 `“relative_key”` 的更多資訊，請參閱 Self-Attention with Relative Position Representations (Shaw et al.)。有關 `“relative_key_query”` 的更多資訊，請參閱 Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的_方法 4_。
is_decoder (bool, 可選, 預設為 False) — 模型是否用作解碼器。如果為 False，則模型用作編碼器。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後的鍵/值注意力（並非所有模型都使用）。僅當 `config.is_decoder=True` 時相關。
emb_layer_norm_before (bool, 可選) — 是否在嵌入層之後、網路主幹之前應用層歸一化。
token_dropout (bool, 預設為 False) — 啟用時，被掩碼的詞元將被視為被輸入丟棄。

這是用於儲存 ESMModel 配置的配置類。它用於根據指定的引數例項化一個 ESM 模型，定義模型架構。使用預設值例項化配置將產生與 ESM facebook/esm-1b 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import EsmModel, EsmConfig

>>> # Initializing a ESM facebook/esm-1b style configuration
>>> configuration = EsmConfig(vocab_size=33)

>>> # Initializing a model from the configuration
>>> model = EsmModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

to_dict

< 來源 >

( ) → dict[str, any]

dict[str, any]

所有構成此配置例項的屬性的字典，

將此例項序列化為 Python 字典。覆蓋預設的 to_dict()。

EsmTokenizer

class transformers.EsmTokenizer

< 來源 >

( vocab_file unk_token = '<unk>' cls_token = '<cls>' pad_token = '<pad>' mask_token = '<mask>' eos_token = '<eos>' **kwargs )

構建一個 ESM tokenizer。

Transformers

ESM

概述

使用技巧

資源

EsmConfig

class transformers.EsmConfig

to_dict

EsmTokenizer

class transformers.EsmTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

EsmModel

class transformers.EsmModel

forward

EsmForMaskedLM

class transformers.EsmForMaskedLM

forward

EsmForSequenceClassification

class transformers.EsmForSequenceClassification

forward

EsmForTokenClassification

class transformers.EsmForTokenClassification

forward

EsmForProteinFolding

class transformers.EsmForProteinFolding

forward

TFEsmModel

class transformers.TFEsmModel

呼叫

TFEsmForMaskedLM

class transformers.TFEsmForMaskedLM

呼叫

TFEsmForSequenceClassification

class transformers.TFEsmForSequenceClassification

呼叫

TFEsmForTokenClassification

class transformers.TFEsmForTokenClassification

呼叫