Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

BORT

該模型僅處於維護模式，我們不接受任何更改其程式碼的新拉取請求。

如果在執行此模型時遇到任何問題，請重新安裝支援此模型的最後一個版本：v4.30.0。您可以透過執行以下命令進行安裝：`pip install -U transformers==4.30.0`。

概述

BORT 模型由 Adrian de Wynter 和 Daniel J. Perry 在論文 BERT 的最優子架構提取中提出。它是 BERT 架構引數的一個最優子集，作者稱之為“Bort”。

論文摘要如下：

我們透過應用神經架構搜尋演算法的最新突破，從 Devlin 等人 (2018) 的 BERT 架構中提取出一個最優的架構引數子集。這個我們稱之為“Bort”的最優子集明顯更小，其有效尺寸（即不計入嵌入層）僅為原始 BERT-large 架構的 5.5%，淨尺寸為其 16%。Bort 也能在 288 個 GPU 小時內完成預訓練，這僅為預訓練效能最佳的 BERT 引數化架構變體 RoBERTa-large (Liu et al., 2019) 所需時間的 1.2%，約為在相同硬體上訓練 BERT-large 的世界紀錄 GPU 小時數的 33%。它在 CPU 上的執行速度也快 7.9 倍，並且效能優於該架構的其他壓縮變體以及一些未壓縮的變體：在多個公開的自然語言理解（NLU）基準測試中，相較於 BERT-large，它取得了 0.3% 到 31% 的絕對效能提升。

該模型由 stefan-it 貢獻。原始程式碼可以在這裡找到。

使用技巧

BORT 的模型架構基於 BERT，請參閱 BERT 的文件頁面以獲取該模型的 API 參考和使用示例。
BORT 使用 RoBERTa 分詞器而非 BERT 分詞器，請參閱 RoBERTa 的文件頁面以獲取該分詞器的 API 參考和使用示例。
BORT 需要一個特定的微調演算法，稱為 Agora，但遺憾的是該演算法尚未開源。如果有人能嘗試實現該演算法以使 BORT 微調能夠正常工作，這對社群將非常有幫助。

< > 在 GitHub 上更新

←BLOOM ByT5→