Transformers 文件
BORT
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
BORT
該模型僅處於維護模式,我們不接受任何更改其程式碼的新拉取請求。
如果在執行此模型時遇到任何問題,請重新安裝支援此模型的最後一個版本:v4.30.0。您可以透過執行以下命令進行安裝:`pip install -U transformers==4.30.0`。
概述
BORT 模型由 Adrian de Wynter 和 Daniel J. Perry 在論文 BERT 的最優子架構提取 中提出。它是 BERT 架構引數的一個最優子集,作者稱之為“Bort”。
論文摘要如下:
我們透過應用神經架構搜尋演算法的最新突破,從 Devlin 等人 (2018) 的 BERT 架構中提取出一個最優的架構引數子集。這個我們稱之為“Bort”的最優子集明顯更小,其有效尺寸(即不計入嵌入層)僅為原始 BERT-large 架構的 5.5%,淨尺寸為其 16%。Bort 也能在 288 個 GPU 小時內完成預訓練,這僅為預訓練效能最佳的 BERT 引數化架構變體 RoBERTa-large (Liu et al., 2019) 所需時間的 1.2%,約為在相同硬體上訓練 BERT-large 的世界紀錄 GPU 小時數的 33%。它在 CPU 上的執行速度也快 7.9 倍,並且效能優於該架構的其他壓縮變體以及一些未壓縮的變體:在多個公開的自然語言理解(NLU)基準測試中,相較於 BERT-large,它取得了 0.3% 到 31% 的絕對效能提升。
該模型由 stefan-it 貢獻。原始程式碼可以在 這裡 找到。
使用技巧
- BORT 的模型架構基於 BERT,請參閱 BERT 的文件頁面 以獲取該模型的 API 參考和使用示例。
- BORT 使用 RoBERTa 分詞器而非 BERT 分詞器,請參閱 RoBERTa 的文件頁面 以獲取該分詞器的 API 參考和使用示例。
- BORT 需要一個特定的微調演算法,稱為 Agora,但遺憾的是該演算法尚未開源。如果有人能嘗試實現該演算法以使 BORT 微調能夠正常工作,這對社群將非常有幫助。