使用 ONNX Runtime 加速超過 130,000 個 Hugging Face 模型
釋出於 2023 年 10 月 4 日
在 GitHub 上更新什麼是 ONNX Runtime?
ONNX Runtime 是一個跨平臺的機器學習工具,可用於加速各種模型,特別是那些支援 ONNX 的模型。
Hugging Face 對 ONNX Runtime 的支援
Hugging Face 上有超過 130,000 個支援 ONNX 的模型。Hugging Face 是一個開源社群,使用者可以在其中構建、訓練和部署數十萬個公開可用的機器學習模型。這些支援 ONNX 的模型,包括許多日益流行的大語言模型 (LLM) 和雲模型,可以利用 ONNX Runtime 來提高效能並獲得其他好處。例如,使用 ONNX Runtime 加速 whisper-tiny 模型可以將每次推理的平均延遲提高高達 74.30%(相比 PyTorch)。ONNX Runtime 與 Hugging Face 緊密合作,以確保網站上最受歡迎的模型得到支援。總共有超過 90 種 Hugging Face 模型架構受到 ONNX Runtime 的支援,其中包括 11 種最受歡迎的架構(受歡迎程度由上傳到 Hugging Face Hub 的相應模型數量決定)。
模型架構 | 模型大致數量 |
---|---|
BERT | 28180 |
GPT2 | 14060 |
DistilBERT | 11540 |
RoBERTa | 10800 |
T5 | 10450 |
Wav2Vec2 | 6560 |
Stable-Diffusion | 5880 |
XLM-RoBERTa | 5100 |
Whisper | 4400 |
BART | 3590 |
Marian | 2840 |
瞭解更多
要了解有關使用 ONNX Runtime 加速 Hugging Face 模型的更多資訊,請檢視我們最近在 Microsoft 開源部落格上的文章。