Transformers.js 文件
Transformers.js
並獲得增強的文件體驗
開始使用
Transformers.js
Web 上的最先進機器學習
無需伺服器即可直接在瀏覽器中執行 🤗 Transformers!
Transformers.js 在功能上旨在與 Hugging Face 的 transformers Python 庫等效,這意味著您可以使用非常相似的 API 執行相同的預訓練模型。這些模型支援不同模態中的常見任務,例如
- 📝 自然語言處理:文字分類、命名實體識別、問答、語言建模、摘要、翻譯、多項選擇和文字生成。
- 🖼️ 計算機視覺:影像分類、目標檢測、分割和深度估計。
- 🗣️ 音訊:自動語音識別、音訊分類和文字轉語音。
- 🐙 多模態:嵌入、零樣本音訊分類、零樣本影像分類和零樣本目標檢測。
Transformers.js 使用 ONNX Runtime 在瀏覽器中執行模型。最棒的是,您可以使用 🤗 Optimum 輕鬆將預訓練的 PyTorch、TensorFlow 或 JAX 模型轉換為 ONNX。
有關更多資訊,請檢視完整的文件。
快速導覽
從現有程式碼進行轉換非常簡單!就像 Python 庫一樣,我們支援 pipeline
API。管道將預訓練模型與輸入預處理和輸出後處理相結合,使其成為使用該庫執行模型最簡單的方法。
Python(原始) | JavaScript(我們的) |
---|---|
from transformers import pipeline
# Allocate a pipeline for sentiment-analysis
pipe = pipeline('sentiment-analysis')
out = pipe('I love transformers!')
# [{'label': 'POSITIVE', 'score': 0.999806941}] | import { pipeline } from '@huggingface/transformers';
// Allocate a pipeline for sentiment-analysis
const pipe = await pipeline('sentiment-analysis');
const out = await pipe('I love transformers!');
// [{'label': 'POSITIVE', 'score': 0.999817686}] |
您還可以透過將模型 ID 或路徑作為第二個引數傳遞給 pipeline
函式來使用不同的模型。例如:
// Use a different model for sentiment-analysis
const pipe = await pipeline('sentiment-analysis', 'Xenova/bert-base-multilingual-uncased-sentiment');
預設情況下,在瀏覽器中執行時,模型將在您的 CPU(透過 WASM)上執行。如果您想在 GPU(透過 WebGPU)上執行模型,可以透過設定 device: 'webgpu'
來實現,例如:
// Run the model on WebGPU
const pipe = await pipeline('sentiment-analysis', 'Xenova/distilbert-base-uncased-finetuned-sst-2-english', {
device: 'webgpu',
});
欲瞭解更多資訊,請查閱 WebGPU 指南。
WebGPU API 在許多瀏覽器中仍處於實驗階段,因此如果您遇到任何問題,請提交錯誤報告。
在資源受限的環境中,例如 Web 瀏覽器,建議使用模型的量化版本以降低頻寬並最佳化效能。這可以透過調整 dtype
選項來實現,該選項允許您為模型選擇適當的資料型別。雖然可用選項可能因特定模型而異,但典型選擇包括 "fp32"
(WebGPU 預設)、"fp16"
、"q8"
(WASM 預設)和 "q4"
。有關更多資訊,請檢視量化指南。
// Run the model at 4-bit quantization
const pipe = await pipeline('sentiment-analysis', 'Xenova/distilbert-base-uncased-finetuned-sst-2-english', {
dtype: 'q4',
});
目錄
文件分為 4 個部分
- 入門 提供庫的快速導覽和安裝說明,以便快速啟動和執行。
- 如果您是初學者,教程 是一個很好的起點!我們還提供示例應用程式供您玩耍!
- 開發者指南 向您展示如何使用庫來實現特定目標。
- API 參考 描述所有類和函式,以及它們可用的引數和型別。
示例
想直接開始嗎?從我們的示例應用程式/模板開始,這些都可以在這裡找到。
名稱 | 描述 | 相關連結 |
---|---|---|
Whisper Web | 語音識別 (Whisper) | 程式碼, 演示 |
塗鴉衝刺 | 即時手繪識別遊戲 | 部落格, 程式碼, 演示 |
程式碼遊樂場 | 瀏覽器內程式碼補全網站 | 程式碼, 演示 |
語義影像搜尋(客戶端) | 用文字搜尋圖片 | 程式碼, 演示 |
語義影像搜尋(伺服器端) | 用文字搜尋圖片 (Supabase) | 程式碼, 演示 |
Vanilla JavaScript | 瀏覽器內物件檢測 | 影片, 程式碼, 演示 |
React | 多語言翻譯網站 | 程式碼, 演示 |
文字轉語音(客戶端) | 瀏覽器內語音合成 | 程式碼, 演示 |
瀏覽器擴充套件 | 文字分類擴充套件 | 程式碼 |
Electron | 文字分類應用程式 | 程式碼 |
Next.js(客戶端) | 情感分析(瀏覽器內推理) | 程式碼, 演示 |
Next.js(伺服器端) | 情感分析(Node.js 推理) | 程式碼, 演示 |
Node.js | 情感分析 API | 程式碼 |
演示網站 | 演示合集 | 程式碼, 演示 |
前往 Hugging Face 上的 Transformers.js 模板,一鍵開始!
支援的任務/模型
這是 Transformers.js 當前支援的所有任務和架構的列表。如果您沒有在此處看到您的任務/模型或尚未支援,請隨時在此處提出功能請求。
要在 Hub 上查詢相容模型,請在篩選選單中選擇“transformers.js”庫標籤(或訪問此連結)。您可以透過選擇您感興趣的任務來細化搜尋(例如,文字分類)。
任務
自然語言處理
任務 | ID | 描述 | 支援? |
---|---|---|---|
填充掩碼 | fill-mask | 遮蓋句子中的某些詞語並預測應替換這些掩碼的詞語。 | ✅ (文件) (模型) |
問答 | 問題回答 | 從給定文字中檢索問題的答案。 | ✅ (文件) (模型) |
句子相似度 | sentence-similarity | 確定兩段文字的相似程度。 | ✅ (文件) (模型) |
摘要 | 摘要 | 生成文件的較短版本,同時保留其重要資訊。 | ✅ (文件) (模型) |
表格問答 | table-question-answering | 回答關於給定表格資訊的問題。 | ❌ |
文字分類 | text-classification 或 sentiment-analysis | 為給定文字分配標籤或類別。 | ✅ (文件) (模型) |
文字生成 | 文字生成 | 透過預測序列中的下一個詞來生成新文字。 | ✅ (文件) (模型) |
文字到文字生成 | text2text-generation | 將一個文字序列轉換為另一個文字序列。 | ✅ (文件) (模型) |
Token 分類 | token-classification 或 ner | 為文字中的每個標記分配標籤。 | ✅ (文件) (模型) |
翻譯 | 翻譯 | 將文字從一種語言翻譯成另一種語言。 | ✅ (文件) (模型) |
零樣本分類 | zero-shot-classification | 將文字分類到訓練期間未見的類別中。 | ✅ (文件) (模型) |
特徵提取 | feature-extraction | 將原始資料轉換為可處理的數值特徵,同時保留原始資料集中的資訊。 | ✅ (文件) (模型) |
視覺
任務 | ID | 描述 | 支援? |
---|---|---|---|
背景移除 | background-removal | 透過移除或使背景透明來分離影像的主體。 | ✅ (文件) (模型) |
深度估計 | depth-estimation | 預測影像中物體的深度。 | ✅ (文件) (模型) |
影像分類 | image-classification | 為整個影像分配標籤或類別。 | ✅ (文件) (模型) |
影像分割 | image-segmentation | 將影像分成多個區域,其中每個畫素都對映到一個物件。此任務有多種變體,例如例項分割、全景分割和語義分割。 | ✅ (文件) (模型) |
影像到影像 | image-to-image | 將源影像轉換為與目標影像或目標影像域的特徵匹配。 | ✅ (文件) (模型) |
掩碼生成 | mask-generation | 為影像中的物件生成掩碼。 | ❌ |
物體檢測 | object-detection | 識別影像中某些已定義類別的物件。 | ✅ (文件) (模型) |
影片分類 | 不適用 | 為整個影片分配標籤或類別。 | ❌ |
無條件影像生成 | 不適用 | 在任何上下文(如提示文字或另一張圖片)下生成影像,不附加任何條件。 | ❌ |
影像特徵提取 | image-feature-extraction | 將原始資料轉換為可以處理的數值特徵,同時保留原始影像中的資訊。 | ✅ (文件) (模型) |
音訊
任務 | ID | 描述 | 支援? |
---|---|---|---|
音訊分類 | 音訊分類 | 為給定音訊分配標籤或類別。 | ✅ (文件) (模型) |
音訊到音訊 | 不適用 | 從輸入音訊源生成音訊。 | ❌ |
自動語音識別 | 自動語音識別 | 將給定音訊轉錄為文字。 | ✅ (文件) (模型) |
文字到語音 | text-to-speech 或 text-to-audio | 根據文字輸入生成自然語音。 | ✅ (文件) (模型) |
表格
任務 | ID | 描述 | 支援? |
---|---|---|---|
表格分類 | 不適用 | 根據一組屬性對目標類別(組)進行分類。 | ❌ |
表格迴歸 | 不適用 | 根據一組屬性預測數值。 | ❌ |
多模態
任務 | ID | 描述 | 支援? |
---|---|---|---|
文件問答 | document-question-answering | 回答文件影像上的問題。 | ✅ (文件) (模型) |
影像到文字 | image-to-text | 從給定影像輸出文字。 | ✅ (文件) (模型) |
文字到影像 | text-to-image | 從輸入文字生成影像。 | ❌ |
視覺問答 | 視覺問答 | 基於影像回答開放式問題。 | ❌ |
零樣本音訊分類 | zero-shot-audio-classification | 將音訊分類到訓練期間未見的類別中。 | ✅ (文件) (模型) |
零樣本影像分類 | zero-shot-image-classification | 將影像分類到訓練期間未見的類別中。 | ✅ (文件) (模型) |
零樣本目標檢測 | zero-shot-object-detection | 識別訓練期間未見的類別物件。 | ✅ (文件) (模型) |
強化學習
任務 | ID | 描述 | 支援? |
---|---|---|---|
強化學習 | 不適用 | 透過試錯與環境互動,並接收獎勵(負或正)作為反饋來從行動中學習。 | ✅ |
模型
- ALBERT (來自 Google Research 和芝加哥豐田技術學院)隨論文 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations 釋出,作者為 Zhenzhong Lan、Mingda Chen、Sebastian Goodman、Kevin Gimpel、Piyush Sharma、Radu Soricut。
- Arcee(來自 Arcee AI)隨博文 Announcing Arcee Foundation Models 釋出,作者為 Fernando Fernandes、Varun Singh、Charles Goddard、Lucas Atkins、Mark McQuade、Maziyar Panahi、Conner Stewart、Colin Kealty、Raghav Ravishankar、Lucas Krauss、Anneketh Vij、Pranav Veldurthi、Abhishek Thakur、Julien Simon、Scott Zembsch、Benjamin Langer、Aleksiej Cecocho、Maitri Patel。
- Audio Spectrogram Transformer(來自 MIT)隨論文 AST: Audio Spectrogram Transformer 釋出,作者為 Yuan Gong、Yu-An Chung、James Glass。
- BART(來自 Facebook)隨論文 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 釋出,作者為 Mike Lewis、Yinhan Liu、Naman Goyal、Marjan Ghazvininejad、Abdelrahman Mohamed、Omer Levy、Ves Stoyanov 和 Luke Zettlemoyer。
- BEiT(來自 Microsoft)隨論文 BEiT: BERT Pre-Training of Image Transformers 釋出,作者為 Hangbo Bao、Li Dong、Furu Wei。
- BERT(來自 Google)隨論文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 釋出,作者為 Jacob Devlin、Ming-Wei Chang、Kenton Lee 和 Kristina Toutanova。
- Blenderbot(來自 Facebook)隨論文 Recipes for building an open-domain chatbot 釋出,作者為 Stephen Roller、Emily Dinan、Naman Goyal、Da Ju、Mary Williamson、Yinhan Liu、Jing Xu、Myle Ott、Kurt Shuster、Eric M. Smith、Y-Lan Boureau、Jason Weston。
- BlenderbotSmall(來自 Facebook)隨論文 Recipes for building an open-domain chatbot 釋出,作者為 Stephen Roller、Emily Dinan、Naman Goyal、Da Ju、Mary Williamson、Yinhan Liu、Jing Xu、Myle Ott、Kurt Shuster、Eric M. Smith、Y-Lan Boureau、Jason Weston。
- BLOOM(來自 BigScience workshop)由BigScience Workshop釋出。
- CamemBERT(來自 Inria/Facebook/Sorbonne)隨論文 CamemBERT: a Tasty French Language Model 釋出,作者為 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot。
- Chinese-CLIP(來自 OFA-Sys)隨論文 Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese 釋出,作者為 An Yang、Junshu Pan、Junyang Lin、Rui Men、Yichang Zhang、Jingren Zhou、Chang Zhou。
- CLAP(來自 LAION-AI)隨論文 Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation 釋出,作者為 Yusong Wu、Ke Chen、Tianyu Zhang、Yuchen Hui、Taylor Berg-Kirkpatrick、Shlomo Dubnov。
- CLIP(來自 OpenAI)隨論文 Learning Transferable Visual Models From Natural Language Supervision 釋出,作者為 Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger、Ilya Sutskever。
- CLIPSeg(來自哥廷根大學)隨論文 Image Segmentation Using Text and Image Prompts 釋出,作者為 Timo Lüddecke 和 Alexander Ecker。
- CodeGen(來自 Salesforce)隨論文 A Conversational Paradigm for Program Synthesis 釋出,作者為 Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caiming Xiong。
- CodeLlama (來自 MetaAI) 隨論文 Code Llama: Open Foundation Models for Code 釋出,作者 Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Tal Remez, Jérémy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre Défossez, Jade Copet, Faisal Azhar, Hugo Touvron, Louis Martin, Nicolas Usunier, Thomas Scialom, Gabriel Synnaeve。
- Cohere(來自 Cohere)隨論文 Command-R: Retrieval Augmented Generation at Production Scale 釋出,作者 Cohere。
- ConvBERT(來自 YituTech)隨論文 ConvBERT: Improving BERT with Span-based Dynamic Convolution 釋出,作者 Zihang Jiang、Weihao Yu、Daquan Zhou、Yunpeng Chen、Jiashi Feng、Shuicheng Yan。
- ConvNeXT(來自 Facebook AI)隨論文 A ConvNet for the 2020s 釋出,作者 Zhuang Liu、Hanzi Mao、Chao-Yuan Wu、Christoph Feichtenhofer、Trevor Darrell、Saining Xie。
- ConvNeXTV2(來自 Facebook AI)隨論文 ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders 釋出,作者 Sanghyun Woo、Shoubhik Debnath、Ronghang Hu、Xinlei Chen、Zhuang Liu、In So Kweon、Saining Xie。
- D-FINE(來自中國科學技術大學)隨論文 D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement 釋出,作者彭彥松、李河北、吳佩西、張越一、孫曉燕、吳峰。
- DAC (來自 Descript) 隨論文 Descript Audio Codec: High-Fidelity Audio Compression with Improved RVQGAN 釋出,作者 Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, Kundan Kumar。
- DeBERTa(來自 Microsoft)隨論文 DeBERTa: Decoding-enhanced BERT with Disentangled Attention 釋出,作者彭成赫、劉小東、高健峰、陳衛珠。
- DeBERTa-v2(來自 Microsoft)隨論文 DeBERTa: Decoding-enhanced BERT with Disentangled Attention 釋出,作者 Pengcheng He、Xiaodong Liu、Jianfeng Gao、Weizhu Chen。
- 決策 Transformer(來自 Berkeley/Facebook/Google)隨論文 Decision Transformer: Reinforcement Learning via Sequence Modeling 釋出,作者 Lili Chen、Kevin Lu、Aravind Rajeswaran、Kimin Lee、Aditya Grover、Michael Laskin、Pieter Abbeel、Aravind Srinivas、Igor Mordatch。
- DeiT(來自 Facebook)隨論文 Training data-efficient image transformers & distillation through attention 釋出,作者 Hugo Touvron、Matthieu Cord、Matthijs Douze、Francisco Massa、Alexandre Sablayrolles、Hervé Jégou。
- Depth Anything (來自香港大學和 TikTok) 隨論文 Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data 釋出,作者為 Lihe Yang、Bingyi Kang、Zilong Huang、Xiaogang Xu、Jiashi Feng、Hengshuang Zhao。
- Depth Pro(來自 Apple)隨論文 Depth Pro: Sharp Monocular Metric Depth in Less Than a Second 釋出,作者 Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun。
- DETR(來自 Facebook)隨論文 End-to-End Object Detection with Transformers 釋出,作者 Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov、Sergey Zagoruyko。
- DINOv2(來自 Meta AI)隨論文 DINOv2: Learning Robust Visual Features without Supervision 釋出,作者 Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Hervé Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski。
- 帶暫存器的 DINOv2(來自 Meta AI)隨論文 DINOv2 with Registers 釋出,作者 Timothée Darcet、Maxime Oquab、Julien Mairal、Piotr Bojanowski。
- DistilBERT(來自 HuggingFace),與論文 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 同時釋出,作者為 Victor Sanh、Lysandre Debut 和 Thomas Wolf。相同的方法已應用於將 GPT2 壓縮為 DistilGPT2、將 RoBERTa 壓縮為 DistilRoBERTa、將多語言 BERT 壓縮為 DistilmBERT 以及德語版本的 DistilBERT。
- DiT(來自 Microsoft Research)隨論文 DiT: Self-supervised Pre-training for Document Image Transformer 釋出,作者 Junlong Li、Yiheng Xu、Tengchao Lv、Lei Cui、Cha Zhang、Furu Wei。
- Donut(來自 NAVER),與論文 OCR-free Document Understanding Transformer 同時釋出,作者為 Geewook Kim、Teakgyu Hong、Moonbin Yim、Jeongyeon Nam、Jinyoung Park、Jinyeong Yim、Wonseok Hwang、Sangdoo Yun、Dongyoon Han、Seunghyun Park。
- DPT(來自英特爾實驗室)隨論文 Vision Transformers for Dense Prediction 釋出,作者 René Ranftl、Alexey Bochkovskiy、Vladlen Koltun。
- EfficientNet(來自 Google Brain)隨論文 EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 釋出,作者 Mingxing Tan、Quoc V. Le。
- ELECTRA(來自 Google Research/斯坦福大學)隨論文 ELECTRA: Pre-training text encoders as discriminators rather than generators 釋出,作者 Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning。
- ERNIE-4.5(來自百度 ERNIE 團隊)隨部落格文章 Announcing the Open Source Release of the ERNIE 4.5 Model Family 釋出,作者百度 ERNIE 團隊。
- ESM(來自 Meta AI)是 Transformer 蛋白質語言模型。ESM-1b 隨論文 Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 釋出,作者 Alexander Rives、Joshua Meier、Tom Sercu、Siddharth Goyal、Zeming Lin、Jason Liu、Demi Guo、Myle Ott、C. Lawrence Zitnick、Jerry Ma 和 Rob Fergus。ESM-1v 隨論文 Language models enable zero-shot prediction of the effects of mutations on protein function 釋出,作者 Joshua Meier、Roshan Rao、Robert Verkuil、Jason Liu、Tom Sercu 和 Alexander Rives。ESM-2 和 ESMFold 隨論文 Language models of protein sequences at the scale of evolution enable accurate structure prediction 釋出,作者 Zeming Lin、Halil Akin、Roshan Rao、Brian Hie、Zhongkai Zhu、Wenting Lu、Allan dos Santos Costa、Maryam Fazel-Zarandi、Tom Sercu、Sal Candido 和 Alexander Rives。
- EXAONE(來自 LG AI Research)隨論文 EXAONE 3.0 7.8B Instruction Tuned Language Model 和 EXAONE 3.5: Series of Large Language Models for Real-world Use Cases 釋出,作者 LG AI Research 團隊。
- Falcon(來自 Technology Innovation Institute),作者 Almazrouei, Ebtesam 和 Alobeidli, Hamza 和 Alshamsi, Abdulaziz 和 Cappelli, Alessandro 和 Cojocaru, Ruxandra 和 Debbah, Merouane 和 Goffinet, Etienne 和 Heslow, Daniel 和 Launay, Julien 和 Malartic, Quentin 和 Noune, Badreddine 和 Pannier, Baptiste 和 Penedo, Guilherme。
- FastViT (來自 Apple) 隨論文 FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 釋出,作者 Pavan Kumar Anasosalu Vasu、James Gabriel、Jeff Zhu、Oncel Tuzel 和 Anurag Ranjan。
- FLAN-T5(來自 Google AI)釋出於儲存庫 google-research/t5x,作者 Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, and Jason Wei
- Florence2(來自 Microsoft)隨論文 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks 釋出,作者 Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan。
- Gemma (來自 Google) 隨論文 Gemma: Open Models Based on Gemini Technology and Research 釋出,作者 Gemma Google 團隊。
- Gemma2 (來自 Google) 隨論文 Gemma2: Open Models Based on Gemini Technology and Research 釋出,作者 Gemma Google 團隊。
- Gemma3(來自 Google)隨論文 Introducing Gemma 3: The most capable model you can run on a single GPU or TPU 釋出,作者 Gemma Google 團隊。
- Gemma3n (來自 Google) 隨論文 Announcing Gemma 3n preview: powerful, efficient, mobile-first AI 釋出,作者 Gemma Google 團隊。
- GLM (來自 GLM Team, THUDM & ZhipuAI) 隨論文 ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools 釋出,作者 GLM Team: Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Dan Zhang, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Jingyu Sun, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang。
- GLPN(來自 KAIST)隨論文 Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth 釋出,作者 Kim Doyeon、Ga Woonghyun、Ahn Pyungwhan、Joo Donggyu、Chun Sehwan、Kim Junmo。
- GPT Neo(來自 EleutherAI)釋出於儲存庫 EleutherAI/gpt-neo,作者 Sid Black、Stella Biderman、Leo Gao、Phil Wang 和 Connor Leahy。
- GPT NeoX(來自 EleutherAI)隨論文 GPT-NeoX-20B: An Open-Source Autoregressive Language Model 釋出,作者 Sid Black、Stella Biderman、Eric Hallahan、Quentin Anthony、Leo Gao、Laurence Golding、Horace He、Connor Leahy、Kyle McDonell、Jason Phang、Michael Pieler、USVSN Sai Prashanth、Shivanshu Purohit、Laria Reynolds、Jonathan Tow、Ben Wang、Samuel Weinbach。
- GPT-2(來自 OpenAI)隨論文 Language Models are Unsupervised Multitask Learners 釋出,作者 Alec Radford*、Jeffrey Wu*、Rewon Child、David Luan、Dario Amodei** 和 Ilya Sutskever**。
- GPT-J(來自 EleutherAI)釋出於儲存庫 kingoflolz/mesh-transformer-jax,作者 Ben Wang 和 Aran Komatsuzaki。
- GPTBigCode(來自 BigCode)隨論文 SantaCoder: don’t reach for the stars! 釋出,作者 Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo García del Río, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra。
- Granite(來自 IBM)隨論文 Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler 釋出,作者 Yikang Shen, Matthew Stallone, Mayank Mishra, Gaoyuan Zhang, Shawn Tan, Aditya Prasad, Adriana Meza Soria, David D. Cox, Rameswar Panda。
- Grounding DINO(來自 IDEA-Research)隨論文 Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 釋出,作者 Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Qing Jiang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang。
- GroupViT(來自 UCSD、NVIDIA)隨論文 GroupViT: Semantic Segmentation Emerges from Text Supervision 釋出,作者 Jiarui Xu、Shalini De Mello、Sifei Liu、Wonmin Byeon、Thomas Breuel、Jan Kautz、Xiaolong Wang。
- Helium(來自 Kyutai 團隊)隨部落格文章 Announcing Helium-1 Preview 釋出,作者 Kyutai 團隊。
- HerBERT(來自 Allegro.pl,AGH 科技大學)隨論文 KLEJ: Comprehensive Benchmark for Polish Language Understanding 釋出,作者 Piotr Rybak、Robert Mroczkowski、Janusz Tracz、Ireneusz Gawlik。
- Hiera(來自 Meta)隨論文 Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles 釋出,作者 Chaitanya Ryali, Yuan-Ting Hu, Daniel Bolya, Chen Wei, Haoqi Fan, Po-Yao Huang, Vaibhav Aggarwal, Arkabandhu Chowdhury, Omid Poursaeed, Judy Hoffman, Jitendra Malik, Yanghao Li, Christoph Feichtenhofer。
- Hubert(來自 Facebook)隨論文 HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units 釋出,作者 Wei-Ning Hsu、Benjamin Bolte、Yao-Hung Hubert Tsai、Kushal Lakhotia、Ruslan Salakhutdinov、Abdelrahman Mohamed。
- I-JEPA(來自 Meta)隨論文 Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture 釋出,作者 Mahmoud Assran、Quentin Duval、Ishan Misra、Piotr Bojanowski、Pascal Vincent、Michael Rabbat、Yann LeCun、Nicolas Ballas。
- Idefics3(來自 Hugging Face)隨論文 Building and better understanding vision-language models: insights and future directions 釋出,作者 Hugo Laurençon、Andrés Marafioti、Victor Sanh、Léo Tronchon。
- JAIS (來自 Core42) 隨論文 Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models 釋出,作者 Neha Sengupta, Sunil Kumar Sahu, Bokang Jia, Satheesh Katipomu, Haonan Li, Fajri Koto, William Marshall, Gurpreet Gosal, Cynthia Liu, Zhiming Chen, Osama Mohammed Afzal, Samta Kamboj, Onkar Pandit, Rahul Pal, Lalit Pradhan, Zain Muhammad Mujahid, Massa Baali, Xudong Han, Sondos Mahmoud Bsharat, Alham Fikri Aji, Zhiqiang Shen, Zhengzhong Liu, Natalia Vassilieva, Joel Hestness, Andy Hock, Andrew Feldman, Jonathan Lee, Andrew Jackson, Hector Xuguang Ren, Preslav Nakov, Timothy Baldwin, Eric Xing。
- Janus (來自 DeepSeek) 隨論文 Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation 釋出,作者 Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo。
- JinaCLIP(來自 Jina AI)隨論文 Jina CLIP: Your CLIP Model Is Also Your Text Retriever 釋出,作者 Andreas Koukounas、Georgios Mastrapas、Michael Günther、Bo Wang、Scott Martens、Isabelle Mohr、Saba Sturua、Mohammad Kalim Akram、Joan Fontanals Martínez、Saahil Ognawala、Susana Guzman、Maximilian Werk、Nan Wang、Han Xiao。
- LiteWhisper (來自華盛頓大學、Kotoba Technologies) 隨論文 LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation 釋出,作者 Keisuke Kamahori、Jungo Kasai、Noriyuki Kojima、Baris Kasikci。
- LongT5(來自 Google AI)隨論文 LongT5: Efficient Text-To-Text Transformer for Long Sequences 釋出,作者 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung、Yinfei Yang。
- LFM2 (來自 Liquid AI) 隨部落格文章 Introducing LFM2: The Fastest On-Device Foundation Models on the Market 釋出,作者 Liquid AI 團隊。
- LLaMA(來自 Meta AI 的 FAIR 團隊)隨論文 LLaMA: Open and Efficient Foundation Language Models 釋出,作者 Hugo Touvron、Thibaut Lavril、Gautier Izacard、Xavier Martinet、Marie-Anne Lachaux、Timothée Lacroix、Baptiste Rozière、Naman Goyal、Eric Hambro、Faisal Azhar、Aurelien Rodriguez、Armand Joulin、Edouard Grave、Guillaume Lample。
- Llama2(來自 Meta AI 的 FAIR 團隊)隨論文 Llama2: Open Foundation and Fine-Tuned Chat Models 釋出,作者 Hugo Touvron、Louis Martin、Kevin Stone、Peter Albert、Amjad Almahairi、Yasmine Babaei、Nikolay Bashlykov、Soumya Batra、Prajjwal Bhargava、Shruti Bhosale、Dan Bikel、Lukas Blecher、Cristian Canton Ferrer、Moya Chen、Guillem Cucurull、David Esiobu、Jude Fernandes、Jeremy Fu、Wenyin Fu、Brian Fuller、Cynthia Gao、Vedanuj Goswami、Naman Goyal、Anthony Hartshorn、Saghar Hosseini、Rui Hou、Hakan Inan、Marcin Kardas、Viktor Kerkez Madian Khabsa、Isabel Kloumann、Artem Korenev、Punit Singh Koura、Marie-Anne Lachaux、Thibaut Lavril、Jenya Lee、Diana Liskovich、Yinghai Lu、Yuning Mao、Xavier Martinet、Todor Mihaylov、Pushka rMishra、Igor Molybog、Yixin Nie、Andrew Poulton、Jeremy Reizenstein、Rashi Rungta、Kalyan Saladi、Alan Schelten、Ruan Silva、Eric Michael Smith、Ranjan Subramanian、Xiaoqing EllenTan、Binh Tang、Ross Taylor、Adina Williams、Jian Xiang Kuan、Puxin Xu、Zheng Yan、Iliyan Zarov、Yuchen Zhang、Angela Fan、Melanie Kambadur、Sharan Narang、Aurelien Rodriguez、Robert Stojnic、Sergey Edunov、Thomas Scialom。
- LLaVa(來自 Microsoft Research & University of Wisconsin-Madison)隨論文 Visual Instruction Tuning 釋出,作者 Haotian Liu、Chunyuan Li、Yuheng Li 和 Yong Jae Lee。
- LLaVA-OneVision(來自字節跳動 & NTU & CUHK & HKUST)隨論文 LLaVA-OneVision: Easy Visual Task Transfer 釋出,作者 Li Bo, Zhang Yuanhan, Guo Dong, Zhang Renrui, Li Feng, Zhang Hao, Zhang Kaichen, Li Yanwei, Liu Ziwei, Li Chunyuan。
- M2M100(來自 Facebook)隨論文 Beyond English-Centric Multilingual Machine Translation 釋出,作者 Angela Fan、Shruti Bhosale、Holger Schwenk、Zhiyi Ma、Ahmed El-Kishky、Siddharth Goyal、Mandeep Baines、Onur Celebi、Guillaume Wenzek、Vishrav Chaudhary、Naman Goyal、Tom Birch、Vitaliy Liptchinsky、Sergey Edunov、Edouard Grave、Michael Auli、Armand Joulin。
- MarianMT 機器翻譯模型使用 OPUS 資料訓練,作者 Jörg Tiedemann。Marian 框架由 Microsoft Translator Team 開發。
- MaskFormer(來自 Meta 和 UIUC)隨論文 Per-Pixel Classification is Not All You Need for Semantic Segmentation 釋出,作者 Bowen Cheng、Alexander G. Schwing、Alexander Kirillov。
- mBART(來自 Facebook)隨論文 Multilingual Denoising Pre-training for Neural Machine Translation 釋出,作者 Yinhan Liu、Jiatao Gu、Naman Goyal、Xian Li、Sergey Edunov、Marjan Ghazvininejad、Mike Lewis、Luke Zettlemoyer。
- mBART-50(來自 Facebook)隨論文 Multilingual Translation with Extensible Multilingual Pretraining and Finetuning 釋出,作者 Yuqing Tang、Chau Tran、Xian Li、Peng-Jen Chen、Naman Goyal、Vishrav Chaudhary、Jiatao Gu、Angela Fan。
- Metric3D 隨論文 Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image 釋出,作者是 Wei Yin, Chi Zhang, Hao Chen, Zhipeng Cai, Gang Yu, Kaixuan Wang, Xiaozhi Chen, Chunhua Shen。
- Metric3Dv2 隨論文 Metric3Dv2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation 釋出,作者是 Mu Hu, Wei Yin, Chi Zhang, Zhipeng Cai, Xiaoxiao Long, Kaixuan Wang, Hao Chen, Gang Yu, Chunhua Shen, Shaojie Shen。
- MusicGen (來自 Meta) 隨論文 Simple and Controllable Music Generation 釋出,作者是 Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi 和 Alexandre Défossez。
- MGP-STR (來自阿里巴巴研究) 隨論文 Multi-Granularity Prediction for Scene Text Recognition 釋出,作者是 Peng Wang, Cheng Da, 和 Cong Yao。
- Mimi (來自 Kyutai) 隨論文 Moshi: a speech-text foundation model for real-time dialogue 釋出,作者是 Alexandre Défossez, Laurent Mazaré, Manu Orsini, Amélie Royer, Patrick Pérez, Hervé Jégou, Edouard Grave 和 Neil Zeghidour。
- Mistral (來自 Mistral AI) 作者是 Mistral AI 團隊:Albert Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed。
- MMS (來自 Facebook) 隨論文 Scaling Speech Technology to 1,000+ Languages 釋出,作者是 Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, Alexei Baevski, Yossi Adi, Xiaohui Zhang, Wei-Ning Hsu, Alexis Conneau, Michael Auli。
- MobileBERT (來自 CMU/Google Brain) 隨論文 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices 釋出,作者是 Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, 和 Denny Zhou。
- MobileCLIP (來自 Apple) 隨論文 MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training 釋出,作者是 Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel。
- MobileLLM (來自 Meta) 隨論文 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases 釋出,作者是 Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra。
- MobileNetV1 (來自 Google Inc.) 隨論文 MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 釋出,作者是 Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam。
- MobileNetV2 (來自 Google Inc.) 隨論文 MobileNetV2: Inverted Residuals and Linear Bottlenecks 釋出,作者是 Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen。
- MobileNetV3 (來自 Google Inc.) 隨論文 Searching for MobileNetV3 釋出,作者是 Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, Quoc V. Le, Hartwig Adam。
- MobileNetV4 (來自 Google Inc.) 隨論文 MobileNetV4 - Universal Models for the Mobile Ecosystem 釋出,作者是 Danfeng Qin, Chas Leichner, Manolis Delakis, Marco Fornoni, Shixin Luo, Fan Yang, Weijun Wang, Colby Banbury, Chengxi Ye, Berkin Akin, Vaibhav Aggarwal, Tenghui Zhu, Daniele Moro, Andrew Howard。
- MobileViT (來自 Apple) 隨論文 MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer 釋出,作者是 Sachin Mehta 和 Mohammad Rastegari。
- MobileViTV2 (來自 Apple) 隨論文 Separable Self-attention for Mobile Vision Transformers 釋出,作者是 Sachin Mehta 和 Mohammad Rastegari。
- ModernBERT (來自 Answer.AI 和 LightOn) 隨論文 Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference 釋出,作者是 Benjamin Warner, Antoine Chaffin, Benjamin Clavié, Orion Weller, Oskar Hallström, Said Taghadouini, Alexis Gallagher, Raja Biswas, Faisal Ladhak, Tom Aarsen, Nathan Cooper, Griffin Adams, Jeremy Howard, Iacopo Poli。
- ModernBERT Decoder (來自 Johns Hopkins University 和 LightOn) 隨論文 Seq vs Seq: An Open Suite of Paired Encoders and Decoders 釋出,作者是 Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van Durme。
- Moondream1 在 moondream 倉庫中釋出,作者是 vikhyat。
- Moonshine (來自 Useful Sensors) 隨論文 Moonshine: Speech Recognition for Live Transcription and Voice Commands 釋出,作者是 Nat Jeffries, Evan King, Manjunath Kudlur, Guy Nicholson, James Wang, Pete Warden。
- MPNet (來自 Microsoft Research) 隨論文 MPNet: Masked and Permuted Pre-training for Language Understanding 釋出,作者是 Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu。
- MPT (來自 MosaicML) 在 llm-foundry 倉庫中釋出,作者是 MosaicML NLP 團隊。
- MT5 (來自 Google AI) 隨論文 mT5: A massively multilingual pre-trained text-to-text transformer 釋出,作者是 Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel。
- NeoBERT (來自 Chandar Research Lab) 隨論文 NeoBERT: A Next-Generation BERT 釋出,作者是 Lola Le Breton, Quentin Fournier, Mariam El Mezouar, John X. Morris, Sarath Chandar。
- NLLB (來自 Meta) 隨論文 No Language Left Behind: Scaling Human-Centered Machine Translation 釋出,作者是 NLLB 團隊。
- Nougat (來自 Meta AI) 隨論文 Nougat: Neural Optical Understanding for Academic Documents 釋出,作者是 Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic。
- OLMo (來自 Ai2) 隨論文 OLMo: Accelerating the Science of Language Models 釋出,作者是 Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi。
- OLMo2 (來自 Ai2) 隨部落格文章 OLMo 2: The best fully open language model to date 釋出,作者是 Ai2 OLMo 團隊。
- OpenELM (來自 Apple) 隨論文 OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework 釋出,作者是 Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, Mohammad Rastegari。
- OPT (來自 Meta AI) 隨論文 OPT: Open Pre-trained Transformer Language Models 釋出,作者是 Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen 等。
- OWL-ViT (來自 Google AI) 隨論文 Simple Open-Vocabulary Object Detection with Vision Transformers 釋出,作者是 Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, 和 Neil Houlsby。
- OWLv2 (來自 Google AI) 隨論文 Scaling Open-Vocabulary Object Detection 釋出,作者是 Matthias Minderer, Alexey Gritsenko, Neil Houlsby。
- PaliGemma (來自 Google) 隨論文 PaliGemma: A versatile 3B VLM for transfer 和 PaliGemma 2: A Family of Versatile VLMs for Transfer 釋出,作者是 PaliGemma Google 團隊。
- PatchTSMixer (來自 IBM) 隨論文 TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting 釋出,作者是 Vijay Ekambaram, Arindam Jati, Nam Nguyen, Phanwadee Sinthong, Jayant Kalagnanam。
- PatchTST (來自 Princeton University, IBM) 隨論文 A Time Series is Worth 64 Words: Long-term Forecasting with Transformers 釋出,作者是 Yuqi Nie, Nam H. Nguyen, Phanwadee Sinthong, Jayant Kalagnanam。
- Phi (來自 Microsoft) 隨論文 Textbooks Are All You Need 釋出,作者是 Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee 和 Yuanzhi Li,以及 Textbooks Are All You Need II: phi-1.5 technical report,作者是 Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar 和 Yin Tat Lee。
- Phi3 (來自 Microsoft) 隨論文 Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone 釋出,作者是 Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Martin Cai, Caio César Teodoro Mendes, Weizhu Chen, Vishrav Chaudhary, Parul Chopra, Allie Del Giorno, Gustavo de Rosa, Matthew Dixon, Ronen Eldan, Dan Iter, Amit Garg, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Jamie Huynh, Mojan Javaheripi, Xin Jin, Piero Kauffmann, Nikos Karampatziakis, Dongwoo Kim, Mahoud Khademi, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Chen Liang, Weishung Liu, Eric Lin, Zeqi Lin, Piyush Madan, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Corby Rosset, Sambudha Roy, Olatunji Ruwase, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Xia Song, Masahiro Tanaka, Xin Wang, Rachel Ward, Guanhua Wang, Philipp Witte, Michael Wyatt, Can Xu, Jiahang Xu, Sonali Yadav, Fan Yang, Ziyi Yang, Donghan Yu, Chengruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yue Zhang, Yunan Zhang, Xiren Zhou。
- Phi3V (來自 Microsoft) 隨論文 Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone 釋出,作者是 Marah Abdin, Jyoti Aneja, Hany Awadalla, Ahmed Awadallah, Ammar Ahmad Awan, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Martin Cai, Qin Cai, Vishrav Chaudhary, Dong Chen, Dongdong Chen, Weizhu Chen, Yen-Chun Chen, Yi-Ling Chen, Hao Cheng, Parul Chopra, Xiyang Dai, Matthew Dixon, Ronen Eldan, Victor Fragoso, Jianfeng Gao, Mei Gao, Min Gao, Amit Garg, Allie Del Giorno, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Wenxiang Hu, Jamie Huynh, Dan Iter, Sam Ade Jacobs, Mojan Javaheripi, Xin Jin, Nikos Karampatziakis, Piero Kauffmann, Mahoud Khademi, Dongwoo Kim, Young Jin Kim, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Yunsheng Li, Chen Liang, Lars Liden, Xihui Lin, Zeqi Lin, Ce Liu, Liyuan Liu, Mengchen Liu, Weishung Liu, Xiaodong Liu, Chong Luo, Piyush Madan, Ali Mahmoudzadeh, David Majercak, Matt Mazzola, Caio César Teodoro Mendes, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Liliang Ren, Gustavo de Rosa, Corby Rosset, Sambudha Roy, Olatunji Ruwase, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Yelong Shen, Swadheen Shukla, Xia Song, Masahiro Tanaka, Andrea Tupini, Praneetha Vaddamanu, Chunyu Wang, Guanhua Wang, Lijuan Wang , Shuohang Wang, Xin Wang, Yu Wang, Rachel Ward, Wen Wen, Philipp Witte, Haiping Wu, Xiaoxia Wu, Michael Wyatt, Bin Xiao, Can Xu, Jiahang Xu, Weijian Xu, Jilong Xue, Sonali Yadav, Fan Yang, Jianwei Yang, Yifan Yang, Ziyi Yang, Donghan Yu, Lu Yuan, Chenruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yue Zhang, Yunan Zhang, Xiren Zhou。
- PVT (來自南京大學、香港大學等) 隨論文 Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions 釋出,作者是 Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao。
- PyAnnote 在 pyannote/pyannote-audio 倉庫中釋出,作者是 Hervé Bredin。
- Qwen2 (來自 Qwen 團隊,阿里巴巴集團) 隨論文 Qwen Technical Report 釋出,作者是 Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou 和 Tianhang Zhu。
- Qwen2-VL (來自 Qwen 團隊,阿里巴巴集團) 隨論文 Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond 釋出,作者是 Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou。
- Qwen3 (來自 Qwen 團隊,阿里巴巴集團) 隨部落格文章 Qwen3: Think Deeper, Act Faster 釋出,作者是 Qwen 團隊。
- ResNet (來自 Microsoft Research) 隨論文 Deep Residual Learning for Image Recognition 釋出,作者是 Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun。
- RF-DETR (來自 Roboflow) 隨部落格文章 RF-DETR: A SOTA Real-Time Object Detection Model 釋出,作者是 Peter Robicheaux, James Gallagher, Joseph Nelson, Isaac Robinson。
- RoBERTa (來自 Facebook),隨論文 RoBERTa: A Robustly Optimized BERT Pretraining Approach 釋出,作者是 Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。
- RoFormer (來自 ZhuiyiTechnology),隨論文 RoFormer: Enhanced Transformer with Rotary Position Embedding 釋出,作者是 Jianlin Su 和 Yu Lu 和 Shengfeng Pan 和 Bo Wen 和 Yunfeng Liu。
- RT-DETR (來自百度),隨論文 DETRs Beat YOLOs on Real-time Object Detection 釋出,作者是 Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen。
- RT-DETRv2 (來自百度),隨論文 RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer 釋出,作者是 Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu。
- Sapiens (來自 Meta AI) 隨論文 Sapiens: Foundation for Human Vision Models 釋出,作者是 Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito。
- SegFormer (來自 NVIDIA) 隨論文 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers 釋出,作者是 Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo。
- Segment Anything (來自 Meta AI) 隨論文 Segment Anything 釋出,作者是 Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alex Berg, Wan-Yen Lo, Piotr Dollar, Ross Girshick。
- SigLIP (來自 Google AI) 隨論文 Sigmoid Loss for Language Image Pre-Training 釋出,作者是 Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer。
- **SmolLM3 (來自 Hugging Face) 隨部落格文章 SmolLM3: smol, multilingual, long-context reasoner 釋出,作者是 Hugging Face TB Research 團隊。
- **SmolVLM (來自 Hugging Face) 隨部落格文章 SmolVLM - small yet mighty Vision Language Model 和 SmolVLM Grows Smaller – Introducing the 250M & 500M Models! 釋出,作者是 Hugging Face TB Research 團隊。
- SNAC (來自 Papla Media, ETH Zurich) 隨論文 SNAC: Multi-Scale Neural Audio Codec 釋出,作者是 Hubert Siuzdak, Florian Grötschla, Luca A. Lanzendörfer。
- SpeechT5 (來自 Microsoft Research) 隨論文 SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing 釋出,作者是 Junyi Ao, Rui Wang, Long Zhou, Chengyi Wang, Shuo Ren, Yu Wu, Shujie Liu, Tom Ko, Qing Li, Yu Zhang, Zhihua Wei, Yao Qian, Jinyu Li, Furu Wei。
- SqueezeBERT (來自 Berkeley) 隨論文 SqueezeBERT: What can computer vision teach NLP about efficient neural networks? 釋出,作者是 Forrest N. Iandola, Albert E. Shaw, Ravi Krishna, 和 Kurt W. Keutzer。
- StableLm (來自 Stability AI) 隨論文 StableLM 3B 4E1T (技術報告) 釋出,作者是 Jonathan Tow, Marco Bellagente, Dakota Mahan, Carlos Riquelme Ruiz, Duy Phung, Maksym Zhuravinskyi, Nathan Cooper, Nikhil Pinnaparaju, Reshinth Adithyan, 和 James Baicoianu。
- Starcoder2 (來自 BigCode 團隊) 隨論文 StarCoder 2 and The Stack v2: The Next Generation 釋出,作者是 Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier, Nouamane Tazi, Ao Tang, Dmytro Pykhtar, Jiawei Liu, Yuxiang Wei, Tianyang Liu, Max Tian, Denis Kocetkov, Arthur Zucker, Younes Belkada, Zijian Wang, Qian Liu, Dmitry Abulkhanov, Indraneil Paul, Zhuang Li, Wen-Ding Li, Megan Risdal, Jia Li, Jian Zhu, Terry Yue Zhuo, Evgenii Zheltonozhskii, Nii Osae Osae Dade, Wenhao Yu, Lucas Krauß, Naman Jain, Yixuan Su, Xuanli He, Manan Dey, Edoardo Abati, Yekun Chai, Niklas Muennighoff, Xiangru Tang, Muhtasham Oblokulov, Christopher Akiki, Marc Marone, Chenghao Mou, Mayank Mishra, Alex Gu, Binyuan Hui, Tri Dao, Armel Zebaze, Olivier Dehaene, Nicolas Patry, Canwen Xu, Julian McAuley, Han Hu, Torsten Scholak, Sebastien Paquet, Jennifer Robinson, Carolyn Jane Anderson, Nicolas Chapados, Mostofa Patwary, Nima Tajbakhsh, Yacine Jernite, Carlos Muñoz Ferrandis, Lingming Zhang, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, 和 Harm de Vries。
- StyleTTS 2 (來自 Columbia University) 隨論文 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models 釋出,作者是 Yinghao Aaron Li, Cong Han, Vinay S. Raghavan, Gavin Mischler, Nima Mesgarani。
- Swin Transformer (來自 Microsoft) 隨論文 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 釋出,作者是 Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo。
- Swin2SR (來自 University of Würzburg) 隨論文 Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and Restoration 釋出,作者是 Marcos V. Conde, Ui-Jin Choi, Maxime Burchi, Radu Timofte。
- T5 (來自 Google AI) 隨論文 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 釋出,作者是 Colin Raffel 和 Noam Shazeer 和 Adam Roberts 和 Katherine Lee 和 Sharan Narang 和 Michael Matena 和 Yanqi Zhou 和 Wei Li 和 Peter J. Liu。
- T5v1.1 (來自 Google AI) 在 google-research/text-to-text-transfer-transformer 倉庫中釋出,作者是 Colin Raffel 和 Noam Shazeer 和 Adam Roberts 和 Katherine Lee 和 Sharan Narang 和 Michael Matena 和 Yanqi Zhou 和 Wei Li 和 Peter J. Liu。
- Table Transformer (來自 Microsoft Research) 隨論文 PubTables-1M: Towards Comprehensive Table Extraction From Unstructured Documents 釋出,作者是 Brandon Smock, Rohith Pesala, Robin Abraham。
- TrOCR (來自 Microsoft),隨論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models 釋出,作者是 Minghao Li, Tengchao Lv, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei。
- Ultravox (來自 Fixie.ai) 在 fixie-ai/ultravox 倉庫中釋出,作者是 Fixie.ai 團隊。
- UniSpeech (來自 Microsoft Research) 隨論文 UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data 釋出,作者是 Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang。
- UniSpeechSat (來自 Microsoft Research) 隨論文 UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING 釋出,作者是 Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu。
- Vision Transformer (ViT) (來自 Google AI) 隨論文 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 釋出,作者是 Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby。
- ViTMAE (來自 Meta AI) 隨論文 Masked Autoencoders Are Scalable Vision Learners 釋出,作者是 Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick。
- ViTMatte (來自 HUST-VL) 隨論文 ViTMatte: Boosting Image Matting with Pretrained Plain Vision Transformers 釋出,作者是 Jingfeng Yao, Xinggang Wang, Shusheng Yang, Baoyuan Wang。
- ViTMSN (來自 Meta AI) 隨論文 Masked Siamese Networks for Label-Efficient Learning 釋出,作者是 Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas。
- ViTPose (來自 The University of Sydney) 隨論文 ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 釋出,作者是 Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao。
- VITS (來自 Kakao Enterprise) 隨論文 Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech 釋出,作者是 Jaehyeon Kim, Jungil Kong, Juhee Son。
- Voxtral (來自 Mistral AI) 隨論文 Voxtral 釋出,作者是 Alexander H. Liu, Andy Ehrenberg, Andy Lo, Clément Denoix, Corentin Barreau, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Sanchit Gandhi, Soham Ghosh, Srijan Mishra, Thomas Foubert, Abhinav Rastogi, Adam Yang, Albert Q. Jiang, Alexandre Sablayrolles, Amélie Héliou, Amélie Martin, Anmol Agarwal, Antoine Roux, Arthur Darcet, Arthur Mensch, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Chris Bamford, Christian Wallenwein, Christophe Renaudin, Clémence Lanfranchi, Darius Dabert, Devendra Singh Chaplot, Devon Mizelle, Diego de las Casas, Elliot Chane-Sane, Emilien Fugier, Emma Bou Hanna, Gabrielle Berrada, Gauthier Delerce, Gauthier Guinet, Georgii Novikov, Guillaume Martin, Himanshu Jaju, Jan Ludziejewski, Jason Rute, Jean-Hadrien Chabran, Jessica Chudnovsky, Joachim Studnia, Joep Barmentlo, Jonas Amar, Josselin Somerville Roberts, Julien Denize, Karan Saxena, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Lélio Renard Lavaud, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Marie Pellat, Mathilde Guillaumin, Mathis Felardos, Matthieu Dinot, Maxime Darrin, Maximilian Augustin, Mickaël Seznec, Neha Gupta, Nikhil Raghuraman, Olivier Duchenne, Patricia Wang, Patryk Saffer, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomène Chagniot, Pierre Stock, Pravesh Agrawal, Rémi Delacourt, Romain Sauvestre, Roman Soletskyi, Sagar Vaze, Sandeep Subramanian, Saurabh Garg, Shashwat Dalal, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Thibault Schueller, Thibaut Lavril, Thomas Robert, Thomas Wang, Timothée Lacroix, Tom Bewley, Valeriia Nemychnikova, Victor Paltz , Virgile Richard, Wen-Ding Li, William Marshall, Xuanyu Zhang, Yihan Wan, Yunhao Tang。
- Wav2Vec2 (來自 Facebook AI) 隨論文 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 釋出,作者是 Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli。
- Wav2Vec2-BERT (來自 Meta AI) 隨論文 Seamless: Multilingual Expressive and Streaming Speech Translation 釋出,作者是 Seamless Communication 團隊。
- WavLM (來自 Microsoft Research) 隨論文 WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing 釋出,作者是 Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei。
- Whisper (來自 OpenAI) 隨論文 Robust Speech Recognition via Large-Scale Weak Supervision 釋出,作者是 Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever。
- XLM (來自 Facebook) 隨論文 Cross-lingual Language Model Pretraining 釋出,作者是 Guillaume Lample 和 Alexis Conneau。
- XLM-RoBERTa (來自 Facebook AI),隨論文 Unsupervised Cross-lingual Representation Learning at Scale 釋出,作者是 Alexis Conneau*、Kartikay Khandelwal*、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer 和 Veselin Stoyanov。
- YOLOS (來自華中科技大學) 隨論文 You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection 釋出,作者是 Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu。