社群計算機視覺課程文件

多模態世界

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

多模態世界

歡迎來到多模態基礎知識章節。本章將為單元的後續部分奠定基礎。我們將探討

  • 多模態的概念,以及人類用於高效決策的不同感官輸入。
  • 為什麼它對於透過創新應用和服務來互動並簡化生活至關重要。
  • 深度學習背景下的多模態、資料、任務和模型。
  • 多模態情感識別和多模態搜尋等相關應用。

那麼,讓我們開始吧 🤗

什麼是多模態?📸📝🎵

模態是指事物存在或完成的方式或媒介。在日常生活中,我們遇到許多需要做出決策和執行任務的場景。為此,我們使用我們的五種感官(眼睛看,耳朵聽,鼻子聞,舌頭嘗,皮膚觸控)。根據所有感官的資訊,我們評估環境,執行任務,併為生存做出決策。這五種感官中的每一種都是一種不同的模態,透過它們資訊來到我們這裡,因此有了多模態或多模態這個詞。

請思考一下這個場景:在一個有風的夜晚,你在床上聽到一種詭異的聲音👻😨。你感到有點害怕,因為你不清楚聲音的來源。你試圖鼓起勇氣檢查一下週圍環境,但你無法弄清楚😱。你大膽地開啟燈,結果發現那只是你的窗戶半開著,風從那裡吹進來,最初發出了聲音😒。

那麼這裡發生了什麼?最初,由於你對環境的瞭解有限,你對情況的理解受到限制。這種有限的瞭解是因為你只依賴於你的耳朵(詭異的聲音)來理解。但是,當你開啟房間的燈並透過眼睛環顧四周(增加了另一種感官)時,你對整個情況有了更好的理解。隨著我們不斷增加模態,我們對同一場景的理解變得比以前更好、更清晰,這表明在同一情況下新增更多模態會相互輔助並提高資訊內容。即使在學習這門課程並繼續前進時,你難道不喜歡酷炫的資訊圖表,以及解釋細微概念的影片內容,而不是僅僅是純文字內容嗎?😉 請看

Multimodality Notion

這是一張關於多模態以及為何透過不同模態捕捉資料整體意義很重要的資訊圖。這張資訊圖本身也是多模態的(影像+文字)。

很多時候,兩個人之間的文字交流會變得非常尷尬,當涉及語音時略有改善,但當您能夠視覺化肢體語言和麵部表情時,交流會大大改善。美國心理學家阿爾伯特·梅拉比安對此進行了詳細研究,並將其稱為溝通的7-38-55法則,該法則指出:“在溝通中,7%的整體意義透過口頭模式(口語)傳達,38%透過聲音和語調傳達,55%透過肢體語言和麵部表情傳達。”

更一般地說,在人工智慧領域,7% 的意義透過文字模態傳達,38% 透過音訊模態傳達,55% 透過視覺模態傳達。在深度學習的背景下,我們將每種模態視為資料到達深度學習模型進行處理和預測的方式。深度學習中最常用的模態是:視覺、音訊和文字。其他模態也可以根據特定用例進行考慮,例如雷射雷達、腦電圖資料、眼動追蹤資料等。

單模態模型和資料集純粹基於單一模態,並且已經與許多工和基準一起研究了很長時間,但它們的能力有限。依賴單一模態可能無法給我們提供完整的圖景,結合更多模態將增加資訊內容並減少遺漏其中可能存在的線索的可能性。為了使我們周圍的機器更智慧,更好地與我們溝通,並增強解釋和推理能力,圍繞本質上是多模態的模型和資料集構建應用程式和服務非常重要。因為多模態可以為我們提供周圍世界更清晰、更準確的表示,從而使我們能夠開發更接近真實世界場景的應用程式。

常見的模態組合和真實生活示例

  • 視覺 + 文字:資訊圖表、表情包、文章、部落格。
  • 視覺 + 音訊:與朋友的 Skype 通話,兩人對話。
  • 視覺 + 音訊 + 文字:觀看帶字幕的 YouTube 影片或電影,通常社交媒體內容都是多模態的。
  • 音訊 + 文字:語音筆記,帶歌詞的音樂檔案。

多模態資料集

由多種模態組成的資料集稱為多模態資料集。在常見的模態組合中,讓我們看一些例子

現在,讓我們看看可以使用多模態資料集執行哪些任務。有很多例子,但我們通常會關注包含視覺和文字元素的任務。多模態資料集需要一個能夠處理來自多種模態資料的模型。這樣的模型稱為多模態模型。

多模態任務和模型

每種模態都有與之相關的不同任務,例如:視覺下游任務包括影像分類、影像分割、目標檢測等,我們將使用專門為這些任務設計的模型。因此,任務和模型是相輔相成的。如果一個任務涉及兩種或多種模態,則可以將其稱為多模態任務。如果我們將任務從輸入和輸出的角度來看,多模態任務通常可以被認為是具有不同模態輸入和輸出的單一輸入/輸出安排。

Hugging Face 支援各種多模態任務。讓我們來看看其中一些。

Hugging Face 支援的一些多模態任務及其變體

  1. 視覺 + 文字
  • 視覺問答或 VQA:輔助視障人士,高效影像檢索,影片搜尋,影片問答,文件 VQA。
  • 影像到文字:影像字幕,光學字元識別 (OCR),Pix2Struct。
  • 文字到影像:影像生成。
  • 文字到影片:文字到影片編輯,文字到影片搜尋,影片翻譯,文字驅動的影片預測。
  1. 音訊 + 文字

💡多模態任務的一個驚人用例是多模態情感識別(MER)。MER 任務涉及從兩種或更多模態中識別情感,例如音訊+文字、文字+視覺、音訊+視覺或視覺+文字+音訊。正如我們在示例中討論的,MER 比單模態情感識別更有效,並對情感識別任務提供了清晰的洞察。請檢視 此儲存庫以瞭解更多關於 MER 的資訊。

Multimodal model flow

多模態模型是一種可以同時處理來自多種模態的資料來執行多模態任務的模型。這些模型結合了不同模態的獨特性和優勢,以建立完整的資料表示,從而提高多工效能。多模態模型經過訓練,可以整合和處理來自影像、影片、文字、音訊等來源的資料。結合這些模態的過程始於多個單模態模型。這些單模態模型的輸出(編碼資料)然後透過融合模組使用策略進行融合。融合策略可以是早期融合、後期融合或混合融合。融合模組的總體任務是建立來自單模態模型的編碼資料的組合表示。最後,分類網路接收融合的表示以進行預測。

下一章將詳細討論多模態任務和模型,重點關注視覺和文字。

多模態的應用:多模態搜尋 🔎📲💻

網際網路搜尋曾是谷歌的關鍵優勢,但隨著 OpenAI 推出 ChatGPT,微軟開始為他們的必應搜尋引擎提供動力,以便能夠碾壓競爭對手。最初,它僅限於大型語言模型,檢視大量文字資料,但我們周圍的世界,主要是社交媒體內容、網路文章和所有可能的線上內容,大多是多模態的。當我們搜尋圖片時,圖片會彈出並附帶相應的文字描述。如果能有一個更強大的多模態模型,同時涉及視覺和文字,那豈不是很酷?這可以極大地革新搜尋領域,而其核心技術就是多模態學習。我們知道許多公司也有一個龐大多模態且大多是非結構化的資料庫。多模態模型可能會幫助公司進行內部搜尋、互動式文件(聊天機器人)以及許多此類用例。這是企業 AI 的另一個領域,我們利用 AI 來實現組織智慧。

視覺語言模型 (VLM) 是能夠理解和處理視覺和文字模態的模型。對兩種模態的聯合理解使 VLM 能夠高效地執行各種任務,例如視覺問答、文字到影像搜尋等。因此,VLM 可以作為多模態搜尋的最佳候選者之一。總而言之,VLM 應該找到某種方式將文字和影像對對映到聯合嵌入空間,其中每個文字-影像對都作為嵌入存在。我們可以使用這些嵌入執行各種下游任務,這些嵌入也可以用於搜尋。這種聯合空間的思想是,含義相似的影像和文字嵌入將彼此靠近,從而使我們能夠基於文字搜尋影像(文字到影像搜尋),反之亦然。

💡Meta 釋出了第一個多模態人工智慧模型,它結合了來自 6 種不同模態的資訊:影像和影片、音訊、文字、深度、熱力以及慣性測量單元 (IMU)。在此處瞭解更多資訊:此處

在學習了多模態的基礎知識之後,現在讓我們透過酷炫的演示和 Space 來了解 Hugging Face 中可用的不同多模態任務和模型及其應用。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.