社群計算機視覺課程文件

影像

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

影像

在一門計算機視覺課程中,我們要向你解釋什麼是影像,這聽起來可能有點奇怪。想必你之所以來到這裡,正是因為你想更多地瞭解如何處理影像和影片格式。這似乎是件小事,但你將會大吃一驚!當談到影像時,其內涵遠比肉眼所見要豐富得多(一語雙關)。

影像的定義

影像是一個物體、一個場景、一個人甚至一個概念的視覺表現。它們可以是照片、繪畫、素描、示意圖、掃描圖等等!更令人驚訝的是,影像也是一個函式。更確切地說,影像是一個 n 維函式。我們首先將其視為二維n=2n=2的情況。我們稱之為F(X,Y)F(X,Y),其中,其中是空間座標。不要被這個花哨的名字迷惑了。空間座標只是我們用來描述物理空間中物體位置的系統,其中最常見的是二維笛卡爾座標系。函式 F 在座標對xi,yix_i, y_i上的振幅是影像在該點的強度或灰度。強度決定了你對明暗的感知。通常,當我們有一個座標對x1x_1時,我們稱之為畫素(影像元素)。

影像是離散的,而生成影像的過程是連續的。影像生成過程將在下一章討論。現在,重要的是FF在特定座標處的值具有物理意義。該函式F(X,Y)F(X,Y)由兩個部分來表徵:來自光源的光照量和場景中物體反射的光照量。強度影像的強度也受到限制,因為該函式通常是非負的,並且其值是有限的。

這並不是建立影像的唯一方式。有時,影像是由計算機在有人工智慧幫助或沒有幫助的情況下生成的。我們有一個專門的章節來討論那些有人工智慧稍加幫助生成的影像。我們在這裡介紹的大多數術語仍然適用。

另一種型別的影像是體積影像或 3D 影像。3D 影像的維數等於三。因此,我們有一個F(X,Y,Z)F(X,Y,Z)函式。我們的大部分推理仍然適用,唯一的區別是三元組xi,yi,zix_i,y_i,z_i被稱為體素(體積元素)。這些影像可以在 3D 空間中採集;也就是說,這些影像以一種可以在 3D 空間中重建的方式被採集。這類影像的例子包括醫學掃描、磁共振和某些型別的顯微鏡。從 2D 影像重建 3D 影像也是可能的。重建是一項具有挑戰性的任務,我們也有一個專門的章節來討論它。

現在我們已經討論了空間,我們可以談談顏色了。好訊息是,你可能也聽說過影像通道。你可能不明白它們的意思,但別擔心!影像通道就是構成影像的不同顏色分量。參考F(X,Y)F(X,Y),我們將有FF針對每個顏色分量。每種顏色都有其自己的強度級別。對於一個捕捉紅色的通道來說,高強度意味著顏色非常紅,而低強度意味著其中幾乎沒有紅色。

如果你只看F(x,y)F(x,y)對於一種顏色,其範圍從 0 到 255,其中 0 代表沒有強度,255 代表最大強度。在不同的顏色系統中,組合這些值的方式可能會有所不同。因此,在解釋這些值時,瞭解你的資料來源非常重要。

有一些特殊型別的影像,其座標F(xi,yi)F(x_i,y_i)描述的不是強度值,而是給畫素打上標籤。產生這類影像的最簡單操作是分離前景和背景。所有屬於前景的畫素都被標記為 1,而所有屬於背景的畫素則被標記為 0。這類影像通常被稱為標籤影像。當只有兩個標籤時,就像我們的例子一樣,我們稱之為二值影像或掩碼(mask)。

你可能聽說過 4D 甚至 5D 影像。這個術語主要由生物醫學領域的人員和顯微鏡專家使用。同樣,別擔心!這個命名來自於那些隨時間、使用不同通道或不同成像模式(例如照片和 X 射線)對體積資料進行成像的人們。其思想是,每一個新的資訊來源都成為一個額外的維度。因此,一個 5D 影像就是一個隨時間(4D)並使用不同通道(5D)成像的體積影像(3D)。

但是影像在計算機中是如何表示的呢?最常見的是透過矩陣。將影像想象成一個二維數值陣列是很容易的。這是一個優勢,因為計算機處理陣列非常高效。將矩陣視為影像有助於理解卷積神經網路和影像預處理中的一些過程。我們稍後會看到更多細節。

另外,影像也可以表示為圖(graph),其中每個節點是一個座標,而邊是相鄰的座標。花點時間消化一下這個概念。這也意味著用於圖的演算法和模型也可以用於影像!反之亦然——你可以將一個圖轉換成一個影像,並像分析圖片一樣分析它。

到目前為止,我們提出了一個相當靈活的影像定義。這個定義可以容納獲取視覺資料的不同方式,但它們都突出了同一個關鍵方面:影像是包含大量空間資訊的資料點。關鍵的區別在於空間解析度(2D 或 3D)、顏色系統(RGB 或其他),以及它們是否附加了時間分量。

影像與其他資料型別的對比

影像與影片的區別

如果你一直有在認真聽,你可能已經理解了影片是帶有時間分量的影像視覺表現。對於 2D 影像採集,你可以新增一個時間維度,這樣F(X,Y,T)F(X,Y,T)就成了你的成像函式。

影像自然可以有一個隱藏的時間分量。畢竟,它們是在一個特定的時間點拍攝的,並且不同的影像在時間上也可能相關。然而,影像和影片在取樣這種時間資訊的方式上有所不同。影像是在單個時間點的靜態表示,而影片是一系列影像以一定的速率播放,從而產生運動的錯覺。這個速率就是我們所說的每秒幀數(frames per second)。

這一點非常重要,以至於本課程有一個專門的章節來討論影片。在那裡,我們將討論處理這個新增維度所需的適應性調整。

影像與表格資料的對比

在表格資料中,維度通常由描述一個數據點的特徵(列)數量來定義。在視覺資料中,維度通常指描述你資料的維數。對於一個 2D 影像,我們通常將數字xix_i稱為影像大小。

另一個方面是生成描述視覺資料的特徵。這些特徵可以透過傳統的預處理或透過深度學習方法學習得到。我們稱之為特徵提取。它涉及在特徵提取章節中更詳細討論的不同演算法。這與表格資料的特徵工程形成對比,後者是在現有特徵的基礎上構建新特徵。

表格資料通常需要處理缺失值、編碼分類變數和重新縮放數值特徵。影像資料的類似過程是影像大小調整和強度值歸一化。我們稱這些過程為預處理,我們將在“計算機視覺的預處理”一章中更詳細地討論它們。

主要區別

下表總結了不同資料型別的主要方面。

特性 影像 影片 音訊 表格資料
1 型別 單個時間點 隨時間變化的影像序列 單個時間點 按行和列組織的結構化資料
2 資料表示 通常是二維畫素陣列 通常是三維幀陣列 通常是一維音訊樣本陣列 通常是二維陣列,特徵為列,單個數據樣本為行(例如電子表格、資料庫表)
3 檔案型別 JPEG、PNG、RAW 等 MP4、AVI、MOV 等 WAV、MP3、FLAC 等 CSV、Excel (.xlsx, .xls)、資料庫格式等
4 資料增強 翻轉、旋轉、裁剪 時間抖動、速度變化、遮擋 新增背景噪音、混響、頻譜操縱 ROSE、SMOTE、ADASYN
5 特徵提取 邊緣、紋理、顏色 邊緣、紋理、顏色、光流、軌跡 頻譜圖、梅爾頻率倒譜系數 (MFCCs)、色度特徵 統計分析、特徵工程、資料聚合
6 學習模型 CNNs RNNs, 3D CNNs CNNs, RNNs 線性迴歸、決策樹、隨機森林、梯度提升
7 機器學習任務 影像分類、分割、目標檢測 影片動作識別、時序建模、跟蹤 語音識別、說話人識別、音樂流派分類 迴歸、分類、聚類
8 計算成本 成本較低 成本較高 中到高 通常比其他型別成本低
9 應用 用於安全門禁的人臉識別 用於即時通訊的手語翻譯 語音助手、語音轉文字、音樂流派分類 預測建模、欺詐檢測、天氣預報
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.