社群計算機視覺課程文件

數字處理中的影像採集基礎

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

數字處理中的影像採集基礎

數字處理中的影像採集是將物理現象(我們在現實生活中看到的東西)轉化為數字表示(我們在計算機中看到的東西)的第一步。它始於照明源與被成像物件之間的相互作用。這種照明可以是各種型別,從傳統光源到更復雜的形式,如電磁或超聲波能量。這種相互作用導致能量從場景中的物體反射或穿透。這種能量被感測器捕獲,感測器將一種形式的能量轉換為另一種形式(即感測器將入射能量轉換為電電壓)。然後,電壓訊號被數字化,從而產生數字影像。為此,我們需要先進的技術和精確的校準,以確保我們能夠準確地表示物理場景。在接下來的部分中,我們將探討其中一些技術。

 The first photograph of Moon by Ranger 7 in 1964 (Courtesy of NASA)

感測器技術及其在影像採集中的作用

如前所述,數字成像的第一步是感測器。為了建立二維影像,單個感測元件(如光電二極體)沿 x 和 y 軸移動。相比之下,更常見的感測器條帶沿一個方向線性捕獲影像。因此,為了獲得完整的二維影像,這些條帶垂直移動。這項技術常見於平板掃描器等裝置以及機載成像系統中。在更專業的應用中,如醫學成像(例如,CT 掃描),使用環形配置的感測器條帶。這些設定涉及複雜的重建高階演算法,以將捕獲的資料轉換為有意義的影像。

感測器陣列,例如數碼相機中的 CCD,由二維感測元件陣列組成。它們無需移動即可捕獲完整的影像,因為每個元件都檢測場景的一部分。這些陣列具有優勢,因為它們不像單個感測元件和感測器條帶那樣需要移動來捕獲影像。捕獲的能量聚焦到感測器陣列上,轉換為模擬訊號,然後數字化以形成數字影像。

數字影像的形成與表示

數字影像形成的核心函式是f(x,y)f(x,y),它由照明源i(x,y)i(x,y)和場景的反射率r(x,y)r(x,y)確定。

Image acquisition by collecting the reflected light from the scene

在基於透射的成像中,例如 X 射線,透射率取代了反射率。影像的數字表示本質上是一個數值矩陣或陣列,每個數值對應一個畫素。將連續影像資料轉換為數字格式的過程是雙重的

  • 取樣,將座標值數字化。
  • 量化,將幅度值轉換為離散量。

數字影像的解析度和質量在很大程度上取決於以下因素

  • 使用的樣本數量和離散強度級別。
  • 成像系統的動態範圍,即最大可測量強度與最小可檢測強度之比。這在影像的外觀和對比度中也起著關鍵作用。
The first digital photograph by Russell A. Kirsch in 1957

數字成像中的解析度理解

空間解析度是指影像中可區分的最小細節,通常以每單位距離的線對或每單位距離的畫素來衡量。空間解析度的意義取決於上下文,並根據所使用的空間單位而變化。例如,2000 萬畫素的相機通常比 800 萬畫素的相機提供更高的細節解析度。強度解析度與可檢測到的最小強度變化有關,通常受限於硬體的能力。它以二進位制增量量化,例如 8 位或 256 級。對這些強度變化的感知受多種因素影響,包括噪聲、飽和度以及人類視覺的能力。

The illustration of image resolution

影像恢復和重建技術

影像恢復著重於利用降級現象的知識來恢復降級影像。它通常涉及對降級過程進行建模,並應用逆過程來恢復原始影像。

An example for image restoration where the image is restored and colorized

相比之下,影像增強更為主觀。它旨在改善影像的視覺外觀。恢復技術包括處理噪聲等問題,這些噪聲可能在影像採集或傳輸過程中源自各種來源。在這種情況下,自適應和非自適應高階濾波器因其降噪能力而被使用。在醫學成像中,特別是在計算機斷層掃描(CT)中,從投影重建影像是一個關鍵應用。

The first photograph of a person Louis Daguerre, 1838 at the Boulevard du Temple, in Paris

影像處理中的色彩

顏色是影像處理中強大的描述符。它在目標識別和辨識中發揮作用。彩色影像處理包括偽彩色和全綵色處理。

The first colour photograph by James Clerk Maxwell in 1861 using 3 colour filters

偽彩色處理將顏色分配給灰度強度,而全綵色處理使用來自感測器的實際顏色資料。理解顏色的基礎,包括人類顏色感知、色譜和色光的屬性是關鍵。顏色的基礎涉及人類視覺的三原色性質,即感知紅色、綠色和藍色。另一方面,顏色感知是我們眼睛中三種視錐細胞受刺激的方式。最後,色譜是電磁波譜中引起不同視覺感覺的波長範圍。

不同的色彩模型,例如用於顯示器和相機的 RGB 以及用於列印的 CMY/CMYK,在數字成像中標準化了色彩表示。在 RGB 色彩模型中,影像有三個分量(即通道),分別用於紅色、綠色和藍色。RGB 影像中的畫素深度決定了可能的顏色數量,典型的全綵色影像具有 24 位深度(每個顏色分量 8 位)。這允許超過 1600 萬種可能的顏色!RGB 色彩立方體表示該模型中可實現的顏色範圍,灰度從黑色延伸到白色。

Figure 9: The colour channels of an image

影像壓縮

資料壓縮減少了表示資訊所需的資料量。它區分了資料(傳遞資訊的手段)和資訊本身。它針對冗餘,即不相關或重複的資料。例如,10:1 的壓縮比表示 90% 的資料冗餘。

在數字影像壓縮中,特別是二維強度陣列,主要有三種冗餘型別

  • 編碼冗餘:編碼冗餘在影像中尤其普遍,其中強度值的分佈並非均勻地分佈在所有可能的值上,這表示為非均勻直方圖。在此類影像中,某些強度值比其他值出現得更頻繁,但自然二進位制編碼為每個強度值分配相同的位數,無論其頻率如何。這意味著常見值並未比稀有值編碼得更高效,導致位的使用效率低下,從而產生編碼冗餘。理想情況下,應該為更頻繁的值分配較短的編碼,為較不頻繁的值分配較長的編碼,以最小化使用的位數,這在非均勻直方圖的自然二進位制編碼中並非如此。
  • 空間和時間冗餘:空間和時間冗餘出現在影像內或影片幀間的相關畫素值中。
  • 無關資訊:無關資訊包括人類視覺系統忽略或對影像目的不必要的資料。

高效編碼考慮事件機率,例如影像中的強度值。像遊程編碼這樣的技術可以減少具有恆定強度線的影像中的空間冗餘,從而顯著壓縮資料。類似地,可以解決影片序列中的時間冗餘。然而,移除無關資訊會導致量化,這是一種不可逆的量化資訊損失。資訊理論,以及熵等概念,有助於確定準確影像表示所需的最小資料量。壓縮後的影像質量透過客觀保真度標準(輸入和輸出的數學函式)和主觀保真度標準(人類評估)進行評估。

影像壓縮系統使用編碼器和解碼器。編碼器透過對映(減少空間/時間冗餘)、量化(丟棄無關資訊)和符號編碼(為量化器輸出分配程式碼)來消除冗餘。解碼器逆轉這些過程,除了量化。影像檔案格式、容器以及 JPEG 和 MPEG 等標準用於資料組織和儲存。霍夫曼編碼是消除編碼冗餘的一種著名方法,透過首先編碼最不可能的源符號來建立高效表示。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.