社群計算機視覺課程文件
計算機視覺任務的預處理
並獲得增強的文件體驗
開始使用
計算機視覺任務的預處理
既然我們已經瞭解了影像是什麼、如何獲取以及它們的影響,現在是時候瞭解我們可以執行哪些操作以及它們在模型構建過程中如何使用。
數字影像處理中的操作
在數字影像處理中,影像操作多種多樣,可分為:
- 邏輯操作
- 統計操作
- 幾何操作
- 數學操作
- 變換操作
每個類別都包含不同的技術,例如邏輯操作下的形態學操作或變換操作下的傅立葉變換和主成分分析 (PCA)。在這種背景下,形態學是指透過檢視畫素鄰域的值來生成相同大小影像的操作組。理解逐元素操作和矩陣操作的區別在影像處理中很重要。逐元素操作,例如將影像提升到某個冪或將其除以另一影像,涉及單獨處理每個畫素。這種基於畫素的方法與矩陣操作形成對比,矩陣操作利用矩陣理論進行影像處理。話雖如此,您可以對影像進行任何操作,因為它們是包含數字的矩陣!
影像處理中的數學工具
數學工具在數字影像處理中不可或缺。例如,集合論對於理解和執行影像操作,特別是二值影像,至關重要。在這些影像中,畫素通常被分為前景 (1) 或背景 (0)。在集合論中,並集和交集等操作決定了畫素座標所表示特徵之間的關係。強度變換和空間濾波是其他數學工具。它們側重於操縱影像中的畫素值,其中運算子應用於單個影像或一組影像,用於各種目的,例如降噪。
空間濾波技術與影像增強
空間濾波在影像處理中涵蓋了廣泛的應用,主要是透過根據每個畫素鄰近畫素的值來改變其值來修改影像。技術包括線性空間濾波器,它可以模糊(低通濾波器)或銳化(高通濾波器)影像。對比了不同濾波器核的屬性和應用,例如高斯濾波器和盒式濾波器。銳化濾波器強調強度轉換,並且通常透過數字微分技術(如拉普拉斯運算元)實現,突出影像中的邊緣和不連續性。
資料增強
資料增強在提高用於影像分類的卷積神經網路 (CNN) 的效能和泛化能力方面起著關鍵作用。此過程涉及透過對資料點進行修改,無論是透過細微的改變還是透過使用深度學習技術生成新資料,從而人工擴充套件訓練資料集。
增強資料是透過對現有資料應用幾何和顏色空間變換等修改來建立的,從而以各種形式豐富原始資料集。相反,合成數據是全新的,並使用深度神經網路 (DNN) 和生成對抗網路 (GAN) 等高階技術從頭開始生成,進一步增加了資料集的多樣性和數量。這兩種方法都顯著擴充套件了可用於訓練機器學習模型的資料的數量和種類。資料增強不僅適用於影像,還適用於音訊、影片、文字和其他資料型別。這對於訓練資料有限的場景非常有利。它提高了模型準確性,防止過擬合,並降低了與資料標註和清理相關的成本。然而,原始資料集偏差的持續存在以及質量保證的高成本等挑戰依然存在。
在實踐中,資料增強技術因資料型別而異。對於音訊,這包括噪聲注入和音高調整;對於文字,使用單詞打亂和句法樹操作等方法。影像增強涉及翻轉、裁剪和應用核心濾波器等變換。神經風格遷移和使用 GAN 生成新資料點等高階技術進一步擴充套件了其能力。這些方法在醫療保健領域的醫學成像、使用合成數據的自動駕駛汽車以及自然語言處理(特別是在資源匱乏的語言場景中)等領域發揮著重要作用。特定的影像增強實踐,例如隨機旋轉、亮度調整、平移、翻轉和縮放,是使用 Pytorch、Augmentor、Albumentations、Imgaug 和 OpenCV 等工具實現的。這些工具促進了從高斯噪聲到透視傾斜等一系列增強,滿足了各種機器學習需求。
資料增強的重要性在 CNN 影像分類背景下尤為明顯。通常用於初始 CNN 訓練的標準化資料集,由於其充足的樣本量和由此產生的模型準確性,設定了很高的期望。然而,當這些模型應用於實際問題時,經常觀察到效能差距,這強調了對更廣泛和更多樣化資料的需求。資料增強透過將資料集中的影像數量乘以顯著的因子來彌補這一差距,而無需額外的資料收集。這不僅增加了資料集大小,還引入了可變性,增強了訓練過程的魯棒性。透過在模型訓練期間實施批次增強,它還可以節省磁碟空間,因為無需儲存轉換後的影像。
總的來說,資料增強不僅僅是資料集擴充套件的一種方法:它是開發用於影像分類任務的有效且實用的 CNN 模型的重要組成部分。透過提高模型效能及其從訓練資料泛化到實際應用的能力,資料增強是深度學習領域的基礎技術,滿足了對更全面、更多樣化資料的永恆需求。
< > 在 GitHub 上更新