社群計算機視覺課程文件
什麼是計算機視覺
並獲得增強的文件體驗
開始使用
什麼是計算機視覺
讓我們回顧一下上一章的例子:踢球。正如我們所見,這涉及到我們大腦可以在瞬間完成的多個任務。從影像輸入中提取有意義的資訊是計算機視覺的核心。但是,什麼是計算機視覺?
定義
計算機視覺是使機器“看見”的科學和技術。它涉及開發理論和演算法方法來獲取、處理、分析和理解視覺資料,並利用這些資訊產生對世界的有意義的表示、描述和解釋(Forsyth & Ponce, Computer Vision: A Modern Approach)。

深度學習與計算機視覺的復興
計算機視覺的演進伴隨著其跨學科領域的一系列漸進式發展,每一步都帶來了突破性的演算法、硬體和資料,賦予它更大的能力和靈活性。其中一個巨大的飛躍是深度學習方法的廣泛應用。
最初,為了從影像中提取和學習資訊,您需要透過影像預處理技術(計算機視覺任務的預處理)提取特徵。一旦您擁有一組描述影像的特徵,您就可以在您的特徵資料集上使用經典的機器學習演算法。這是一種已經簡化了硬編碼規則的策略,但它仍然依賴於領域知識和詳盡的特徵工程。當深度學習方法和大型資料集相結合時,一種更先進的方法就出現了。深度學習(DL)允許機器從原始資料中自動學習複雜的特徵。這種正規化轉變使我們能夠構建更具適應性和複雜性的模型,從而在該領域引發了一場復興。
計算機視覺的種子早在1960年代深度學習模型興起之前就已經播下,像大衛·馬爾和漢斯·莫拉維克這樣的先驅者們都在努力解決一個基本問題:我們能否讓機器看見?早期的突破,如邊緣檢測演算法、物體識別,是透過巧妙的組合和蠻力實現的,這為計算機視覺系統的發展奠定了基礎。隨著時間的推移,研究和開發不斷進步,硬體能力不斷提高,計算機視覺社群呈指數級增長。這個充滿活力的社群由來自全球各地、來自各個學科的研究人員、工程師、資料科學家和充滿熱情的愛好者組成。透過開源和社群驅動的專案,我們正在見證尖端工具和技術的民主化訪問,這有助於在該領域掀起一場復興。
與其他領域的交叉和影像理解
正如很難將人工智慧與計算機視覺嚴格區分開來一樣,也很難將計算機視覺與其鄰近領域區分開來。以影像預處理和分析為例。一個初步的區分是,影像分析的輸入和輸出始終是影像。然而,這是一種短視的看法。即使是簡單的任務,例如計算影像的中值,也屬於計算機視覺的範疇。為了闡明它們的區別,我們必須引入一個影像理解的新概念。
影像理解是對影像內容進行理解的過程。它可以分為三個不同的層次:
低階處理是對影像進行原始操作(例如影像銳化、改變對比度)。輸入和輸出都是影像。
中級處理包括分割、物體描述和物體分類。資訊是影像,但結果是與影像相關的屬性。這可以透過影像預處理和機器學習演算法的組合來完成。
高階處理包括理解整個影像的含義,例如特定物件的識別、場景重建和影像到文字的轉換。這些任務通常與人類認知相關聯。
影像分析主要關注低階和中級處理。然而,計算機視覺對中級和高階處理都感興趣。因此,影像分析和計算機視覺在中級處理方面存在重疊。
記住這一點至關重要,因為在資料稀缺或影像簡單的場景中,投入資源開發複雜的模型(例如神經網路)可能並不合適。從商業角度來看,模型開發耗費時間和金錢;因此,有必要知道何時使用正確的工具。
在轉向更穩健的模型之前,通常會結合“預處理”部分。另一方面,有時神經網路的層會自動執行這些任務,從而無需顯式預處理。對於熟悉資料科學的人來說,影像分析可以作為第一個探索性資料分析步驟。最後,經典的影像分析方法也可以用於資料增強,以提高計算機視覺模型訓練資料的質量和多樣性。
計算機視覺任務概述
我們之前已經看到,計算機視覺對於計算機來說確實很難,因為它們沒有先前的世界知識。在我們的例子中,我們開始知道球是什麼,如何跟蹤它的運動,物體通常如何在空間中移動,如何估計球何時會到達我們這裡,你的腳在哪裡,腳如何移動,以及如何估計你需要用多大的力才能踢到球。如果我們將其分解為特定的計算機視覺任務,我們將有:
- 場景識別
- 物體識別
- 物體檢測
- 分割(例項分割、語義分割)
- 跟蹤
- 動態環境適應
- 路徑規劃
您將在《計算機視覺任務》一章中閱讀更多關於計算機視覺核心任務的內容。但計算機視覺可以做更多工!這裡有一個不完全列表:
- 影像字幕
- 影像分類
- 影像描述
- 異常檢測
- 影像生成
- 影像修復
- 自主探索
- 定位
任務複雜度
在影像分析和計算機視覺領域,一個給定任務的複雜性並非僅僅取決於問題或任務在知情受眾看來多麼崇高或困難。相反,它主要取決於所分析影像或資料的屬性。以影像中行人識別任務為例。對於人類觀察者來說,這可能看起來直接且相對簡單,因為我們擅長識別人。然而,從計算角度來看,該任務的複雜性會因光照條件、遮擋的存在、影像解析度和相機質量等因素而顯著變化。在低光照條件或畫素化影像中,即使是看似基本的行人檢測任務,對於計算機視覺演算法來說也可能變得異常複雜,需要先進的影像增強和機器學習技術。因此,影像分析和計算機視覺的挑戰通常不在於任務固有的高尚性,而在於視覺資料的複雜性以及從中提取有意義見解所需的計算方法。
計算機視覺應用連結
作為一個領域,計算機視覺在社會中日益重要。其應用涉及到許多倫理考量。例如,一個用於檢測癌症的模型,如果將癌症樣本誤判為健康樣本,可能會產生可怕的後果。監控技術,例如能夠跟蹤人員的模型,也引發了許多隱私問題。這些將在“第12單元 - 倫理與偏見”中詳細討論。我們將在“計算機視覺的應用”中向您展示一些其酷炫的應用。
< > 在 GitHub 上更新