社群計算機視覺課程文件

視覺

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

視覺

我們大多數人都知道陽光是地球生命得以維繫的原因,但你是否曾想過這如何塑造了我們的生活?首先,地球上幾乎所有生物都有某種方式來感知它(甚至一些細菌和單細胞生物)。人類也擁有這種能力,但我們有一個更復雜的系統來與光線互動。我們透過晶狀體捕捉光線,然後光線在我們的眼睛中發出電訊號,該訊號透過纜線般的結構(我們的神經系統)傳遞,然後在我們的大腦中重建該訊號,告訴我們周圍環境的樣子。

這個過程就是我們所說的視覺。它是我們進化的一個基本步驟。它如此重要,以至於科學家們提出假說,認為中樞神經系統(最終導致我們擁有大N)的發展緊隨視覺的出現。這很有道理,如果沒有捕獲如此大量資訊的感測器,為什麼要浪費資源來製造開發它所需的機器呢?

視覺對人類的重要性

Watercolor image of three people in a park playing with a ball

如果你曾不假思索地踢過球,你的大腦會在瞬間無意識地執行無數任務。它正確識別球,跟蹤其運動,預測其軌跡,計算球到達你所在位置的速度,預測你腳的軌跡,調整擊球的力度和角度,並從你的大腦向你的腳傳送訊號以改變其位置。將影像作為輸入(在這種情況下,是視網膜捕捉到的訊號)並將其轉化為資訊(踢球)是計算機視覺的核心。我們將在下一章詳細介紹這一點。

令人震驚的是,我們不需要任何正規教育就能做到這一點。我們日常做的大多數決定都不需要上課。沒有“心算101”能估計踢球所需的腳力。我們是在成長過程中透過反覆試驗學到的。而有些人可能根本就沒學會。這與我們構建程式的方式形成了鮮明對比。程式大多是基於規則的。

讓我們嘗試複製我們大腦所做的第一個任務:檢測影像中是否存在一個球。一種方法是定義什麼是球,然後在影像中窮盡地搜尋。定義什麼是球實際上很困難。球可以小如網球,也可以大如悠波球,所以尺寸幫不了我們太多。我們可以嘗試描述它的形狀,但有些球,比如橄欖球,並不總是完美的球形。也不是所有球形的東西都是球,否則泡泡、糖果,甚至我們的星球都會被認為是球。

Balls

純程式設計方法 vs 機器學習方法

我們可以暫時定義為“球是一種用於運動或玩耍的球形物體”。這看起來很正確,但我們又遇到了另一個問題。你怎麼知道他們在進行體育運動?你用什麼來檢測他們在進行體育運動?如果是一隻狗帶著一個球呢?那不是球嗎?如果是一個球自己在那兒,沒有人,也沒有運動呢?那羽毛球呢?它是一種我們用來玩的,不完全是球形的物體,但我們不認為它是球。所有這些細微差別加起來,使得人類無意識解決的一個簡單問題,已經很難分解成簡單的規則了。

我們自己知道這些事情。這種隱含的理解來自於我們多年來構建的關於球是什麼樣子的心理影像。雖然羽毛球不符合球的心理影像,但很難解釋為什麼。這不僅僅是因為它的大小或羽毛。有類似大小的球,即使我們用羽毛覆蓋一個球,我們仍然會把它識別為球。

A ball covered with feathers

所有這一切都是為了向你展示,我們區分物體的能力超越了嚴格的定義;我們經常從相關概念中進行概括,並依賴於上下文線索。當一個熟悉的概念呈現出不同的形式時,我們仍然可以毫無明顯不適地識別它——這種能力對我們來說是自然的。然而,它並非固化在由僵化、硬編碼規則所支配的系統中。

這強調了對更強大系統的必要性——這些系統能夠適應各種場景。這就是為什麼這個領域與人工智慧如此密切相關。視覺是情境豐富的,我們需要能夠像我們一樣利用這些線索的模型。

以印第安納瓊斯被一塊巨石追趕為例。有一個球,也有人在跑,但很少有人會稱之為一項運動!我們之所以知道這一點,是因為我們依賴一些上下文線索。印第安納瓊斯逃跑的那個球看起來很重,有他兩倍大。他的臉上流露出痛苦。空間非常狹窄,看起來像一個洞穴,這對於體育運動來說很不尋常。此外,我們認出了他的服裝,那通常不是運動員的穿著方式。

建立能夠模擬人類視覺和認知的AI系統的動機

儘管輸入和輸出相似,但人類視覺和計算機視覺是不同的過程。有時它們會重疊。然而,計算機視覺主要關注開發和理解視覺系統中的演算法、模型及其決策。它不限於建立複製人類視覺的系統。它可用於人類來說過於繁瑣、耗時、昂貴或容易出錯的問題。我們的球的例子仍然很簡單,你可能認為它不是很有用。然而,能夠跟蹤球的模型可用於體育賽事,在比賽中提供更快、更公平的判決。隨著影像到文字和文字到語音模型的普及,我們還可以透過自動跟蹤球及其球員並即時描述,使視力障礙人士更容易觀看體育直播。因此,即使是簡單的用例也能對社會產生積極影響。我們將在第3節中詳細討論這一點。

我們正處在人工智慧復興的邊緣。這是一個我們可以自由訓練、部署和共享模型,並且我們的模型能夠檢測到我們自己看不到的影像中事物的時刻。

計算機視覺的極限也得到了拓展。我們現在可以從文字生成影像,從影像生成描述性文字。而且我們可以在智慧手機上做到這一點。計算機視覺應用無處不在。可能性等待我們探索,這正是我們將在本課程中要做的事情。

我們歡迎您進入計算機視覺領域。請入座。享受這段旅程。它將是令人驚歎的。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.