社群計算機視覺課程文件
現實生活中的成像
並獲得增強的文件體驗
開始使用
現實生活中的成像
你有沒有試過給一窩小貓拍照?如果沒有,你正在錯過一個美麗而混亂的場景。小貓是可愛的生物,它們會以最瘋狂的方式四處移動。它們會做出最可愛的事情,但這隻會持續半秒鐘,然後它們會以更可愛的事情來超越它。不知不覺中,你正在努力彎腰,只為了把那隻小貓框進畫面,同時改變焦距和相機角度,而與此同時,另一隻小貓正在爬你的腿。你完全沉浸在它們的毛茸茸中,沒有時間檢查照片。當你坐下來檢查它們時。它們。都。只。是。一。片。模糊。手機裡只有一兩張值得儲存的照片。你只能留在那裡想,我以為小貓更上相。
這窩小貓是一個簡單的故事,但它反映了為什麼在現實生活中想象事物如此困難。樣本(包含小貓的場景)通常比相機調整得更快。一個不嘗試跟蹤小貓的固定位置相機也是一個困難的任務,因為我們的目標(小貓)在空間中移動的方式會改變相機的焦點。更換鏡頭來捕捉白色場景也可能導致失真,這取決於物體與相機的距離(參見下面的可愛示例)。感興趣的事件(小貓那一個可愛的姿勢)淹沒在數百張其他相當無趣的照片中。我們的小貓例子很傻,但這些困難也發生在各種其他場景中。成像很難。然而,網際網路上卻充斥著可愛貓咪的照片。

人們很容易認為,如果我們有一臺更好的相機,一臺反應更迅速、解析度更高的相機,那麼所有問題都會迎刃而解。我們將得到我們想要的可愛照片。此外,我們還將利用本課程的知識,不僅僅是捕捉所有可愛的小貓,我們還將希望在保姆攝像頭上建立一個模型,檢查小貓是否仍然和它們的媽媽在一起,這樣我們就能知道它們都安全無恙。聽起來很完美,對吧?
在我們出去購買市場上最新最炫的相機之前,我們以為我們會擁有更好的資料。訓練模型會變得超級容易。我們將擁有一個超級精確的模型。在小貓追蹤市場上表現超凡。這一段是為了引導你走向一個更高效的方向,並可能為你節省大量時間和金錢。更高的解析度並不是解決所有問題的答案。首先,處理影像的典型神經網路模型是卷積神經網路(CNN)。CNNs 期望給定大小的影像。一個大影像需要一個大模型。訓練將花費更長的時間。很可能你的計算機的記憶體也有限。更大的影像尺寸意味著訓練的影像更少,因為每次迭代的記憶體都將受到限制。
顯而易見的解決方案是說我們只要一臺擁有更多GPU和更多記憶體的電腦就行了。這也意味著除了購買相機,你還需要為訓練小貓模型所使用的任何服務支付更多費用。更普遍地說,這並不能反映現實世界的情況。有時,計算機模型的實際應用是GPU和記憶體匱乏的應用。等等,這難道不是我們最初的情況嗎?我們如何將我們的模型融入保姆攝像頭的硬體中?
我們有個主意:我們將嘗試一個更小的模型,使其與大模型具有相同的行為!順便說一句,這是你可以做到的。但即使這樣做,收集最高質量的資料也可能不是一個好主意,僅僅因為它通常需要更長的時間來獲取和傳輸。50GB的小貓照片仍然是50GB的資料。無論其內容多麼可愛。另一個論點是,計算機資源通常是付費的或共享的。在第一種情況下,這可能不是金錢資源的好用處。至於第二種情況,佔用整個伺服器很少是結交朋友的好方法。
甚至有一個更好的理由不去追求最高解析度。與低解析度相比,高解析度可能含有更多的噪聲。解析度不僅會放大你捕捉感興趣訊號的能力,還會放大你捕捉噪聲的能力。因此,在較低解析度影像上學習可能更容易。較低解析度可能有助於更快的訓練、更高的準確性和更便宜的模型,無論是在計算上還是金錢上。這裡的重點是,在影像的噪聲特性以及訓練和部署模型所需的基礎設施允許的情況下,選擇儘可能高的解析度。最後,我們為什麼要一開始就使用高質量相機?如果我們想在保姆攝像機上構建模型,我們不如直接從保姆攝像機獲取圖片。
一切成像
成像技術令人印象深刻的一點是我們對它們的推動力度有多大。我們永不止步。這不僅適用於小貓的照片,也適用於我們周圍的世界。我們天生好奇。正如第一章所見,我們依賴視覺做出決策。當做出艱難決定時,我們希望對其有清晰的視野(並非雙關語)。
毫不奇怪,作為一個物種,我們已經開發出超越肉眼所能捕捉範圍的新方式。我們想看到大自然最初不讓我們看到的東西。我幾乎可以保證,如果外面有什麼東西我們不確定它長什麼樣,就有人在那裡試圖將其成像。
作為人類,我們只看到光譜的一小部分。我們稱之為可見光譜。下圖向我們展示了它有多麼狹窄。

為了看到大自然賦予我們之外的東西,我們需要能夠捕捉到該光譜之外的感測器。換句話說,我們需要在不同的波長下檢測事物。紅外線(IR)用於夜視裝置和一些天文觀測。磁共振使用強磁場和無線電波來成像人體軟組織。我們創造了不依賴光來觀察事物的方法。例如,電子顯微鏡使用電子以比傳統光學顯微鏡更高的解析度進行放大。超聲波是另一個很好的例子。超聲波成像利用聲波建立內部器官和組織的詳細即時影像,提供了一種非侵入式和動態的視角,超越了標準基於光的成像方法所能達到的效果。
然後,我們將龐大的鏡頭對準天空,用它們來展望那些曾經未見和未知的事物。我們還透過構建 DNA 結構和單個原子的影像,將它們指向微觀世界。這兩種儀器都基於操縱光的思想。我們使用不同型別的鏡子或透鏡,以我們感興趣的特定方式彎曲和聚焦光線。
我們對觀察事物如此痴迷,以至於科學家甚至改變了某些動物的DNA序列,以便用一種特殊型別的蛋白質(綠色熒光蛋白,GFP)標記感興趣的蛋白質。顧名思義,當綠色波長的光照射樣本時,GFP會發射熒光訊號。現在,科學家可以對其進行成像,從而更容易知道感興趣的蛋白質在哪裡表達。
此後,就是改進這個系統,以獲得更多的通道、更長的時間尺度和更好的解析度。一個很好的例子是現在的顯微鏡如何在一夜之間生成數TB的資料。
下面這個影片就是這種協同努力的一個很好的例子。在影片中,您將看到用熒光蛋白標記的魚胚胎髮育過程中三維影像投影的延時攝影。您在影像上看到的每個彩色點都代表一個單獨的細胞。

這種成像的多樣性令人驚歎。這些光學工具已成為我們感知宇宙的眼睛。它們為我們提供了深刻的見解,徹底改變了我們對宇宙和生命本身的理解。我們每天都用它來給遠方的親人傳送照片。當醫生需要更仔細地檢查時,我們會拍X光片。孕婦會做超聲波檢查,以檢查她們的寶寶。我們能夠對像黑洞這樣巨大的物體和像電子這樣微小的物體進行成像,這聽起來可能有點神奇,甚至有點異想天開。嗯,事實確實如此。
成像視角
正如我們之前所看到的,我們已經習慣了不同的成像方式。現在這只是一個例行公事,但這花費了大量時間和精力。我們似乎並沒有放慢腳步。我們不斷地尋找新的觀察方式。新的成像方式。隨著我們不斷構建新的儀器來更好地觀察,新的故事和謎團將被揭示。在這一部分,我們將闡述一些過去已經揭示給我們的謎團。
51號照片

第一張DNA照片也被稱為51號照片。他們使用基於DNA纖維晶體凝膠的纖維衍射影像技術來對其進行成像。這張照片是雷蒙德·戈斯林(Raymond Gosling)於1952年5月在羅莎琳德·富蘭克林(Rosalind Franklin)的指導下拍攝的,他當時是一名研究生。它是沃森和克里克於1953年構建雙螺旋模型的關鍵證據。這張照片存在很多爭議。其中一部分源於羅莎琳德·富蘭克林早期工作的未被認可的貢獻,以及該照片在何種情況下被分享給沃森和克里克。儘管如此,它對我們理解DNA結構以及此後開發的技術做出了重大貢獻。
淡藍色小點

“暗淡藍點”是1990年由一個太空探測器拍攝的照片。地球的大小如此之小,以至於小於一個畫素。這張照片因展現地球相對於浩瀚太空的渺小和短暫而廣受關注。它啟發了卡爾·薩根撰寫了《暗淡藍點》一書。這張照片是由旅行者1號上的1500毫米高解析度窄角相機拍攝的。該太空探測器還負責拍攝了“太陽系全家福”。
黑洞
2019年4月,研究人員拍攝到第一張黑洞影像,這是另一個具有重要天文意義的事件!這是位於室女座M87星系中心超大質量黑洞的影像,距離地球約5500萬光年。這張非凡的影像是事件視界望遠鏡(Event Horizon Telescope)的成果,該望遠鏡是一個全球同步射電天文臺網路,它們協同工作,共同建立了一個與地球一樣大的虛擬望遠鏡。收集到的資料量巨大,超過了1PB,由於其龐大的體積,不得不透過物理傳輸進行處理。他們需要結合來自近紅外、X射線、毫米波和射電觀測的資料。這一成就凝聚了事件視界望遠鏡合作組織多年的努力。

在M87*取得成功之後,天文學家們致力於對我們銀河系中心的超大質量黑洞人馬座A*進行成像。對人馬座A*進行成像帶來了獨特的挑戰,因為它體積較小,並且周圍環境變化速度比M87*等大型黑洞周圍環境快得多。這種快速移動使得難以捕捉到一張穩定且能準確代表人馬座A*周圍結構的影像。就像我們的小貓例子一樣!儘管面臨這些挑戰,所獲得的影像對於在極端引力條件下檢驗愛因斯坦的廣義相對論具有重要意義。雖然這些觀測至關重要,但它們是用於檢驗廣義相對論預測的更廣泛方法的一部分。
影像,影像,影像

這個有點出乎意料。它不涉及新的成像方式,而是新的影像讀取和存檔方式。你上面看到的GIF是一個儲存在活細菌DNA中的影像。這最初是在2017年由一組科學家完成的,作為一種概念驗證,表明活生物體是儲存資料的絕佳方式。為此,他們首先將影像值翻譯成核苷酸程式碼(著名的ATCG)。然後,他們使用CRISPR系統將此序列放入DNA中,該系統能夠編輯DNA。然後,他們重新測序DNA並重建了你下面看到的gif。
那已經相當令人印象深刻了,但請繫好安全帶。我們也可以看到它在行動!嗯,不是這個精確的例子,而是另一組科學家使用高速原子力顯微鏡來展示這是如何工作的。這種顯微鏡使用機械連線到掃描器的尖銳探針。探針與表面的相互作用產生樣本的拓撲描述。所有這些都在奈米尺度上。下面的影片展示了CRISPR-cas-9系統,即DNA編輯器,透過咀嚼DNA來執行其第一步。美味!

還有更多。你有沒有想過科學家是如何對DNA進行成像的?信不信由你,這個過程也涉及成像。為了知道DNA序列,科學家需要先複製它。這些副本是透過用不同的熒光染料標記核苷酸(我們稱之為ATCG的東西)來建立的。每個核苷酸一次一個地與序列匹配。在它們被新增的同時,相機捕捉影像。熒光的顏色表示添加了哪個核苷酸。透過跟蹤單個位置,我們可以重建DNA分子的序列。這種測序技術不僅僅是重建影像。它還用於理解不同的生物過程,並且在臨床環境中有很多應用。醫生可以從這些序列中做各種事情。例如,可以對腫瘤樣本進行測序並用於將其分類為侵襲性或非侵襲性。這會生成高維資料。在這種高維環境中得出任何結論都很困難,因此他們通常將其還原為2D影像。這些2D影像可以像任何影像一樣進行處理。這意味著你可以使用CNN對其進行分類。令人難以置信,對吧?
影像特徵取決於採集方式
無論影像型別如何,所有影像都具有相同的基本特徵。它們代表空間分量,並且通常由矩陣表示。然而,認識到影像並非都是平等的這一點至關重要。影像的獨特特徵來自拍攝物件和影像採集方法。換句話說,我們不期望黑洞和DNA看起來相似。但是,我們也不期望同一個人的照片和X射線看起來相同。
理解影像特性是構建計算機視覺模型的一個很好的第一步。這不僅因為它會影響計算機視覺模型的效能,而且因為它會決定哪些模型更適合你的問題。值得注意的是,並非每種影像型別都需要開發新的神經網路架構。有時,你可以透過微調現有模型或操作最後一層來執行不同的任務來適應它。有時這種操作是不必要的;相反,會採用預處理來使你的影像更接近網路訓練所使用的輸入。現在不必過多擔心這些細節,它們將在本課程的後續章節中進行講解。在這裡提及它們是為了幫助你理解影像獲取上下文的重要性。
對於在不同波長但在相同座標系中採集的影像,可以簡單地將每次採集視為不同的顏色通道。例如,在透過X射線和近紅外線採集的影像中,您可以將它們視為不同的顏色通道。這樣,每張影像都以其自己的灰度顯示。
雖然這看起來很簡單,但某些技術,如雷達和超聲波,使用一種獨特的座標系,稱為極座標網格。這個網格源於訊號發射的中心。與笛卡爾座標系不同,畫素大小不一致。隨著距離中心距離的增加,此係統中的座標也隨之增加。實際上,這意味著隨著與中心距離的增加,畫素代表的面積也越大。有兩種不同的方法。第一種方法是將座標系更改為畫素大小相同的座標系。這會導致大量資訊丟失,這可能不太有趣,並且可能導致次優儲存系統。另一種方法是保持原樣,但將距中心的距離作為模型的另一個輸入。
這並不是座標系統唯一發揮作用的場景。另一個是衛星成像。當在相同座標下捕捉到多個波長時,您可以像我們之前看到的那樣,將它們視為不同的顏色通道。然而,當資料處於不同的座標系統下時,情況會更復雜。例如,將衛星影像和地球影像組合用於給定任務時。在這種情況下,座標需要相互重新對映。
最後,影像採集本身就帶有一系列偏差。這裡我們可以粗略地將偏差定義為資料集的不良特徵,無論是由於噪聲還是因為它改變了模型的行為。偏差來源有很多,但影像採集中一個相關的偏差是測量偏差。當用於訓練模型的資料集與模型實際看到的資料集差異太大時,就會發生測量偏差,就像我們之前的高解析度小貓影像和保姆攝像頭的例子。測量偏差還有其他來源,例如來自標註者本身的測量(即不同組和不同人對影像的標註方式不同),或來自影像上下文的測量(即在嘗試對狗和貓進行分類時,如果所有貓的照片都在沙發上,模型可能會學會區分沙發和非沙發,而不是貓和狗)。
所有這一切都說明,識別和解決來自不同儀器的影像特徵是構建計算機視覺模型的第一步。預處理技術和解決我們在此案例中發現的問題的策略可以用來減輕其對模型的影響。“計算機視覺任務預處理”一章將更深入地探討用於提高模型效能的具體預處理方法。
< > 在 GitHub 上更新