社群計算機視覺課程文件
歡迎來到社群計算機視覺課程
並獲得增強的文件體驗
開始使用
歡迎來到社群計算機視覺課程
親愛的學習者,
歡迎來到這個**社群驅動的計算機視覺課程**。計算機視覺正在以多種方式革新我們的世界,從透過面部識別解鎖手機到分析醫學影像以檢測疾病、監測野生動物以及建立新影像。我們將一起深入探索計算機視覺的迷人世界!
在本課程中,我們將涵蓋從基礎知識到計算機視覺最新進展的所有內容。它的結構旨在包含各種基礎主題,使其對每個人都友好和易於理解。我們很高興您加入我們,踏上這段激動人心的旅程!
在此頁面上,您可以找到如何加入學習者社群、提交作業並獲得證書以及有關課程的更多詳細資訊!
作業 📄
要獲得課程結業證書,請完成以下作業:
- 訓練/微調模型
- 構建應用程式並將其託管在 Hugging Face Spaces 上
訓練/微調模型
在“筆記本/視覺Transformer”部分有筆記本。目前,我們有用於目標檢測、影像分割和影像分類的筆記本。您可以在 Hugging Face Hub 上已有的資料集上訓練模型,或者將資料集上傳到資料集儲存庫並在其上訓練模型。
模型儲存庫需要包含以下內容:
- 一個正確填充的模型卡片,您可以在此處檢視更多資訊。
- 如果您使用 transformers 訓練了一個模型並將其推送到 Hub,則會自動生成模型卡。在這種情況下,請編輯卡片並填寫更多詳細資訊。
- 將資料集的 ID 新增到模型卡中,以將模型儲存庫連結到資料集儲存庫。
建立 Space
在本作業部分,您將為您的計算機視覺模型構建一個基於 Gradio 的應用程式,並在 Hugging Face Spaces 上分享。使用以下資源瞭解更多關於這些任務的資訊:
認證 🥇
完成作業——訓練/微調模型和建立空間——後,請填寫此表格,填寫您的姓名、電子郵件以及模型和空間倉庫的連結,以獲取您的證書。
加入社群!
我們邀請您加入我們活躍且支援的 Discord 社群,那裡每天都有精彩的對話和共同的興趣蓬勃發展,也是本課程的起點。您將找到可以交流想法和資源的同伴。這是您協作、獲取反饋和提問的來源!
這也是激勵自己堅持課程的好方法。加入我們的社群是保持積極性的一種絕佳方式。誰知道我們接下來會一起創造什麼呢?
隨著人工智慧的不斷發展,我們社群的討論質量和觀點多樣性也在不斷提高。成為會員後,您將有機會與同學建立聯絡,交流思想,並與他人合作。此外,本課程的貢獻者在 Discord 上也很活躍,並在您需要時提供幫助。現在就加入我們吧!
計算機視覺頻道
在我們的 Discord 伺服器上,有許多專注於各種主題的頻道。您會發現人們討論論文、組織活動、分享他們的專案和想法、集思廣益等等。
作為計算機視覺課程的學習者,您可能會發現以下頻道特別相關:
#computer-vision: 涵蓋所有計算機視覺相關內容的通用頻道#cv-study-group: 交流想法、提問特定帖子並開始討論的地方#3d: 討論與 3D 計算機視覺相關的計算機視覺方面內容的頻道
如果您對生成式人工智慧感興趣,我們也邀請您加入所有與擴散模型相關的頻道:#core-announcements、#discussions、#dev-discussions 和 #diff-i-made-this。
您將學到什麼
本課程由理論、實踐教程和引人入勝的挑戰組成。
- 理論部分:本節涵蓋計算機視覺的理論原理,並結合實際示例進行詳細解釋。
- 動手教程:您將學習如何使用 Google Colab 筆記本訓練和應用關鍵的計算機視覺模型。
在本課程中,我們將涵蓋從基礎知識到計算機視覺最新進展的所有內容。它的結構旨在包含各種基礎主題,讓您全面瞭解計算機視覺在當今為何如此重要。
先決條件
在開始本課程之前,請確保您具有一些 Python 程式設計經驗,並且熟悉 Transformer、機器學習和神經網路。如果這些對您來說是新概念,請考慮回顧Hugging Face 自然語言處理課程的第一單元。雖然對預處理技術和卷積等數學運算有紮實的瞭解是有益的,但它們並非先決條件。
課程結構
本課程分為多個單元,涵蓋了基礎知識並深入探討了最先進的模型。
- 單元 1 - 計算機視覺基礎:本單元涵蓋了計算機視覺入門的基本概念:計算機視覺的必要性、該領域的基礎知識及其應用。探索影像基礎、影像形成和預處理,以及特徵提取的關鍵方面。
- 單元 2 - 卷積神經網路 (CNN):深入探索 CNN 的世界,理解其通用架構、關鍵概念和常見的預訓練模型。學習如何應用遷移學習和微調來使 CNN 適應各種任務。
- 單元 3 - 視覺 Transformer:探索 Transformer 架構在計算機視覺中的應用,並瞭解它們與 CNN 的比較。理解常見的視覺 Transformer,如 Swin、DETR 和 CVT,以及遷移學習和微調技術。
- 單元 4 - 多模態模型:透過探索影像到文字和文字到影像等多模態任務,理解文字和視覺的融合。研究 CLIP 及其相關模型(GroupViT、BLIPM、Owl-VIT),並掌握多模態任務的遷移學習技術。
- 單元 5 - 生成模型:探索生成模型,包括 GAN、VAE 和擴散模型。瞭解它們在文字到影像、影像到影像和影像修復等任務中的區別和應用。
- 單元 6 - 基本計算機視覺任務:涵蓋影像分類、目標檢測和分割等基本任務及其使用的模型(YOLO、SAM)。深入瞭解這些任務的指標和實際應用。
- 單元 7 - 影片和影片處理:探討影片的特點、影片處理的作用以及與影像處理相比的挑戰。探索時間連續性、運動估計和影片處理中的實際應用。
- 單元 8 - 3D 視覺、場景渲染和重建:深入探討三維視覺的複雜性,探索 Nerf 和 GQN 等場景渲染和重建概念。瞭解 3D 視覺在計算機視覺中的挑戰和應用,以及它如何提供更全面的空間資訊。
- 單元 9 - 模型最佳化:探索模型最佳化的關鍵方面。涵蓋模型壓縮、部署考慮以及工具和框架的使用等技術。包括蒸餾、剪枝和 TinyML 等主題,以實現高效的模型部署。
- 單元 10 - 合成數據建立:瞭解使用深度生成模型建立合成數據的重要性。探索點雲和擴散模型等方法,並研究主要的合成數據集及其在計算機視覺中的應用。
- 單元 11 - 零樣本計算機視覺:深入探討計算機視覺中的零樣本學習領域,涵蓋泛化、遷移學習及其在零樣本識別和影像分割等任務中的應用。探索零樣本學習與跨各種計算機視覺領域的遷移學習之間的關係。
- 單元 12 - 計算機視覺中的倫理和偏見:理解計算機視覺特有的倫理考量。探索為什麼倫理很重要,偏見如何滲透到 AI 模型中,以及這些領域中普遍存在的偏見型別。學習如何進行偏見評估和緩解策略,強調負責任的 AI 技術開發和部署。
- 單元 13 - 展望與新興趨勢:探索當前趨勢和新興架構。深入研究創新方法,如 Retentive Network、Hiera、Hyena、I-JEPA 和 Retention Vision Models。
認識我們的團隊
本課程由 Hugging Face 社群傾情製作 💜!透過在 GitHub 上貢獻加入我們。我們的目標是建立一個對初學者友好的計算機視覺課程,並能作為其他人的資源。來自世界各地的 60 多人齊心協力使這個專案得以實現。在此我們向他們致敬:
單元 1 - 計算機視覺基礎
- 審閱者:Ratan Prasad、Ameed Taylor、Sergio Paniego
- 作者:Seshu Pavan Mutyala、Isabella Bicalho-Frazeto、Aman Kapoor、Tiago Comassetto Fróes、Aditya Mishra、Kerem Delikoyun、Ker Lee Yap、Kathy Fahnline、Ameed Taylor
單元 2 - 卷積神經網路 (CNN)
- 審閱者:Ratan Prasad、Mohammed Hamdy、Sezan、Joshua Adrian Cahyono、Murtaza Nazir、Albert Kao、Sitam Meur、Antonis Stellas、Sergio Paniego
- 作者:Emre Albayrak、Caroline Shamiso Chitongo、Sezan、Joshua Adrian Cahyono、Murtaza Nazir、Albert Kao、Isabella Bicalho-Frazeto、Aman Kapoor、Sitam Meur
單元 3 - 視覺Transformer
- 審閱者:Ratan Prasad、Mohammed Hamdy、Ameed Taylor、Sezan
- 作者:Surya Guthikonda、Ker Lee Yap、Anindyadeep Sannigrahi、Celina Hanouti、Malcolm Krolick、Alvin Li、Shreyas Daniel Gaddam、Anthony Susevski、Alan Ahmet、Ghassen Fatnassi
單元 4 - 多模態模型
- 審閱者:Ratan Prasad、Snehil Sanyal、Mohammed Hamdy、Charchit Sharma、Ameed Taylor、Isabella Bicalho-Frazeto
- 作者:Snehil Sanyal、Surya Guthikonda、Mateusz Dziemian、Charchit Sharma、Evstifeev Stepan、Jeremy Kespite、Isabella Bicalho-Frazeto、Pedro Gabriel Gengo Lourenco
單元 5 - 生成模型
- 審閱者:Ratan Prasad、William Bonvini、Mohammed Hamdy、Ameed Taylor-
- 作者:Jeronim Matijević、Mateusz Dziemian、Charchit Sharma、Muhammad Waseem
單元 6 - 基本計算機視覺任務
單元 7 - 影片和影片處理
- 審閱者:Ameed Taylor、Isabella Bicalho-Frazeto
- 作者:Diwakar Basnet、Chulhwa Han、Woojun Jung、Jiwook Han、Mingi Kim
單元 8 - 3D 視覺、場景渲染和重建
- 審閱者:Ratan Prasad、William Bonvini、Mohammed Hamdy、Adhi Setiawan、Ameed Taylor
- 作者:John Fozard、Vasu Gupta、Psetinek
單元 9 - 模型最佳化
單元 10 - 合成數據建立
- 審閱者:Mohammed Hamdy、Ameed Taylor、Bhavesh Misra
- 作者:William Bonvini、Alper Balbay、Madhav Kumar、Bhavesh Misra、Kathy Fahnline
單元 11 - 零樣本計算機視覺
單元 12 - 計算機視覺中的倫理和偏見
- 審閱者:Ratan Prasad、Mohammed Hamdy、Charchit Sharma、Adhi Setiawan、Ameed Taylor、Bhavesh Misra
- 作者:Snehil Sanyal、Bhavesh Misra
單元 13 - 展望與新興趨勢
- 審閱者:Ratan Prasad、Ameed Taylor、Mohammed Hamdy
- 作者:Farros Alferro、Mohammed Hamdy、Louis Ulmer、Dario Wisznewer、gonzachiar
組織團隊 Merve Noyan、Adam Molnar、Johannes Kolbe
我們很高興您來到這裡,讓我們開始吧!
< > 在 GitHub 上更新