使用合成數據面臨的挑戰與機遇

訓練機器學習模型需要大量資料。合成數據可以透過解決隱私問題、擴充有限資料以及糾正真實資料中的不平衡來提供幫助。我們已經學習瞭如何使用幾種不同方法生成合成資料。然而，在使用合成數據訓練模型之前，需要考慮幾個重要事項。

模型過擬合

當機器學習模型對訓練資料學習得太好以至於在新、未見過的資料上表現不佳時，就會發生過擬合。這類似於學習瞭解決問題的特定方法，但遇到新情況時該策略卻不起作用。如果生成合成資料的過程過於簡單，或者存在過於一致的模式，您的模型可能會對合成資料中有限的變化過擬合。舉一個非常簡單的例子，假設您使用包含 25 個紅色圓圈和 25 個藍色方塊的合成數據集訓練了一個模型。該模型可能會學會將圓圈與紅色關聯，將方塊與藍色關聯。如果出現紅色方塊，該模型很可能會失敗。

請務必仔細檢查您的資料集是否不包含以下型別的模式！

顏色過於一致 consistent-color

大小過於一致 consistent-size

背景過於一致 consistent-background

位置過於一致 consistent-location

合成數據中是否存在偏差？

如果生成合成資料的過程存在偏差或不準確性，您的模型可能會無意中學習並延續這些偏差。請注意以下陷阱：

多樣性有限

一個挑戰是，合成數據可能無法充分代表真實資料的複雜性和多樣性。形狀示例可能看起來微不足道，但在許多情況下，未能考慮到各種各樣的人、地點、動物或物體將導致模型表現不佳。例如，假設您想訓練一個模型來監測瀕危物種（如指猴）的數量。如果您的資料集只包含環尾狐猴的影像，則該模型可能難以準確識別野外的指猴。這種限制可能導致人口評估錯誤。好處是，如果您注意到基礎資料集中存在的任何不平衡，您可能會利用合成數據透過增加代表性不足類別的合成數據來消除真實資料中的偏差。

嘗試確保您的資料集反映真實世界中的多樣性！

良好的多樣性 nice-variety

複製現有偏差

如果您用於建立合成影像的資料已經存在偏差，您的模型可能會無意中學習並複製這些偏差。這就像複製朋友的筆記而沒有意識到他們犯了錯誤一樣——您的計算機最終可能會出現相同的錯誤。

使用合成數據的好處是否超過計算成本？

生成高質量的合成數據可能計算成本高昂。這可能在時間和資源方面帶來挑戰，特別是對於複雜模型或大型資料集。一般來說，只有當生成和使用合成數據集最終能節省資源（金錢、時間等）時，它才有意義。

合成影像的感知質量如何？

讓我們考慮一下我們使用 DCGAN 生成的肺部影像。雖然有些影像看起來非常逼真，但另一些則不那麼好。用低質量影像訓練的模型可能無法檢測肺炎，因為它們包含真實影像中不存在的噪聲。您的模型也可能非常擅長識別合成數據中的模式，但這些模式在現實世界中可能不存在或可能有所不同。

一個好的做法是使用弗雷歇特起始距離 (FID)、起始分數 (IS) 或分類準確率分數 (CAS) 等指標來評估您的資料集。

FID

FID 使用預訓練的神經網路模型，通常是 Inception，該模型擅長識別影像中的物件。該模型用於從真實影像和生成影像中提取特徵。FID 衡量一個分佈與另一個分佈的“距離”，同時考慮分佈的均值和協方差。

低 FID 表明真實影像和生成影像的特徵分佈相似，並且生成影像更可能逼真。

IS 使用預訓練的 Inception 模型評估生成模型，特別是 GAN 生成影像的質量。對於每個生成的影像，Inception 模型根據其識別影像中物件的置信度分配一個分數。高分更好，表明 Inception 模型對影像內容充滿信心。

CAS

分類準確度是衡量模型在合成數據上表現的另一個指標。更高的準確度表明模型有效捕獲了真實影像的特徵和模式。某些類別的低準確度分數可能表明生成過程存在問題，例如不真實的背景、不正確的紋理或不一致的照明條件。您可以使用 CIS 幫助您識別和解決這些問題，從而提高合成數據集的整體質量。

結論

即使訓練了模型，持續監控其在真實世界場景中的表現也至關重要。如果您的模型遇到合成數據中不存在的新情況或趨勢，它可能難以適應。解決這些挑戰需要對合成資料生成過程進行周密設計，並評估模型在真實資料上的表現。應用這些原則將有助於釋放合成數據的潛力！

資源與延伸閱讀

< > 在 GitHub 上更新

社群計算機視覺課程