小數據大智慧

2020 年 11 月 18 日2021 年 12 月 27 日 intern 小數據, 自監督, 資料合成, 資料稀缺, 轉移學習

分享至

撰文／黃璽軒（樂達創意科技技術長）

當企業喊著要AI落地化的時候，有沒有想過驅動AI的大數據在哪裡？當企業想著要大數據的時候，有沒有想過蒐集數據的策略在哪裡？當各種AI演算法演進時，企業是否有思考過讓自己的數據跟上AI的大腦？沒有大數據就真的沒有資格來跟人家談AI嗎？

國際數據資訊中心（International Data Corporation，IDC）針對台灣市場作出預測，台灣AI採用率將在2021年達到43%，成為推動台灣ICT（Information and Communications Technology，資訊及通訊科技）產業發展的關鍵力量。根據《天下雜誌》[1]的報導：企業因為對AI的認知貧乏，容易有以下幾種迷思：

迷思1：導入AI不能落後，先做了再說！
迷思2：只要導入AI，一切問題就解決了！
迷思3：導入AI，就不再需要做大數據！

筆者這些年在不同工廠打滾，也見證了一小部分業主的心態轉換。記得在早些年，業主對於在工廠內導入AI有很大的意願，期待值達到最高峰；但隨著失敗案例浮現，業主也學會了停、看、聽，並領悟到不是導入AI就能解決所有問題──尤其在導入AI之前，要先想好怎麼建立大數據。

資料的稀缺

根據最近一份IBM與富比世合作的調查報告 [3]，超過兩百位科技業領袖缺乏足夠且合用的數據，是AI落地化最常見的障礙。不像Google或者Facebook動輒擁有上億使用者的資料可供調遣，我們更常發現製造業以及醫療業的業主只有少量的有效數據，或者比例失衡的數據集。舉例來說，晶圓製造商想要在製造過程中導入AI，儘早篩選出有缺陷的產品並判斷這些瑕疵品的後續處理（需要進一步加工，或者直接廢棄），以改善產品品質、提昇良率。然而，業主在1,000張產品圖片中，可能只有不到5張是瑕疵品的圖片，很難在短期內產生「夠份量」的數據來訓練強大的AI模型。

資料的稀缺性除了「量」的不足，有時也表現在資料的「時效」上。例如此次疫情造成許多AI模型「大感冒」，原因不是沒有足夠的數據，而是使用了疫情席捲全球之前的數據來訓練模型，未能及時反映瞬息萬變的市場環境。如果說大數據驅動了網路科技公司的AI，製造業者必須要規避數據缺乏的問題，讓他們的AI專案能夠用幾十筆，或甚至更少的數據便能展開。好消息是：近期的突破讓這件事情成為可能，透過小數據（small data）將AI落實到那些只擁有小量可用數據的領域。

小數據

「小數據」顧名思義便是如何在少量數據之下訓練AI模型。監督式學習（Supervised learning）的精準度較高，但它需要很多的標記數據，因此在資料缺乏的場域中，很難在初期導入或肩負複雜的任務。減少對於大數據的依賴以及善用小數據，能夠讓AI作為企業的解決方案更能及時反映大環境的變化。以下便是可以幫助業主跨過數據門檻的幾種常見技術：

轉移學習（Transfer learning）：讓AI從類似的經驗來加速學習新的事物。舉例來說：隱形眼鏡在製造過程中可能出現毛邊、異物、氣泡等缺陷。業主若希望訓練AI來找出瑕疵品，甚至分辨出是哪一種缺陷，可以先使用既有的公開資料庫，例如MNIST（手寫數字資料庫）就是很好的參考數據。手寫數字的黑白條紋與一些特徵和隱形眼鏡上的缺陷類似，因此即便本質上屬於不同領域的數據，同樣的經驗也能夠協助初期的模型訓練。
合成數據生成（Synthetic data generation）：利用如GAN（Generative Adversarial Networks，對抗生成網路）、VAE（Variational Autoencoder，變分自編碼器）或數據擴增等技術，合成在現實生活中難以搜集到的影像資料。舉例來說：業者希望能夠找到在外殼上有刮傷或壓傷等缺陷的筆電，卻苦於瑕疵品數據缺乏，此時便可以透過GAN將其他產品上的刮、壓傷合成到良品的圖像上，模擬出大量（雖然是虛擬）的瑕疵品數據，好以監督式學習方式訓練AI。
自我監督學習（Self-supervised learning）：和轉移學習類似，但模型先是由「看似無關的」任務中學習，將所學習到的經驗用來解決因為數據缺乏而無法解決的問題。舉例來說，可以將良品數據切割成網格然後打散，接著要求模型將圖像拼接回來，透過解決這類假問題（pretext task），模型更清楚良品應該長得什麼模樣，於是可以輕易找出瑕疵品。
小樣本學習（Few-shot learning）：在這個狀況下，原有的問題被轉化為幾千筆較簡單的檢測任務，每個任務只有十幾個樣本，讓AI在只有小量數據的情況下，學習去抓取最重要的特徵。這樣的技術常被使用在製造業生產線上，讓製造業者能夠以資料成本較低的方式達到訓練模型的目的。
異常偵測（Anomaly detection）：只學習良品樣本，演算法於是能夠挑出偏離良品的異常。

以上這些作法壓低所需的數據量、縮短開發時間，令製造業者僅需至少十幾個樣本便可建立一個可以上線的AI檢測系統，不但精確度媲美經典機器學習演算法，也更能迅速反映環境的變化。

然而小數據與大數據並非是對立的兩端，而是相輔相成的。長遠來看，業主以少量數據導入AI，不久後便能蒐集到更多數據。高品質的巨量數據，對於提升系統品質仍是較佳的選擇。企業應該有這樣的眼光與布局：讓小數據成為短期啟動AI的策略，並且在人機協作之下，進一步提昇至中長期的大數據戰略。知道在什麼時期使用怎樣的技術，才能透過AI為企業建立真正的價值。

參考資料

施逸筠, 〈日本AI專家真心話：不念書的老闆，正讓AI泡沫化〉, 天下雜誌, 2019.
R. Atkinson and S. Ezell, “Manufacturing Evolution — MAPI Foundation“, MAPI Foundation, 2019.
Insights Team and IBM AI, “Forbes Insights: The AI Learning Curve, By The Numbers“, Forbes, 2020.
A. Betancourt, “Making AI Work with Small Data“, Landing AI, 2020.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 338 times, 1 visits today)

分享至

views