小數據大智慧

分享至

小數據大智慧

撰文/黃璽軒(樂達創意科技技術長)

當企業喊著要AI落地化的時候,有沒有想過驅動AI的大數據在哪裡?當企業想著要大數據的時候,有沒有想過蒐集數據的策略在哪裡?當各種AI演算法演進時,企業是否有思考過讓自己的數據跟上AI的大腦?沒有大數據就真的沒有資格來跟人家談AI嗎?

國際數據資訊中心(International Data Corporation,IDC)針對台灣市場作出預測,台灣AI採用率將在2021年達到43%,成為推動台灣ICT(Information and Communications Technology,資訊及通訊科技)產業發展的關鍵力量。根據《天下雜誌》[1]的報導:企業因為對AI的認知貧乏,容易有以下幾種迷思:

  • 迷思1:導入AI不能落後,先做了再說!
  • 迷思2:只要導入AI,一切問題就解決了!
  • 迷思3:導入AI,就不再需要做大數據!

筆者這些年在不同工廠打滾,也見證了一小部分業主的心態轉換。記得在早些年,業主對於在工廠內導入AI有很大的意願,期待值達到最高峰;但隨著失敗案例浮現,業主也學會了停、看、聽,並領悟到不是導入AI就能解決所有問題──尤其在導入AI之前,要先想好怎麼建立大數據。

資料的稀缺

根據最近一份IBM與富比世合作的調查報告 [3],超過兩百位科技業領袖缺乏足夠且合用的數據,是AI落地化最常見的障礙。不像Google或者Facebook動輒擁有上億使用者的資料可供調遣,我們更常發現製造業以及醫療業的業主只有少量的有效數據,或者比例失衡的數據集。舉例來說,晶圓製造商想要在製造過程中導入AI,儘早篩選出有缺陷的產品並判斷這些瑕疵品的後續處理(需要進一步加工,或者直接廢棄),以改善產品品質、提昇良率。然而,業主在1,000張產品圖片中,可能只有不到5張是瑕疵品的圖片,很難在短期內產生「夠份量」的數據來訓練強大的AI模型。

資料的稀缺性除了「量」的不足,有時也表現在資料的「時效」上。例如此次疫情造成許多AI模型「大感冒」,原因不是沒有足夠的數據,而是使用了疫情席捲全球之前的數據來訓練模型,未能及時反映瞬息萬變的市場環境。如果說大數據驅動了網路科技公司的AI,製造業者必須要規避數據缺乏的問題,讓他們的AI專案能夠用幾十筆,或甚至更少的數據便能展開。好消息是:近期的突破讓這件事情成為可能,透過小數據(small data)將AI落實到那些只擁有小量可用數據的領域。

小數據

「小數據」顧名思義便是如何在少量數據之下訓練AI模型。監督式學習(Supervised learning)的精準度較高,但它需要很多的標記數據,因此在資料缺乏的場域中,很難在初期導入或肩負複雜的任務。減少對於大數據的依賴以及善用小數據,能夠讓AI作為企業的解決方案更能及時反映大環境的變化。以下便是可以幫助業主跨過數據門檻的幾種常見技術:

  • 轉移學習(Transfer learning):讓AI從類似的經驗來加速學習新的事物。舉例來說:隱形眼鏡在製造過程中可能出現毛邊、異物、氣泡等缺陷。業主若希望訓練AI來找出瑕疵品,甚至分辨出是哪一種缺陷,可以先使用既有的公開資料庫,例如MNIST(手寫數字資料庫)就是很好的參考數據。手寫數字的黑白條紋與一些特徵和隱形眼鏡上的缺陷類似,因此即便本質上屬於不同領域的數據,同樣的經驗也能夠協助初期的模型訓練。
  • 合成數據生成(Synthetic data generation):利用如GAN(Generative Adversarial Networks,對抗生成網路)、VAE(Variational Autoencoder,變分自編碼器)或數據擴增等技術,合成在現實生活中難以搜集到的影像資料。舉例來說:業者希望能夠找到在外殼上有刮傷或壓傷等缺陷的筆電,卻苦於瑕疵品數據缺乏,此時便可以透過GAN將其他產品上的刮、壓傷合成到良品的圖像上,模擬出大量(雖然是虛擬)的瑕疵品數據,好以監督式學習方式訓練AI。
  • 自我監督學習(Self-supervised learning):和轉移學習類似,但模型先是由「看似無關的」任務中學習,將所學習到的經驗用來解決因為數據缺乏而無法解決的問題。舉例來說,可以將良品數據切割成網格然後打散,接著要求模型將圖像拼接回來,透過解決這類假問題(pretext task),模型更清楚良品應該長得什麼模樣,於是可以輕易找出瑕疵品。
  • 小樣本學習(Few-shot learning):在這個狀況下,原有的問題被轉化為幾千筆較簡單的檢測任務,每個任務只有十幾個樣本,讓AI在只有小量數據的情況下,學習去抓取最重要的特徵。這樣的技術常被使用在製造業生產線上,讓製造業者能夠以資料成本較低的方式達到訓練模型的目的。
  • 異常偵測(Anomaly detection):只學習良品樣本,演算法於是能夠挑出偏離良品的異常。

以上這些作法壓低所需的數據量、縮短開發時間,令製造業者僅需至少十幾個樣本便可建立一個可以上線的AI檢測系統,不但精確度媲美經典機器學習演算法,也更能迅速反映環境的變化。

然而小數據與大數據並非是對立的兩端,而是相輔相成的。長遠來看,業主以少量數據導入AI,不久後便能蒐集到更多數據。高品質的巨量數據,對於提升系統品質仍是較佳的選擇。企業應該有這樣的眼光與布局:讓小數據成為短期啟動AI的策略,並且在人機協作之下,進一步提昇至中長期的大數據戰略。知道在什麼時期使用怎樣的技術,才能透過AI為企業建立真正的價值。

 

參考資料

  1. 施逸筠, 〈日本AI專家真心話:不念書的老闆,正讓AI泡沫化〉, 天下雜誌, 2019.
  2. R. Atkinson and S. Ezell, “Manufacturing Evolution — MAPI Foundation“, MAPI Foundation, 2019.
  3. Insights Team and IBM AI, “Forbes Insights: The AI Learning Curve, By The Numbers“, Forbes, 2020.
  4. A. Betancourt, “Making AI Work with Small Data“, Landing AI, 2020.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 30 times, 1 visits today)

分享至
views