巨量資料之於半導體製造:儲存及計算平台開發、維運、及人才養成

巨量資料之於半導體製造:儲存及計算平台開發、維運、及人才養成

講者/蕭宏章(成大資工系教授)│彙整/《科學人》編輯團隊
轉載自2018.01.14〈科創講堂.ICT資通訊科技〉

西元2000年左右,大家就在說晶片時脈上不去,晶片裡面可以裝的半導體數目則越來越多。另一方面,CPU裡面RAM的存取速度呈指數成長,但磁碟的存取速度上不去。就資料來說,數量一直增加,明年的資料量是今年的K倍,後年則是今年的K2倍,十年後來看,現在的資料量只有一點點。

綜合上述所言,資料量一直增加,但CPU計算速度上不去,記憶體的速度上不去,磁碟存取速度上不去,怎麼辦?解決辦法是平行暨分散式系統:由幾十乃至於幾萬台伺服器組成的一套系統。「分散」是指空間計算和儲存的分佈,而「平行」是指在時間上同時執行某一分散任務。

平行暨分散式系統在巨量資料方面最有名的專案平台是開源(Open Source)的Hadoop。Hadoop在2006年發佈,有很多大公司採用。就Hadoop的軟體堆疊來說,底下是檔案系統;中間是分散式資料庫、編譯程式,另外還有一些計算框架如Spark、MR(MapReduce),中間這部分稱為平台核心;上面則是應用層,可做樣式辨識、偵錯告警、備份稽核等。

開源軟體的合作模式

為什麼要用開放原始碼?原因很多,例如:它免費而自由、不會vendor lock-in(供應商綁定)、開發速度快、內容透明、眾多公司的合作基礎,同時也是國外的業界標準。

Hadoop釋出之後,相關專案的數目就暴增,儼然成為一個生態系,我們在裡面可以找到很多工具。國際很多大公司也都採用Hadoop,如微軟、雅虎、Facebook、Google等,中國的BAT(百度、阿里巴巴、騰訊)也是。

蕭宏章在巨量資料平台方面曾和一些國內業者合作,例如:半導體製程商、高速公路收費ETC、IoT廠商。蕭宏章團隊的經營模式如下:從開源社群取得軟體以服務業者,業者有維護需求就找第三方發行商(如Cloudera),如果業者有回饋意見,團隊就回過頭來修改開源軟體,屆時發行商會跟開源社群同步,更新軟體。

就半導體廠商來說,裡面有很多分析人員(使用R語言),他們要駕馭新興的分散式計算平台有難度,蕭宏章提出的解決方案是DRS(Distributed R Computing Service)。DRS是一個類似MR的計算框架,能讓R語言分析程式平行化,但R語言不用改。

蕭宏章也幫忙做了巨量資料的Data Service(資料服務),因為半導體廠商的專業是製造晶圓,要從頭學Hadoop實在太辛苦,蕭教授就幫他們做了middleware(中間軟體),把Hadoop的技術細節隱藏起來,讓他們更方便存取Hadoop。這個解決方案就是HDS(Web-Based Hadoop Data Service),是以http協定構成的網路服務。

DRS與HDS還有額外的特色:水平擴充、容錯、負載平衡。DRS與HDS都是Hadoop平台的核心層。

人才需求孔急

至於大型開源軟體的開發規模,單就分散式資料庫Apache HBase來說,全球有150位contributor(貢獻者)、50位committer(貢獻較多的人),其中大概只有10位PMC(專案管理)。

至於我國在Hadoop的PMC+committer才七位,分散在不同的專案裡,其中有一半是國外企業栽培(Spark的committer就是在Netflix工作),而蕭宏章的實驗室培養過一位HBase的PMC+committer。由此可見,我們在巨量資料開源軟體的人才太少(但使用者很多)。

蕭宏章指出,國內產學合作模式多半是委託,共同開發比較少。因此,業者在平台層或核心服務層所累積的經驗就不多。共同開發的好處則是,平台很獨特的話,應用就會獨特。我國在巨量資料開源軟體的人才極度缺乏,所以這個當下是進到社群幫忙貢獻的好機會。蕭宏章就打趣地說,學生變成committer或PMC之後,信箱就炸開了,因為一堆公司開高薪搶人。

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

views