巨量資料之於半導體製造：儲存及計算平台開發、維運、及人才養成

2019 年 01 月 25 日2022 年 01 月 04 日 intern CPU, 半導體, 開源軟體

分享至

講者／蕭宏章（成大資工系教授）│彙整／《科學人》編輯團隊
轉載自2018.01.14〈科創講堂．ICT資通訊科技〉

西元2000年左右，大家就在說晶片時脈上不去，晶片裡面可以裝的半導體數目則越來越多。另一方面，CPU裡面RAM的存取速度呈指數成長，但磁碟的存取速度上不去。就資料來說，數量一直增加，明年的資料量是今年的K倍，後年則是今年的K²倍，十年後來看，現在的資料量只有一點點。

綜合上述所言，資料量一直增加，但CPU計算速度上不去，記憶體的速度上不去，磁碟存取速度上不去，怎麼辦？解決辦法是平行暨分散式系統：由幾十乃至於幾萬台伺服器組成的一套系統。「分散」是指空間計算和儲存的分佈，而「平行」是指在時間上同時執行某一分散任務。

平行暨分散式系統在巨量資料方面最有名的專案平台是開源（Open Source）的Hadoop。Hadoop在2006年發佈，有很多大公司採用。就Hadoop的軟體堆疊來說，底下是檔案系統；中間是分散式資料庫、編譯程式，另外還有一些計算框架如Spark、MR（MapReduce），中間這部分稱為平台核心；上面則是應用層，可做樣式辨識、偵錯告警、備份稽核等。

開源軟體的合作模式

為什麼要用開放原始碼？原因很多，例如：它免費而自由、不會vendor lock-in（供應商綁定）、開發速度快、內容透明、眾多公司的合作基礎，同時也是國外的業界標準。

Hadoop釋出之後，相關專案的數目就暴增，儼然成為一個生態系，我們在裡面可以找到很多工具。國際很多大公司也都採用Hadoop，如微軟、雅虎、Facebook、Google等，中國的BAT（百度、阿里巴巴、騰訊）也是。

蕭宏章在巨量資料平台方面曾和一些國內業者合作，例如：半導體製程商、高速公路收費ETC、IoT廠商。蕭宏章團隊的經營模式如下：從開源社群取得軟體以服務業者，業者有維護需求就找第三方發行商（如Cloudera），如果業者有回饋意見，團隊就回過頭來修改開源軟體，屆時發行商會跟開源社群同步，更新軟體。

就半導體廠商來說，裡面有很多分析人員（使用R語言），他們要駕馭新興的分散式計算平台有難度，蕭宏章提出的解決方案是DRS（Distributed R Computing Service）。DRS是一個類似MR的計算框架，能讓R語言分析程式平行化，但R語言不用改。

蕭宏章也幫忙做了巨量資料的Data Service（資料服務），因為半導體廠商的專業是製造晶圓，要從頭學Hadoop實在太辛苦，蕭教授就幫他們做了middleware（中間軟體），把Hadoop的技術細節隱藏起來，讓他們更方便存取Hadoop。這個解決方案就是HDS（Web-Based Hadoop Data Service），是以http協定構成的網路服務。

DRS與HDS還有額外的特色：水平擴充、容錯、負載平衡。DRS與HDS都是Hadoop平台的核心層。

人才需求孔急

至於大型開源軟體的開發規模，單就分散式資料庫Apache HBase來說，全球有150位contributor（貢獻者）、50位committer（貢獻較多的人），其中大概只有10位PMC（專案管理）。

至於我國在Hadoop的PMC+committer才七位，分散在不同的專案裡，其中有一半是國外企業栽培（Spark的committer就是在Netflix工作），而蕭宏章的實驗室培養過一位HBase的PMC+committer。由此可見，我們在巨量資料開源軟體的人才太少（但使用者很多）。

蕭宏章指出，國內產學合作模式多半是委託，共同開發比較少。因此，業者在平台層或核心服務層所累積的經驗就不多。共同開發的好處則是，平台很獨特的話，應用就會獨特。我國在巨量資料開源軟體的人才極度缺乏，所以這個當下是進到社群幫忙貢獻的好機會。蕭宏章就打趣地說，學生變成committer或PMC之後，信箱就炸開了，因為一堆公司開高薪搶人。

(本文由教育部補助｢AI報報─AI科普推廣計畫｣取得網路轉載授權)

(Visited 140 times, 1 visits today)

分享至

views