運用酵母菌窺見人工智慧的黑盒子

■現今許多人工智慧系統所應用的深度神經網路(Deep neural network, DNN)還是有些神秘。透過酵母菌我們得以窺見這個黑盒子。

撰文|黃佳欣

一篇發表在 Nature Methods 期刊上的研究論文,來自加州大學聖地亞哥分校的團隊開發出一套「可視化神經網路」(visible neural network, VNN)模型,他們把酵母菌的基因等分子階層網路映射到深度神經網路的基本架構,讓研究人員能夠觀察人工智慧系統的運作情況,並透過機器洞察細胞的內部運作,由此產生的技術期待未來可以尋求新的抗癌藥物或是應用在個人化治療。

人工智慧是個黑盒子

首先讓我們來回顧一下最近深度神經網路為人工智慧的領域帶來突破性的發展,機器不僅能夠跟人一樣聽說讀寫,還能夠下圍棋,開車上路。

舉個例子簡短地說明深度神經網路的運作方式,電腦科學家會設置許多「層」來提供深度神經網路的框架,每一層包含上千個負責計算任務的「神經元」。輸入數萬張的貓和狗照片(或是棋譜等大量的數據資料)給電腦學習或稱做訓練,透過每一層的神經元個別計算看到照片的特徵,輸出數值傳到下一層,經過非常多層之後,系統連接各層中的神經元以製作結構化計算序列,接著檢驗機器是否準確地區分貓和狗,然後反饋結果從最後一層神經元回到第一層,藉此讓神經元之間的連接模式重新排列,經過反覆幾萬次的訓練過程,當神經網絡能夠非常達到大約九成以上的準確預測率時,那麼模型就算是訓練成功。

儘管 AI 運用深度神經網路模型可以針對一個問題給出正確的答案,我們知道它確實可行,但是我們卻很難理解層與層之間的神經元是如何協同工作的,機器內部的多層隱藏結構就像是個黑盒子。

加州大學聖地亞哥分校的生物工程和醫學系教授Trey Ideker解釋說:「雖然它們被稱作神經網路,但這些系統只是受到人類神經系統的啟發,例如 AlphGo 的系統內部工作情況看起來是一整個混亂,其實一點也不像人類的大腦,深度神經網路模型是獨自發展出的一套很好的預測系統。」

用酵母菌教電腦認識遺傳密碼改變的影響

Ideker 教授帶領團隊完成一項新研究,採用一些與眾不同的方式導入AI與細胞生物學。他期待神經網路不僅可以丟出一個答案,還可以讓研究人員知道機器是怎麼「想」到這個答案。他的團隊利用酵母菌細胞內各個基因等組成分子的關聯階層作為神經網路內層與層的框架,藉此來了解細胞的運作方式。他們希望讓神經網路的階層關係不是由電腦科學家所界定,而是由生命的演化過程而得。

啤酒酵母菌(Saccharomyces cerevisiae)是從19世紀後期開始一直被科學家作為研究基本生命系統的模式物種,因此,我們對於酵母菌的細胞內各個功能系統的關聯性跟生物學知識是相當清楚的,拿酵母菌的細胞各個單位組成當作深度神經網路的框架是可行的。

根據酵母菌細胞內部的組成,從最基礎的元素 (DNA 的核苷酸序列)開始,一路串連到更大的結構分子例如核醣體,到最後像粒線體和細胞核等胞器等級的結構或生理功能。他們總共利用了來自酵母細胞的 2,526個子系統來構成他們所使用的神經網路系統(圖一),這個系統該被取名為 DCell (http://d-cell.ucsd.edu/)

圖一 |利用可視化神經網路(Visible neural network, VNN)進行細胞結構與功能的建模。(a)一般深度神經網路的內部運作是一個黑盒子。(b)在可視化神經網路的內部結構是基於酵母細胞已知的生物學系統結構與知識。在DCell的系統中,基因的核苷酸序列變異組合為基因型(genotype)輸入的資料,利用細胞個分子的結構階層關聯性,輸出細胞生長的情形為表現型(phenotype)。
(c)每個神經元的連結是透過已知細胞的功能子系統來作為神經網路的架構。圖片來源: Fig. 1 in Ma et al. Nature methods 15 (4), 290 (2018)。

DCell 讓研究人員可以更深入地解開基因型與表現型的關聯性,也就是當基因突變或是數個單一核苷酸變異的組合(不同的基因型),這些遺傳密碼的改變如何波及改變細胞的生長與繁殖(表現型)。他們採用的訓練資料是從過去全世界的實驗室所收集到的酵母細胞基因突變的遺傳資料跟生長情況,高達數百萬筆的真實配對資料。

根據研究論文的結果顯示 DCell 確實可以根據遺傳的變異準確地預測酵母細胞生長。由於它是一個「可見的」神經網路,研究人員還可以從DCell 系統中觀察當遺傳物質DNA的序列或基因發生變異有哪些分子是共同被影響,繼而預測到酵母細胞的生長情況。藉此系統還可以找出主要影響表現型的基因功能子系統,細胞運作的遺傳邏輯(genetic logic),以及發現新的生物途徑(biological processes)。

DCell的延伸應用

DCell 透明化的神經網路對於細胞生物學的研究有許多具有潛力的延伸。例如,如果能建構一個完整人體細胞的內部模型,並且對其進行模擬。這將會澈底改變精準醫療與藥物開發的流程。

尋找新型抗癌藥物的製藥公司經常把細胞生長作為成功或失敗的衡量標準,他們面對的難題是針對每個藥物能夠打開與關閉不同基因的結果是否可以導致腫瘤細胞停止繁殖與生長。如果有一個準確的AI細胞模型來進行預先模擬,那將會是非常實用的工具。

從酵母到人體細胞的升級不是一件容易的事。研究人員需要收集有關人類患者的足夠資料,以形成神經網絡的訓練數據——需要數百萬條記錄,其中包括患者的遺傳特徵及其健康結果。更棘手的是我們也要對癌細胞如何運作同樣需要更多的研究與知識的累積,Ideker 團隊也參與了一項大型的癌細胞圖譜計畫Cancer Cell Map Initiative(http://ccmi.org/)著手處理這個難題。

儘管如此,Ideker教授也提到他希望嘗試使用一種稱為轉移學習(transfer learning)的機器學習技術,將一個模擬酵母細胞的神經網路擴增應用到一個模擬人類細胞的神經網路系統。

 

 

原文出處:Cracking Open the Black Box of AI with Cell Biology

原始論文:Jianzhu Ma, Michael Ku Yu, Samson Fong, Keiichiro Ono, Eric Sage, Barry Demchak, Roded Sharan & Trey Ideker. 2018. Using deep learning to model the hierarchical structure and function of a cell. Nature Methods, Nature methods 15 (4), 290. doi: 10.1038/nmeth.4627

 

作者:黃佳欣,臺灣大學昆蟲學博士。現為中央研究院資訊科學所博士後研究員。過去以昆蟲生理及腸道菌共生關係為研究主題,目前聚焦於生物資訊與功能性基因體學。

 

加入好友

3,977 人瀏覽過