運用酵母菌窺見人工智慧的黑盒子

運用酵母菌窺見人工智慧的黑盒子

編譯/中研院資科所博士後研究員 黃佳欣

人工智慧是個黑盒子

首先讓我們來回顧一下最近深度神經網路為人工智慧的領域帶來突破性的發展,機器不僅能夠跟人一樣聽說讀寫,還能夠下圍棋,開車上路。

舉個例子簡短地說明深度神經網路的運作方式,電腦科學家會設置許多「層」來提供深度神經網路的框架,每一層包含上千個負責計算任務的「神經元」。輸入數萬張的貓和狗照片(或是棋譜等大量的數據資料)給電腦學習或稱做訓練,透過每一層的神經元個別計算看到照片的特徵,輸出數值傳到下一層,經過非常多層之後,系統連接各層中的神經元以製作結構化計算序列,接著檢驗機器是否準確地區分貓和狗,然後反饋結果從最後一層神經元回到第一層,藉此讓神經元之間的連接模式重新排列,經過反覆幾萬次的訓練過程,當神經網絡能夠非常達到大約九成以上的準確預測率時,那麼模型就算是訓練成功。

儘管 AI 運用深度神經網路模型可以針對一個問題給出正確的答案,我們知道它確實可行,但是我們卻很難理解層與層之間的神經元是如何協同工作的,機器內部的多層隱藏結構就像是個黑盒子。

加州大學聖地亞哥分校的生物工程和醫學系教授Trey Ideker解釋說:「雖然它們被稱作神經網路,但這些系統只是受到人類神經系統的啟發,例如 AlphGo 的系統內部工作情況看起來是一整個混亂,其實一點也不像人類的大腦,深度神經網路模型是獨自發展出的一套很好的預測系統。」

用酵母菌教電腦認識遺傳密碼改變的影響

Ideker 教授帶領團隊完成一項新研究,採用一些與眾不同的方式導入AI與細胞生物學。他期待神經網路不僅可以丟出一個答案,還可以讓研究人員知道機器是怎麼「想」到這個答案。他的團隊利用酵母菌細胞內各個基因等組成分子的關聯階層作為神經網路內層與層的框架,藉此來了解細胞的運作方式。他們希望讓神經網路的階層關係不是由電腦科學家所界定,而是由生命的演化過程而得。

啤酒酵母菌(Saccharomyces cerevisiae)是從19世紀後期開始一直被科學家作為研究基本生命系統的模式物種,因此,我們對於酵母菌的細胞內各個功能系統的關聯性跟生物學知識是相當清楚的,拿酵母菌的細胞各個單位組成當作深度神經網路的框架是可行的。

根據酵母菌細胞內部的組成,從最基礎的元素 (DNA 的核苷酸序列)開始,一路串連到更大的結構分子例如核醣體,到最後像粒線體和細胞核等胞器等級的結構或生理功能。他們總共利用了來自酵母細胞的 2,526個子系統來構成他們所使用的神經網路系統(圖一),這個系統該被取名為 「DCell」。

圖一、利用可視化神經網路(Visible neural network, VNN)進行細胞結構與功能的建模。(a)一般深度神經網路的內部運作是一個黑盒子。(b)在可視化神經網路的內部結構是基於酵母細胞已知的生物學系統結構與知識。在DCell的系統中,基因的核苷酸序列變異組合為基因型(genotype)輸入的資料,利用細胞個分子的結構階層關聯性,輸出細胞生長的情形為表現型(phenotype)。(c)每個神經元的連結是透過已知細胞的功能子系統來作為神經網路的架構。( 來源: Ma et al., 2018 )。

DCell 讓研究人員可以更深入地解開基因型與表現型的關聯性,也就是當基因突變或是數個單一核苷酸變異的組合(不同的基因型),這些遺傳密碼的改變如何波及改變細胞的生長與繁殖(表現型)。他們採用的訓練資料是從過去全世界的實驗室所收集到的酵母細胞基因突變的遺傳資料跟生長情況,高達數百萬筆的真實配對資料。

根據研究論文的結果顯示 DCell 確實可以根據遺傳的變異準確地預測酵母細胞生長。由於它是一個「可見的」神經網路,研究人員還可以從DCell 系統中觀察當遺傳物質DNA的序列或基因發生變異有哪些分子是共同被影響,繼而預測到酵母細胞的生長情況。藉此系統還可以找出主要影響表現型的基因功能子系統,細胞運作的遺傳邏輯(genetic logic),以及發現新的生物途徑(biological processes)。

DCell的延伸應用

DCell 透明化的神經網路對於細胞生物學的研究有許多具有潛力的延伸。例如,如果能建構一個完整人體細胞的內部模型,並且對其進行模擬。這將會澈底改變精準醫療與藥物開發的流程。

尋找新型抗癌藥物的製藥公司經常把細胞生長作為成功或失敗的衡量標準,他們面對的難題是針對每個藥物能夠打開與關閉不同基因的結果是否可以導致腫瘤細胞停止繁殖與生長。如果有一個準確的AI細胞模型來進行預先模擬,那將會是非常實用的工具。

從酵母到人體細胞的升級不是一件容易的事。研究人員需要收集有關人類患者的足夠資料,以形成神經網絡的訓練數據——需要數百萬條記錄,其中包括患者的遺傳特徵及其健康結果。更棘手的是我們也要對癌細胞如何運作同樣需要更多的研究與知識的累積,Ideker 團隊也參與了一項大型的癌細胞圖譜計畫─Cancer Cell Map Initiative,著手處理這個難題。

儘管如此,Ideker教授也提到他希望嘗試使用一種稱為轉移學習(transfer learning)的機器學習技術,將一個模擬酵母細胞的神經網路擴增應用到一個模擬人類細胞的神經網路系統。

 

編譯來源

E. Strickland, “Cracking Open the Black Box of AI with Cell Biology“, IEEE Spectrum: Technology, Engineering, and Science News, 2018.

參考資料

Ma, M. Yu, S. Fong, K. Ono, E. Sage, B. Demchak, R. Sharan and T. Ideker, “Using deep learning to model the hierarchical structure and function of a cell“, Nature Methods, vol. 15, no. 4, pp. 290-298, 2018.

views