以人工智慧一窺基因鑰匙孔
講者/陳倩瑜(台大生物產業機電工程學系教授)|彙整/葉珊瑀
整理自2018.12.16〈CASE探索系列講座第20期.用人工智慧探索DNA中的調控密碼〉
我們都是超級電腦—基因運作機制與開關調控
人體有幾十兆的細胞,每個細胞都擁有相同的染色體,雙股螺旋狀的含氮檢基,承載著基因資訊。陳倩瑜教授將細胞比擬作小型的電腦,而裝有十幾兆細胞的人體,正如同超級電腦。這些小型電腦有著同樣的作業系統、應用程式,她比擬每一個基因就像一種應用程式,有兩萬多種。
DNA 由 A、C、G、T 四種含氮鹼基組成,可以視為四進位制的資訊科學。將數量加總,人體的基因組共有長達三十億位元(3G)的資料。將資訊分作 23 對染色體,兩套分別來自父系、母系,細胞像是有雙作業系統,有時兩套同時運作,有時只有一套。總和起來,每人有自己獨特的 6G 資料,這些巨量的資料在當代社會已經不成問題,目前學術研究可用 1000 美金(約新臺幣 30000元)取得一個人身上的所有基因序列。
個體差異起因於人們身上的DNA變異,將個人的基因組和人類參考基因組相比,將會有很多相異之處,例如點突變(point mutation)。每個人身上的變異約有 3M,以總量 3G 計算,人們彼此約有千分之一的個體差異。這些差異中,又有 98% 變異發生在非編碼區域,所產生的影響未知。
既然每一個細胞攜帶的基因組相同,何以細胞表現的形態差異極大?關鍵在於不同的細胞的表觀基因體(epigenome),意即 DNA 當下的狀態,某些基因區段關閉(off)、某些打開(on)。人有 1400~2000個轉錄因子影響著其他基因的表現,過程中需要分子辨識來判別組合的構造,這就如同鑰匙與鎖頭的對應關係,若形狀不符,即配對失敗。科學家想知道的是:鑰匙孔在哪裡?型態如何?同一把鑰匙,偌大的基因組中可能會有上千或上萬個鑰匙孔,這正是挑戰所在。
機器學習基因鑰匙孔
陳教授與我們分享生物學家如何利用染色質免疫沈澱-定序(ChIP-seq)技術來幫忙尋找鑰匙孔,ChIP-seq先將卡在 DNA 上的蛋白質鎖住,用抗體抓住特定的轉錄因子,接著把蛋白質洗掉,就可知道細胞在此時的狀態,哪些蛋白質鍵結著哪些 DNA。透過電腦分析序列片段,可望知道何時基因會開啟/關閉、有哪些鑰匙孔存在。
電腦在DNA片段中尋找鑰匙孔的過程和進行影像辨識很像,陳教授以乳房攝影的影像判讀為例,說明AI工程師如何利用卷積神經網路(Convolutional Neural Networks,CNN)自大型的影像中尋找潛在的腫瘤。過往電腦判斷總不精準,多是透過經驗老道的放射科醫師來分辨。如今透過專家標注、深度學習,機器也能辨識出潛在的乳房腫瘤。同理,含氮檢基的四個字母可以轉換成四維資料,放入卷積神經網路中,讓電腦學習這些模式(pattern),學習成功以後,可以得知鑰匙孔的模樣,之後得以透過數學模型來評估人體的變異是否影響鑰匙孔的功能。
精準醫療是當代醫療界的重要命題,期許能透過客製化的療程、用藥,讓治療發揮最大效益。若要了解疾病用藥的了解,就必須先從變異切入。
DNA變異致病的可能途徑為:序列變異(variant)、基因調控(regulator)、基因功能(gene)、基因表現(cell)、器官異常(organ)、臨床病症(sign)、遺傳疾病用藥反應(disease),由小至大的層次是基因(genetic)、表現(expression)、症狀(symptom)、疾病(disease)。
變異可能影響基因功能,也可能透過基因調控造成異常。這中間的漫漫長路,還有待科學家釐清。目前能透過大量資料進行研究,200 多種細胞型態(cell type)中,各有上百個轉錄因子,它們結合的影響,可透過機器學習來了解。
從理論到應用:實例分享
短講結束前,陳教授和我們分享三個進行中的研究。第一是病蟲害抗藥性研究,農民使用農藥以後,帶有抗藥性基因的個體會存活,而後大量繁殖,族群對該農藥產生抗藥性,使得農藥失效。科學家想探究的,便是這些抗藥群體與非抗藥群體的關鍵差異。然而群體間的差異往往成千上萬,在辨識過程,有許多偽陽性(false positive)需要仔細檢驗。
第二是抗豆象綠豆研究,在野生的綠豆中,有一品系具有抗豆象的基因,研究者希望可以將關鍵的序列差異找出,然而要從成千上萬的差異中找到關鍵的變異,仍是挑戰。最後,陳教授分享臺灣特有種帝雉的全基因定序,透過生醫研究解開美麗帝雉蘊含的基因密碼,更進一步了解這種寶島瑰寶所帶有的秘密。
對於人工智慧在基因解碼的應用,陳教授認為這是一個幫助大家了解自己、了解共生於地球生命的方法。透過這項技術,不只可以認識自己身上的基因變異,也可以為當代的醫療尋找新的解方。
(本文為教育部「人工智慧技術及應用人才培育計畫」成果內容)