機器人也能當科學家(2/3)
撰文/Ross D. King|譯者/王怡文
轉載自《科學人》2011年5月第111期
擬定假說,策劃實驗
科學家所遵循的科學方法,是先擬定假說,演繹出結果,再用實驗檢驗。同理,亞當會先提出關於酵母菌生物特性的新假說,然後用它的新陳代謝模型推論實驗結果,最後做實驗,看看觀察到的結果是否符合假說的推論。
整個過程始於亞當提出假說:哪個基因可能是孤兒酶的父母(見左欄),接著亞當會用知識庫來鎖定最有可能成立的假說。例如,亞當知道2-胺基己二酸轉胺酶這個孤兒酶,其催化的反應是2-氧代己二酸加L-麩胺酸,會產生L-2-胺基己二酸和2-酮戊二酸(上述反應可逆)。這個反應很重要,因為它或許能用來製造抗黴菌劑,但這個酶的父母基因不明。到底是酵母菌的哪個基因編譯這個酶,為了擬定上述假說,亞當先查詢知識庫,看看是否有其他生物擁有編譯這個酶的基因,結果查到褐鼠(Rattus norvegicus)的基因Aadat符合條件。
亞當取得了Aadat編譯的酶蛋白質序列,然後查詢酵母菌基因裡是否能編譯出類似的蛋白質序列。亞當知道,如果蛋白質序列夠接近,就能合理推測它們有共同祖先。亞當也知道,如果蛋白質序列是同源的,共同祖先的功能或許會保留下來。因此亞當推論,編譯出相似蛋白質序列的基因或許功能相同。亞當發現,酵母菌裡YER152c、YJL060w和YJL202w這三個基因的序列與Aadat類似,於是提出假說:這三個基因都能編譯2-胺基己二酸轉胺酶。
亞當做了許多實驗來檢驗這個假說。它的冷凍櫃裡有完整的酵母菌菌株,每種菌株都移除了某個基因。它從中選出移除了YER152c、YJL060w和YJL202w的酵母菌來培養,然後檢查這三種菌株在某些化學物質(例如該酶催化反應中的L-2-胺基己二酸)中的生長情形。
下一步是菌株實驗。科學研究的經費向來有限,科學家又常競相解決問題,因此我們設計亞當時,就希望它能夠策劃有效率的實驗,便宜又迅速地檢驗假說。為了達此目的,亞當為每個假說設定了「正確機率」。這種設定是有爭議的,波柏(Karl Popper)等哲學家就否認假說有相對應的機率。然而大部份在做實驗的科學家都默認,某些類型的假說比較可能成立。例如,他們通常遵守「奧坎剃刀」的觀念,亦即一切條件相等時,簡單的假說比複雜的更可能成立。亞當還會考慮實驗成本──目前是化學藥劑的成本,更好的做法應該也要考慮時間成本。
我們給亞當設定的目標是,給定一組假說和相對應的可能性,以及可能的實驗和相對應的成本,讓它選擇一連串的實驗,用最小的期望成本,把假說淘汰到只剩一個。求最佳解的計算非常困難,但我們的分析顯示,亞當選擇實驗所用的近似策略,與其他策略(例如只選最便宜的實驗)相比,能更便宜快速地解決問題。有時亞當還能設計出一舉釐清多個假說的實驗。人類科學家很難做到這點,因為他們通常一次只考慮一個假說。
20個假說,12個新發現
亞當的人工智慧系統鎖定最有希望的實驗之後,就用它的機器設備來做實驗並觀察結果。亞當無法直接觀察基因或酶,只能觀察多少光穿透酵母菌菌落。亞當根據這些資料進行複雜的連鎖推理,檢驗證據是否與它的假說一致。這種連鎖推理在科學界很常見,例如天文學家用儀器觀測輻射線,根據所得數據推論遙遠星系中所發生的事。
判斷假說是否成立,對亞當來說是最困難的任務,有些基因移除後會影響酵母菌的生長狀況,科學家已經知道這類所有的基因。其他基因移除後通常只會造成生長時的微小改變。亞當運用高階機器學習技術,來判斷某個基因移除後所造成的微小變化是否會有顯著的影響。
亞當擬定的「酵母菌哪個基因編譯哪種酶」假說,有20個通過實驗檢驗。正如科學家提出的所有科學主張,亞當的結論也必須受到檢驗。因此,我們用亞當手上沒有的其他資訊來源,自己動手做新實驗來檢驗亞當的結論,發現有7個是已知的,1個似乎是錯的,12個是新發現。
我們自己動手實驗確認了之前所述的三個基因能編譯2-胺基己二酸轉胺酶。這些基因先前沒被發現的可能原因是,三個基因都編譯同一個酶,這和一般認定一個基因編譯一個酶的簡單功能對應不符。亞當周密的實驗和統計分析,對於解開這謎團至關重要。(待續)
(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)