站在生物學邊上的物理學家

站在生物學邊上的物理學家

撰文/Thania Benios|譯者╱張亦葳
轉載自《科學人》2008年5月第75期

魏金斯希望能用機器學習來發展模式,以預測在各種狀況下生物體內所有基因的表現,進而解釋某些細胞異常或轉為癌細胞的原因。

魏金斯坐在機場的接駁巴士裡,準備前往卡維里理論物理研究所演講。此時他收到一位同事的訊息,而打開了一個微軟Excel檔案。表格內的數字和他受邀主講的生物高分子物理學(biopolymer physics)沒什麼關係,反而跟出芽酵母菌(budding yeast)的基因活動有關,更清楚的說,這些數字是酵母菌在生殖週期當中,全部6200個基因所表現的信使RNA(mRNA)量。魏金斯回憶起2002年春天的那個日子,他說:「那是我生平第一次看到這樣的東西。」當時他同事問的是:「你怎麼解釋這些數據?」

這位美國哥倫比亞大學的應用數學暨物理學家當年36歲,決定認真思考這個問題,而沒有逃避它,經過六年的光陰,他想他現在有了答案。魏金斯深入他所不熟悉的領域,費心使用人工智慧中的機器學習工具,將真實世界中生物基因製造蛋白質的相關資訊模組化。1950年代後期,工程師為了預測輸入電腦的資料會產生什麼結果,而設計了這些工具,現在,魏金斯他們把機器學習引進自然科學領域,但並非讓它預測輸入與輸出,而是分析介於其間的「基因調控模式」這個黑盒子裡,裝著什麼秘密。

這項工作的推動始於1990年代後期,因為高產量技術的出現,可提供比從前更多的mRNA表現圖譜及DNA序列,魏金斯說:「那讓我們對生物學現象有了完全不同的思維。」其中的關鍵技術是DNA微陣列(DNA microarray),那是一種晶片,能自動大量展示基因活動的全貌及其在各種細胞內表現的程度。利用過去認為雜亂不全的資料,生物學家如今可推測某個基因在不同細胞內是否會表現,並由產生的蛋白質組合判斷細胞是否健康。

但預測這樣的基因活動,需要釐清它們的基本規則。現任哥倫比亞大學生物學副教授的理論物理家布森馬克(Harmen Bussemaker)說:「長久以來,這些規則都被關在一個個細胞中,演化至今仍隱藏了好東西。」

為了找出這些規則,科學家需要統計數據,以推論基因與調控蛋白質間的交互作用,並將基因與蛋白質之間的長期動態模式,用數學的方法描述出來。只不過,對從未研究過粒子或行星等主題的物理學家而言,統計學根本是種詛咒,英國物理學家拉塞福(Ernest Rutherford)就曾經這麼形容:「如果你的實驗需要用到統計,那麼你應該做過更好的實驗了。」

可是,魏金斯說:「使用晶片的實驗用不著你動手就能完成,而且生物學不會給你一個模式去解釋那些資訊。」更有挑戰的是,有無數方式可以形成DNA、RNA和蛋白質的組件,而且還有具些微差異的互動規則在影響著它們的活動。因此,想要將互動模式回歸基本層面,即使可能,困難度也很高。有些基因和蛋白質甚至是未知的,美國普林斯頓大學的生物物理學家彼亞雷克(William Bialek)說:「你正試著利用自己不是非常了解的工具,要在自然界找到一些令人信服的東西。你被迫成為一個不可知論者。」

魏金斯相信,許多機器學習的演算法可以在這種條件下發揮很好的功能。他說,即使有這麼多變數,「機器學習會讓資料自己決定哪些是有用的部份。」

在美國加州聖巴巴拉市的卡維里研究中心,魏金斯試著建立一套酵母菌基因調控系統的模式,以歸納基因和調控因子共同影響DNA轉錄mRNA的法則。他採用了幾種不同的演算法,然後開始參加有關基因調控的討論會,那是由當時在哥倫比亞大學指導計算生物學的勒斯里(Christina Leslie)所主持,勒斯里建議他使用一種叫做分類器的機器學習工具。假設現在有一個演算法,我們要它辨別有自行車與無自行車的圖片,分類器可從特定的樣本中,進行篩選並測量相關資訊,逐漸推論出分類的規則,有了這些規則,那個演算法便會產生一個模式,可推論新的圖片中有沒有自行車。用於研究基因調控系統,這個學習的任務則變成「預測基因是否會增加或減少製造蛋白質的活動」。

2002年秋天,魏金斯及勒斯里合作研發了一個演算法,嘗試分析在冷、熱及缺乏營養等不同條件下,酵母菌中調控因子DNA序列與mRNA表現量的關係。特別的是,這個名為「啟動子重複片段序列集辨識法」(MEDUSA)的演算法,能推敲每一種DNA啟動子序列與調控子可能的配對情形。然後,就像小朋友根據字、義畫連連看一樣,MEDUSA會從模式與模擬的資料中,找出最佳的配對(魏金斯稱之為「邊」)。每當MEDUSA找到一種配對情形,模式內就會新增一道規則,來搜尋下一個配對,之後,以該規則改進既有模式的程度,決定出各種配對的優勢強度。這些強度差異讓魏金斯團隊能夠判斷哪些配對比較重要,以及它們對酵母菌6200個基因活動所產生的影響為何。藉著一次增加一組配對,MEDUSA可預測哪些基因帶動或中止了RNA的合成,同時亦顯示生物轉錄邏輯的共同機制。

魏金斯團隊開始研究酵母菌外的生物。最近他們發現,對高等一點的生物(例如線蟲及包括人類淋巴球在內的數種細胞株),MEDUSA也能準確預測基因調控的模式。他們並可測知在癌細胞株中,哪些基因在應該降低表現量時反而增加活動,或該增加表現量時反而減少活動。不過,最終目的是希望能了解基因的協調活動,並透過統計方法推論導致細胞異常的交互作用是哪些。

雖然MEDUSA針對測試資料有精準的預測,但在真實世界的生物系統是否也會發揮作用,目前仍無法確定,要達到這個目的,每個環節都必須經過測試才行。而且,基因晶片數據能測量出多少表現程度,也不甚清楚,因為能準確預測,不一定就能反應真實現象。另外,機器學習可能讓科學家產生特別偏向結果的假說,創造MEDUSA學習規則系統的聖地牙哥大學佛羅恩德(Yoav Freund)評論:「所以任何數據上的關聯性都可能只是僥倖。」

為了克服種種限制,科學家必須繼續通過考驗,也要樂於採納這些工具。杜克大學的機器學習專家赫特明克(Alex Hartemink)說:「機器學習在物理學領域尚未廣為人知,但是魏金斯似乎很自然就接觸它,並且去學習其他的技術。我想,我們需要更多這樣的人,願意出發到未知的森林裡探險,找到新的資源帶回來,然後說:『大家來看喔!我發現了好東西』。」

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

views