【探索八】當生物遇見數學

第三講‧特稿

■ 「茱麗葉:羅密歐啊!請你起誓:願做我一生不變的愛人。」但戲劇外的世界,愛情真的能夠亙古不變嗎?

圖片來源: Scott Morgan│Getty Images

撰文│郭冠廷

羅密歐與茱麗葉熱戀百分比預測

各位目前正處於羅密歐或茱麗葉的情境,給自己的戀情打個分數吧!在2012年的10月27日下午,臺大應力所的國際會議廳,洋溢著幸福的氣息。陳秀熙老師用「羅密歐與茱麗葉」的故事,來詮釋這一場探索講座「當生物遇見數學」。如果愛情可以被量化,我們每日在筆記本下紀錄愛情的分數,當分數超過一個定值(如60分),則登記當日為愛,反之則為不愛;持續記錄一段時間,經過統計後,我們可以得到每天至隔天熱戀狀態(此例是愛與不愛兩類,但可以再細分成兩類以上)變化之機率的「馬可夫矩陣」;如此一來,只要我們知道今天的愛與不愛之機率,乘上這矩陣就可以得到明日可能為愛與不愛的機率為何。當時間夠久時,我們可以發現愛與不愛的機率趨向一個定值,代表愛與不愛之百分比。這就是「馬可夫鏈平衡定律」在人生上的運用。甚至也可以當作結婚與否的參考資訊,倘若經過100天後,在熱戀百分比中,『愛』狀態所佔的比例沒有七成五以上,也許,這對佳偶可以暫緩步向紅毯的另一端。

如果「愛」是由基因所控制的性狀,我們以A及a來表示控制「愛」性狀之「等位對偶基因(alleles)」。這麼一來,假設今天有200對男女,其中8對是「不愛(aa)」,而192對是「愛(AA、Aa)」。而「愛」當中,有128對是AA, Aa是64對。如此,整個「族群基因池(gene pool)」當中,A有[128×2+64×1=]320個,a有[8×2+64×1=]80個。因此我們可以算出A和a在整個族群中的基因頻率分別是:80%和20%。

英國數學家G.H. Hardy和德國物理學家W. Weinberg發現當基因A與a之頻率為p及q時,則基因型頻率分布「AA:Aa:aa=p2:2pq:q2」且此機率會代代相傳保持不變,這就是著名的「哈溫平衡定律(Hardy-Weinberg Law of Equilibrium)」。哈溫平衡定律導出有許多方法,此次我們利用馬可夫鏈來推導基因型頻率分布在經過n代後會趨向平衡不再改變

可是哈溫定律不一定會成立。它必須要滿足下列的條件:「族群沒有遺傳漂變(genetic drift)、族群中個體隨機交配(random mating)、沒有突變、沒有天擇(fitness)、沒有基因流動(gene flow)如族群混合(admixture)。」如果族群中,若有部分個體因為數量過少,造成等位基因沒有遺傳給下一代,那就可能產生「遺傳漂變(genetic drift)」,使得某個等位基因,從族群中完全消失;如:情侶間明明有相愛的情愫,因為觀察的時間太短,或不夠全面性,只狹隘在送禮物的次數與貴重,而忽略掉無形的情感關懷,就有可能誤判對方的真心。此外,族群間的個體要「隨機交配」也相當重要,不能夠有門當戶的擇偶行為,也必須「沒有近親繁殖」的問題;這會造成某些基因因為特意的選擇而消失。「沒有突變」,就愛情來說,就是不可以有「變心」的事情發生。這會為基因頻率增添變數。當然,也不能夠有「天擇(natural selection)」倘若有天擇的情況,若要套用哈溫定律,必須要加以修正。經過運算後我們發現,當我們找到新的平衡時,A或a將會依照天擇的選擇,而在最後使得二者之一消失。

愛情背後的藏鏡人──潛在變數

莎翁的愛情故事達成平衡所需時間及頻率也可以應用在「DNA序列註解(annotation)」。簡單說,它的意思就是:把DNA序列中有意義的資訊「註解」出來。通常註解是一種意識型態,因此若要進行註解,就得要先談到「潛在馬可夫模式(Hidden Markov Model)」。

在此模式當中,我們假設一個「潛在變項(latent variable)」會服從馬可夫模式,而朱麗葉與羅密歐的譬喻當中,則是男女主角外的「藏鏡人」。在先前CASE的人物專訪中,也有段「一張量產諾貝爾獎得主的桌子-潛在變數之統計語言」提到有一張只要摸過就可得到諾貝爾獎的神奇桌子。這張桌子就是「潛在變項」,因為「那張桌子讓可以得諾貝爾獎的那些人,他有高度機會可以聚集在那邊。」在博弈中的運用就是:如果莊家要知道賭徒們有沒有作弊,就可以從賭徒們骰出的數字來推算,是否有藏在背後的不公正骰子。而DNA序位的決定,也如同一顆不公正的ATCG四面骰子。這顆上帝的骰子,骰出A、C、G、T會與一般長鏈DNA序位所得之比例不同,此種含潛在變項之馬可夫模式可以應用在下列基因。在DNA上的某個區域,含有大量相對多量C(Cytosine)和G(Guanine);之區域稱之為「CpG島(CpG islands)」。因為一般CG對出現的頻率相當低。通常如果有CpG島出現,會在外顯基因遺傳(epigenetics)扮演重要角色。我們發現CG出現次數很高的時候,我們就會去懷疑背後是不是也有一位藏鏡人在操弄,即此時控制DNA序列出現CG的潛在的骰子與其他序列的骰子並不同。如果我們能抓到藏鏡人在什麼時候會投擲哪顆骰子,則我們就可以去推測DNA的序列。

如果我們找出潛在模式當中註解的DNA,我們就可以相信哪物種擁有共同祖先,如此配合時間長度就可以做為「種系遺傳(Phylogenetics)」種系同源之推估,其中所示範青蛙這一條線時間特別長,代表他演化的年代特別的長,和比較中的其他物種相較,親疏關係較遠,其DNA序列相近較低。種系間特別是細菌及病毒重組(Interspecies Recombination),原細菌和病毒當中就會彼此交換,在奈瑟氏菌屬(Neisseria)當中,就有發現上述種系間重組。SARS流行時當時也是發生了同樣的事情。

羅密歐與茱麗葉的遺傳諮詢

歷經一番的波折,羅密歐與茱麗葉終於要結婚了。透過家族病史的查閱,我們發現,原來除了雙方「姓氏」的糾葛之外,在遺傳上也令人擔憂。在老師的故事下,這對夫婦開始接受「遺傳諮詢(Genetic Counseling)」,茱麗葉的哥哥與舅舅罹患某種疾病,茱麗葉欲知自己帶有此疾病基因之機率。可透過「貝氏定理(Bayes theorem)」的運算來求得。運用先前學到的哈溫定律,來計算「自體隱性遺傳模式(Autosomal Recessive Inheritance)」苯酮氏尿症帶原的機率。我們假定顯性基因是A隱性基因是a,而二者的基因頻率分別是p和q,我們透過統計知道族群疾病發生率是I,而此疾病顧名只有在兩個等位基因都是隱性(aa)時才會發病。所以,I即是q2,而帶原(Aa)率則為2pq,此即為事前機率。我們可以從茱麗葉的家族病史(概似函數)來推估她身上帶有某種疾病基因的機率是多少。因此我們可以利用觀察到的家族罹病情況(概似函數)來更新原先推測茱麗葉帶有疾病基因的機率(事前機率),得到茱麗葉帶有某種疾病基因的機率,此即為「事後機率」。

 

「自體顯性遺傳(Autosomal Dominant Inheritance)」疾病的特點,其相關疾病表現,常受到「穿透力或稱外顯率(penetrance」程度的影響。穿透力,指的是某一個體基因型表現出預期性狀的機率。如何加入穿透力之參數並配合貝氏定理及遺傳模式(如自體顯性遺傳)推估子代及親代之基因型及得病率是遺傳諮詢感興趣之事。

其次在遺傳中,如何找出致病基因位置也是重要的議題。近年來分子生物流行病學盛行下,我們可以透過已知的標誌基因來標定致病基因的可能位置,當標誌基因與疾病基因位於同一條染色體上且很靠近時,則在減數分裂後,傳遞給下一代時會有「連鎖」的現象,一起下傳給子代。因此蒐集染病子代與其父母之標誌基因,透過連鎖不平衡檢定(Transmission disequilibrium test, TDT),我們可以得知致病基因是否在標誌基因的附近,而上述檢定方法即為McNemar test。除採用TDT來檢定標誌基因與致病基因是否連鎖,也可透過其他連鎖分析方法如:Lod Score Analysis來分析家族譜資料得到,老師所用之例顯示一般而言Lod score>3代表有連鎖。此外,老師也使用連鎖分析之Lod Score分析找到乳癌BRCA基因,描述茱麗葉之乳癌病例。

為了將遺傳分子生物研究所找到之基因配合其他非遺傳因子,老師簡單介紹「乳癌多階段危險評估模式及個人乳癌預防」,其根據個人基因、乳房密度、賀爾蒙相關危險因子與其他生物標記可建立「個人危險分數」,如為乳癌高風險族群則可透過提早篩檢年齡或縮短篩檢間隔來預防。因此雖然茱麗葉有罹患乳癌之風險,但只要透過對遺傳知識的瞭解,進行遺傳諮詢,搭配現代的醫療技術,這對戀人其實能夠健康快樂地白首偕老。

最後老師介紹如何將此種生物遺傳結合數學知識帶給社區民眾,他們社區研究團隊,在老師的引領下,在夥伴的共同努力及各地衛生局的大力襄助下於基隆市政府架設「基隆市e化健康博物館」網站(網址:Http://chmuseum.klchb.gov.tw),分成五個主要館室:風險評估館、健康促進館、疾病預防館、健康照護館、健康知識館。而在「風險評估館」當中,我們只要輸入特定的參數,就可以計算出個人化的罹病風險。透過這樣平台將學術研究傳達(delivery)到民眾端,使民眾得以進行自我評估,並推廣遺傳諮詢的重要性,讓個人潛藏的疾病能夠及早被注意到,以茲預防與治療。

--

 本文整理自:101/10/27下午由陳秀熙教授在臺大應力所國際演講廳所主講之「當生物遇見數學」的演講內容
 延伸閱讀:台大科學教育發展中心探索基礎科學講座2012年10月27日第三講〈當生物遇見數學〉全程影音

推薦閱讀:
Ewens, Warren J., Grant, Gregory R.: Statistical Methods in Bioinformatics, 2nd 2005
Duncan C. Thomas: Statistical Methods in Genetic Epidemiology 2004

﹝本文作者據傳曾是不務正業的筆耕農夫,現就讀臺灣大學兼職文學寫作﹞

責任編輯:Nita Hsu

4,622 人瀏覽過

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

為了避免你是機器人,請在留言前回答以下問題: