大數據時代的紅樓夢研究

大數據時代的來臨,對於文史研究者來說,確實提供了不少前所未有的便利性。但這可不是說只要連上網,輸入幾個關鍵字,就能輕鬆得到答案。大數據對於文史研究的方法論,究竟造成什麼樣全新的發展?黃一農老師以《紅樓夢》為例,為我們示範大數據如何為我們解決過去極為難解的問題。

撰文:高英哲

我們舉個例子,在《紅樓夢》第四十三回中,賈寶玉要買香,從身上摸出一個荷包,裡頭「竟有兩星沉速」。這個「兩星」是什麼意思?歷來做紅學研究的人對此莫衷一是,有人主張是「兩小塊」,也有人認為「星」是一種單位。像這種還沒有定論的問題,你若上網輸入關鍵字,也很難找到確切的答案,

那麼我們要怎麼樣利用在短短不到十年內,已經上線的上百億字清代文獻「大數據」,幫助我們回答這個問題?關鍵在於:你要知道怎麼問問題。如果你認為「星」有可能是一種計量單位,那你就要用「一星」、「兩星」、「三星」、「五星」下去搜尋,因為這才是「星」做為一種計量單位時,有可能出現的詞彙。然後你就會找到諸如以下這些資料:

@.「每歲仲秋各捐金三星」

@.「送去白紙一幅、潤筆銀三星」

@.「每車不過銀三星餘」、「每車價止二星」

@.「一栽之直,當銀五星」

@.「每石值銀三星」

@.「有人遇喜事,一友封分金一星往賀,乃密書,封內云:現五分,賒五分」

找到這些資料之後,你幾乎就可以斷定,「星」是一種重量的量測單位。這些材料散落在各種風馬牛不相及的文典中,如果不是用大數據的方式做檢索,傳統的文史研究者根本不會想到,實際上也不可能,去這些資料裡琶梳線索。

接下來你很自然會問道:一星究竟是多重?答案同樣是在大數據裡搜尋到的,藏在一般文史研究沒事絕對不會去翻閱的《欽定大清會典則例》中,記載各種量器的單價:「星,每箇銀九分九釐九毫。」

一星是怎麼稱量的?用戥(讀音ㄉㄥˇ)子。想要知道戥子長什麼樣子,可以到淘寶網上,把各種戥子買下來,你就會發現每個戥子上的刻度各有不同,只有平常在用的人才知道怎麼用。這就是為什麼同樣在《紅樓夢》中,有一段麝月拿了一塊銀子,提起戥子來問寶玉:「那是一兩的星兒?」

●大數據也能考證八卦
黃老師接著再舉一個有點八卦的例子,來說明如何利用大數據做歷史研究:福康安是不是乾隆的私生子?同樣地你要先設想一個向大數據提問的好問題——直接問「福康安是不是乾隆的私生子」是沒用的,只會查到一堆稗官野史。

黃老師想出來的問題是:福康安的子女是否有跟愛新覺羅氏婚配(因為大清律法明文禁止同族婚嫁)?結果在清代記錄皇室族譜的宗人府小玉牒中,找到福康安的獨子跟兩個女兒,都跟愛新覺羅氏婚配,而且如果福康安確實是乾隆的私生子,那麼這就是血緣上相當接近的堂姑姪與堂兄妹關係。這些婚事都發生在乾隆年間,照常理推論,乾隆絕對不會允許這種亂倫的事接二連三發生,這可以視為福康安並非乾隆私生子的強力佐證。

那麼福康安一生備受皇寵,從小被養在宮中,甚至成為皇室之外唯一封為貝子之人,這些事又作何解釋?你同樣可以透過向大數據提出好問題,來得到足以推論的答案:除了福康安以外,有多少不是皇族的小孩,被養在宮中?福康安的父親傅恆,有幾個小孩被養在宮中?結果這麼一查,發現傅恆跟曹雪芹,透過當朝權傾一時的納蘭氏,還有相當近的姻親關係。曹雪芹要聽到大觀園的種種故事,真的是蠻容易的。

只要數據夠「大」,你想要知道的答案,潛藏在其中的可能性也就愈大。現在這個資訊共享的年代,要取得這麼樣一個將公共財彙整上線的資料庫使用權限,並不是很困難的事;然而大多數的文史研究者,對於如何從大數據的資料庫中,透過精準且切中要點的問題,汲取他想要知道的資訊,這樣的提問思維還沒有真正建立起來。黃老師為我們示範了如何利用大數據的時代優勢,做出過去文史研究者沒有機會做出來的成果;然而若要應用到得心應手,顯然大家還要多多訓練自己,除了在搜尋引擎輸入幾個關鍵字之外,能不能真正提出有意義的問題。

(已被閱讀 539 次,今天被閱讀 1 次)
分享
日期: 2016/3/22 (二) 講師頭銜: 中央研究院院士‧ 清華大學歷史所特聘講座教授 講題: 大數據時代的紅樓夢研究 地點: 臺灣大學思亮館國際會議廳 演講特稿: 看精華文章(點我) 活動照片: 看精彩花絮(點我)