【人物專訪】計算語言學翹楚 ——專訪謝舒凱教授

分享至

【AI與人共生的那一天】系列講座
AI與溝通、社群影響力
2025.4/19(六)14:00

訂閱 CASE YouTube 鎖定直播 開啟小鈴鐺

臺灣大學語言學研究所 謝舒凱 教授|來源:講師提供

採訪、撰文|周書瑋

審訂|謝舒凱 教授

大型語言模型(LLM)問世改變人類的語言使用習慣,人們越來越仰賴生成式語言模型來完成日常工作,從撰寫電子郵件到寫學術報告和論文,LLM都可以一手包辦,因而在計算語言學界掀起重大革命。今天的專訪邀請到台灣大學語言學研究所謝舒凱教授,身為計算語言學翹楚的他,將和我們分享他奇妙的研究歷程、LLM造成的資訊不對等,以及LLM所形塑的未來世界。

 

從哲學到計算語言學的旅程

大學就讀台大哲學系的謝舒凱,並非一開始就對計算語言學充滿興趣,而是在一連串機緣和巧合下才一步步走入這個殿堂。大學時謝舒凱同時對法律和電腦科學都很有興趣,曾通過美國麻州大學的電腦科學碩士先修課,也曾規劃去德國攻讀法哲學與法資訊學,但後來因為家庭和經濟考量,決定落腳德國杜賓根大學唸書,選擇直攻博士投入計算語言學(Computerlinguistik; computational linguistics)研究。謝舒凱說,台灣社會對語言學這門科學的認識和關注較少,多數人想到語言,會直覺的想到語言作為溝通工具,作為特定語言學習,而不會把它當作一門科學研究或研究對象去思考,因此小時候他雖然也很喜歡學習語言,但從未想過要研究語言。他說,當前的LLM其實提供了一個視角與機會,直逼人類對語言的本質的重新思索。

謝舒凱的研究領域主要可分為四大主題:LLM和語言理論的關聯、LLM脈絡下的語言、思考和推理能力等高等認知能力、LLM的語言、情緒與多模態,以及人工智慧和人社領域的可能連結。第一個主題圍繞在利用認知與功能語言理論來解釋LLM的學習與行為,像是LLM底層的Token決定與構式語法的連結、向量語意表徵和LLM自身對語言的認知功能掌握程度等。第二個主題探究LLM如何處理設計文化與價值的複雜推理,例如LLM在法律案例上推理能力與評測;以及LLM如何解語言學奧賽的。語言多模態研究則是探究溝通與言談中,口語表達與其他非口語表達方式的整合,諸如眼神接觸、手勢和肢體語言等,畢竟未來LLM植入機器人的世界,人機互動也會以多模態的形式出現,不再只是電腦螢幕上跳出的一串文字。

 

大型語言模型造成的資訊不對等

LLM雖然為生活帶來許多便利,大幅縮短工作所需時間,但它造成的資訊不對等不容小覷——讓英語和歐語等強勢語言更加強勢,使少數民族用語更加弱勢,無法享受數位化帶來的便利。要了解LLM造成的資訊不對等,首先要了解「符元(token)」的概念。符元指的是文字處理的最小單位,也是人工智慧最基礎的運算單位,LLM在解讀或生成一段文字時,需要轉換成不定數量的符元,所需的數量取決於訊息長短和訊息使用的語言文字。英文、法文、西班牙文等主流強勢語言所需用到的符元數少,加上訓練的語料較多,因此該語言的使用者可以用較低的成本獲得精準的產出。相較之下,LLM需要更多符元才能精準讀取或產出少數民族語言,使本來就比較少被用到的少數語言更為弱勢。舉例來說,當人類學家到亞馬遜雨林訪問某個雨林深處的部落,發現語言不通必須依賴翻譯軟體,但翻譯軟體不支援該語言,無形中降低研究的精確度和代表性。然而,這些少數民族的聲音往往最容易被主流社會忽視,當他們透過人類學家田野調查來表達自身訴求,很可能也會因為翻譯不精確,而無法精準傳遞自己的需要。

有鑑於此,謝舒凱團隊曾提出「語言壓縮」的概念,但他強調這並非長久之計,也不是根本的解決方法。語言壓縮指的是將句子變短,盡可能用更少的單詞表達出相同的意思,像是把「今天天氣很熱」壓縮成「今天很熱」或「熱」,來減少LLM讀取和生成所需的符元數,但也改變了原本句子在不同語境下的意思。LLM造成的語言鴻溝牽涉到各國政治角力和投資,舉例來說,歐美各國有更多資源和經費投入LLM研究,讓LLM針對這些已經很強勢的語言提供更高品質的服務,但使用弱勢語言的國家往往無力投入人工智慧研究,歐美各國也很少在這方面提供弱勢國家金援,加深語言在數位化浪潮下的不對等。

 

大型語言模型形塑的未來世界

謝舒凱強調,讓人文社會科學領域人才投入人工智慧開發相當重要,如此才能降低人工智慧對社會可能的負面衝擊,他也鼓勵學生從哲學角度出發,思考LLM對人類意識和未來世界的影響。他以語音克隆(voice cloning)和數位分身為例,說未來我們知覺到的絕大部分事物可能都是「生成式」的「AI物件」,包括影像、文字、聲音或目前還不存在的模態(如味道),當生成式物件無法和原創物件區別,那人類是否還需要執著於分辨「人類產出」和「機器產出」的差異?謝舒凱認為,當未來變成人類和機器共生的社會,人類或許不需再在乎世界的一切是真是假,而是體驗與創造。人類的存在的意義或許也會被重新定義,至於是什麼樣的定義?由誰定義?謝舒凱並未給出答案。

LLM席捲教育界,徹底翻轉傳統的學習經驗和教材設計方法,學習方法也被重新定義,學生不能再像過去被動的等待老師來傳授知識,而應該主動地利用LLM學習。謝舒凱也鼓勵學生跳脫「領域」的框架,因為領域學科的概念是人類自己定義的,但人類不應該被自己設下的定義所束縛,畢竟在LLM當道、知識隨手可得的時代,任何人都可以挑戰任何領域。

 


AI與人共生的那一天第一講《AI與溝通、社群影響力
(Visited 49 times, 14 visits today)

分享至
views