當AI遇上審查──中國特色「人工智能」的額外成本

2023 年 05 月 11 日2023 年 07 月 04 日 CASE PRESS 審查, 成本, 訓練資料

分享至

在中國發展AI，需要承擔因審查制度而產生的額外成本，分析家認為，這也使得大企業更可能獨佔AI的發展。其中一個因應方式是從訓練資料下手，但這並非萬全之策。

撰文｜謝達文

「我們不只要教AI什麼能說，還要教AI什麼不能說」──中國科技業圈內流傳著這麼一句話，道盡在政治審查制度下，科技業者所面對的困難（Yuan, 2023）。

審查帶來額外成本

對科技公司來說，額外的教學，等於帶來額外的成本。尤其，人工智慧、大型語言模型的特色之一，就是連工程師自己都很難預測模型產出的結果，這也使得教學更為困難，成本也因此更高。

ChatYuan的故事，見證審查制度下公司所面對的難處。ChatYuan是ChatGPT問世之後，中國第一個功能相仿的對話式AI，在通訊軟體微信上運作，背後的公司正是一家創新的小公司，位於杭州的「元語智能」。公司創辦人徐良向媒體直言不諱，在中國做這一行並不容易，「需要更多層的過濾和處理」（Feng, 2023）。殊不知，他們所採取的過濾仍然不夠，面世不過數週，就疑似因為對於政治問題的回答不合乎當局的要求，而一度遭遇禁言的命運（Yang, 2023）。

由於在中國發展人工智慧，需要面對這樣的成本與不確定性，許多圈內人因此預測，中國的人工智慧市場，將由大公司獨佔──畢竟，對於小公司而言，要負擔面對審查的成本，可能會太過沉重。

大企業獨佔的未來？

在中國，這也意味著百度、阿里巴巴、騰訊和小米等大企業，是最有可能在AI領域有所突破的公司，而這這些大企業也是中國政府近年來加強控制的公司。

中國政府控制大企業，依靠的不只是罰款等強制手段。2015年以來，中國政府開始購買這些公司的「黃金股」──雖然在帳面上，政府股權只占1%，相關單位卻依法擁有指派董事、否決關鍵決策等權限。比如今年一月初，中國政府的「國家互聯網信息辦公室」，就買入阿里巴巴兩間子公司以及騰訊的黃金股，並指派辦公室官員擔任董事。這樣的狀況不限於上面列舉的四大公司，其他重要的科技業者，比如應用程式「抖音」的母公司字節跳動，中國官方也持有黃金股。這樣的狀況，也意味著，中國政府有更大的力量，可以從源頭管制AI等科技的發展（McMorrow, Liu, and Leng 2023）。

但這樣的發展，對於中國而言也是有代價的──中國的企業家和投資人擔心，如果只有大公司能負擔創新的成本，等於將中小企業、新創企業排除在AI革新之外，中國在人工智慧方面的創新會因此受阻；這也意味著，在中美競爭的格局下，中國不但不能急起直追，跟美國之間的差距甚至可能愈來愈大。

從訓練資料下手

要能夠避免AI「失言」，一個關鍵就在於從訓練資料下手，畢竟機器人會怎樣「學到」字彙之間的連結，取決於訓練資料當中的文字內容。而既然中國網際網路上的內容已經經過審查，相對於使用全球的資料，只運用中國的資料來訓練AI，對中國公司而言，將會更為安全。

而也確實，研究者也指出，同樣是以中文資料訓練的自然語言演算法，使用的資料是受到中國審查的《百度百科》，還是未經審查的中文《維基百科》，結果會大不相同（Yang and Roberts, 2021）。舉例而言，運用《百度百科》訓練的演算法，會將「民主」與「混亂」等負面詞彙做連結，而「中國共產黨」想當然耳會被正面評價。

不過，AI工具的「智慧」高低，取決於訓練資料的廣度和深度；訓練資料受限，也意味著工具的能力受限，這等於是中國發展AI的另一重瓶頸。更何況，即使只使用中國的資料，仍然可能產出意料之外的內容，因此，科技公司仍必須採用其他的方式，過濾、審查AI的產出，相關的成本仍然無法避免。

當然，成本並非一切，尤其在國家引導鉅額投資下，中國AI科技發展的潛能仍然不容小覷。不過，政治審查導致中國發展AI成本較高確是事實，在此之外，美國又在AI發展中搶得頭籌，許多演算法上的創新，又是美國公司的商業機密，美國政府更限制中國公司取得高階晶片等關鍵材料，這些都將使得中國AI發展的前景，充滿不利的因素，值得持續注意。

參考資料（依文中出現順序）

Yuan, Li. 2023. “Why China Didn’t Invent ChatGPT.” New York Times, from https://www.nytimes.com/2023/02/17/business/china-chatgpt-microsoft-openai.html
Feng, Coco. 2023. “Chinese Tech Firms Take Heed of Country’s Strict Online Moderation As They Rush to Bring Their Chatgpt-Like Services to Market.” South China Morning Post, from
https://www.scmp.com/tech/policy/article/3209795/chinese-tech-firms-take-heed-countrys-strict-online-moderation-they-rush-bring-their-chatgpt
Yang, Fan. 2023. “AI Chatbots with Chinese Characteristics: Why Baidu’s Chatgpt Rival May Never Measure Up.” The Conversation, from
https://theconversation.com/ai-chatbots-with-chinese-characteristics-why-baidus-chatgpt-rival-may-never-measure-up-202109
McMorrow, Ryan, Qianer Liu, and Cheng Leng. 2023. “China Moves to Take ‘Golden Shares’ in Alibaba and Tencent Units.” Financial Times, from
https://www.ft.com/content/65e60815-c5a0-4c4a-bcec-4af0f76462de
Yang, Eddie and Margaret E. Roberts. 2021. “Censorship of Online Encyclopedias: Implications for NLP Models.” Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pp. 537-548.

(Visited 216 times, 1 visits today)

分享至

views