在光鮮亮麗的AI產業中,他們是隱形的工人

AI產業的興起,讓許多人對於該產業工作者充滿幻想,他們應該都是中上流社會的人物。然而,在光鮮亮麗的背後,還有一群拿著低廉薪資的隱形工作者——資料標籤者。他們多是開發中國家的居民,從事著將資料分類標註的機械式工作,這是為了產出訓練AI用的「教材」。這份工作不僅薪資低廉、相當不穩定,工作環境與條件也往往相當嚴苛。而且由於外包商的保密條款,這些工人們甚至不知道自己在做的工作是為了什麼……

撰文|謝達文

說起AI產業的相關工作,大部分人會首先聯想到的,可能是在加州矽谷亮麗的辦公大樓裡的工程師,又或者是在紐約、倫敦,或台北的新創公司中的年輕創業家。

但其實,AI產業能夠走到今天,還仰賴一大群隱形的工人。他們的工資通常不高,散落在世界各地。他們當中有些人確實也在矽谷,但更多人在肯亞、尼泊爾,在其他發展中國家。他們為AI準備教材,教導AI「什麼是什麼」──這是一匹馬,那是一頂草帽;這是行人而那不是;同樣提到種族,這則評論是仇恨言論,另一則卻不是。

這個工作被稱為資料標籤(或資料標記),這個產業鮮少被討論,但卻高度重要。最著名的公司是2016年成立的Scale AI,目前市場估值已經高達73億美金,創辦人更年紀輕輕就躋身億萬富翁。但是,因為AI公司通常將這些工作外包,而這些工作又經常涉及保密協定,所以外界無法確知這群工人的人數,甚至連工人自己都未必知道他們到底在做什麼。

來源:MotionElements

AI需要工人準備「教材」

AI可以將許多工作自動化,但至今無法自動化的,是建立AI模型本身的時候所需的「教材」。AI訓練的過程中,需要成千上萬個例子,讓AI能夠「學習」判斷各種資訊,知道事物應該如何歸類。而這些例子本身就需要人工處理、「上標籤」,才能成為教材。

一個最著名的失敗案例,就是2018年Uber的自駕車撞死一位牽著腳踏車的行人。在訓練自駕車AI的過程中,Uber外包的廠商請工人為數以萬計的圖片上標籤,標示出行人和腳踏車騎士,工程師再運用這些教材教導模型,告訴他們要停讓任何行人和腳踏車騎士。但是,這個教材庫中缺乏「牽著腳踏車的行人」的案例,AI因此無法判斷眼前的這個圖像代表該停讓的對象,所以並未減速,直接撞上行人,釀成不幸。

上面這個例子也顯示出,為AI準備教材的過程相當繁雜,需要考慮現實上各種複雜的情況。而雪上加霜的是,面對現實的複雜,雖然人類具備化繁為簡、舉一反三的能力,可以透過少數幾個案例就理解一個概念、一項原則或一種感受,但AI缺乏這樣的能力,因此AI需要透過大量而且多樣的案例才能學習,工人所必須服從的規則也因此充滿各種讓人意想不到的細節。

舉例而言,一名記者親自實測,線上應徵遠端人工標籤的兼職工作 (Dzieza, 2023),他發現,光是一份「辨認圖像中是否包含人類衣物」的工作,給工人的指令就長達43頁:服飾店人偶穿的衣服是衣服、卡通內公主穿的衣服不切實際所以不是衣服、盔甲雖然是給人穿的但不能算衣物;那如果圖中是「鏡子裡的衣服」呢?這也得算衣服,因為從「畫素」的角度來說,鏡子裡衣服的反射跟衣服本身是同一件事;但是,如果是行李箱裡有滿滿的一堆衣服,這不能算是衣物(規則書上沒有寫原因);鞋子是衣物但拖鞋不是(同樣沒有原因);緊身褲是衣物但褲襪不是(當然也沒有原因)。

無意義,不穩定,以及這份工作的其他問題

而需要服從這樣的規則,意味著這是一份毫無創造性、相當無聊的工作。工人必須參照這些繁雜的規則,整天盯著螢幕,為各種影像(或其他訓練資料)歸類。在此同時,工人們經常不知道自己所做有什麼目的,因為公司不但不會跟他們溝通歸類的原因,甚至在保密條款的規定下,也不會告訴他們這些資料是要用於怎樣的AI──這個「辨認到底是不是人類衣物」的工作,到底是為了改善怎樣的系統?服務於什麼樣的目的?是為了哪家公司而做?是為了藝術、商業還是學術研究?人類是需要「意義感」的動物,但大部分的資料標記工人對於他們工作的意義通常一無所知。

更有甚者,在特定的標注工作中,工人的心理問題除了來自無意義感,還可能來自其他問題。舉例而言,《時代》雜誌 (Time) 的報導就指出 (Perrigo, 2023),ChatGPT外包到肯亞的標註工作,有一部分是專門標註性侵、暴力或歧視相關文字,以「訓練」模型不要給出違背法律或可能造成危害的內容。這份工作薪水不高,每小時工資不到兩美金(跟當地一名基層櫃臺人員差不多),而每天九小時曝露在這些恐怖的內容下,也對工人的心理健康造成極大影響──報導內具體指出,一段訓練文字是鉅細靡遺地敘述一名男子在小孩面前和動物性交,這使得處理這段文字的工人出現嚴重的精神問題。報導也指出,雖然合約上規定應該提供工人心理諮商,但受訪的員工指出,實際上最多只有團體諮商可去,甚至有工人指控公司拒絕讓他參與諮商。

除了心理問題之外,這份工作也經常高度不穩定。由於發案需求相當零碎,產業需求時高時低,專案的來源難以預測,有時工人可能幾天甚至幾週都沒有工作。而且,每一個專案都需要一段(通常無薪的)學習時間,才能讓工人們熟悉該份工作所需要的繁雜規則;但是,工人在接案之前未必知道這一個專案可以做多久,學習完規則之後,專案可能很快就結束,讓前面花費的時間不值得。這一些因素,都使得這份工作難以成為長期穩定的職涯選項。


參考文獻

  1. Josh Dzieza, 2023, “AI Is a Lot of Work.”, The Verge
  2. Billy Perrigo, 2023, “Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic.”, Time.