AI藝術史家:電腦視覺在繪畫上的應用

分享至

你能想像畫家是如何構圖,選定作畫主題的嗎?Parker等人 (2023) 在一篇回顧型文獻中指出,藝術作品中的視覺成分,一般被文化學者認為是了解其文化之下的審美標準的基礎。許多藝術史家、文化學家等學者,大多也是從視覺作為切入點來進行藝術作品的研究。不過人類四五千年的歷史所累積下來的文化資產繁多,人文學者往往必須花費大量的時間爬梳資料。是否能借助AI的力量,讓我們更能海量的從多個角度去整理龐大的人類文化資產呢?

撰文|王冠云

你能想像畫家是如何構圖,選定作畫主題的嗎?Parker等人 (2023) 在一篇回顧型文獻中指出,藝術作品中的視覺成分,一般被文化學者認為是了解其文化之下的審美標準的基礎。許多藝術史家、文化學家等學者,大多也是從視覺作為切入點來進行藝術作品的研究。

不過人類四五千年的歷史所累積下來的文化資產繁多,人文學者往往必須花費大量的時間爬梳資料,甚至為了閱讀史料或觀看作品,必須得要東奔西走,到處收集這些寶貴的資訊。然而,以感官體驗為例,儘管視覺是重要的感官,但想必不少藝術作品是基於聽覺、嗅覺乃至於觸覺所延伸出來的具象描繪,所以是否能借助AI的力量,讓我們更能海量的從多個角度去整理龐大的人類文化資產呢?

來源:MotionElements

 

AI的前置作業:先把資料建好

從電腦視覺 (computer vision) 技術出發,來自於德國紐倫堡大學Zinnen等人 (2023) 標註並且開創了「SniffyArt」這個資料集,裡面含有許多各種跟感官手勢有關的歷史畫作,總共包含了441件藝術作品的標註 (annotation),含有人物位置、人體的姿勢以及手勢等等,為該研究團隊在2024年所發表的電腦視覺技術研究提供了重要的資料基礎。

然而,過去所創建的資料集畫作不到500幅,對於模型訓練來說,這樣的資料大小還不夠大。所以,奠基於此,Zinnen等人 (2024) 擴充了原本開發的資料集,在新的資料集「SensoryArt」中,含有886幅畫作,共出現了3330個人物,在這三千多人當中,有1357個人物被分類標註了15種不同的感官經驗手勢,另外1973個人物則是標註成背景人物。整體而言,新創建的資料集在各個規模方面,都比原本的資料集擴充了兩倍左右。

 

喝酒與抽菸是常見的主題

有趣的是,由於取得了大量的標註後的資料,因此也能統計在這些畫作當中,最常被畫成作品的內容。其中,喝酒或其他類型的飲料、抽菸(古代的煙斗)、演奏樂器、握著鼻子、祈禱等主題,是常見的手勢與姿勢。

Zinnen等人 (2024) 評估了演算法在人物偵測、姿勢估計 (human pose estimation) 以及手勢分類上面的表現。在人物偵測方面,研究者使用了「DINO」這個由其他研究團隊所開發的演算法,在大部分的情況下,都能夠辨識出人物的位子。而姿勢估計的部分,則是利用模型來抓取人物的鼻子、眼睛、肩膀、手肘、膝蓋等各個關節的位子,以此來辨析人物的姿勢行為。這部分也比較了兩種演算法,發現由上而下 (top-down) 的「SimpleBaseline」的表現比較好。

在手勢分類方面,在單一人物的分類以及整張畫作(同一畫作、多名人物)的分類都分別進行了測試,測試了多個演算法及模型之後,發現名為「Swin-B」以及「CLIP」的模型表現較佳。

 

整合成一個「端到端 (end-to-end)」模型

此外,Zinnen等人 (2024) 的研究的獨到之處在於他們提出了一個「端到端 (end-to-end)」的組合模型,也就是說,更貼近於實際的應用,而不是在每個不同的任務之間,都還需要人工手動操作。以這篇研究為例,端到端的目標就是只要輸入畫作,就能輸出畫作內的感官手勢的分類。為了設計端到端的應用,研究者也進行了各種測試,例如,先檢測人物,再根據每個人進行手勢分類;或者,直接在畫面中進行多個區塊的手勢分類等等;或者,使用更先進的技術,用「ED-Pose」這個檢測方法允許多任務同時並行,讓檢測定位以及手勢分類同時進行。

研究者指出,他們所開發出來的「ED-Pose」多任務同時並行的評估方法,有助於提高手勢分類的正確率。不過,Zinnen等人(2024)也提醒,有些特定的手勢動作因為容易出現在某些類別的畫作中,所以電腦很可能是根據畫作的風格來判斷而非姿勢本身,這就可能影響了模型的泛用性。

不過,透過電腦視覺方法的提出,可以讓人文學者有機會分析大量的數位化作品,尤其現在不少藝術作品已經透過數位典藏的方式被保存下來,因此在這個時代也更有機會能使用電腦以及AI技術來進行藝術作品的評估與研究。在詮釋人類的歷史文化資料方面,也提供了一項新的工具。而這樣的跨領域研究,對電腦科學領域來說,能透過藝術作品的例子,測試目前所研發出來的電腦視覺模型;對藝術史領域來說,能因此得到一項可以大量分析的工具,有了新的研究方法的應用。可說是相當具有跨領域的貢獻。

 


參考文獻

  1. Parker, M., Spennemann, D. H. R., & Bond, J. (2023). Sensory perception in cultural studies—a review of sensorial and multisensorial heritage. The Senses and Society19(2), 231–261.
  2. Zinnen M, Hussian A, Tran H, Madhu P, Maier A, Christlein V (2023) Sniffyart: the dataset of smelling persons. In: Proceedings of the 5th workshop on analysis, understanding and promotion of heritage contents. pp 49-58.
  3. Zinnen, M., Hussian, A., Maier, A. et al. Recognizing sensory gestures in historical artworks. Multimed Tools Appl (2024).
(Visited 49 times, 12 visits today)

分享至
views