XR中的AI應用

分享至

XR中的AI應用

講者/胡敏君(國立清華大學資訊工程學系副教授)|彙整/田育志
整理自2019.12.07〈AI報你知.AI in XR〉

不只VR,還有AR與MR

除了一般常聽到的VR(虛擬實境,Virtual Reality)之外,相關的技術還包含了AR(擴增實境,Augmented Reality)與MR(混合實境,Mixed Reality),三者統稱為XR技術(意即在一般無需細分的語境下,以X取代更精確的A、V或M)。

所謂的VR指的是使用者(通常需要透過頭戴裝置)所看到的都是由電腦繪圖出來的「假」象或是由360攝影機預錄好的影片,市面上如oculus或VIVE皆屬此類硬體裝置;AR則是結合了虛擬物件與真實場景的技術,像是手機寶可夢遊戲:螢幕中的場景是使用者目前真實存在的場景,但會另外有一隻實際上不存在的寶可夢怪獸在畫面中。一般智慧型手機便可達成AR效果,因此在技術的發展上較著重於軟體開發。至於MR,其終極目標是在真實的場景中投影一個極度擬真的虛擬物件,且擬真物與場景間會有較多的互動性,甚至完全融入其中令使用者無法分辨哪個是真、哪個是假。

由於目前XR主要透過視覺建構另一種現實,於是在電腦視覺領域已取得突破性發展的AI,自然成為XR多有倚重的不二人選。尤其在手勢(gesture)互動、街景招牌識別與VR內容的創作上,XR已與AI密不可分,以下一一介紹。

手勢互動

在XR技術中,手勢是很重要的人機互動介面,使用者的指令通常需要透過手勢或其他肢體動作傳達。手勢識別與體態預測(pose estimation)因此成為XR非常關鍵的一環:電腦除了需要能偵測與追蹤手部或身體的姿態,還要能理解該動作所表達的意思,再依此做出相對的回應。

目前有兩種方式可以達到這樣的目的:一是透過深度學習模型識別影像。目前的技術已可以利用卷積神經網路(Convolutional Neural Network,CNN)所建構的深度學習模型偵測出單一鏡頭畫面中的2D或3D手部/身體骨架,其中2D骨架姿態預測技術已相當成熟,甚至可同步偵測畫面中多人的骨架資訊,因此可透過追蹤使用者手部位置來達到簡單互動。一般手機中常見可跟隨人物的即時特效,甚至運動員的動作分析等,也是利用類似的技術。而為了讓電腦理解手勢對應的語意,需要進一步運用可分析時間與空間關聯性的模型來進行動作識別。基於影像的手勢互動需要克服影像輸入先天的劣勢:畫面中可能同時存在許多人,且某些人物的部分肢體可能因攝影機角度或彼此遮蔽而難以預測其骨架。

另一種不倚靠影像輸入的方式,則是藉由裝有感測器的穿戴式手環。大多穿戴式手環使用IMU(Inertial Measurement Unit,慣性測量元件)測量三維方向的加速度,再推算出使用者的手部動作;有的手環則會額外加裝肌電訊號感測器。當然,也可以藉由穿戴更多的感測器,而得到更精細或身體其他部位的資訊。這種方法也需要有適當的機器學習模型在背後支撐,分析、判讀手環所收集到的數據。

街景辨識與定位

第二個AI應用,則與AR的關係較密切。此處的「定位」(localization)並不是使用者當下地理位置的座標,而是使用者透過AR裝置看出去,系統能在畫面上自動找出不同商家或企業的商標招牌位於畫面中的位置。

商標辨識的技術早在2005年便已在行動裝置上有初步應用成果,但至今仍未有成熟的商業化產品,主要是泛用性與準確性的問題:尤其在亞洲國家,街道上的招牌排列十分密集,顏色、形狀也各異,有時更有霓虹燈或跑馬燈點綴;即使是同一連鎖企業的各分店,也會因為各區域的地方特色與使用空間上的限制,而採用不同的招牌設計,增加AI辨識的難度。

VR內容創作

AI的另一項應用則是VR內容的創作。VR場景的建構需要大量的3D素材,但大部分使用者並沒有很好的3D繪圖能力,此時我們可以使用三元組網路(Triplet Network)讓AI由既有的3D素材資料庫中推薦符合場景或故事風格的物件,或是透過「跨域資料生成」(Cross-domain data generation)技術,將人類所繪製的二維草圖根據資料庫中的影像風格進行轉化加以美化。生成對抗網路(Generative Adversarial Network,GAN)是風格轉換技術中常用的模型。

而除了視覺,AI也可以輔助VR體驗內容的聲音創作。例如:我們可以只提供一個場景的畫面以及一個對應的動作,讓AI生成相對應的聲音片段,稱之為「跨模態資料生成」(Cross-modal data generation)。MIT的研究團隊便已開發出一套模型,能單純藉由木棍敲擊不同介面的畫面,產生出符合該敲擊的聲音。

籃球訓練系統

胡教授曾與學生開發出一套專為籃球設計的VR訓練系統,其中便充分運用到上述種種AI在XR中的應用。

教練可在輸入軌跡較容易的平板裝置上繪製進攻路線,系統會即時將2D軌跡路線轉換為所有球員跑動的三維動畫,使用者戴上VR頭盔即可以任意切換視角了解自己或其他不同陣容位置(中鋒、後衛……)的球員當下應該站定的位置與動作,提升對戰術的理解並增加練習時的臨場感,更不怕因為隊友人數不足而無法練習戰術。其中一般戰術講解時最常被忽略的防守者角色,其防守軌跡的移動就是用AI的方式,從NBA過往比賽中球員移動的軌跡資料中所模擬出來的。

配合IMU穿戴式裝置,系統也可透過預訓練好的AI模型即時偵測球員進攻動作,進而及時指導或糾正球員。系統更可以載入球隊中各個球員的實際樣貌,讓練習情境更為逼真。

(本文為教育部「人工智慧技術及應用人才培育計畫」成果內容)

(Visited 102 times, 2 visits today)

分享至
views