從一張2D影像直接建構3D資訊

■面對一張影像,我們「得到」的比起我們實際「看到」的豐富許多。我們的大腦在理解影像時,會將常識應用在其中,解讀影像沒有包含的部分。例如:看到桌子的三隻腳,我們能推論出被擋住的第四隻腳的形狀和顏色。要訓練人工系統達到相同的空間認知能力,需要大量手工標記的數據。對此,DeepMind公司近日發展一種人工智慧,能蒐集數據並訓練自己,突破數據不足的限制。對於一張2D影像,它能建構出3D的空間資訊,並且對從未看過的場景做出正確的預測。

Read more

從一張2D影像直接建構3D資訊

面對一張影像,我們「得到」的比起我們實際「看到」的豐富許多。我們的大腦在理解影像時,會將常識應用在其中,解讀影像沒有拍到的部分。例如:進入一個從未看過的房間,看到桌子的三隻腳,我們能推論出被擋住的第四隻腳的形狀和顏色。儘管我們沒有看遍房間的每一個角落,也仍然可以大致上畫出房間的空間形狀,或是想像出從另一個角度看房間會是什麼樣子。這個空間視覺認知能力對人類來說毫不費勁,但對人工系統來說卻相當不容易。直至今日,最先進的視覺辨識系統大多是用大數據訓練的人工智慧,訓練的過程需要大量手工標記的數據。取得這些數據非常昂貴且費時。因此,現有的數據大都只包含空間中的一小部分而已,人工智慧的認知能力被這些數據侷限。在現實應用中,我們需要能完整認知空間的資訊的人工智慧。

Read more