生成式詢問網路

從一張2D影像直接建構3D資訊

2018 年 08 月 29 日2018 年 08 月 23 日 CASE PRESS 2D, 3D, 生成式詢問網路, 空間

■面對一張影像，我們「得到」的比起我們實際「看到」的豐富許多。我們的大腦在理解影像時，會將常識應用在其中，解讀影像沒有包含的部分。例如：看到桌子的三隻腳，我們能推論出被擋住的第四隻腳的形狀和顏色。要訓練人工系統達到相同的空間認知能力，需要大量手工標記的數據。對此，DeepMind公司近日發展一種人工智慧，能蒐集數據並訓練自己，突破數據不足的限制。對於一張2D影像，它能建構出3D的空間資訊，並且對從未看過的場景做出正確的預測。

人工智慧&電腦、資料科學

從一張2D影像直接建構3D資訊

2018 年 07 月 20 日2022 年 01 月 05 日 intern 3D, 人工智慧, 生成式詢問網路

面對一張影像，我們「得到」的比起我們實際「看到」的豐富許多。我們的大腦在理解影像時，會將常識應用在其中，解讀影像沒有拍到的部分。例如：進入一個從未看過的房間，看到桌子的三隻腳，我們能推論出被擋住的第四隻腳的形狀和顏色。儘管我們沒有看遍房間的每一個角落，也仍然可以大致上畫出房間的空間形狀，或是想像出從另一個角度看房間會是什麼樣子。這個空間視覺認知能力對人類來說毫不費勁，但對人工系統來說卻相當不容易。直至今日，最先進的視覺辨識系統大多是用大數據訓練的人工智慧，訓練的過程需要大量手工標記的數據。取得這些數據非常昂貴且費時。因此，現有的數據大都只包含空間中的一小部分而已，人工智慧的認知能力被這些數據侷限。在現實應用中，我們需要能完整認知空間的資訊的人工智慧。