影/Google DeepMind 新 GQN 技術:幫 AI「開天眼」 一張平面圖片就能建構 3D 模型

影/Google DeepMind 新 GQN 技術:幫 AI「開天眼」 一張平面圖片就能建構 3D 模型

▲Google DeepMind 新 GQN 技術(圖/翻攝自科技報橘)

【本文經合作夥伴《科技報橘》授權轉載,並同意《智慧機器人網》修訂標題,原文標題為《Google DeepMind 新 GQN 技術:幫 AI「開天眼」,一張平面圖片就能建構 3D 模型》,作者:林厚勳,《智慧機器人網》編輯整理】

文、圖/科技報橘

來自 Google 的 DeepMind 團隊最近再次登上媒體版面,因為他們成功的利用神經網路,達成了將平面圖面還原為立體場景的技術。

神經網路「想像」出各角度場景,合成 3D 模組

DeepMind 的部落格上近日發表了相關的資訊,根據他們表示,一般人類在理解一個立體場景時,我們的大腦會調用過去所看到的類似經驗,自行「想像」我們沒有看到的地方,並且在腦中補完整個「場景」應該要有的物件。

文中並舉例,像是人類看到一張圖片中,桌子只有三隻腳,但會自動「腦補」出第四隻腳,並且認為它只是被其他桌腳擋住;同樣的道理運用到一張只有部分房間模樣的圖片,人類就能套過腦補的方式想像出整個房間該有的樣子。

但是,這樣在我們人類理解中很簡單的事情,對於人工智慧而言卻是不容易的事情,因為在現階段的技術下,AI 必須靠大量經過標記的物件圖片,才有可能重建一個 3D 場景,所需耗費的時間非常的久,也較難以有實用的發展。

GQN 技術,機器自主學習,效率倍增

有鑑於此,DeepMind 團隊導入了 GQN(Generative Query Network)神經網路技術,透過將物件輸入到「代表網路(Representation Network)」中形成 3D 虛擬物件,並讓「生成網路(Generation Network)」進到其中,學習一個物件從各個角度中看起來應該會是如何,省去過去大量的標記學習。

相關的技術雖然在目前的發展上還有條件限制,例如說只能先用在虛擬物件上,但是 DeepMind 團隊對於這套技術很有信心,預期在未來導入高畫質照片,甚至是加入時間因素,讓 AI 可以生成物理運動狀態,借以製作動態模型。

─ ─

參考資料來源:
DeepMind:Neural scene representation and rendering
INSIDE:VR 普及化曙光!AI 把 2D 畫面變 3D 全景,DeepMind 再登《科學》期刊
Qooah:DeepMind 的 AI 已經可以理解空間概念如像人有視覺

【本文經合作夥伴《科技報橘》授權轉載,並同意《智慧機器人網》修訂標題,原文標題為《Google DeepMind 新 GQN 技術:幫 AI「開天眼」,一張平面圖片就能建構 3D 模型》,作者:林厚勳,《智慧機器人網》編輯整理】

留言

延伸閱讀