首頁 > 金融 > > 正文

手機1秒生成3D全息圖？MIT團隊新作，索尼投錢支持

2021-03-12 04:45:35來源：互聯網

蕭簫發自凹非寺

量子位報道 | 公眾號 QbitAI

一張圖片的焦距，能在老鼠玩具和日歷尺之間自由切換：

甚至能完成圖片上任一物體的對焦，呈現出不同物體在不同深度時的照片：

這張具有神奇魔力的圖片，就是集成了“全部物體信息”的全息圖。

生成這類全息圖，往往需要大量計算才能完成。

然而，來自MIT的團隊開發了一種新算法，不需要復雜儀器、也不需要等幾個小時，生成這樣一張全息圖，只需要在智能手機上耗費不到1秒的時間。

要知道，就在去年11月份，三星的科學家們生成3D全息視頻所用的處理器，尺寸還是太大，沒能整合到手機上：

那么，這種快速生成3D全息圖的方法，究竟是怎么做到的？

用神經網絡快速“切蛋糕”

首先，全息圖是什么？

舉個例子，visa信用卡上的鴿子，就利用了全息圖來做防偽標志。

全息圖即“全部的信息”，這種圖片包含物體的幅度和相位信息。

普通照相機，拍攝出來的照片只包含物體的幅度信息（亮暗），相位信息（遠近）卻無法直接保存。

這也是為什么，我們平時看見的2D照片“沒有立體感”。

此前，計算機要想360°全方位生成全息圖，通常得從多個角度進行干涉、衍射，再將相位信息拼合起來，與振幅信息疊加后生成圖片。

多角度生成相位信息，就像是在一個球形蛋糕上精準地切割8刀，將之分成8塊，對每塊進行相位重現：

然而，這種方法所需要的計算量往往巨大，耗時很久，完全無法在智能手機上運行。

因此，MIT團隊思考，能不能采用深度學習的方法，只通過3個角度，就把“蛋糕”分成8塊，來生成全息圖？

他們精挑細選出了4000張包含幅度、相位信息的圖像，以及這些圖像對應的3D全息圖，用來訓練神經網絡。

整體思路大致如下：獲取物體的相位信息后，生成點云，再結合殘差神經網絡，生成整體的全息圖。

那么，這種全息圖的效果如何呢？

可對焦任意物體，內存占用不到1MB

事實證明，利用神經網絡進行預測，只需要不到640KB的內存就能生成全息圖。

如果在消費級GPU上，這種神經網絡模型，每秒能生成60張分辨率為1080p的彩色3D全息圖。

而在智能手機如iPhone 11 Pro上，每秒能生成1.1張全息圖；至于Google Edge TPU上，每秒則能生成2張全息圖。

以動畫角色大雄兔（Big Buck Bunny）為例，右下角是它的深度圖。

從圖中可見，利用神經網絡（右）生成的全息圖像，幾乎和用原有方法（左）生成的全息圖像一模一樣。

而且，無論是遠處的小黃花，還是近處的兔子眼睛，都能完美對焦。

表面上看起來是一樣的話，具體到幅度和相位信息上如何呢？

從圖中可見，利用神經網絡預測的幅度和相位信息，也與真實值非常接近。

即使是現實中的照片，也與實際生成目標非常接近了。

當然，從細節來看的話，還是略微有一點差距。

相比于現有的VR和AR方案，3D全息圖是3D可視化的另一個實現方案。

但在使用VR的時候，用戶實際上是盯著2D顯示屏，產生3D錯覺，因此可能會產生視覺疲勞、頭暈等癥狀。

而3D全息圖則允許眼睛調整焦距，即交替地對前景和背景進行聚焦，能有效緩解這種癥狀。

下一步，團隊計劃添加眼球追蹤技術，讓用戶的眼睛看向哪里，哪里就生成部分高清全息圖。

在這種方案下，計算機只需要部分生成全息圖，實時運用下，效果也能更快更好。

以及，索尼贊助了這項研究，所以……

作者介紹

論文一作史亮，2014年畢業于北航，碩士畢業于斯坦福，目前于MIT就讀博士，研究方向包括VR/AR，以及機器學習和計算機圖形學。

論文二作李北辰，2018年畢業于清華大學，目前于MIT就讀博士，研究方向是機器學習在計算機圖形學中的應用。

每天都在汆肉中醒来青梅,好男人www在线观看,少妇无码自慰毛片久久久久久,国产欧美另类久久久精品丝瓜