原标题:iPhone 11 Pro 一秒生成 3D 全息图!MIT 是如何做到的?
几个月前,显示屏霸主三星联合首尔大学,设计出了一款超薄交互式全息显示屏。
只要按方向键,屏幕上的海龟立即就朝特定方向游起来了。
三星表示,这款显示屏可以从多个角度提供高分辨率的、真实度极高的 3D 视频,有朝一日还会集成到手机。
雷锋网编辑本以为这已经够硬核了,没想到的是,在索尼爸爸的支(资)持下,MIT 的一组研究人员宣称已经用手机生成了 3D 全息图!
想要对一张图片上的任意物体进行对焦,只需短短几毫秒。
2021 年 3 月 10 日,相关研究成果发表于 Nature,题为 Towards real-time photorealistic 3D holography with deep neural networks(利用深度神经网络实现逼真的实时三维全息)。
何谓「全息」?
首先来了解一下所谓的「全息」。
本质上,全息投影是一种 3D 技术,英文名称为 Holographic Projection,其中 holo 源于希腊语,意为“完全的信息”。
“完全的信息”要传递,需要下面这两步:
拍摄:利用干涉原理(即:两列或以上的波在空间中重叠时发生叠加,形成新的波形),将被摄物体在激光辐照下形成的物光束和射到全息底片上的激光参考光束进行叠加,产生干涉并记录下来。经过一定处理后得到全息照片。
成像:利用衍射原理(即:波遇到障碍物时会偏离原来的直线传播),利用相干激光照射全息图,一张线性记录的正弦型全息图的衍射光波可给出两个象,图像的立体感增强,也有了真实的视觉效果。
其原理可以这样简单理解:全息图的每个像素上散射了光波,这些光波相互作用,就能产生一种深度上的错觉,呈现出一种立体感。
基于此,全息投影又称虚拟成像。
正如 IEEE Spectrum 所说:
全息图本质上就像一个观察 3D 场景的 2D 窗口。
值得一提的是,人们在观看 3D 全息图像时不会觉得眼睛疲劳,这与传统的 3D 显示(使用 2D 图像产生深度错觉)不同。
彩色 3D 全息图实时生成
即便三星已经设计出了全息显示屏,使得全息投影技术在硬件上有了重要突破,但不可否认,要在电子设备上显示全息数据,仍是一项重大挑战。
IEEE Spectrum 表示,每个全息图都意味着编码大量的数据,只有这样才能打造出深度错觉。因此,生成全息视频通常需要一台超算的算力。
此前就有科研团队尝试过一些解决策略,希望减少所需的计算量,例如用简单的查找表取代复杂的物理模拟——然而,这往往以牺牲图像质量为代价。
而 MIT 的思路则是设计卷积神经网络。
具体来讲,他们打造了一种基于深度学习的 CGH(computer-generated holography,计算机生成全息术,可通过对衍射和干涉的数值模拟实现高空间角度分辨率的三维投影)管道,该管道能够从单一 RGB(注:工业界的一种颜色标准,通过对红(R)、绿(G)、蓝(B)三色通道的变化及其相互间的叠加来得到各式各样的颜色)深度图像实时合成逼真的彩色 3D 全息图。
研究团队使用了一系列可训练的张量来模拟人类处理视觉信息的过程,建立了一个包含着 4000 对(每一对都是一张 RGB 深度照片及其对应的 3D 全息图,如下图所示)计算机生成图像的数据库。
最终,研究团队做到了在短短几毫秒内就能创建出无斑点、自然、高分辨率的3D 全息图。
据了解,卷积神经网络的内存不到 620 KB,能保证单个消费级图形处理单元平均每秒生成 60 幅分辨率 1920 × 1080 的全息图。
利用低功耗的人工智能加速芯片,该卷积神经网络能在移动设备(在 iPhone 11 Pro 上每秒生成 1.1 张全息图)和边界设备(在谷歌 edge TPU 上每秒生成 2 张全息图)上交互运行。
MIT 的方法究竟有何重要意义,其实可以通过下面这个比喻来理解:
计算机生成全息图的过程就像是在切蛋糕。
使用查找表生成全息图,就像是在切蛋糕之前标记每块蛋糕的边界一样。使用物理模拟来计算空间中每个点的外观,类似于用 8 次精确切割切出 8 块蛋糕。尽管通过省掉计算切割位置的步骤可以省一些时间,但这依然是个耗时的大工程。而 MIT 利用深度学习,本质上实现了用 3 次精确切割就将蛋糕切成 8 块。
未来,研究团队或许还将增添眼动追踪技术加快系统运行速度,这项成果后续也将在 VR、AR 耳机等领域中得到应用。
关于作者
该论文来自 MIT 计算机科学与人工智能实验室(CSAIL)& 电子工程与计算机科学系,通讯作者为 Liang Shi 和 Wojciech Matusik。
雷锋网注意到,Wojciech Matusik 为 MIT CSAIL & 电子工程与计算机科学系教授。
Wojciech Matusik 教授主要研究领域为计算机图形学、计算设计和制造。他于 1997 年获加州大学伯克利分校 EECS(电子工程与计算机科学)学士学位,于 2001 年获 MIT EECS 硕士学位,于 2013 年获 MIT 计算机图形学博士学位。
对于上述研究,Wojciech Matusik 教授表示:
这是一个巨大的飞跃,它可以完全改变人们对全息术的态度。我们觉得神经网络就是为此而生的。
另外论文一作为Liang Shi(史亮)。
他是由Wojciech Matusik 教授指导的一名在读博士生,2014 年于北京航空航天大学获得光电子工程学士学位,2016 年于斯坦福大学获得电子工程硕士学位,主要研究领域包括 VR/AR、计算摄影/显示/制作、机器学习和计算机图形学。