来源:机器之心
编辑:小舟、陈萍
来自 MIT 的研究者利用深度学习推出了 3D 全息图生成新方法,可以为VR、3D 打印、医学成像等创建全息图,并且能够在智能手机上运行。
提起三维场景可视化,虚拟现实(VR)是最常见的一种技术。但经过多年宣传,VR 头戴式耳机仍未成为电视或计算机屏幕上观看视频的必备设备。一个重要的原因是 VR 会让用户感到不适。虽然用户实际上是注视着 2D 显示器,但 VR 会产生 3D 观看的错觉,从而使人视觉疲劳和感到头晕恶心。更好的 3D 可视化解决方案可能在于一种诞生了六十年的技术:全息图。
全息图能够出色地展现 3D 世界,而且它的呈现效果非常漂亮。全息图可以根据观看者的位置提供变化的视角,并允许眼睛调整焦深以交替聚焦在前景和背景上。
长期以来,研究者们一直在试图制造出计算机生成的全息图,但传统上,该过程需要一台超级计算机来进行物理模拟,这非常耗时,并且产生的效果真实感不高。
近日,来自麻省理工学院的研究者已经开发出一种几乎可以立即生成全息图的研究方法。研究者表示:「基于深度学习的方法非常高效,使得新方法瞬间就能够在笔记本电脑上运行。」
研究团队的主要成员,MIT 电气工程与计算机科学系(EECS)的博士生 Liang Shi 说:「以前人们认为,使用现有的消费级硬件还不可能进行实时 3D 全息计算的。人们经常说:商用全息显示器将在未来十年左右出现,但这种说法已经存在了数十年。」
Shi 认为该团队称为「张量全息术」的新方法将最终实现这一「十年目标」。这一进展可能会推动 VR 和 3D 打印等领域引入全息技术。该研究的论文现已发表在《Nature》上,索尼对部分研究提供了支持。
论文链接:https://www.nature.com/articles/s41586-020-03152-0
代码地址:https://github.com/liangs111/tensor_holography
追求更好的 3D 全息图
照片可以忠实地再现场景的颜色,但最终产生的是一个平面图像。相比之下,全息图对每一个光波的亮度和相位都进行编码。这种组合可以更加真实地描述场景的视差和深度。莫奈的《睡莲》可以突出画作的色彩感,而全息图可以让作品变得栩栩如生,呈现出每一笔独特的 3D 质感。
但全息图的制作与共享仍是一个挑战。
全息图从 20 世纪中期开始发展,早期全息图是用光学原理记录的。这种技术需要将激光分为两部分,一半用来照亮被摄体,另一半用作光波相位的参考,该参考产生了全息图特有的深度感。产生的图像都是静态的,不能捕获运动。很难复制和共享。
而计算机生成全息术通过模拟光学装置避开了这些挑战,但是该过程可能是一个就算难题。Shi 说:「由于场景中每个点都有不同的深度,因此无法对所有点都使用相同的操作,这大大增加了复杂性。」指挥集群超级计算机运行这些基于物理的模拟可能需要几秒钟或几分钟来获得一张全息图像。此外,现有的算法不能精确地对遮挡物(occlusion)进行建模。
因此,Shi 的团队采取了不同的方法:「让计算机自学物理。」
他们使用深度学习来加速计算机生成全息术,从而实现实时全息图的生成。该团队设计了一个卷积神经网络:这是一种处理技术,使用一系列可训练张量来粗略模拟人类处理视觉信息的方式。通常,训练神经网络需要比较大的、高质量的数据集,但此前 3D 全息图领域并不存在这样的数据集。
该团队建立了一个包含 4000 对计算机生成图像的数据库。每一对都匹配一张图片,图像信息包括每个像素的颜色和深度信息,这些信息与全息图相对应。研究者使用形状和颜色复杂多变的场景,像素的深度从背景到前景均匀分布,并使用一组基于物理的新型计算来处理遮挡,产生了逼真的训练数据。接下来,算法开始发挥作用。
数据集样例
通过学习每个图像对,张量网络调整了其计算参数,从而逐步增强了其创建全息图的能力。完全优化的网络的运行速度比基于物理的计算快了多个数量级。这种效率让研究团队也感到惊讶。
Matusik 说:「它的表现让我们很惊讶。在短短几毫秒内,张量全息术可以从含有深度信息的图像中生成全息图,其中深度信息是由典型的计算机生成图像提供的,可以通过多机位的设置或激光雷达传感器(这两者都是一些新型智能手机的标准配置)计算出来。
这一进展为实时 3D 全息摄影铺平了道路。更重要的是,压缩型张量网络仅需要不足 1 MB 的内存。这一点非常适合现代智能手机。
微软首席光学架构师 Joel Kollin 说:「这项研究表明真正的 3D 全息显示器是实用的,只需要适当的计算需求。该研究的图像质量比此前有了显著的改善,将提升观看者的真实感和舒适感。」
Kollin 还暗示:「全息显示器可以根据观看者的眼部定制,矫正眼睛的像差。」
其他应用
实时 3D 全息技术还有助于 VR、3D 打印等系统的发展。研究团队表示,新系统可以帮助 VR 观众沉浸在更真实的场景中,同时消除眼睛疲劳和长期使用 VR 的其他副作用。这项技术可以很容易地应用在调制光波相位的显示器上。目前,大多数价格合理的消费级显示器只调节亮度,但如果广泛采用 3D 全息技术,相位调制显示器的成本会下降。
此外,3D 全息技术还可以促进立体 3D 打印技术的发展。事实证明,这种技术比传统的逐层 3D 打印更快、更精确。其他的应用还包括用于显微镜、医疗数据可视化以及具有独特光学特性的平面设计。
Matusik 说:「这是一个巨大的飞跃,可以彻底改变人们对全息技术的态度,我们觉得神经网络是为这项任务而生的。」
作者介绍
该论文的第一作者是 MIT 的计算机科学与人工智能实验室(CSAIL)的博士生史亮。他本科毕业于北京航空航天大学,2016 年获得斯坦福大学电气工程硕士学位。史亮的研究兴趣包括 VR/AR、计算摄影、计算制造、计算机图形学、机器学习等。
第二作者是 MIT CSAIL 博士生李北辰。他本科毕业于清华大学。他的研究兴趣是机器学习在计算机图形学、计算设计和计算制造中的跨学科应用。
参考链接:https://news.mit.edu/2021/3d-holograms-vr-0310
对于企业和开发者,如何加满机器学习技能点,更轻松地上手机器学习?
3月15日,亚马逊云科技机器学习高级产品经理孟和将带来线上分享。本次分享从供应链和自动驾驶领域的相关应用案例出发,详细讲解亚马逊云科技将提供哪些关键资源,帮助开发者团队提高机器学习技能,从而更好地应用AI。