不到1MB内存，手机秒生成高分辨率全息图！MIT研究登上Nature

2021-03-15 由宿秀荣发布于科技

作者 | 大数据文摘

来源 | IEEE

如今，利用人工智能技术，科学家可以在智能手机上快速生成逼真的彩色3D全息图了。

从本质上说，全息图类似于从2D窗口寻找到一个3D场景的图像，每个全息图的像素都会散射掉落在其上的光波，从而使这些波以产生深度错觉的方式彼此相互作用。

全息视频显示器创建的3D图像能够保证人们在观看的同时不会感到眼睛疲劳，这与传统的3D显示器使用2D图像产生深度错觉不同。

但是，尽管三星等公司最近在开发可显示全息视频的硬件方面取得了进步，但实际上要显示全息数据仍然是一个重大挑战。

因为每个全息图都会编码大量数据，以便在整个图像中营造出深度错觉。这样来说，生成全息视频通常需要超级计算机的计算能力。

为了将全息视频普遍化，科学家们尝试了多种不同的策略来减少所需的计算量，例如，用简单的查找表代替复杂的物理模拟。然而，这些通常以图像质量为代价。

现在，麻省理工学院的研究人员已经开发出一种几乎可以立即生成全息图的新方法——一种高效的基于深度学习的方法，它可以在眨眼之间在笔记本电脑上生成全息图。

这项研究在本周的《自然》杂志上发表。

论文链接：

麻省理工学院计算机科学家Liang Shi说：“这超出了我们的预期。”

Shi指出，将物理模拟用于计算机生成的全息图涉及计算全息图的许多块的外观，然后将它们组合以获得最终的全息图。他说，使用查找表就像记住一组经常使用的全息图，但这会牺牲准确性，仍然需要组合步骤。

Shi还补充到，从某种意义上说，计算机生成的全息术有点像切蛋糕的过程。使用物理模拟来计算空间中每个点的外观是一个耗时的过程，类似于使用八次精确切割来生产八块蛋糕的过程。

使用查找表进行计算机生成的全息照相，就像在切割之前标记每个切片的边界一样。尽管通过消除计算切割位置的步骤节省了一些时间，但是执行所有八次切割仍会占用大量时间。

相比之下，新技术利用深度学习从本质上弄清楚了如何仅用三个切口就能将蛋糕切成八个切片。该卷积神经网络是一种大致模仿人类大脑处理视觉数据方式的系统，它可以学习生成完整全息图的捷径，而不需要单独计算每块图是如何成型的，“这将从数量级上直接降低操作步骤”。

研究人员首先建立了一个自定义数据库，其中包含4,000张计算机生成的图像，每个图像都包含每个像素的颜色和深度信息。该数据库还包括与每个图像相对应的3D全息图。

卷积神经网络使用这些数据学习了如何计算如何从图像中生成全息图的最佳方法。然后，它可以从具有深度信息的图像中生成新的全息图，这些图像随计算机提供的典型图像一起提供，并且可以通过多相机设置或激光雷达传感器进行计算，这些设置在一些新iPhone上也有搭载。

这个新系统需要不到620 KB的内存，并且可以在单个消费级GPU上每秒生成60幅彩色3D全息图，分辨率为1,920x1,080像素。研究人员可以在iPhone 11 Pro上以每秒1.1全息图的速度运行它，并在Google Edge TPU上以每秒2全息图的速度运行，这表明它有一天可以在虚拟现实或增强现实上运行。

实时3D全息术也可能有助于增强所谓的体积3D打印技术，该技术通过将图像投影到液体桶上来创建3D对象，并可以生成复杂的空心结构。科学家们指出，他们的技术还可以在光学和声学镊子中找到有用的工具，这些镊子可用于微观层面的物质处理，以及可以分析细胞和常规静态全息图的全息显微镜，可用于艺术、安全、数据存储和其他应用中。

Shi表示，未来的研究可能会添加眼动追踪技术，以通过创建仅在眼睛注视的地方具有高分辨率的全息图来加快系统运行速度。他补充说，另一个方向是生成考虑到人的视敏度的全息图，因此，戴眼镜的用户不需要与他们的眼部处方相匹配的特殊VR头戴式耳机。