Facebook分享:如何利用AI技术将2D图片转换成3D图片

来源:映维网 作者 吴羽桦eDq每天发布大量与生活相关的资讯平台

Facebook于2018年推出了3D Photos功能,并将其作为一种与朋友和家人分享图片的全新沉浸式格式。但这项功能依赖于高端智能手机的双头摄像头“人像模式”。所以,只有一个后置摄像头的典型移动设备无法予以使用。为了将这种视觉格式带给更多用户,Facebook采用了最先进的机器学习技术,允许几乎任何的标准2D图片生成3D图片。eDq每天发布大量与生活相关的资讯平台

团队指出,无论是使用标准单摄像头的Android或iOS设备所拍摄的照片,还是上传到智能手机或笔记本电脑的数十年前的老照片,这一系统可以推断任何图片的3D结构。eDq每天发布大量与生活相关的资讯平台

eDq每天发布大量与生活相关的资讯平台

利用这项先进的技术,数百万搭载单摄像头的智能手机或平板电脑将能够首次轻松地利用3D照片技术。转换为3D同时可以令你以全新的方式体验数十年前的家庭照片和其他珍贵图像。拥有先进双摄像头设备的用户同样可以从中受益,因为你现在可以利用单个前置摄像头进行3D自拍。现在,所有iPhone 7或更高版本,或最新的中高端Android设备用户都可以在Facebook应用程序中进行尝试。eDq每天发布大量与生活相关的资讯平台

这个动画说明了系统是如何为创建3D图像而估算2D图片不同区域的深度。eDq每天发布大量与生活相关的资讯平台

构建这种增强的3D照片技术需要克服各种技术挑战,如训练可正确推断出多个主体的3D位置的模型,以及优化系统,令其能够支持常规的移动处理器快速完成处理。为了克服相关挑战,Facebook AI团队通过数百万对公共3D图像及其随附的深度图来训练卷积神经网络,并利用FBNet和ChamNet等先前开发的各种移动优化技术。eDq每天发布大量与生活相关的资讯平台

现在这项功能已经向所有Facebook用户开放,而团队日前通过博文介绍了相关的开发细节。eDq每天发布大量与生活相关的资讯平台

原图是用单透镜相机拍摄,不包含任何深度图数据。Facebook的系统将其转换下图所示的3D图像。eDq每天发布大量与生活相关的资讯平台

1. 为移动设备带来高效的性能eDq每天发布大量与生活相关的资讯平台

给定标准RGB图像,3D Photos CNN可以为每个像素估计距摄像头的距离。团队通过以下四种方式来实现所述目标:eDq每天发布大量与生活相关的资讯平台

使用一组可参数化,针对移动设备优化的神经构建模块所构建的网络架构。自动化架构搜索,为其寻找有效配置,从而令系统能够支持任何设备在少于一秒内执行任务。量化感知训练,从而在移动设备利用高性能的INT8量化,同时最大程度地减少量化过程中潜在的质量下降。来自公共3D照片的大量训练数据。eDq每天发布大量与生活相关的资讯平台

2. 神经构建模块eDq每天发布大量与生活相关的资讯平台

团队开发的架构使用了受FBNet启发的构建模块。FBNet是用于为移动设备和其他资源受限设备优化ConvNet架构的框架。构造模块由点式卷积,可选的上采样,K x K深度式卷积,以及附加的点式卷积组成。研究人员实现了一个U-net样式的架构,并修改为沿着skip connection放置FBNet构建模块。U-net编码器和解码器包含五个阶段,每个阶段对应于不同的空间分辨率。eDq每天发布大量与生活相关的资讯平台

网络架构概述:所述的网络架构是一个U-net,并且包含沿skip connection放置的额外宏级别构建模块。eDq每天发布大量与生活相关的资讯平台

3. 自动化架构搜索eDq每天发布大量与生活相关的资讯平台

为了找到有效的架构配置,团队使用了由Facebook AI开发的算法ChamNet来自动化搜索过程。ChamNet算法迭代地从搜索空间中采样点并用以训练精度预测器。所述精度预测器用于加速genetic search,从而定位一个在满足指定资源限制的同时最大化预测准确性的模型。在这种设置下,研究成员使用了一个会改变通道扩展因子和每个模块输出通道数的搜索空间,从而产生3.4×1022的可能架构。然后,他们使用800个Tesla V100 GPU在大约三天内完成搜索,设置及调整模型架构的FLOP约束以实现不同的运算点。eDq每天发布大量与生活相关的资讯平台

4. 量化感知训练eDq每天发布大量与生活相关的资讯平台

默认情况下,模型使用单精度浮点权重和激活进行训练,但团队发现了将权重和激活量化为8位的显著优势。特别地,int8权重仅需要float32权重所需存储量的四分之一,从而减少了首次使用时必须传输到设备的字节数。eDq每天发布大量与生活相关的资讯平台

图像一开始都是常规2D图像,并通过Facebook AI的深度估计神经网络转换为3D。eDq每天发布大量与生活相关的资讯平台

与基于float32的运算符相比,基于Int8的运算符同时具有更高的吞吐量,这要归功于QNNPACK等经过精细调整的库(已集成到PyTorch中)。团队使用量化意识训练(Quantization-aware training;QAT)来避免由于量化而导致的质量下降。QAT(现已作为PyTorch的一部分)在训练过程中模拟量化并支持反向传播,从而消除了训练和实际性能之间的差距。eDq每天发布大量与生活相关的资讯平台

这个神经网络可处理多种内容,包括复杂场景的绘画和图像。eDq每天发布大量与生活相关的资讯平台

5. 寻找创建3D体验的新方法eDq每天发布大量与生活相关的资讯平台

除了完善和改进深度估算算法外,团队同时致力于为移动设备拍摄的视频提供高质量的深度估算。视频带来了一个值得关注的挑战,因为每个帧的深度必须与下一帧的深度一致。但这同时是提高性能的机会,因为对同一对象的多次观察可为高精度的深度估计提供额外的信号。视频长度深度估计将为用户带来各种创新的内容创建工具。随着团队继续改善神经网络的性能,他们将探索在诸如增强现实之类的实时应用中利用深度估计,表面法线估计和空间推理。eDq每天发布大量与生活相关的资讯平台

Facebook指出:“除了这些潜在的新体验之外,这项研究还将帮助我们更全面地理解2D图像的内容。更好地理解3D场景同时可以帮助机器人导航并与现实世界交互。我们希望通过共享有关3D Photos系统的详细信息,我们可以帮助AI社区在这些领域取得进展,并创造利用先进3D理解的新体验。”eDq每天发布大量与生活相关的资讯平台

也许你还喜欢

ups不间断电源原理分析

当前在电源市场上,所销售的电源类型较多,不同类型的电源,相应的功能与作用有所不同。在超

空间背景音乐怎么添加图文教程分享

怎样免费添加QQ空间背景音乐其实步骤也不多,很简单,主要有以下几个步骤,详情如下

万能转换器破解版怎么用?具体操作方

万能格式转换器是一款功能强大的格式转换软件,音频、视频、图片、光驱设备都可以通过万

rmvb转mp4格式转换器图文教程

在我们日常娱乐和日常工作中,现在网络上一些高清的视频一般都是rmvb格式的,而一些播放设

支付宝网络系统异常怎么解决

支付宝支付出现网络系统异常是因为IE浏览器设置Internet选项不恰当而导致的,去重新设置

win10蓝牙驱动破解版安装图文教程

win10蓝牙驱动怎么安装?请看下面具体操作方法。

微孔抛光镜面加工计数详解

一般来说,对于小孔微孔进行抛光,传统的加工方法可能会导致孔洞磨损,或者加工效果不理想。

短视频内容管理助手有哪些?怎么好用

随着短视频的普及,越来越多的人开始将大量的时间和精力投入到短视频的制作和分享中。因

模具设计学习知识分享

今天,我想谈谈我在模具设计CAD方面的一些心得体会。作为一个从事这个行业多年的工程师,

seo优化排名软件详细介绍

1. SEMrush SEMrush,一款广受好评的SEO神器,被誉为业内最佳的SEO分析工具。功能包括全