专利一种基于深度学习的物体三维重建系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211111620.3 (22)申请日 2022.09.13 (71)申请人重庆理工大学地址 400054 重庆市巴南区李家沱红光大道69号申请人重庆工业大数据创新中心有限公司 (72)发明人宋涛　邢镔　郑米培　张渝　张景涛　李程　田媛　王敏　李沩沩　 (74)专利代理机构重庆博凯知识产权代理有限公司 50212 专利代理师黄河 (51)Int.Cl. G06T 17/00(2006.01) G06T 19/20(2011.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度学习的物体三维重建系统 (57)摘要本发明涉及三维重建技术领域，具体涉及一种基于深度学习的物体三维重建系统。本发明提出了一种引入可见性感知的自适应成本聚合方法用于成本量的聚合，通过网络获取视图中像素点的可见性，可以提高遮挡区域重建完整性；采用基于方差预测每像素视差范围，构建空间变化的深度假设面，用于下一阶段的深度估计，在最后一阶段提出了残差与通道注意力引导融合的深度图优化模块，以获得优化后的深度图；采用改进深度图融合算法，结合像素点与3D点重投影误差进行一致性检查，得到密集点云。在DTU数据集上与其他方法的定量定性比较结果表明本发明方法可以重建出细节上表现更好的场景，且实现了降低GPU内存消耗和计算时长的目的。权利要求书3页说明书11页附图5页 CN 115359191 A 2022.11.18 CN 115359191 A 1.一种基于深度学习的物体三维重建系统，其特征在于：包括输入单元、处理单元、融合单元和重建单元；输入单元用于输入进行三维重建的初始图像，所述初始图像包括源图像和1张参考图像；所述处理单元包括级联式三维重建网络和深度图优化模块，级联式三维重建网络用于按分辨率从低到高分阶段进行深度估计；所述级联式三维重建网络的每一阶段均包括特征提取模块、成本体构建模块、自适应聚合模块和深度图构建模块；特征提取模块用于预设的要求对初始图像进行特征提取，得到对应的特征图；所述预设要求为各阶段的特征提取模块按照分辨率从低到高的顺序依次进行特征提取；成本体构建模块用于对该阶段的特征图进行处理，得到各像素点的可见性并构建对应的成本体；自适应聚合模块用于对该阶段的成本体进行分析处理得到对应的概率体，再采用基于方差的视差范围预测每像素的空间变化的视差范围，并构建空间变化的深度假设面；深度图构建模块用于根据概率体预测得到对应的初始深度图；其中，若成本体构建模块不属于级联式三维重建网络的第一阶段，则该成本体构建模块根据该阶段的特征图及上一阶段的深度假设面构建成本体；深度图优化模块用于对最后一阶段的初始深度图进行优化，得到优化深度图；融合单元用于根据优化深度图生成3D密集点云；重建单元用于对3D密集点云进行处理得到重建的三维视图。 2.如权利要求1所述的基于深度学习的物体三维重建系统，其特征在于：所述特征提取模块包括编码器和特征提取器；所述编码器包括一组卷积层组，编码器的统一层为 INPLACE‑ABN，编码器用于按预设步长的卷积对初始图像大小进行下采样；特征提取器用于按照预设的要求从解码器中提取特征图。 3.如权利要求2所述的基于深度学习的物体三维重建系统，其特征在于：第一阶段的成本构建模块的工作过程包括：建立一个标准的平面扫描体，从预定义的深度间隔[dmin,dmax]中均匀采样得到L个深度假设层通过源视图的特征映射和参考图像之间的像素对应关系扭曲映射得到对应的成本体；所述源视图的特征映射和参考图像之间的像素对应关系为： pi,l＝Ki·(Ri·(K‑1·p·dl)+ti)；其中， pi,l为第i张源图像中的像素p在参考图像中第 l层深度假设dl的对应像素：为参考图像与第i张源图像的内参矩阵；为参考图像与第i张源图像的旋转平移矩阵。 4.如权利要求3所述的基于深度学习的物体三维重建系统，其特征在于：除第一阶段外，其余阶的成本体构建模块的工作过程包括：将特征通道划分为G组后，计算参考图像特征F(p)和第i张源视图在第l层深度假设面扭曲映射后的特征图Fi(pi,l)在第g组的相似性Si(p,l)g：其中， H为特征通道的数量； G为特征通道的组数；计算像素P和第l层深度假设面的最终每组相似性其中，权　利　要　求　书 1/3 页 2 CN 115359191 A 2Si(p,l)表示像素p参考图像特征和第i张源图像在l层特征图上的相似性； n表示初始图像的数量；为第i张源图像的可见性掩码；计算第i幅源图像的成本体表示第i张源视图在第l层深度假设面的最终每组相似性；再计算成本体C： 5.如权利要求4所述的基于深度学习的物体三维重建系统，其特征在于：自适应聚合模块经平均分组相关性计算的相似性度量来表示结构权重成本，再通过可见性感知网络获取源图像中像素点是否可见；其中，所述通过可见性感知网络获取视图中像素点是否可见包括：将参考图像特征F (p)和源图像特征Fi(pi,l)的相似性Si(p,l)输入可见性感知网络，并输出视图i的可见性掩码且在所有像素上共享权重，独立预测每个像素的可见性；所述可见性掩码中， wi(p)＝max{Pi(p,l)|l＝0,1,...,L ‑1}；其中， Pi(p,l)表示第i张源图像中像素p在第l层深度假设面的像素值； L 为该阶段的深度假设面的数量。 6.如权利要求5所述的基于深度学习的物体三维重建系统，其特征在于：自适应聚合模块通过3D CNN处理成本体，并在3D CNN的末尾应用深度方向的softmax来分析每个像素的预测深度后，得到对应的概率体。 7.如权利要求6所述的基于深度学习的物体三维重建系统，其特征在于：像素p在第k阶段的预测深度Qk(p)的计算式为：其中， L为该阶段的深度假设面的数量； Qk,l表示第k阶段的第l假设平面， Qk,l(p)表示Qk,l在像素p处的值； Pk,l(p)表示像素p 在Qk,l的概率值。 8.如权利要求7所述的基于深度学习的物体三维重建系统，其特征在于：所述自适应聚合模块采用基于方差的视差范围预测每像素的空间变化的视差范围，并构建空间变化的深度假设面具体包括：计算像素p在第k阶段的概率分布的方差vk(p)：其中， Pk,l(p)表示像素p在Qk,l深度的概率值； Qk(p)表示像素p在k阶段的预测深度概率体；并计算相应的标准差使用基于方差的置信区间来衡量视差范围预测： ck(p)＝[Qk(p)‑λ σk(p),Qk(p)+λ σk(p)]；其中， λ为预设的用于确定置信区间的大小的标量参数；之后，对于每个像素p，从第k阶段的置信区间ck(p)均匀采样Lk+1个深度值，以获取该像素在k+1阶段的深度假设面的深度值并构建对应的深度假设面。权　利　要　求　书 2/3 页 3 CN 115359191 A 3

专利 一种基于深度学习的物体三维重建系统

专利一种基于深度学习的物体三维重建系统