点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

f14fa34287b71d70d1752f1f2676339b.jpeg

3D视觉工坊为您网罗最新的行业动态、学术论文、科研成果、产品发布、新闻政策!

1. SchurVINS:基于Schur补码的轻型视觉惯性导航系统

标题:SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System

作者:Yunfei Fan, Tianyu Zhao, Guidong Wang

机构:ByteDance

来源:CVPR 2024

原文链接:https://arxiv.org/abs/2312.01616

代码链接:https://github.com/bytedance/SchurVINS

摘要:精度和计算效率是视觉惯性导航系统(VINS)最重要的指标。现有的VINS算法要么精度高,要么计算复杂度低,难以在资源受限的设备上提供高精度定位。为此,我们提出了一种新的基于滤波器的VINS框架,称为SchurVINS,它可以通过建立完整的残差模型来保证高精度,并通过Schur补来保证低计算复杂度。在技术上,我们首先制定完整的残差模型,其中梯度,Hessian和观察协方差显式建模。然后利用Schur补将完整模型分解为自运动残差模型和界标残差模型。最后,在这两个模型中高效地实现了扩展卡尔曼滤波(EKF)更新。在EuRoC和TUM-VI数据集上的实验表明,我们的方法在准确性和计算复杂度上都明显优于当前最先进的(SOTA)方法。

395bb0872db1a707b10a94b6c8e1faae.png

2. D2S:表示用于摄像机再定位的稀疏描述符和3D坐标

标题:D2S: Representing sparse descriptors and 3D coordinates for camera relocalization

作者:Bach-Thuan Bui, Huy-Hoang Bui, Dinh-Tuan Tran, Joo-Ho Lee

机构:AIS Lab, Ritsumeikan University

原文链接:https://thpjp.github.io/d2s/

代码链接:https://thpjp.github.io/d2s/

摘要:最先进的视觉定位方法主要依赖于复杂的过程来匹配局部描述符和3D点云。然而,随着时间的推移,这些过程在推断、存储和更新方面会产生巨大的成本。在这项研究中,我们提出了一种直接基于学习的方法,利用一个简单的网络命名为D2S来表示局部描述符及其场景坐标。我们的方法的特点是简单和成本效益。它在测试阶段仅利用单个RGB图像进行定位,并且仅需要轻量级模型来编码复杂的稀疏场景。所提出的D2S采用简单损失函数和图形注意力的组合来选择性地聚焦于鲁棒描述符,而忽略诸如云、树和几个动态对象的区域。这种选择性注意使D2S能够有效地对稀疏描述符执行二元语义分类。此外,我们提出了一个新的室外数据集来评估视觉定位方法在场景泛化和从未标记的观察值进行自我更新方面的能力。在室内和室外环境中,我们的方法在场景坐标回归方面优于最先进的基于CNN的方法。它展示了在训练数据之外进行归纳的能力,包括涉及从白天到夜晚的转换和适应领域转换的场景,即使在没有标记的数据源的情况下。

e160f2ae2117886e1d16620ef6e5ec9f.png

3. 轻型ToF传感器单目密集SLAM的多模态神经辐射场

标题:Multi-Modal Neural Radiance Field for Monocular Dense SLAM with a Light-Weight ToF Sensor

作者:Xinyang Liu, Yijin Li, Yanbin Teng, Hujun Bao, Guofeng Zhang, Yinda Zhang, Zhaopeng Cui

机构:State Key Lab of CAD&CG, Zhejiang University、Google

来源:ICCV 2023

原文链接:https://arxiv.org/abs/2308.14383.pdf

代码链接:https://github.com/zju3dv/tof_slam

摘要:轻型飞行时间(ToF)深度传感器体积小、成本低,因此广泛用于移动设备,用于自动对焦和障碍物检测等任务。然而,由于稀疏和有噪声的深度测量,这些传感器很少被考虑用于密集几何形状重建。在这项工作中,我们提出了第一个具有单目摄像机和轻型ToF传感器的密集SLAM系统。具体而言,我们提出了一种多模态隐式场景表示,它支持渲染来自RGB相机和轻量级ToF传感器的信号,通过与原始传感器输入进行比较来驱动优化。此外,为了保证成功的姿态跟踪和重建,我们利用预测深度作为中间监督,并开发了一种由粗到细的优化策略,用于隐式表示的高效学习。最后,明确利用时间信息处理来自轻型ToF传感器的噪声信号,以提高系统的精度和鲁棒性。实验表明,我们的系统很好地利用了轻型ToF传感器的信号,并在摄像机跟踪和密集场景重建方面取得了有竞争力的结果。推荐课程:(第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化

84a8bd72c1eddfe743c3cf1a93d609b7.png

4. ALIKED:一种基于变形变换的轻量级关键点和描述符提取网络

标题:ALIKED: A Lighter Keypoint and Descriptor Extraction Network via Deformable Transformation

作者:Xiaoming Zhao, Xingming Wu, Weihai Chen, Peter C. Y. Chen, Qingsong Xu, Zhengguo Li

机构:Beihang University、University of Macau、National University of Singapore、Institute for Infocomm Research

来源:IEEE Transactions on Instrumentation & Measurement

原文链接:https://arxiv.org/abs/2304.03608

代码链接:https://github.com/Shiaoming/ALIKED

摘要:图像关键点和描述符在许多视觉测量任务中起着至关重要的作用。近年来,深度神经网络被广泛用于提高关键点和描述符提取的性能。然而,传统的卷积运算不提供描述符所需的几何不变性。为了解决这个问题,我们提出了稀疏可变形描述符头(SDDH ),它学习每个关键点的支持特征的可变形位置,并构造可变形描述符。此外,SDDH提取稀疏关键点处的描述符,而不是密集描述符图,这使得能够高效地提取具有强表达性的描述符。此外,我们将神经重投影误差(NRE)损失从密集放宽到稀疏,以训练提取的稀疏描述符。实验结果表明,该网络在各种视觉测量任务中是高效和强大的,包括图像匹配、三维重建和视觉再定位。

0768958ef9e990b5758202a7a5612c2d.jpeg

5. 用于相机重定位的快速轻量场景回归

标题:Fast and Lightweight Scene Regressor for Camera Relocalization

作者:Thuan B. Bui、Dinh-Tuan Tran、Joo-Ho Lee

机构:Ritsumeikan University、Ritsumeikan University

原文链接:https://arxiv.org/abs/2212.01830

代码链接:https://github.com/ais-lab/feat2map

摘要:在许多混合现实和机器人应用中,涉及先前3D重建的摄像机再定位起着至关重要的作用。对于存储和/或通信带宽有限的一些应用来说,直接相对于预先构建的3D模型来估计相机姿态可能是极其昂贵的。虽然最近的场景和绝对姿态回归方法已成为有效摄像机定位的流行方法,但它们中的大多数是计算资源密集型的,并且难以获得具有高精度约束的实时推断。这项研究提出了一个简单的场景回归方法,只需要一个多层感知器网络来映射场景坐标,以实现精确的相机姿态估计。所提出的方法使用稀疏描述符来回归场景坐标,而不是密集的RGB图像。稀疏特征的使用提供了几个优点。首先,提出的回归网络比以前的研究中报道的要小得多。这使得我们的系统高效且可扩展。第二,预先构建的3D模型提供了最可靠和最稳健的2D-3D匹配。因此,从它们中学习可以导致对等价特征的认识,并且实质上提高泛化性能。我们的方法的详细分析和使用现有数据集的广泛评估被提供来支持所提出的方法。

42037d5ec20b607196ac30f221c8897b.png

本文仅做学术分享,如有侵权,请联系删文。

b841976cee0a0c0178ae8ef1ba0cc3b9.png

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3257674667fbed620f76f9bf5a156fac.jpeg
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

f67b63435bcf1cc4f1a259fcd68ad920.jpeg

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

382ee5715c4d316d3670ebfab19567d9.jpeg
▲ 长按扫码学习3D视觉精品课程
3D视觉模组选型:www.3dcver.com

e3f9d5461f981a9543858d336ad02c89.png

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐