Monodepth2-基于自监督学习的单目深度估计模型

时间：2025-07-22 | 作者： | 阅读：0

Monodepth2是ICCV2019发表的自监督单目深度估计方法，为Monodepth升级版。其结合双目图像与单目序列自监督方法，含深度预测和位姿变换预测网络，引入多种优化策略获当时SOTA。本文介绍其复现过程，用KITTI数据集，经640x192训练及1024x320微调，abs_rel达0.104，还含数据集、代码结构等信息。

1. 简介

Monodepth2是通过自监督学习进行单目深度估计的一种方法，发表于ICCV2019，是发表于CVPR2017的Monodepth的升级版。Monodepth基于标定过的双目图像，通过预测中间变量disparity(视差)来对一侧图像进行变换重构另一侧图像，并以重构损失进行训练,有关Monodepth的复现可以参考我的另一个项目。

Monodepth2在此基础上加入了比较流行的单目序列自监督方法，即通过预测单目相邻帧之间的位姿变换与深度图来重构相邻帧。Monodepth2将两种训练方式统一到了基于一个位姿变换的框架下，上图为其的框架结构及针对部分问题的改进。框架中包含两个网络，一个是深度预测网络，给定一张图片，预测深度图，这个也是我们最后想得到的网络；另一个是位姿变换预测网络，给定一对图片，预测两者之间的位姿变换，一般给定的是相邻的前后两帧，此网络用于辅助训练；训练时选取左相机某一帧作为基准，计算深度图，其前后两帧及右相机同帧图像进行作为参考，计算位姿变换（右相机位姿变换为常数，不需要进行预测），利用预测得到的深度图将基准图像变换为点云、进行位姿变换、再重投影得到重构图像计算重构损失。

除此之外，Monodepth2引入了一些新trick来提升性能：

使用resnet预训练模型，极为显著地提升性能。
对于每个像素点，计算由不同视角进行重构所产生误差的最小值作为loss，使得loss对于受遮挡的物体更加鲁棒。
将不同尺度的视差图resize到原始尺寸对原图进行，显著降低了深度图中不合理的纹理特性。
自动mask掉会动的物体，使得收到监督的像素都满足静态场景的假设。

综合这些trick，Monodepth2得到了当时自监督深度估计的SOTA效果，但仍然与监督方法有着一定差距。

以下为本项目模型在KITTI测试图像上的预测结果：

论文:?Digging Into Self-Supervised Monocular Depth Estimation

参考repo:?monodepth2

2. 数据集

KITTI是一个自动驾驶领域常用的数据集，其由配置了传感器的汽车于德国卡尔斯鲁厄采集，数据中包含了双目彩色图像、深度图像、雷达点云等传感数据，并提供目标检测、实例分割等常见CV任务的标签。本项目使用AI Studio上的KITTI压缩数据集，全部数据可从此处下载。在训练过程中只需要双目图像，所以只解压jpg_images.tar.*即可。

KITTI数据集存在两种划分，一种是官方标准划分，称为KITTI划分，另一种是Eigen et. al.提出的Eigen划分方式。领域内更常用Eigen划分进行评估。由于在评估时需要点云数据来计算深度图的groundtruth，解压全部点云数据集占用硬盘空间过大，我们对Eigen划分的测试集进行了单独的打包，可在此处下载。

3. 复现精度

首先训练输入分辨率为640x192的模型：加载resnet18预训练模型，batch size 12，epoch 20，优化器Adam，初始学习率1e-4，15个epoch后减小为1e-5。原文和仓库并没有提供最优模型的选择方法，我们保存验证集loss最低的模型为最优模型。此时得到的最优模型abs_rel为0.109，未达到验收精度。

之后将以640x192为输入分辨率的最优模型在1024x320的输入分辨率上进行finetune，batch size 4，epoch 2，优化器Adam，学习率5e-5。得到的模型abs_rel为0.104，达到验收标准。

注意：为了固定数据增强的随机性，项目中使用setup_seed对Dataloader中的所有worker进行了初始化，这就导致了结果是和worker的数量相关的，想要完全复现项目中的结果，第一部分训练的num_workers=16，第二部分训练的num_workers=4。

abs_relsq_relrmslog_rmsa1a2a3640 x 192 原文精度0.1060.8184.7500.1960.8740.9570.9791024 x 320 原文精度0.1060.8064.6300.1930.8760.9580.980640 x 192 复现精度0.1090.8804.9030.2000.8680.9550.9791024 x 320 复现精度0.1040.7984.6190.1920.8790.9580.980

训练日志链接：640x192 train log,?1024x320 finetune log,?640x192 test log,?1024x320 test log

权重文件链接：pytorch resent18 pretrained weight,?our best 640x192 weights,?our best 1024x320 weights

4. 快速开始

Step 1：准备数据

In [1]

!cat ~/data/data15348/jpg_images.tar.* | tar -x -C ~/data/!rm ~/data/data15348/jpg_images.tar.*登录后复制In [2]

!tar -xzf ~/data/data124009/eigen_test.tgz -C ~/data登录后复制

Step 2：配置环境

In [3]

%cd /home/aistudio/work/monodepth2-paddle!pip install -r requirements.txt登录后复制

Step 3：训练

In [?]

# train the model at resolution of 640 x 192 !python train.py --model_name mono+stereo_model_640x192 --frame_ids 0 -1 1 --use_stereo --data_path ~/data/kitti --log_dir logs --num_workers 4 --weights_init weights/resnet18-pytorch登录后复制In [7]

# finetune the best 640 x 192 model at resolution of 1024 x 320!python train.py --model_name mono+stereo_model_1024x320 --frame_ids 0 -1 1 --use_stereo --data_path ~/data/kitti --height 320 --width 1024 --load_weights_folder weights/best_640x192/ --log_dir logs --num_workers 4 --batch_size 4 --num_epochs 2 --learning_rate 5e-5登录后复制In [11]

!python evaluate_depth.py --load_weights_folder weights/best_1024x320/ --eval_stereo --data_path ~/data/eigen --num_workers 4登录后复制In [?]

!python demo.py --image_path assets/test_image.jpg --load_weights_folder weights/best_1024x320/登录后复制

5. 代码结构

├── assets # demo图像├── datasets # 数据集定义├── logs # 日志文件夹├── network # 网络定义├── splits # 数据集数据划分文件├── weights # 存放权重文件├── LICENSE├── README.md├── demo.py # 单张图像深度估计脚本├── evalute_depth.py # 测试脚本├── export_gt_depth.py # 计算groundtruth├── kitti_utils.py # 与KITTI数据集相关的功能函数├── layers.py # 基础模块定义├── options.py # 超参数定义├── trainer.py # 训练方式定义├── train.py # 训练入口脚本├── requirements.txt # 依赖包└── utils.py # 功能函数登录后复制

6. 复现心得

paddle.grid_sample的反向传播存在Bug，当grid.stop_gradient=False时，x.stop_gradient必须为False，否则会报错，已提交PaddlePaddle?issue。
Paddle Hub中的Resnet预训练参数与PyTorch Hub的不同，使用Paddle的预训练参数在640x192上训练最好只能达到0.113，加载PyTorch的预训练模型可达到0.109。

来源:https://www.php.cn/faq/1421600.html
免责声明：文中图文均来自网络，如有侵权请联系删除，心愿游戏发布此文仅为传递信息，不代表心愿游戏认同其观点或证实其描述。