2021-09-19 3D pose estimation

[https://www.cxyzjd.com/article/qq_42722197/117609139]

知乎-基于深度学习的人体姿态估计综述:全面调研(2014-2020)[https://www.zhihu.com/search?type=content&q=3D%20%E4%BA%BA%E4%BD%93%E5%A7%BF%E6%80%81%E4%BC%B0%E8%AE%A1]

3D姿态估计常见方法:

1.直接估计法:

视频数据集如HumanEva和Human3.6M 标注了3D关节的位置。故可以直接使用3D关键点数据进行监督学习,直接从图像中估计三维关节。

许多方法没有解决相机问题,而是估计相对于根的深度,并使用基于骨骼平均长度的预定义全局尺度。

缺点:

具有精确的ground truth 3D注释的图像是在受控的MoCap环境中捕获的。仅根据这些图像训练的模型不能很好地适用于现实世界。在这里不考虑此种方法。

2.两阶段法:

(regression)先获取2D信息,然后再“提升”到3D姿态。该方法对图像提取特征,最终得到2D point(如HRNet、PifPaf等网络),后将2D关键点序列输入到后续网络(强行FC、TCN、LSTM等)中,提升到3D关键点。该方法有相关实验结果显示:用2D的ground truth关节点来生成3D的关节点错误率非常低,比目前最好的结果好了30%。而我们用从2D图像得到的2D关节点来生成3D关节点,这样的错误率只比目前最好的结果稍微好一点。因此,该种方法还是主要依赖于目前的2D姿态估计技术。

(model fitting)基于模型的人体姿态估计目前有两种不同的方法。基于优化的方法以迭代的方式将参数体模型与二维观测值进行拟合,可以得到精确的图像-模型比对,但往往对初始化比较缓慢和敏感。相比之下,基于回归的方法,即使用深度网络直接从像素估计模型参数,往往提供合理的,但像素不准确的结果,同时需要大量的监督。

两种方法都依赖于人体参数化模型。

基于优化的方法已经被很好地探索和理解。给定人体的参数模型,例如在SMPL,迭代拟合方法试图估计身体姿态和形状,最好地解释二维观察,最典型的如二维关节位置。由于我们明确地对模型与图像特征的一致性进行优化,我们通常会得到很好的拟合,但优化往往非常缓慢,而且对初始化的选择相当敏感。另一方面,最近的深度学习进展已经将焦点转移到纯粹基于回归的方法上,即使用深度网络直接从图像中回归模型参数。理论上,这是一个很有前途的方向,因为深度回归可以考虑所有的像素值,而不是仅仅依赖于二维位置的稀疏集。遗憾的是,这种一次预测可能会导致图像-模型对齐不理想,同时需要大量的数据对网络进行适当的训练。

基于优化的方法:SMPLify。

使用当时流行的基于CNN的方法DeepCut来预测(自下而上)二维人体关节位置。然后,将发布的统计身体形状模型SMPL(自顶向下)拟合到2D关节。通过最小化目标函数来惩罚投影的3D模型关节与检测到的2D关节之间的误差。

基于回归的方法:最近的大多数工作,对于单个RGB图像,使用深度网络对模型参数进行回归。由于缺乏具有完整的三维形状地面真实感的图像,这些工作大多集中在替代监督信号训练深层网络。它们中的大多数都严重依赖于2D注释,包括2D关键点、分割Mask。

典型代表:

HMR,结构如下图:

其思想是,给定一幅图像,网络必须推断出3D网格参数和摄像机,以便在投影后,3D关键点与标注的2D关键点相匹配。为了处理模糊性,这些参数被发送到鉴别器网络,鉴别器网络的任务是确定三维参数是否与真实人体相对应。

虽然SMPL可以对静态软组织变形进行姿态建模,但它对由于身体运动和与地面的冲击力而发生的动态变形并不工作。因而SMPL作者为了建模这些,引入了一组新的附加混合形状,称之为动态混合形状。这些额外的位移与身体和四肢的速度和加速度有关,而与姿势无关,该模型称之为DMPL。

联合优化与回归的方法:
如SPIN(Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop):

SPIN通过基于回归和基于迭代的优化方法之间的紧密协作,为三维人体姿态和形状估计训练了一个深度网络。在培训期间,网络预测SMPL参数模型,不使用ground truth 2D关键点来应用弱重投影损失,而是建议使用回归估计来初始化一个迭代优化例程,使模型适合于2D关键点(SMPLify)。这个过程是在训练循环中完成的。

两阶段法缺点:

为了约束2D到3D估计中的固有模糊性,这些方法使用了各种先验。大多数方法对肢长或比例做出一些假设。

过多地依赖于2D关节检测并且可能在估计3D姿势时丢弃图像信息。

表征方面:
对于人体的三维形态,目前看到有几类不同的表征方式,包括回归出参数化人体模型的参数(如SMPL的和),直接学习出人体的体素(Voxel)等以及学习texture-to-surface的correspondences(如UV map)。

SMPL介绍:

总结:
目前的网络已经验证了多阶段结构、中间监督、多尺度特征融合、多任务学习、体结构约束等有效的网络设计方法。网络效率也是将算法应用于实际应用的一个非常重要的因素。多样性数据可以提高网络处理姿态不规则、肢体遮挡和人群拥挤等复杂场景的鲁棒性。针对特定复杂场景的数据收集是一个选项,还有其他方法可以扩展现有数据集。在合成数据与真实数据存在领域差距的情况下,理论上合成技术可以产生无限的数据。跨数据集补充,特别是用二维数据集补充三维数据集,可以缓解训练数据多样性不足的问题。

参考文献:
1.基于深度学习的三维重建算法综述https://zhuanlan.zhihu.com/p/108198728

2.一张照片获得3D人体信息,云从科技提出新型DenseBody框架

https://zhuanlan.zhihu.com/p/61454340

3.CVPR 2020 | VIBE: 基于视频的人体3D形状和姿态估计

https://zhuanlan.zhihu.com/p/133492544

4.3D人体姿态估计笔记

https://zhuanlan.zhihu.com/p/113024569

5.SMPL, SMAL, SMALR, SMALST–单图像的人体+动物三维重建论文https://blog.csdn.net/Oblivior/article/details/101024958

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

热门文章

暂无图片
编程学习 ·

C语言二分查找详解

二分查找是一种知名度很高的查找算法,在对有序数列进行查找时效率远高于传统的顺序查找。 下面这张动图对比了二者的效率差距。 二分查找的基本思想就是通过把目标数和当前数列的中间数进行比较,从而确定目标数是在中间数的左边还是右边,将查…
暂无图片
编程学习 ·

GMX 命令分类列表

建模和计算操作命令: 1.1 . 创建拓扑与坐标文件 gmx editconf - 编辑模拟盒子以及写入子组(subgroups) gmx protonate - 结构质子化 gmx x2top - 根据坐标生成原始拓扑文件 gmx solvate - 体系溶剂化 gmx insert-molecules - 将分子插入已有空位 gmx genconf - 增加…
暂无图片
编程学习 ·

一文高效回顾研究生课程《数值分析》重点

数值分析这门课的本质就是用离散的已知点去估计整体,就是由黑盒子产生的结果去估计这个黑盒子。在数学里这个黑盒子就是一个函数嘛,这门课会介绍许多方法去利用离散点最大化地逼近这个函数,甚至它的导数、积分,甚至微分方程的解。…
暂无图片
编程学习 ·

在职阿里5年,一个28岁女软测工程师的心声

简单的先说一下,坐标杭州,14届本科毕业,算上年前在阿里巴巴的面试,一共有面试了有6家公司(因为不想请假,因此只是每个晚上去其他公司面试,所以面试的公司比较少) ​ 编辑切换为居中…
暂无图片
编程学习 ·

字符串左旋c语言

目录 题目: 解题思路: 第一步: 第二步: 第三步: 总代码: 题目: 实现一个函数,可以左旋字符串中的k个字符。 例如: ABCD左旋一个字符得到BCDA ABCD左旋两个字符…
暂无图片
编程学习 ·

设计模式--观察者模式笔记

模式的定义与特点 观察者(Observer)模式的定义:指多个对象间存在一对多的依赖关系,当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并被自动更新。这种模式有时又称作发布-订阅模式、模型-视图模式&#xf…
暂无图片
编程学习 ·

睡觉突然身体动不了,什么是睡眠痽痪症

很多朋友可能有这样的体验,睡觉过程中突然意识清醒,身体却动弹不了。这时候感觉非常恐怖,希望旁边有一个人推自己一下。阳光以前也经常会碰到这样的情况,一年有一百多次,那时候很害怕晚上到来,睡觉了就会出…
暂无图片
编程学习 ·

深入理解C++智能指针——浅析MSVC源码

文章目录unique_ptrshared_ptr 与 weak_ptrstd::bad_weak_ptr 异常std::enable_shared_from_thisunique_ptr unique_ptr 是一个只移型别(move-only type,只移型别还有std::mutex等)。 结合一下工厂模式,看看其基本用法&#xff…
暂无图片
编程学习 ·

@TableField(exist = false)

TableField(exist false) //申明此字段不在数据库存在,但代码中需要用到它,通知Mybatis-plus在做写库操作是忽略它。,.
暂无图片
编程学习 ·

Java Web day15

第十二章文件上传和下载 一、如何实现文件上传 要实现Web开发中的文件上传功能,通常需要完成两步操作:一.是在Web页面中添加上传输入项;二是在Servlet中读取上传文件的数据,并保存到本地硬盘中。 需要使用一个Apache组织提供一个…
暂无图片
编程学习 ·

【51nod 2478】【单调栈】【前缀和】小b接水

小b接水题目解题思路Code51nod 2478 小b接水 题目 输入样例 12 0 1 0 2 1 0 1 3 2 1 2 1输出样例 6解题思路 可以发现最后能拦住水的都是向两边递减高度(?) 不管两个高积木之间的的积木是怎样乱七八糟的高度,最后能用来装水的…
暂无图片
编程学习 ·

花了大半天写了一个UVC扩展单元调试工具

基于DIRECTSHOW 实现的,用的是MFC VS2019. 详见:http://www.usbzh.com/article/detail-761.html 获取方法 加QQ群:952873936,然后在群文件\USB调试工具&测试软件\UVCXU-V1.0(UVC扩展单元调试工具-USB中文网官方版).exe USB中文网 USB中文…
暂无图片
编程学习 ·

贪心(一):区间问题、Huffman树

区间问题 例题一:区间选点 给定 N 个闭区间 [ai,bi]请你在数轴上选择尽量少的点,使得每个区间内至少包含一个选出的点。 输出选择的点的最小数量。 位于区间端点上的点也算作区间内。 输入格式 第一行包含整数 N,表示区间数。 接下来 …
暂无图片
编程学习 ·

C语言练习实例——费氏数列

目录 题目 解法 输出结果 题目 Fibonacci为1200年代的欧洲数学家,在他的着作中曾经提到:「若有一只免子每个月生一只小免子,一个月后小免子也开始生产。起初只有一只免子,一个月后就有两只免子,二个月后有三只免子…
暂无图片
编程学习 ·

Android开发(2): Android 资源

个人笔记整理 Android 资源 Android中的资源,一般分为两类: 系统内置资源:Android SDK中所提供的已经定义好的资源,用户可以直接拿来使用。 用户自定义资源:用户自己定义或引入的,只适用于当前应用的资源…
暂无图片
编程学习 ·

零基础如何在短时间内拿到算法offer

​算法工程师是利用算法处理事物的职业 算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。 如果一个算法有缺陷,或不适合于某个问题,执…
暂无图片
编程学习 ·

人工智能:知识图谱实战总结

人工智能python,NLP,知识图谱,机器学习,深度学习人工智能:知识图谱实战前言一、实体建模工具Protegepython,NLP,知识图谱,机器学习,深度学习 人工智能:知识图…
暂无图片
编程学习 ·

【无标题】

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…