[Extensive Reading]目标检测(object detection)系列(十五) Mask R-CNN:检测与分割结合

简介

Mask R-CNN 是在2017年提出,是FAIR团队的Kaiming大神和RBG大神的强强联手之作。paper的名字非常简洁,就叫Mask R-CNN,R-CNN系列确实可以独树一帜。
Mask R-CNN无论是在方法创新上还是工程实现上,都非常具有影响力,首先是ICCV2017的best paper,其次FAIR团队的maskrcnn-benchmark项目也被很多人使用和改进,并作为其它工作的codebase model,现在,一方面由于maskrcnn-benchmark不再更新,以及detectron2和mm-detection的出现,maskrcnn-benchmark的被使用程度才逐渐下滑。

Mask R-CNN原理

在这里插入图片描述

Mask R-CNN是以Faster R-CNN为基础的工作,它的目标检测部分的结构与Faster R-CNN完全相同,细节上在于ROI Heads中的特征图resize操作,Mask R-CNN换成了RoIAlign,而不是使用Faster R-CNN的RoI Pooling 。
根据Faster R-CNN的结构,RPN进行区域建议输出后,会在最后一层的feature map上crop出不同shape的子特征图,如果想要接入下一层参数(det分支与mask分支),并输出为统一的维度的话,就必须将其reshape到一个固定的size(fixed size feature map)。
根据上图所示,这个改变后的reshape方法,也同样作用到了目标检测的class和box上。

Mask分支

此外,就是最重要的Mask分支,掩码分支是一个卷积网络,取 ROI 分类器选择的正区域为输入,并生成它们的掩码。其生成的掩码是低分辨率的:28x28 像素。但它们是由浮点数表示的软掩码,相对于二进制掩码有更多的细节。掩码的小尺寸属性有助于保持掩码分支网络的轻量性。在训练过程中,Mask R-CNN将真实的掩码缩小为 28x28 来计算损失函数,在推断过程中,我们将预测的掩码放大为 ROI 边框的尺寸以给出最终的掩码结果,每个目标有一个掩码。
Mask R-CNN主要以Faster R-CNN为基础,paper给出的结构图也非常简单,下图可以比较详细的看到Mask R-CNN的每部分构成
在这里插入图片描述

RoIAlign

Mask R-CNN之所以需要RoIAlign,本质上是由于RoI Pooling的不匹配问题(misalignment),在RoI Pooling中,RPN在roi head前的feature map上映射了一块区域,RoI Pooling首先需要把这个值取证,以扣取出与像素对齐的feature map,但是一般检测网络的backbone都会下采样最大到32倍,经过32倍步长的放大,这个不对称对应回原图时误差也会变大。
其次,RoI Pooling会根据fixed size对扣取的feature map进行切块,每个block内进行max pooling,这个时候,就会又一次面临取证问题,这造成了第二次不匹配。
RoI Pooling之所以这么做,主要是由SPP演化而来,RoI Pooling保证了fixed size的同时解决了梯度回传问题,同时对于目标检测没有很大的影响,所以在Faster R-CNN使用。
但是Mask R-CNN的分割需要达到像素级,RoI Pooling的两次不匹配导致候选框已经和最开始RPN选择出来的位置有一定的偏差,在这个有偏差的特征图进行分割,势必会影响准确度。
为了解决这个问题,Mask R-CNN引入了RoIAlign。RoIAlign虽然也使用了max pooling操作,但是是应用双线性内插值法解决取证后的不匹配问题,具体为,不再量化取整的选择一个特征图,而是在RPN的输出结果上(浮点数)直接进行分块操作,并在分块后的每一个块内进行max pooling操作。
在每个块内,Mask R-CNN选择再次划分为bin,这个操作很像hog,bin的数量为4时,实验效果是最好的,再一次浮点计算后,就能得到每个bin的浮点数坐标,这个浮点数最终会应用双线性内插值进行计算得到。
在这里插入图片描述

损失函数

需要注意的是,Mask R-CNN是一个实例分割级别的方法,而不是语义分割,但是由于检测部分的类别输出,Mask R-CNN的分割分支其实不需要关注实例问题,而且可以不关注类别问题,而是直接将instance的问题交RPN和目标检测的reg分支,将类别问题交给目标检测class分支。
具体为,Mask R-CNN将不同类别的mask映射到channel维度上,对于每一个RoIAlign后的特征都输出channel为80的特征图,并在每个通道上的每个像素点用sigmod函数进行求相对熵,得到平均相对熵误差Lmask。对于每一个ROI,如果检测得到ROI属于哪一个分类,就只使用哪一个分支的相对熵误差作为误差值进行计算。(举例说明:分类有3类(猫,狗,人),检测得到当前ROI属于“人”这一类,那么所使用的Lmask为“人”这一分支的mask。)这样的定义使得我们的网络不需要去区分每一个像素属于哪一类,只需要去区别在这个类当中的不同分别小类。最后可以通过与阈值0.5作比较输出二值mask。

热门文章

暂无图片
编程学习 ·

C语言二分查找详解

二分查找是一种知名度很高的查找算法,在对有序数列进行查找时效率远高于传统的顺序查找。 下面这张动图对比了二者的效率差距。 二分查找的基本思想就是通过把目标数和当前数列的中间数进行比较,从而确定目标数是在中间数的左边还是右边,将查…
暂无图片
编程学习 ·

GMX 命令分类列表

建模和计算操作命令: 1.1 . 创建拓扑与坐标文件 gmx editconf - 编辑模拟盒子以及写入子组(subgroups) gmx protonate - 结构质子化 gmx x2top - 根据坐标生成原始拓扑文件 gmx solvate - 体系溶剂化 gmx insert-molecules - 将分子插入已有空位 gmx genconf - 增加…
暂无图片
编程学习 ·

一文高效回顾研究生课程《数值分析》重点

数值分析这门课的本质就是用离散的已知点去估计整体,就是由黑盒子产生的结果去估计这个黑盒子。在数学里这个黑盒子就是一个函数嘛,这门课会介绍许多方法去利用离散点最大化地逼近这个函数,甚至它的导数、积分,甚至微分方程的解。…
暂无图片
编程学习 ·

在职阿里5年,一个28岁女软测工程师的心声

简单的先说一下,坐标杭州,14届本科毕业,算上年前在阿里巴巴的面试,一共有面试了有6家公司(因为不想请假,因此只是每个晚上去其他公司面试,所以面试的公司比较少) ​ 编辑切换为居中…
暂无图片
编程学习 ·

字符串左旋c语言

目录 题目: 解题思路: 第一步: 第二步: 第三步: 总代码: 题目: 实现一个函数,可以左旋字符串中的k个字符。 例如: ABCD左旋一个字符得到BCDA ABCD左旋两个字符…
暂无图片
编程学习 ·

设计模式--观察者模式笔记

模式的定义与特点 观察者(Observer)模式的定义:指多个对象间存在一对多的依赖关系,当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并被自动更新。这种模式有时又称作发布-订阅模式、模型-视图模式&#xf…
暂无图片
编程学习 ·

睡觉突然身体动不了,什么是睡眠痽痪症

很多朋友可能有这样的体验,睡觉过程中突然意识清醒,身体却动弹不了。这时候感觉非常恐怖,希望旁边有一个人推自己一下。阳光以前也经常会碰到这样的情况,一年有一百多次,那时候很害怕晚上到来,睡觉了就会出…
暂无图片
编程学习 ·

深入理解C++智能指针——浅析MSVC源码

文章目录unique_ptrshared_ptr 与 weak_ptrstd::bad_weak_ptr 异常std::enable_shared_from_thisunique_ptr unique_ptr 是一个只移型别(move-only type,只移型别还有std::mutex等)。 结合一下工厂模式,看看其基本用法&#xff…
暂无图片
编程学习 ·

@TableField(exist = false)

TableField(exist false) //申明此字段不在数据库存在,但代码中需要用到它,通知Mybatis-plus在做写库操作是忽略它。,.
暂无图片
编程学习 ·

Java Web day15

第十二章文件上传和下载 一、如何实现文件上传 要实现Web开发中的文件上传功能,通常需要完成两步操作:一.是在Web页面中添加上传输入项;二是在Servlet中读取上传文件的数据,并保存到本地硬盘中。 需要使用一个Apache组织提供一个…
暂无图片
编程学习 ·

【51nod 2478】【单调栈】【前缀和】小b接水

小b接水题目解题思路Code51nod 2478 小b接水 题目 输入样例 12 0 1 0 2 1 0 1 3 2 1 2 1输出样例 6解题思路 可以发现最后能拦住水的都是向两边递减高度(?) 不管两个高积木之间的的积木是怎样乱七八糟的高度,最后能用来装水的…
暂无图片
编程学习 ·

花了大半天写了一个UVC扩展单元调试工具

基于DIRECTSHOW 实现的,用的是MFC VS2019. 详见:http://www.usbzh.com/article/detail-761.html 获取方法 加QQ群:952873936,然后在群文件\USB调试工具&测试软件\UVCXU-V1.0(UVC扩展单元调试工具-USB中文网官方版).exe USB中文网 USB中文…
暂无图片
编程学习 ·

贪心(一):区间问题、Huffman树

区间问题 例题一:区间选点 给定 N 个闭区间 [ai,bi]请你在数轴上选择尽量少的点,使得每个区间内至少包含一个选出的点。 输出选择的点的最小数量。 位于区间端点上的点也算作区间内。 输入格式 第一行包含整数 N,表示区间数。 接下来 …
暂无图片
编程学习 ·

C语言练习实例——费氏数列

目录 题目 解法 输出结果 题目 Fibonacci为1200年代的欧洲数学家,在他的着作中曾经提到:「若有一只免子每个月生一只小免子,一个月后小免子也开始生产。起初只有一只免子,一个月后就有两只免子,二个月后有三只免子…
暂无图片
编程学习 ·

Android开发(2): Android 资源

个人笔记整理 Android 资源 Android中的资源,一般分为两类: 系统内置资源:Android SDK中所提供的已经定义好的资源,用户可以直接拿来使用。 用户自定义资源:用户自己定义或引入的,只适用于当前应用的资源…
暂无图片
编程学习 ·

零基础如何在短时间内拿到算法offer

​算法工程师是利用算法处理事物的职业 算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。 如果一个算法有缺陷,或不适合于某个问题,执…
暂无图片
编程学习 ·

人工智能:知识图谱实战总结

人工智能python,NLP,知识图谱,机器学习,深度学习人工智能:知识图谱实战前言一、实体建模工具Protegepython,NLP,知识图谱,机器学习,深度学习 人工智能:知识图…
暂无图片
编程学习 ·

【无标题】

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…