DL物体检测之-RCNN

"Object Detection Method: RCNN"

Posted by FinlayLiu on November 28, 2017

论文介绍

论文RCNN来自Ross Girshick,作者也是在传统物体检测领域非常有名气,也用深度学习的方法彻底改变了物体识别和分割领域。论文发表在CVPR2014,是首个将深度学习成功应用到物体识别的工作。之后的识别方法发展也是借鉴了RCNN的思路,所以RCNN在物体检测领域,算是深度学习方法的开山之作,以后的方法都要与它进行精度和运行效率的比较。

论文内容

物体识别(检测)和图像分类不同,其更加细致,需要模型输出物体具体类别的同时,也要给出物体在原图中的位置。如果将物体的bounding box与CNN结合,就得到本文的RCNN方法。RCNN(Regions CNN),通过名字就可以看到,它是基于区域的CNN。

RCNN解决识别的方法为:通过传统方法得到proposal,大小归一化后利用pre-train的CNN得到特征,再对特征进行分类。可以看到RCNN是还是需要借助传统物体检测方法,来得到潜在边框。

Objection Detection with RCNN

此部分讲解了RCNN的具体方法和流程,选择Selected Search作为生成proposal的方法,利用SVM对提取的特征进行one-vs-all训练。

  • 提取CNN的网络使用的是AlexNet,先在PASCAL上fine-tune下;
  • 每幅图片生成2000个左右的proposal,再分别使用AlexNet提取特征;
  • SVM训练过程中需要考虑边框位置,可以对边框进行回归;

Semantic Segmentation

由于语义分割的一个步骤就是物体检测,因此RCNN也将方法在分割上进行试验。但此处需要注意的是,RCNN只能输出矩形边框,并不能对输出像素级别的结果。因此RCNN分割试验,只是为了说明其检测结果的优越性。

论文创新点和问题

论文是首个将CNN网络应用到物体检测中的工作,将物体检测的精度直接提高了几十个百分点。

总体上说论文有如下创新点:

  • 更新了物体检测方法的思路;
  • 树立了一个物体检测方法的实验标准;

同时由于论文模型使用了很多中间结果,需要在过程中间保存等,导致模型在预测阶段比较慢。

  • 一张图片,可能有2000个proposal,每个区域都需要提取CNN特征;
  • 需要训练多个SVM分类器;

论文评价

首先论文的文笔和应用的参考文献非常充实,每个实验对比都有明显的提高;其次论文的思路非常明确,解决的思路也比较清晰,可以进一步发展。论文在分析结果中也指出,物体检测精度的提高主要来自CNN模型,而主要误差来自于提取proposal的方法。