旗胜V3论坛 >
YOLO v3深入理解
回复
返回列表
12 /2页
发帖
回复

查看: 回复:27

YOLO v3深入理解

\"收藏此主题\"

雁南飞东方

 
 
注册:
2008-01-21
  • 0粉丝
  • 0精华
  • 691帖子
YOLOv3没有太多的创新,主要是借鉴一些好的方案融合到YOLO里面。不过效果还是不错的,在保持速度优势的前提下,提升了预测精度,尤其是加强了对小物体的识别能力。

本文主要讲v3的改进,由于是以v1和v2为基础,关于YOLO1和YOLO2的部分析请移步YOLO v1深入理解 和 YOLOv2 / YOLO9000 深入理解。

YOLO3主要的改进有:调整了网络结构;利用多尺度特征进行对象检测;对象分类用Logistic取代了softmax。

新的网络结构Darknet-53

在基本的图像特征提取方面,YOLO3采用了称之为Darknet-53的网络结构(含有53个卷积层),它借鉴了残差网络residual network的做法,在一些层之间设置了快捷链路(shortcut connections)。



图1 Darknet-53[1]



上图的Darknet-53网络采用256*256*3作为输入,最左侧那一列的1、2、8等数字表示多少个重复的残差组件。每个残差组件有两个卷积层和一个快捷链路,示意图如下:



 
回复本楼

太平洋汽车全新推出“太平洋车友会”;来太平洋车友会,结识志同道合的车友了解详情>>

tj93

 
 
注册:
2008-03-22
  • 0粉丝
  • 0精华
  • 609帖子
4 1 80中的1应该是指背景类的类别置信度吧?
 
回复本楼

雁南飞东方

 
 
注册:
2008-01-21
  • 0粉丝
  • 0精华
  • 691帖子
tj93 发表于 2楼
4 1 80中的1应该是指背景类的类别置信度吧?
那个1是该边框是否包含对象(objectness)的置信度,理解为背景置信度也可以,但这个值越高,意味着含有对象的概率越高,而不是背景的概率高。“In our experiments with COCO [10] we predict 3 boxes at each scale so the tensor is N x N x N x[3 x (4   1  80)] for the 4 bounding box offsets, 1 objectness prediction, and 80 class predictions.”
 
回复本楼

春光明媚的车

 
 
注册:
2008-02-26
  • 0粉丝
  • 0精华
  • 587帖子
请问一下,上采样的作用是什么,只是为了跨层连接吗,那和yolov2中的passthrough(通过大图拆分四小图)作用不是一样吗。如果是为提取不同size的featuremap,过去的全程下采样网络也可以在不同阶段提取不同size的featuremap啊
 
回复本楼

雁南飞东方

 
 
注册:
2008-01-21
  • 0粉丝
  • 0精华
  • 691帖子
春光明媚的车 发表于 4楼
请问一下,上采样的作用是什么,只是为了跨层连接吗,那和yolov2中的passthrough(通过大图拆分四小图)作用不是一样吗。如果是为提取不同size的featuremap,...
主要是为了更好的检测不同尺度的对象,我觉得是借鉴了FPN特征金字塔的思路。下采样阶段,对象的语义信息(对象类型)越来越强,位置信息(对象定位)越来越弱,后续再上采样,将语义信息的尺寸扩展到之前的高分辨率特征图,以便结合语义和位置信息,有助于检测不同尺度的对象。YOLOv2的passthrough只有一个跨层连接,多尺度检测方面不太够,而且这种形式也比较少见,估计作者后来也是觉得上采样效果更好。其实我觉得网络结构多少有点“黑魔法”,多个尺度的特征图有更好效果是容易理解的,至于进一步解释其结构的“含义”就有点似是而非,需要掺杂一点“灵感”吧。
 
回复本楼

春光明媚的车

 
 
注册:
2008-02-26
  • 0粉丝
  • 0精华
  • 587帖子
春光明媚的车 发表于 4楼
请问一下,上采样的作用是什么,只是为了跨层连接吗,那和yolov2中的passthrough(通过大图拆分四小图)作用不是一样吗。如果是为提取不同size的featuremap,...
感谢!
 
回复本楼

henson84

 
 
注册:
2008-03-22
  • 0粉丝
  • 0精华
  • 583帖子
请问图3是用什么软件画的?
 
回复本楼

雁南飞东方

 
 
注册:
2008-01-21
  • 0粉丝
  • 0精华
  • 691帖子
henson84 发表于 7楼
请问图3是用什么软件画的?
word
 
回复本楼

改装禁区

 
 
注册:
2008-03-03
  • 0粉丝
  • 0精华
  • 382帖子
棒棒的,图6解释的很清楚,感谢!
 
回复本楼

rubymsn

 
 
注册:
2008-04-03
  • 0粉丝
  • 0精华
  • 256帖子
我觉得你的文章讲的很好。我有一个问题,在别的文章里说进行了5次下采样,我想问一下在您的文章的哪里体现出来了。新手[疑惑]
 
回复本楼

月光如水@

 
 
注册:
2007-03-03
  • 0粉丝
  • 0精华
  • 621帖子
rubymsn 发表于 10楼
我觉得你的文章讲的很好。我有一个问题,在别的文章里说进行了5次下采样,我想问一下在您的文章的哪里体现出来了。新手[疑惑]
32倍下采样就是下采样5次得到的
 
回复本楼

认真听话吧4

 
 
注册:
2008-02-15
  • 0粉丝
  • 0精华
  • 889帖子
图很棒
 
回复本楼

blue-fish

 
 
注册:
2008-03-24
您好,问一个比较基础的问题。就是对于4 1 80这个向的解释,我可以理解。但是在实际网络训练中,是怎样保证这个向量的前四个值预测的就是坐标呢,中间那个值预测的就是,是否包含目标,后八十个预测的就是每一类的概率呢?
 
回复本楼

醉中乱想

 
 
注册:
2008-02-25
  • 0粉丝
  • 0精华
  • 590帖子
blue-fish 发表于 13楼
您好,问一个比较基础的问题。就是对于4 1 80这个向的解释,我可以理解。但是在实际网络训练中,是怎样保证这个向量的前四个值预测的就是坐标呢,中间那个值...
网络的输出就是这样排序的,网络自然就趋向于这样收敛呗
 
回复本楼

blue-fish

 
 
注册:
2008-03-24
blue-fish 发表于 13楼
您好,问一个比较基础的问题。就是对于4 1 80这个向的解释,我可以理解。但是在实际网络训练中,是怎样保证这个向量的前四个值预测的就是坐标呢,中间那个值...
嗯嗯,谢谢
 
回复本楼

亚当的告白

 
 
注册:
2008-01-09
  • 0粉丝
  • 0精华
  • 466帖子
三篇文章YOLO文章都看了,目前看到的讲的最清楚,画的图很不错,清析易懂
 
回复本楼

可乐V可乐

 
 
注册:
2008-04-17
  • 0粉丝
  • 0精华
  • 611帖子
三篇文章YOLO文章都看了,博主讲的很高,图画的也非常清晰易懂
 
回复本楼

新乐110

 
 
注册:
2008-03-11
  • 0粉丝
  • 4精华
  • 967帖子
春光明媚的车 发表于 4楼
请问一下,上采样的作用是什么,只是为了跨层连接吗,那和yolov2中的passthrough(通过大图拆分四小图)作用不是一样吗。如果是为提取不同size的featuremap,...
yolov2是对2626进行下采样然后与13*13进行concat, yolov3是1313上采样与2626和5252进行concat
 
回复本楼

新乐110

 
 
注册:
2008-03-11
  • 0粉丝
  • 4精华
  • 967帖子
rubymsn 发表于 10楼
我觉得你的文章讲的很好。我有一个问题,在别的文章里说进行了5次下采样,我想问一下在您的文章的哪里体现出来了。新手[疑惑]
看上面的模型输入的数据是256的图片大小,输出的featuremap是8,也就是做了五次的下采样,也就是缩小了32倍。
 
回复本楼
返回列表
12 /2页
未登录用户

只可添加一张图片,多张图片请选高级模式

高级模式
温馨提示:回复超10字可获1金币,有独特见解超30字可获3金币,灌水用户将扣除金币并锁号处理。希望广大车友共同维护论坛的友好回复氛围。
常用表情
您可能感兴趣

支付宝扫码询价
领最高888元现金红包

关闭