太平洋汽车 > 论坛 > 黄海论坛 > 旗胜V3论坛 [ 其他论坛 ] > 正文

返回列表

发帖

发普通帖
发游记

查看：回复：27

YOLO v3深入理解

$\"收藏此主题\"$

雁南飞东方

0粉丝
0精华
691帖子

用户：雁南飞东方
等级：Lv1
地区：

发表于 2018-11-13 15:56

| 只看楼主 | 申请车主认证 | 申请精华

您好，精华帖至少要有9张图片，文字不少100个字！并且是原创内容，布局合理。
查看精华帖标准>>

楼主电梯直达楼

YOLOv3没有太多的创新，主要是借鉴一些好的方案融合到YOLO里面。不过效果还是不错的，在保持速度优势的前提下，提升了预测精度，尤其是加强了对小物体的识别能力。

本文主要讲v3的改进，由于是以v1和v2为基础，关于YOLO1和YOLO2的部分析请移步YOLO v1深入理解和 YOLOv2 / YOLO9000 深入理解。

YOLO3主要的改进有：调整了网络结构；利用多尺度特征进行对象检测；对象分类用Logistic取代了softmax。

新的网络结构Darknet-53

在基本的图像特征提取方面，YOLO3采用了称之为Darknet-53的网络结构（含有53个卷积层），它借鉴了残差网络residual network的做法，在一些层之间设置了快捷链路（shortcut connections）。

图1 Darknet-53[1]

上图的Darknet-53网络采用256*256*3作为输入，最左侧那一列的1、2、8等数字表示多少个重复的残差组件。每个残差组件有两个卷积层和一个快捷链路，示意图如下：

回复本楼

加入车友会创建车友会

太平洋汽车全新推出“太平洋车友会”；来太平洋车友会，结识志同道合的车友了解详情>>

帖子推荐旗胜V3

tj93

0粉丝
0精华
609帖子

用户： tj93
等级：Lv1
地区：

发表于 2018-11-13 19:52

| 只看该作者

沙发

4 1 80中的1应该是指背景类的类别置信度吧？

回复本楼

雁南飞东方

0粉丝
0精华
691帖子

用户：雁南飞东方
等级：Lv1
地区：

发表于 2018-11-13 20:55

| 只看该作者

板凳

tj93 发表于 2楼
4 1 80中的1应该是指背景类的类别置信度吧？

那个1是该边框是否包含对象（objectness）的置信度，理解为背景置信度也可以，但这个值越高，意味着含有对象的概率越高，而不是背景的概率高。“In our experiments with COCO [10] we predict 3 boxes at each scale so the tensor is N x N x N x[3 x (4 1 80)] for the 4 bounding box offsets, 1 objectness prediction, and 80 class predictions.”

回复本楼

春光明媚的车

0粉丝
0精华
587帖子

用户：春光明媚的车
等级：Lv1
地区：

发表于 2018-12-08 12:10

| 只看该作者

地板

请问一下，上采样的作用是什么，只是为了跨层连接吗，那和yolov2中的passthrough（通过大图拆分四小图）作用不是一样吗。如果是为提取不同size的featuremap，过去的全程下采样网络也可以在不同阶段提取不同size的featuremap啊

回复本楼

雁南飞东方

0粉丝
0精华
691帖子

用户：雁南飞东方
等级：Lv1
地区：

发表于 2018-12-08 21:36

| 只看该作者

地下室

春光明媚的车发表于 4楼
请问一下，上采样的作用是什么，只是为了跨层连接吗，那和yolov2中的passthrough（通过大图拆分四小图）作用不是一样吗。如果是为提取不同size的featuremap，...

主要是为了更好的检测不同尺度的对象，我觉得是借鉴了FPN特征金字塔的思路。下采样阶段，对象的语义信息（对象类型）越来越强，位置信息（对象定位）越来越弱，后续再上采样，将语义信息的尺寸扩展到之前的高分辨率特征图，以便结合语义和位置信息，有助于检测不同尺度的对象。YOLOv2的passthrough只有一个跨层连接，多尺度检测方面不太够，而且这种形式也比较少见，估计作者后来也是觉得上采样效果更好。其实我觉得网络结构多少有点“黑魔法”，多个尺度的特征图有更好效果是容易理解的，至于进一步解释其结构的“含义”就有点似是而非，需要掺杂一点“灵感”吧。