diff --git a/Deep Learning/11. CNN/README.md b/Deep Learning/11. CNN/README.md index 00f1c64..57bfada 100644 --- a/Deep Learning/11. CNN/README.md +++ b/Deep Learning/11. CNN/README.md @@ -178,7 +178,7 @@ ### 3.1 图像识别与定位 -1. **classification:**C个类别识别 +1. **classification:** C个类别识别 - **input**:Image - **Output**:类别标签 @@ -204,7 +204,7 @@ 更细致的识别可以提前规定好有k个组成部分,做成k个部分的回归, - **例如:**框出两只眼睛和两条腿,4元祖*4=16(个连续值) + **例如:** 框出两只眼睛和两条腿,4元组*4=16(个连续值) 3. Regression部分用欧氏距离损失,使用SGD训练。 @@ -236,7 +236,7 @@ - 你还需要对框内的图像分类 - 当然, 如果你的GPU很强大, 恩, 那加油做吧… -**边缘策略:**想办法先找到可能包含内容的图框(**候选框**),然后进行分类问题的识别。 +**边缘策略:** 想办法先找到可能包含内容的图框(**候选框**),然后进行分类问题的识别。 **方法**:根据RGB值做区域融合。**fast-CNN**,共享图窗,从而加速候选框的形成。 @@ -257,7 +257,7 @@ R-CNN的简要步骤如下: SPP:Spatial Pyramid Pooling(空间金字塔池化),SPP-Net是出自2015年发表在IEEE上的论文。 -众所周知,CNN一般都含有卷积部分和全连接部分,其中,卷积层不需要固定尺寸的图像,而全连接层是需要固定大小的输入。所以当全连接层面对各种尺寸的输入数据时,就需要对输入数据进行crop(crop就是从一个大图扣出网络输入大小的patch,比如227×227),或warp(把一个边界框bounding box(红框)的内容resize成227×227)等一系列操作以统一图片的尺寸大小,比如224*224(ImageNet)、32*32(LenNet)、96*96等。 +众所周知,CNN一般都含有卷积部分和全连接部分,其中,卷积层不需要固定尺寸的图像,而全连接层是需要固定大小的输入。所以当全连接层面对各种尺寸的输入数据时,就需要对输入数据进行crop(crop就是从一个大图扣出网络输入大小的patch,比如227×227),或warp(把一个边界框bounding box(红框)的内容resize成227×227)等一系列操作以统一图片的尺寸大小,比如224\*224(ImageNet)、32\*32(LenNet)、96*96等。 ![](https://julyedu-img-public.oss-cn-beijing.aliyuncs.com/Public/Image/Question/1525249316_603.png) @@ -293,9 +293,9 @@ SPP Net真是个好方法,R-CNN的进阶版Fast R-CNN就是在R-CNN的基础 R-CNN有一些相当大的缺点(把这些缺点都改掉了,就成了Fast R-CNN)。 -**大缺点:**由于每一个候选框都要独自经过CNN,这使得花费的时间非常多。 +**大缺点:** 由于每一个候选框都要独自经过CNN,这使得花费的时间非常多。 -**解决:**共享卷积层,现在不是每一个候选框都当做输入进入CNN了,而是输入一张完整的图片,在第五个卷积层再得到每个候选框的特征。 +**解决:** 共享卷积层,现在不是每一个候选框都当做输入进入CNN了,而是输入一张完整的图片,在第五个卷积层再得到每个候选框的特征。 原来的方法:许多候选框(比如两千个)-->CNN-->得到每个候选框的特征-->分类+回归 @@ -336,7 +336,7 @@ Faster R-CNN的方法目前是主流的目标检测方法,但是速度上并 1. 给个一个输入图像,首先将图像划分成7\*7的网格。 2. 对于每个网格,我们都预测2个边框(包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率)。 -3. 根据上一步可以预测出7*7*2个目标窗口,然后根据阈值去除可能性比较低的目标窗口,最后NMS去除冗余窗口即可。 +3. 根据上一步可以预测出7\*7\*2个目标窗口,然后根据阈值去除可能性比较低的目标窗口,最后NMS去除冗余窗口即可。 **小结:**YOLO将目标检测任务转换成一个回归问题,大大加快了检测的速度,使得YOLO可以每秒处理45张图像。而且由于每个网络预测目标窗口时使用的是全图信息,使得false positive比例大幅降低(充分的上下文信息)。