卷积神经网络

发表于 2023-01-28 更新于 2023-02-08 阅读次数：本文字数： 1.7k 阅读时长 ≈ 6 分钟

卷积神经网络

卷积神经网络（CNN）是一个专门用于图像处理的神经网络。

从图像分类说起

下面的讨论都是基于假设所有图像的尺寸是固定的，不会突然出现大小不一致的图片。

图像识别模型的输入是一张图片，输出是一个独热（one-hot）的向量 $\hat y$ ，只有模型认为最有可能的类别为 1，其余都为 0。这个向量的长度表示着当前模型能识别出的种类数目。模型在输出独热向量之前，会先通过 Softmax 输出一个向量 $y'$ ，我们希望 $y'$ 和 $\hat y$ 的交叉熵尽可能地小。

对于输入，人眼看到的是一张三维的图像，计算机看到的是什么呢？计算机看到的是一个三维的张量（粗略的认为是维度大于 2 的矩阵），一维代表图片的宽，一维代表图片的高，另一维代表这张图片通道的个数，当给定一张彩色图片时，图片通道数为 3，分别表示 R、G 和 B。

当我们把一张图片“拉直”成一个向量之后，就可以放到神经网络中让它进行识别分类了。

目前为止，我们只学到了全连接神经网络，如果输入是一个 $100\times100\times3$ 的向量，第二层的神经元有 1000 个，那么将会有 $3 \times 10^7$ 个权重，这是一个非常巨大的数，计算过程会非常缓慢，同时过拟合的风险也会增加。

考虑图像识别的特性，我们并不需要每一个神经元和输入的每一维都有一个权重，即全连接是不必要的。

Observation

对于每个隐藏层的神经元来说，没有必要去识别整张图片，只需要令每个神经元都识别到一些重要的部分即可，而这其中重要的部分一定是比整张图片要小得多的；

可能人类也是用这种“提取特征”的方法来识别图像的！例如：

请勿醉酒学习^^

在 CNN 中，我们设计一个特定大小的区域称作“感受野”（Receptive field），每一个神经元都只需要关心自己的感受野里面有什么东西。举例：感受野为 $3\times3$ ，则一个神经元只需要输入一个 $3\times3\times3=27$ 维的向量，权重数目明显减少；

多个感受野的范围是可以重叠的，不同的神经元也可以有相同的感受野，例如：

最经典的感受野设定：
1. 考虑一张图片所有的通道，而不是只考虑部分通道；
2. 感受野的长和宽被称作 kernel size，如上图中感受野的 kernel size 为 $3\times3$ ，一般不会设置很大的 kernel size；
3. 同一个感受野会对应一组神经元，例如 64 个或 128 个；
4. 对于两个相邻的感受野，将偏移量（采样间隔）称为 stride（步幅），这是一个超参数，通常不会很大，一般设置为 1 或 2 即可；
```
![image-20230128130859767](卷积神经网络/image-20230128130859767.png)
```
1. 当感受野超出图像范围时，我们可以向感受野中做 padding（填补），一般补充为 0。
相同的特征可能会出现在图像的不同区域中，但是这些相同的特征对应的是不同的神经元，但他们做的是相同的工作。我们是否需要让每一个区域都放若干个对应不同特征的神经元？

考虑共享参数，两个对应不同感受野的对应相同特征的神经元，让他们共享相同的参数，这样参数的数量将会大大减少。由于两个神经元对应的感受野不同，他们的输入不一致，所以它们的输出也不会一样。

常见的共享参数的方法：对于同一层上的神经元，每一个感受野对应的神经元都只有一组参数，这组参数被称作 filter。