Lecture 3: Introduction to Computer Vision (Part 1)
Convolutional Layer
Filter always extend the full depth of the input volume. 例如输入 image 的大小为 ,那么卷积核的大小可能是 ,即卷积核的通道数一定与 image 的通道数相同。
卷积层输出的张量有多少个通道数,那么就同时存在着多少个卷积核。每个卷积核负责一个通道。
输出张量的形状计算公式
推导:
- 原始边长 首先要加上两侧 padding 的宽度
- 卷积核的右侧所能到达的位置: ,其中 。
列不等式
解出 即可。
Pooling Layer
Pooling Layer 没有可学习的参数。
Pooling Layer 作用在空间维度,而不是 channel 维度。
可以用来缩小输出张量的大小。
Data Augmentation
- Horizontal flips
- Random crops & scales
- Color Jitter
Transfer Learning
可以使用预训练好的模型,只打开头部的几层进行训练。