Lecture 3: Introduction to Computer Vision (Part 1)
|Last edited: 2024-11-28

Convolutional Layer

💡
Filter always extend the full depth of the input volume. 例如输入 image 的大小为 ,那么卷积核的大小可能是 ,即卷积核的通道数一定与 image 的通道数相同。
💡
卷积层输出的张量有多少个通道数,那么就同时存在着多少个卷积核。每个卷积核负责一个通道。
输出张量的形状计算公式
推导:
  1. 原始边长 首先要加上两侧 padding 的宽度
    1. 卷积核的右侧所能到达的位置: ,其中
      1. 列不等式
        解出 即可。

    Pooling Layer

    💡
    Pooling Layer 没有可学习的参数。
    Pooling Layer 作用在空间维度,而不是 channel 维度
    可以用来缩小输出张量的大小。

    Data Augmentation

    • Horizontal flips
    • Random crops & scales
    • Color Jitter

    Transfer Learning

    notion image
    可以使用预训练好的模型,只打开头部的几层进行训练。
     
    Loading...