4.1
- backprop反向传播 链式法则的递归调用
反向传播可以得到损失函数L因为
$\frac{\partial L}{\partial x} = \frac{\partial L}{\partial z}\frac{\partial z}{\partial x}$
利用上游传回的梯度 反向计算每个节点的本地梯度 最后一个节点的梯度总是1? - 加法门是gradient distributor加法节点之前的本地梯度是1,分支与上游又相同梯度
- max门通过后本地梯度分别是0,1 (max只有一个值可以影响上游)
- mul乘法门 对上游值缩放