4.5 - 《机器学习》练习作业

$$ \frac{\partial E}{\partial w_i} = \frac{\partial}{\partial w_i}\frac{1}{2}\sum_{d \in D}(t_d-o_d)^2 = \frac{1}{2}\sum_{d\in D}\frac{\partial}{\partial w_i}(t_d - o_d)^2 \

= \frac{1}{2}\sum_{d \in D} 2 (t_d - o_d)\frac{\partial}{\partial w_i}(t_d - o_d) \

= \sum_{d \in D}(t_d - o_d)\frac{\partial}{\partial w_i}(t_d - (w_{0} + w_{1} x_{1d} + w_1 x^2_{1d} + \dots + w_n x_{nd} + w_n x^2_{nd})) \

= \sum_{d \in D}(t_d - o_d)(\frac{\partial}{\partial w_i} t_d - \frac{\partial}{\partial w_i} (w_0 + w_1 x_{1d} + w_1 x^2_{1d} + \dots + w_n x_{nd} + w_n x^2_{nd})) \

= \sum_{d \in D}(t_d - o_d)(0 - \frac{\partial}{\partial w_i} (w_i x_{id} + w_i x^2_{id})) \

\frac{\partial E}{\partial w_i}=\sum_{d \in D}(t_d - o_d)(-x_{id}-x^2_{id}) = \sum_{d \in D}(t_d - o_d)(-x_{id})(1+x_{id}) \tag{2} $$

其中，x_id 表示训练样例 $d$ 的一个输入分量 $x_i$ 。现在我们有了一个公式，能够用线性单元的输入 x_id 、输出 $o_d$ 以及训练样例的目标值 $t_d$ 表示 $\frac{\partial E}{\partial w_i}$ 。把公式（2）代入公式（1）便得到了梯度下降权值更新法则。

\Delta w_i = \eta \sum_{d \in D}(t_d - o_d)x_{id}(1+x_{id}) \tag{3}

(7)

总而言之，训练单个单元的梯度下降算法如下：选取一个初始的随机权向量；应用单个单元到所有的训练样例，然后根据公式（3）计算每个权值的 $\Delta w_i$ ；通过加上 $\Delta w_i$ 来更新每个权值，然后重复这个过程。

因为误差曲面仅包含一个全局的最小值，所以无论训练样例是否线性可分，这个算法会收敛到具有最小误差的权向量，条件是必须使用一个足够小的学习速率 η。如果η太大，梯度下降搜索就有越过误差曲面最小值而不是停留在那一点的危险。因此，对此算法的一种常用的改进方法是随着梯度下降步数的增加逐渐减小 $\eta$ 的值。

这个训练法则的实现详见代码：https://github.com/Jeff-Tian/perceptron/commit/7129ef7fd27a44a25f179442471076e7d8dc2c8d#diff-51309ec726b9ebb0b1e4b5eb838ce31e5cb5812c5b25dadbb9d7e8ece84c0e6f