![模式识别](https://wfqqreader-1252317822.image.myqcloud.com/cover/195/37669195/b_37669195.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
4.4 最小平方误差算法
4.3节介绍的感知器算法是在已知样本集线性可分的基础上采用的,但对于给定的样本集,往往不能预先知道是否线性可分。本节介绍的最小平方误差准则函数可以在训练过程中判定训练模式集是否线性可分。最小平方误差准则函数引进了最小均方误差。
定义一个误差向量:
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt004_149.jpg?sign=1738815407-eSkxF6aPh8Y8pOARxKpy2YvTp0eDZaAZ-0-15120f44ff8f6ed80b51e7c5789b15d1)
(4-40)
由于最小平方误差以最小均方误差为准则,因此定义准则函数为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt004_150.jpg?sign=1738815407-rB8eU36KUmauOjPpvPr1WWxeF0LyZdgC-0-eaef8defdda3a398dc405ae8179a5117)
(4-41)
然后找一个使极小化的
作为问题的解,即求解使
的梯度为0的
值。
首先对式(4-41)中的求梯度,即
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt004_156.jpg?sign=1738815407-fc6Eo9zS1JlvxOCZ1vlVPMwGZmXC4Yu6-0-6cc093f0d2f16033957e13b43a4d791a)
(4-42)
令,得
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt004_158.jpg?sign=1738815407-ZHgrrBI8e0stwGjkFUEV2t8rx187kasR-0-31b7c051009abb4460698bdedeb9db79)
(4-43)
得到
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt004_159.jpg?sign=1738815407-GJwJOrK41fbDsDfPS10UgIjOsyI47pHJ-0-75af15d930bcbf2a439797729385b386)
(4-44)
式中,矩阵为矩阵
的规范逆矩阵;
为式(4-41)所示的最小平方误差准则函数的解。可见,
的解依赖于向量b,选择不同的b可以赋予解不同的性质,而且计算量很大,因为要求解矩阵的逆矩阵。为了避免上述缺点,可以采用梯度下降法。
梯度下降法计算过程如下。
(1)任意指定初始权向量:
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt004_164.jpg?sign=1738815407-QD8316MmS6MGvzNxcZsLHzwCaWDu5o9K-0-9178f40b5aebc916681e191896d2a532)
(4-45)
(2)如果第k步不能满足,那么按下式计算第k+l步的权向量。
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt004_166.jpg?sign=1738815407-NcorwHyseGM5MHHVSCF1gkM99AxPU4YG-0-8899f3eaf8f34d66b1f0293fd622b19f)
(4-46)
式中,为修正系数。这个算法产生的权向量
满足方程
,且不管
是否为奇异矩阵,这个梯度下降法总能产生一个解。
每次迭代时的误差向量为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt004_172.jpg?sign=1738815407-cPPoCbQNPwx0tNib3ghbWwZOTpwlPjsf-0-56a579e3dc1051e5380761eee2a92a5e)
(4-47)
式中,是判断样本集是否线性可分的重要指标。若满足
(每个分量均为正值或零),则样本集是线性可分的;若满足
,则样本集不是线性可分的,不具有收敛性。