3.2 特征选择_模式识别-QQ阅读女生幻言网

模式识别

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

上一章目录下一章

3.2　特征选择

在模式识别中，经常面临的一个问题是，要从许多可能的特征（高维）中选择一些用于测量并作为分类器输入的低维特征[1]。

如前所述，所要提取的特征应当是具有可分性、可靠性、独立性的少量特征。一般来说，若人们希望特征有用，则当它们被排除在外后，分类器的性能至少应下降。实际上，去掉噪声大的或相关程度高的特征，能改善分类器的性能。

因此，特征选择可以看作一个（从最差的开始）不断删去无用特征和组合有关联的特征的过程，直至特征的数目减少至易于驾驭的程度，同时分类器的性能仍然满足要求为止。例如，从一个具有M个特征的特征集中挑选出较少的N个特征时，要使采用这N个特征的分类器的性能最好。

一种蛮干的特征选择方法是这样执行的：首先对每种可能由N个特征组合的子集训练分类器，再用各类别的测试样本进行测试，统计分类器的错分率；然后根据这些错分率计算分类器总的性能指标；最后选择一个具有最佳性能指标的特征组合。

除了一些非常简单的模式识别问题，使用这种方法的最大问题自然是计算量大。因此，在多数实用问题中，这种蛮干的方法是行不通的，必须使用一种开销较小的方法来达到同样的目标。

在以下的讨论中，考虑将两个特征压缩成一个特征的最简单的情况。假设训练样本集有M个不同类别的样本，令表示第j类的样本数，第j类中第i个样本的两个特征分别记为和。每类的每个特征均值为

（3-1）

和

（3-2）

式中，和上的“”分别表示这两个值仅是基于训练样本的估值，而不是真实的类均值。

3.2.1　特征方差

理想情况下，同一类别中所有对象的特征值应该相近。第j类的x特征的方差估计为

（3-3）

而y特征的方差估计为

（3-4）

3.2.2　特征相关系数

第j类特征x与特征y的相关系数估计为

（3-5）

它的值的范围为−1～+1。若该值为0，则说明这两个特征之间没有相关性；若该值接近1，则说明这两个特征相关性很强；若该值为−1，则说明任一特征都与另一个特征的负值成正比。因此，若相关系数的绝对值接近1，则说明这两个特征可以组合成一个特征或可干脆舍弃其中一个。

3.2.3　类间距离

一个特征区分两类能力的一个指标是类间距离，即类均值间的方差归一化间距。对x特征来说，第j类与第k类之间的类间距离为

（3-6）

显然，类间距离大的特征是好特征。

3.2.4　降维

有许多方法可以将两个特征x与y合成一个特征z，一个简单的方法是用线性函数：

（3-7）

式中，a和b均为实数。由于分类器的性能与特征幅值的缩放倍数无关，因此可以对幅值加以限制，如

（3-8）

将其合并到式（3-7）得

（3-9）

式中，θ为一个新的变量，它决定了x和y在组合中的比例。

若训练样本集中每个对象都对应于二维特征空间（xy平面）中的一个点，则式（3-9）描述了所有在z轴上的投影。显然，可以选取θ使类间距离最大，并利用投影进行降维，如图3-1所示。

图3-1　利用投影进行降维

基于线性变换来进行降维的方法称为线性降维法。要对降维效果进行评估，通常可比较降维前后学习器的性能，若性能有所提高，则认为降维起到了作用。若将维数降低到二维或三维，则可通过可视化的方法直观评估降维效果。

下面进一步介绍特征提取的重要方法之一——降维。

本周热推：

After Effects 2022从入门到精通 VR新未来自然语言处理与计算语言学 SPSS统计分析与应用 ERP沙盘模拟教程

上一章目录下一章