![模式识别](https://wfqqreader-1252317822.image.myqcloud.com/cover/195/37669195/b_37669195.jpg)
3.2 特征选择
在模式识别中,经常面临的一个问题是,要从许多可能的特征(高维)中选择一些用于测量并作为分类器输入的低维特征[1]。
如前所述,所要提取的特征应当是具有可分性、可靠性、独立性的少量特征。一般来说,若人们希望特征有用,则当它们被排除在外后,分类器的性能至少应下降。实际上,去掉噪声大的或相关程度高的特征,能改善分类器的性能。
因此,特征选择可以看作一个(从最差的开始)不断删去无用特征和组合有关联的特征的过程,直至特征的数目减少至易于驾驭的程度,同时分类器的性能仍然满足要求为止。例如,从一个具有M个特征的特征集中挑选出较少的N个特征时,要使采用这N个特征的分类器的性能最好。
一种蛮干的特征选择方法是这样执行的:首先对每种可能由N个特征组合的子集训练分类器,再用各类别的测试样本进行测试,统计分类器的错分率;然后根据这些错分率计算分类器总的性能指标;最后选择一个具有最佳性能指标的特征组合。
除了一些非常简单的模式识别问题,使用这种方法的最大问题自然是计算量大。因此,在多数实用问题中,这种蛮干的方法是行不通的,必须使用一种开销较小的方法来达到同样的目标。
在以下的讨论中,考虑将两个特征压缩成一个特征的最简单的情况。假设训练样本集有M个不同类别的样本,令表示第j类的样本数,第j类中第i个样本的两个特征分别记为
和
。每类的每个特征均值为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_4.jpg?sign=1738815103-G9O56MeavV5PUe7DL4lpr8etRao09DM5-0-226443469d64038777f866c3ec468d23)
(3-1)
和
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_5.jpg?sign=1738815103-2bOjkqwYOWN0TFx1GjTwHcJt471G7BDJ-0-538d960c3f2790198092b8c04b453c8b)
(3-2)
式中,和
上的“
”分别表示这两个值仅是基于训练样本的估值,而不是真实的类均值。
3.2.1 特征方差
理想情况下,同一类别中所有对象的特征值应该相近。第j类的x特征的方差估计为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_10.jpg?sign=1738815103-0YI1bjAjxRalaUdIa60c4tAXKOImo99p-0-54931dbb027557256732c6d30a7849ff)
(3-3)
而y特征的方差估计为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_12.jpg?sign=1738815103-O08ImfdjXbP9Pa7pDGjtx0AuxHNyUkXk-0-eae8aaf1bcf92a29e1621fe7365b46ae)
(3-4)
3.2.2 特征相关系数
第j类特征x与特征y的相关系数估计为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_14.jpg?sign=1738815103-FZ1XfK5reAtbidTkz9XBeprNQAPAyLmc-0-62e73f465990cefde1ec3b069d4759c3)
(3-5)
它的值的范围为−1~+1。若该值为0,则说明这两个特征之间没有相关性;若该值接近1,则说明这两个特征相关性很强;若该值为−1,则说明任一特征都与另一个特征的负值成正比。因此,若相关系数的绝对值接近1,则说明这两个特征可以组合成一个特征或可干脆舍弃其中一个。
3.2.3 类间距离
一个特征区分两类能力的一个指标是类间距离,即类均值间的方差归一化间距。对x特征来说,第j类与第k类之间的类间距离为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_16.jpg?sign=1738815103-NomFMeFxHRrdYTQROVC4MhThCYAywcBM-0-201e22153d86362291518629e3ed4990)
(3-6)
显然,类间距离大的特征是好特征。
3.2.4 降维
有许多方法可以将两个特征x与y合成一个特征z,一个简单的方法是用线性函数:
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_17.jpg?sign=1738815103-fRsOvFIjJwWD4EhXPqvFicvYju0MUEm0-0-b673656ecb72a0063a8ac867f5b88b36)
(3-7)
式中,a和b均为实数。由于分类器的性能与特征幅值的缩放倍数无关,因此可以对幅值加以限制,如
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_18.jpg?sign=1738815103-ArSD683J4ipqJA2OYPJZpYkjFUKXgZdG-0-33aeda2210bdaa9a4a05bd5206368bb2)
(3-8)
将其合并到式(3-7)得
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_19.jpg?sign=1738815103-MYDnOg4P5ITOpw8ur1sM9i0exhuNo5H7-0-ec734ae73b085c11a3112217082c606f)
(3-9)
式中,θ为一个新的变量,它决定了x和y在组合中的比例。
若训练样本集中每个对象都对应于二维特征空间(xy平面)中的一个点,则式(3-9)描述了所有在z轴上的投影。显然,可以选取θ使类间距离最大,并利用投影进行降维,如图3-1所示。
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_20.jpg?sign=1738815103-FsbyGTXSUkIUaTAkXhILqdjigqrxUw3U-0-17c956d3b5d029831899c414204dbe2f)
图3-1 利用投影进行降维
基于线性变换来进行降维的方法称为线性降维法。要对降维效果进行评估,通常可比较降维前后学习器的性能,若性能有所提高,则认为降维起到了作用。若将维数降低到二维或三维,则可通过可视化的方法直观评估降维效果。
下面进一步介绍特征提取的重要方法之一——降维。