![统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/26/40868026/b_40868026.jpg)
上QQ阅读APP看书,第一时间看更新
7.8 用PCA构造准交互变量
我给出一个原创的有价值的PCA用法,用于构造准交互变量(quasi-interaction variable)。我用SAS来实现这个工作,在介绍完构建过程之后提供了这个程序(见7.8.1节)。我们看表7.6中的数据集合IN。其中有两个类别变量:GENDER(假定M代表男性,F代表女性,空白代表没有数据),MARITAL(假定M代表已婚,S代表单身,D代表离婚,空白代表没有数据)。
表7.6 数据集合IN
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b6.jpg?sign=1739066993-q6SFwfrixKzNfXSVoaW505wmRaj4ZOXF-0-2e1ec98296803b049c8d8d1907b8b182)
我重新设定变量,并在空白处填上x。所以,GENDER_和MARITAL_分别是GENDER(性别)和MARITAL(婚姻状况)的修改后的变量(见表7.7)。
表7.7 重设变量之后的数据集合IN
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b7.jpg?sign=1739066993-dQ0sQaaxTeGV8Nh5rjQ925Mu8a41ikLF-0-bcd85289a3f1669ddb91c7fbc39adac7)
然后,我用SAS程序TRANSREG为GENDER_和MARITAL_创建哑变量,对这两个变量的每个值,都有对应的哑变量。比如,GENDER_=M,哑变量是GENDER_M。参考哑变量用于处理x缺失的值(见表7.8)。
我用GENDER_和MARITAL_哑变量进行PCA,可以得到5个准交互变量:GENDER_x_MARITAL_pc1到GENDER_x_MARITAL_pc5,结果见表7.9,结果留给读者解读。抛开细节不谈,显然PCA是一个强大的数据挖掘方法。
表7.8 使用SAS程序TRANSREG处理GENDER_和MARITAL_哑变量的结果
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b8.jpg?sign=1739066993-pgVDSJwuvXI58eUs6birpXgH1niKkUxB-0-350c90c01f27602deb9a4b4c3aa095cf)
表7.9 用GENDER_和MARITAL_哑变量产生准交互变量
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b9.jpg?sign=1739066993-Vg6nr4oi5ETw6ZXiKaCyKJotMQg29PeY-0-b092c1eec7fedc397ba455bf6a898d15)
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/085-i.jpg?sign=1739066993-xYyeIUtZYlM7A7xDpKgwMD1GPxvmrzk9-0-86d659355862b26d7b01e5da5329f0aa)
准交互变量PCA法的SAS程序代码
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/085-2-i.jpg?sign=1739066993-RcOfsZttIHW6xKRZw0iULgqHdDTMTZ5J-0-29949bda4997fde71880d3005ce5d3e2)
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/086-i.jpg?sign=1739066993-8aKgAREDNVQpE5ZBQRPTLyI0fiSBE8Nx-0-4f60ceab3cfd7b01e1c03867dbe085ad)