Python数据分析与挖掘实战(第3版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4.4 数据预处理

当采样数据维度过大时,进行降维处理、缺失值处理等是数据预处理要解决的问题。

由于采样数据中常常包含许多含有噪声、不完整甚至不一致的数据,因此必须对数据挖掘所涉及的数据对象进行预处理。那么如何对数据进行预处理以改善数据质量,并最终达到改进数据挖掘结果的目的呢?

针对采集的餐饮数据,数据预处理主要包括数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据归约等,详见第4章。