![Python数据分析与挖掘实战(第3版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/60/53288060/b_53288060.jpg)
1.4.2 数据采集
在明确了数据挖掘的目标后,接下来就需要从业务系统中抽取一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部企业数据。通过对数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能让我们想要寻找的规律更好地突显出来。
进行数据采集,一定要严把质量关。任何时候都不能忽视数据的质量,即使是从一个数据仓库中进行数据采集,也不要忘记检查数据质量。因为数据挖掘是要探索企业运作的内在规律性,一旦原始数据有误,将很难从中探索其规律。若真的从中探索出什么“规律性”,再依此去指导工作,则很可能会对相关决策造成误导。若从正在运行的系统中进行数据采集,则更要注意数据的完整性和有效性。
衡量数据质量的标准包括:资料完整无缺,各类指标项齐全;数据准确无误,反映的都是正常(而不是异常)状态下的水平。
对获取的数据可继续执行抽样操作。抽样的方式多种多样,常见的抽样方式如下:
1)随机抽样:在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽取的概率。如按10%的比例对一个数据集进行随机抽样,则每一组观测值都有10%的机会被抽取到。
2)等距抽样:如果按5%的比例对一个有100组观测值的数据集进行等距抽样,则有100/5=20个数据被取到,那么等距抽样方式是取第20、40、60、80、100组这5组观测值。
3)分层抽样:在这种抽样操作中,首先将样本总体分成若干层次(或者说分成若干个子集)。每个层次中的观测值都具有相同的被抽取的概率,但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。
4)按起始顺序抽样:这种抽样方式是从输入数据集的起始处开始抽样。对抽样的数量可以给定一个百分比,或者直接给定要选取的观测值的组数。
5)分类抽样:前述几种抽样方式并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集,如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。
基于1.4.1节定义的针对餐饮行业的数据挖掘目标,需从客户关系管理系统、前厅管理系统、后厨管理系统、财务管理系统和物资管理系统中抽取用于建模和分析的餐饮数据,主要包括如下内容:
❑餐饮企业信息:名称、位置、规模、联系方式、部门、人员以及角色等。
❑餐饮客户信息:姓名、联系方式、消费时间、消费金额等。
❑餐饮企业菜品信息:菜品名称、菜品单价、菜品成本、所属部门等。
❑菜品销量数据:菜品名称、销售日期、销售金额、销售份数。
❑原材料供应商资料及商品数据:供应商姓名、联系方式、商品名称、客户评价信息。
❑促销活动数据:促销日期、促销内容以及促销描述等。
❑外部数据:天气、节假日、竞争对手以及周边商业氛围等。