![零基础入门Python数据分析与机器学习](https://wfqqreader-1252317822.image.myqcloud.com/cover/147/44510147/b_44510147.jpg)
上QQ阅读APP看书,第一时间看更新
1.4 一个简单的数据分析案例
![](https://epubservercos.yuewen.com/F4E5C2/23721471401889206/epubprivate/OEBPS/Images/Figure-P27_1109.jpg?sign=1739322725-ttQ4ZKXhXptZLTrNXUVd87ADPlS7Zu4j-0-fddf05eae3cc9de9b639ec8fb580dc74)
为了让读者更好地认识数据分析,下面介绍一个企业员工流失预测的例子。我们知道员工主动离职的原因多种多样,一般是员工觉得薪资不合理或者自己受到委屈等。但是,企业培养人才需要大量的成本,为了防止人才流失,员工流失分析就显得十分重要。
这里我们收集了部分离职员工的相关数据,共有6个字段,包括影响员工离职的主要因素(员工满意度、绩效考核、每月工作时长、工作年限、薪资)以及员工是否已经离职。
首先导入数据,示例代码和输出如下:
![](https://epubservercos.yuewen.com/F4E5C2/23721471401889206/epubprivate/OEBPS/Images/Figure-P27_8230.jpg?sign=1739322725-L61bfzG8fe5T7dWBRU41nVN3z0irUb7I-0-618d59582d3f5cdcd7bf398188d3bad9)
由于这里的数据已经在Excel中清洗过,没有缺失值和异常值等,因此下面直接进行描述性统计分析,以进一步了解数据的分布情况,示例代码和输出如下:
![](https://epubservercos.yuewen.com/F4E5C2/23721471401889206/epubprivate/OEBPS/Images/Figure-P27_8232.jpg?sign=1739322725-jtAsM73yhT8VV05g78HUwBz1PTAvCZpg-0-b040af0620b2947f39e125a30f7a47a0)
此外,为了研究员工的平均每月工作时长与是否离职两者之间的关系,下面使用可视化的方法进行深入分析,示例代码如下:
![](https://epubservercos.yuewen.com/F4E5C2/23721471401889206/epubprivate/OEBPS/Images/Figure-P28_8234.jpg?sign=1739322725-qzxPMdcIDqUJF0rOcqOEZuMgOBBftZ1E-0-3e65b69ff77e189b8f1660794bf93371)
通过运行上面的代码,可以绘制出平均每月工作时长与是否离职的箱线图,如图1-19所示。可以看出离职人员的平均每月工作时长相对较长,也就是说加班可能会导致部分员工离职。
![](https://epubservercos.yuewen.com/F4E5C2/23721471401889206/epubprivate/OEBPS/Images/Figure-P28_1119.jpg?sign=1739322725-pmJaUB2AATsYVNeAdV4OUyLEdtKSzmN7-0-7b80b18f0c979c9572c385107fc5cd5c)
图1-19 箱线图