
上QQ阅读APP看书,第一时间看更新
1.3.4 数据处理和分析
Pandas在NumPy的基础之上提供类似电子表格的数据结构DataFrame,并以此为核心提供大量的数据的输入输出、清洗、处理和分析函数。其核心运算函数使用Cython编写,在不失灵活性的前提下保证了函数库的运算速度。
在下面的例子中,从电影打分数据MovieLens中读入用户数据文件u.user,并显示其中的头5条数据:

下面使用职业栏对用户数据进行分组,计算每组的平均年龄,按年龄排序之后将结果显示为柱状图,如图1-13所示。可以看到如此复杂的运算在Pandas中可以使用一行代码完成:

图1-13 使用Pandas统计电影打分用户的职业
df.groupby("occupation").age.mean().order().plot(kind="bar", figsize=(12, 4))