Python大数据分析与应用实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3.1 查看数据基本信息

Pandas是贯穿于本书的一个基本库。由于Pandas库具有灵活的数据操作能力,因此其在数据读取、清洗、切片、聚合等方面经常被用到。Pandas库包含两个常用的数据结构,即Series(一维数组型对象)和DataFrame(表示矩阵的数据表),在后续章节中会多次使用这两个数据结构。

前面通过爬虫的方式获取数据,所以读者对数据格式已经有了基本了解。在数据分析中,我们得到的经常是一份陌生的数据,如果希望对数据有简单的了解,则可以使用head()函数查看前几行数据的分布情况。这里使用df1.head(5)查看前5行数据,其和前面抓取的结果是一致的:

dataframe.info()函数可以用于获取DataFrame的简要摘要,通过df1.info()可以基本了解数据集的统计信息。数据集为3600行、5列;5列的数据类型均为“object”,其中“weather”列的数据仅为3599个,这说明出现了缺失。接下来使用print(df1.info())语句打印历史天气数据摘要信息:

随着学习的深入,需要处理的数据集也越来越复杂。dataframe.info()函数可以帮助开发者快速了解数据结构,在后续章节中会多次用到该函数。