![Python+Office:轻松实现Python办公自动化](https://wfqqreader-1252317822.image.myqcloud.com/cover/834/40107834/b_40107834.jpg)
3.1 数据的读取
在分析数据之前,需要准备“食材”,也就是数据,主要包括商品的属性数据、客户的订单数据、客户的退单数据等。本节将介绍Python读取本地离线数据、Web在线数据、数据库数据等各种存储形式的数据。
3.1.1 读取本地离线数据
1.读取.txt格式的数据
使用Pandas库中的read_table()函数,Python可以直接读取.txt格式的数据,代码如下:
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_1.jpg?sign=1739328398-PKLJrBzI0KB8TTtprCpR6jOHXqhfIohh-0-6851fa93e5d5a1aebf34d018a1fa6584)
在JupyterLab中运行上述代码,输出结果如下所示。
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_2.jpg?sign=1739328398-7AWloBHSjHRshxNLctu3nGtDaRDdMpCo-0-d85cf0080902466e96a01e5d7fcb55f0)
2.读取.csv格式的数据
使用Pandas库中的read_csv()函数,Python可以直接读取.csv格式的数据,代码如下:
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_3.jpg?sign=1739328398-uNIKEvoej0ebcnx7zUbaSeBbu6XfJeOF-0-41a354f9bfc8489944ff47b4392b2af9)
在JupyterLab中运行上述代码,输出结果如下所示。
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_4.jpg?sign=1739328398-MEpbH3VZXLSIX75PFPeWsul56WMA7db8-0-956facf81fe7bb9fffbe0157e307fce1)
3.读取Excel文件数据
使用Pandas库中的read_excel()函数,Python可以直接读取Excel文件数据,代码如下:
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_5.jpg?sign=1739328398-J1XAE2fcPV0NE5NUw7WepqaOSldExUNS-0-bbf78e1a1189cd961e57d14db3fa73c8)
在JupyterLab中运行上述代码,输出结果如下所示。
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_6.jpg?sign=1739328398-NodzFVBSdGD7q9PT0BiGDpdCVYySGPvE-0-69aafd413967945fde7a06800494dbfa)
3.1.2 读取Web在线数据
Python可以读取Web在线数据,这里选取的数据集是UCI上的红酒数据集,该数据集是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自3个不同的品种,分析确定了3种葡萄酒中每种葡萄酒含有的13种成分的数量。不同种类的酒品,它的成分也会有所不同,通过对这些成分的分析就可以对不同的特定的葡萄酒进行分类分析,原始数据集共有178个样本数、3种数据类别,每个样本有13个属性。
Python读取红酒在线数据集的代码如下:
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_7.jpg?sign=1739328398-wugayeKIWeXMRGDxPr6ezFApAGghH3X5-0-f2940f2719102852c2f280e4cb1b07a1)
在JupyterLab中运行上述代码,输出结果如下所示。
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_8.jpg?sign=1739328398-vVQlNN5tgcEKkek2rYTUPAH00ep1o45l-0-bb053ef91a779e41969e68cd070e13fc)
3.1.3 读取常用数据库中的数据
1.读取MySQL数据库中的数据
Python可以直接读取MySQL数据库中的数据,连接之前需要安装pymysql库。例如,统计汇总数据库orders表中2020年不同类型商品的销售额和利润额,代码如下:
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_9.jpg?sign=1739328398-bdE30Fgvkk5WidDsaO4GVN9xF3mv2926-0-70e74eb177b0df9ab9876bdb46addfb9)
在JupyterLab中运行上述代码,输出结果如下所示。
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_10.jpg?sign=1739328398-pfIIRLFRqW58jZYZxVv5ApAe9qNSjHg0-0-626022830da24cf0d2a4046481362c25)
2.读取SQL Server数据库中的数据
Python可以直接读取SQL Server数据库中的数据,连接之前需要安装pymssql库。例如,查询数据库orders表中2020年利润额在400元以上的所有订单,代码如下:
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_11.jpg?sign=1739328398-42rxZbaCnwIa5vvX91DjkIahBQE9ZCFW-0-119c6bf9bdf6f0dc3c7de017109ccf68)
在JupyterLab中运行上述代码,输出结果如下所示。
![img](https://epubservercos.yuewen.com/450204/20862583108963306/epubprivate/OEBPS/Images/txt004_12.jpg?sign=1739328398-MuAikXjzvqOZDKaCSM7oXrtZEjjgagST-0-27da9ba467822160f5285f437f411290)