
前言
随着大数据、人工智能技术的发展,从天气预报到垃圾分类,从“12345”市民服务热线工单自动转办、热点问题挖掘到短视频推荐,越来越多的领域在使用大数据和人工智能技术。本书用多个实际案例来帮助读者掌握数据分析和人工智能技术的方法。相关案例遵循先进行数据可视化,在直观地观察数据分布之后,再介绍难度更大的机器学习、深度学习等数据处理方法,实现对数据的预测、分类、聚类、降维等目标。读者不理解相关的数学原理也没有关系,可以先将程序调试通过,再进行更深入的学习。在找问题、看代码的过程中掌握相关算法的原理及Python编程的技巧,这也是一种高效的学习方法。
本书中的各章相互独立,在安装好必要的依赖库之后,程序可以单独运行,读者可以选择自己感兴趣的章节进行学习。但各章节的难度逐步提升,因此,建议读者按照顺序学习。本书尽可能用简单的案例介绍相应的数学原理,将模型简化,方便读者理解。而对更复杂的数学原理,如最小二乘、梯度下降、反向传播等,本书均一笔带过,想要了解算法细节的读者可以自行查阅相关资料。
● 关于编程环境。本书所有的程序均使用Anaconda下的Spyder和Jupyter Notebook调试,计算机的操作系统为Windows 10,选择的软件版本为Python 3.8.5。大部分依赖库可以通过在Anaconda Prompt中输入“pip install库名”的方式完成安装,但仍有部分依赖库无法直接使用该语句完成安装,如决策树的可视化、深度学习库Keras等。此时需要读者发现问题,并一个一个地解决。相信随着学习的深入,看似困难的问题都能迎刃而解。
● 关于数据。本书中的源数据大都由笔者整理并保存于本地,涉及数值数据、文本数据、图像数据等多种数据格式。其仅用于案例使用,是为了让读者学到相应的技能和使用方法。如果读者使用其他类似的数据,也不会影响书中案例结果的呈现,本书只是讲解通用的学习方法而非提供某一段数据,敬请知悉。
● 关于示例代码路径:本书中的示例代码,在数据读取、数据保存等涉及路径的语句中,均省略了笔者计算机的具体路径,读者在参考、调试代码的过程中,需改为自己的计算机的路径。
由于Python版本及各个依赖库的更新,书中难免存在不足之处,敬请广大读者批评指正。本书相应的数据资源均可在QQ群(25844276)内获取。
余本国
2021年10月