
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.2 利用抓取方法获取天气数据
网络抓取数据(又称爬虫)涉及的知识点相对较多,随着技术的更迭,多数网站都有“反爬”机制。结合需求,本节选择笔者自己架设的天气网页作为爬取对象,一方面,因网站为笔者架设,仅为学习使用,所以仅提供了简洁的数据格式,方便初学者理解;另一方面,因仅为案例教学使用,不需要真实数据。
本节虽然是比较基础的抓取方法入门实践,但是也需要读者对网页构成等知识有一定的了解。即使读者不了解相关知识,也可以先运行程序,待程序调试成功,再反过来查询每行代码的含义。对于本章的每段程序,读者仅仅需要将相关参数(存储路径等)改为自己计算机的参数就可以运行,方便实践。
对网站数据的抓取一般建立在对网页有一定认识的基础之上,从抓取一个网页开始,待抓取成功后,再推广到抓取所有数据(见图2-2)。

图2-2 抓取的基本流程