![精通Python网络爬虫:核心技术、框架与项目实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/804/855804/b_855804.jpg)
上QQ阅读APP看书,第一时间看更新
1.3 网络爬虫的组成
接下来,我们将介绍网络爬虫的组成。网络爬虫由控制节点、爬虫节点、资源库构成。
图1-1所示是网络爬虫的控制节点和爬虫节点的结构关系。
![](https://epubservercos.yuewen.com/51908D/8055934604726601/epubprivate/OEBPS/Images/figure_0015_0001.jpg?sign=1738846055-8YUZr9GDYUKlQ0X7miS0X0KwMk4eo6QM-0-4624562c314b8ca45adac363f8360690)
图1-1 网络爬虫的控制节点和爬虫节点的结构关系
可以看到,网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信,同时,控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以互相通信。
控制节点,也叫作爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行具体的爬行。
爬虫节点会按照相关的算法,对网页进行具体的爬行,主要包括下载网页以及对网页的文本进行处理,爬行后,会将对应的爬行结果存储到对应的资源库中。