自定义爬虫
使用的技术
requests,xpath
模块
配置模块
爬取模块
存储模块
配置模块
通过配置文件配置好用户自定义的参数,传递给爬取模块进行数据爬取
可配置的参数如下(带星号的为必填项):
- 存储路径*
- 编码
- 请求类型*
- 请求头
- 请求体
- 网址前缀*
- 网址后缀
- 网页起始页码
- 网页结束页码
- 网页页码步长*
- 每个请求重试次数*
- 确定请求正常的关键字*
- xpath*
- 爬取区块的路径*
- 爬取区块的名称*
- item
- 爬取区块内元素的名称*
- 爬取区块内元素的路径*
- 爬取区块内元素的类型*(text,image,video)
- 爬取区块内元素的后缀*
爬取模块
将配置模块配置好的参数作为爬取语句的参数进行数据爬取,如果爬取过程中出现错误,将错误日志保存至日志文件,控制台同时报错。
每次请求需要判断这次请求的正确性
存储模块
在爬取的过程中一旦爬取到数据,将数据存储至文件中,格式为json。
注意编码