NSF Back-end Dev Engineer

爬虫

2019-12-05
nsf

自定义爬虫

使用的技术

requests,xpath

模块

配置模块
爬取模块
存储模块

配置模块

通过配置文件配置好用户自定义的参数,传递给爬取模块进行数据爬取
可配置的参数如下(带星号的为必填项):
- 存储路径*
- 编码
- 请求类型*
- 请求头
- 请求体
- 网址前缀*
- 网址后缀
- 网页起始页码
- 网页结束页码
- 网页页码步长*
- 每个请求重试次数*
- 确定请求正常的关键字*
- xpath*
  - 爬取区块的路径*
  - 爬取区块的名称*
  - item
    - 爬取区块内元素的名称*
    - 爬取区块内元素的路径*
    - 爬取区块内元素的类型*(text,image,video)
    - 爬取区块内元素的后缀*

爬取模块

将配置模块配置好的参数作为爬取语句的参数进行数据爬取,如果爬取过程中出现错误,将错误日志保存至日志文件,控制台同时报错。
每次请求需要判断这次请求的正确性

存储模块

在爬取的过程中一旦爬取到数据,将数据存储至文件中,格式为json。
注意编码

上一篇 个人介绍

下一篇 计算机原理

Comments

Content