avatar

SCRAPY框架

Scrapy 简介

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。

安装过程

1
2
3
4
5
6
Windows:
a. pip3 install wheel
b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
c. 进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl
d. pip3 install pywin32
e. pip3 install scrapy

使用介绍

1
2
3
4
5
6
7
8
9
10
scrapy startproject 项目名称
cd project_name(进入项目目录)
scrapy genspider 应用名称 爬取网页的起始url
scrapy.cfg 项目的主配置信息。(真正爬虫相关的配置信息在settings.py文件中)
items.py 设置数据存储模板,用于结构化数据,如:Django的Model
pipelines 数据持久化处理
settings.py 配置文件,如:递归的层数、并发数,延迟下载等
spiders 爬虫目录,如:创建文件,编写爬虫解析规则

scrapy crawl 应用名称 运行爬虫

框架流程

工作流程

1
2
3
4
5
6
    引擎首先会将爬文件中的起始url获取,并且提交到调度器中。                      
如果需要从url中下载数据,则调度器会将url通过引擎提交给下载器,
下载器根据url去下载指定内容(响应体)。下载好的数据会通过引擎
移交给爬虫文件,爬虫文件可以将下载的数据进行指定格式的解析。如果
解析出的数据需要进行持久化存储,则爬虫文件会将解析好的数据通过引
擎移交给管道进行持久化存储。

文章搬运自迎风而来大佬的博客
搬运过来是为了方便自己 哈哈哈
https://www.cnblogs.com/sui776265233/p/9719463.html#_label1

文章作者: gh
文章链接: https://ghclub.top/posts/5702/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 GHBlog
打赏
  • 微信
    微信
  • 支付寶
    支付寶

评论