Scrapy 简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
安装过程 1 2 3 4 5 6 Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl d. pip3 install pywin32 e. pip3 install scrapy
使用介绍 1 2 3 4 5 6 7 8 9 10 scrapy startproject 项目名称 cd project_name(进入项目目录) scrapy genspider 应用名称 爬取网页的起始url scrapy.cfg 项目的主配置信息。(真正爬虫相关的配置信息在settings.py文件中) items.py 设置数据存储模板,用于结构化数据,如:Django的Model pipelines 数据持久化处理 settings.py 配置文件,如:递归的层数、并发数,延迟下载等 spiders 爬虫目录,如:创建文件,编写爬虫解析规则 scrapy crawl 应用名称 运行爬虫
工作流程 1 2 3 4 5 6 引擎首先会将爬文件中的起始url获取,并且提交到调度器中。 如果需要从url中下载数据,则调度器会将url通过引擎提交给下载器, 下载器根据url去下载指定内容(响应体)。下载好的数据会通过引擎 移交给爬虫文件,爬虫文件可以将下载的数据进行指定格式的解析。如果 解析出的数据需要进行持久化存储,则爬虫文件会将解析好的数据通过引 擎移交给管道进行持久化存储。
文章搬运自迎风而来大佬的博客 搬运过来是为了方便自己 哈哈哈 https://www.cnblogs.com/sui776265233/p/9719463.html#_label1