查看: 908|回复: 3
打印 上一主题 下一主题

Python爬虫框架Scrapy

[复制链接]
论坛徽章:
12
Mycat徽章
日期:2016-06-08 14:19:31股票徽章
日期:2019-04-04 17:14:07python徽章
日期:2019-02-28 15:00:51股票徽章
日期:2019-02-21 14:41:14金融徽章
日期:2019-01-24 16:03:50股票徽章
日期:2019-01-24 16:03:16python徽章
日期:2018-12-13 15:57:58python徽章
日期:2018-09-13 15:34:42spark徽章
日期:2017-09-07 16:21:31HBase徽章
日期:2017-07-06 17:14:32架构徽章
日期:2017-05-18 16:20:23算法导论徽章
日期:2019-04-19 10:49:59
跳转到指定楼层
1#
发表于 2018-11-18 13:14 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

tm Python 框架

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏 分享分享 支持支持 反对反对 分享到新浪微博
回复

使用道具 举报

论坛徽章:
12
Mycat徽章
日期:2016-06-08 14:19:31股票徽章
日期:2019-04-04 17:14:07python徽章
日期:2019-02-28 15:00:51股票徽章
日期:2019-02-21 14:41:14金融徽章
日期:2019-01-24 16:03:50股票徽章
日期:2019-01-24 16:03:16python徽章
日期:2018-12-13 15:57:58python徽章
日期:2018-09-13 15:34:42spark徽章
日期:2017-09-07 16:21:31HBase徽章
日期:2017-07-06 17:14:32架构徽章
日期:2017-05-18 16:20:23算法导论徽章
日期:2019-04-19 10:49:59
2#
 楼主| 发表于 2018-11-18 13:15 | 只看该作者
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
回复 支持 反对

使用道具 举报

论坛徽章:
12
Mycat徽章
日期:2016-06-08 14:19:31股票徽章
日期:2019-04-04 17:14:07python徽章
日期:2019-02-28 15:00:51股票徽章
日期:2019-02-21 14:41:14金融徽章
日期:2019-01-24 16:03:50股票徽章
日期:2019-01-24 16:03:16python徽章
日期:2018-12-13 15:57:58python徽章
日期:2018-09-13 15:34:42spark徽章
日期:2017-09-07 16:21:31HBase徽章
日期:2017-07-06 17:14:32架构徽章
日期:2017-05-18 16:20:23算法导论徽章
日期:2019-04-19 10:49:59
3#
 楼主| 发表于 2018-11-18 13:15 | 只看该作者
Scrapy主要包括了以下组件:

引擎(Scrapy)
用来处理整个系统的数据流处理, 触发事务(框架核心)
调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。
下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件(Spider Middlewares)
介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。
调度中间件(Scheduler Middewares)
介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。
回复 支持 反对

使用道具 举报

新浪微博达人勋 ku281  实名认证
论坛徽章:
14
Docker徽章
日期:2016-06-02 10:33:41Web课程徽章
日期:2018-08-14 10:40:00Kafka徽章
日期:2018-08-03 13:41:04Agile徽章
日期:2017-12-25 17:26:41JS课程徽章
日期:2017-11-09 17:11:09spring徽章
日期:2017-07-11 14:27:59JVM徽章
日期:2017-03-23 17:42:46Java徽章
日期:2017-01-06 10:54:24架构徽章
日期:2016-12-29 16:31:50Oracle研习者初级
日期:2016-11-10 14:49:56数据展示徽章
日期:2016-09-08 11:07:46Java徽章
日期:2016-09-01 10:00:53
4#
发表于 2018-11-20 14:05 | 只看该作者
这个用的最多。一直没有认真研究过。后面试一下。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2019-8-25 00:05 , Processed in 0.211049 second(s), 34 queries .