Scrapy笔框架--通用爬虫Broad Crawls（中）-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Scrapy笔框架--通用爬虫Broad Crawls（中）

阅读量：5826 次

发布时间：2019-06-18

本文共 1214 字，大约阅读时间需要 4 分钟。

rules = (        Rule(LinkExtractor(allow=r'WebPage/Company.*'),follow=True,callback='parse_company'),        Rule(LinkExtractor(allow=r'WebPage/JobDetail.*'), callback='parse_item', follow=True),    )

Rule的参数用法

跟踪Rule代码看它的参数：

link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=identity

link_extractor完成url的抽取，它就是交给CrawlSpider用

callback是回调函数

cb_kwargs是传递给link_extractor的参数

follow的意思是满足Rule规则的url是否跟进

process_links在Scrapy笔记--通用爬虫Broad Crawls（上）里面有代码演示，主要处理url

process_request可以对request进行预处理，就像process_links处理url一样，编写一个函数方法进行处理

LinkExtrator的参数用法，跟踪代码看参数：

allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths=(),                 tags=('a', 'area'), attrs=('href',), canonicalize=False,                 unique=True, process_value=None, deny_extensions=None, restrict_css=(),                 strip=True

allow=(r'/jobs/\d+.html')中放置的是一个正则表达式，如果你满足正则，就对其进行提取

deny是allow的反向

allow_domains=(')是指在指定域名下的才进入处理

deny_domains是allow_domains的反向
restrict_xpaths、restrict_css可以通过xpath或者css进一步限定url，比如当前页面有很多符合条件的url，但是我希望限定某个范围进行取值，则可以通过它来指定范围区域，如：

restrict_css('.jon-info')

是限定

<div class=jon-info>中间的范围</div>

tags=('a', 'area'), attrs=('href',)是指默认通过a标签和area标签找到里面的href

转载地址：http://lgsdx.baihongyu.com/

你可能感兴趣的文章

Java IO: RandomAccessFile

桌面数据库绿色版

android 国内工具集

建筑效果图素材站SKALGUBBAR

python gzip 压缩/解压缩字符串

Android framework系统默认设置修改

android staticlayout使用讲解

ecshop用户登录问题及ecshop购物车问题解决办法

一个Servlet编码过滤器

韩国Linux即相关软件镜像服务器

jquery 或 js如何截取字符串

Linux网络编程（第2版）

修改grub2系统选择菜单等待时间（Debian 7）

C++-成员指针

yum挂载本地光盘镜像

Linux下Sed命令的用法

我的友情链接

反lj邮件防火墙的核心技术分析1

Android初学者的迷茫

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-23 15:22:52 当前IP: 18.223.241.235 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我