博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python3网络爬虫学习——基本库的使用(5)
阅读量:6137 次
发布时间:2019-06-21

本文共 1467 字,大约阅读时间需要 4 分钟。

分析Robots协议:

1.Robots协议

也称为爬虫协议,机器人协议,全称为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些页面不可以抓取。通常放在一个叫做robots.txt的文本文件,一般放在网站的根目录下。当搜索爬虫访问一个站点时,会先检查这个站点根目录下是否有该文件,如果存在会根据其中定义的爬取范围来爬取,如果没有,爬虫会直接访问所有可以直接访问的页面。

下面介绍下robots.txt中的一些关键词:

User-agent:描述搜索爬虫的名称。比如Baiduspdider这代表对百度爬虫有效,设置为*则代表该协议对任何爬虫都有效

Disallow:爬虫不允许爬取的范围,如果为 / 则表示所有都不可以爬取

Allow:爬虫允许爬取的范围

每个爬虫都有属于自己的Disallow和Allow,当然Robots文件也可以为空

每个爬虫都有自己的名称,比如百度爬虫叫BaiduSpider,谷歌爬虫叫Googlebot等

2.robotparser

该模块提供了一个类RobotFileParser,他可以根据robots.txt文件来判断一个爬取爬虫是否有权限来爬取这个网页

使用时可以只要在构造方法里传入robots.txt的链接即可

         urllib.robotparser.RobotFileParser(url='')

也可用他的方法:

  • set_url:用来设置robots.txt的链接,如果在创建RobotFileParser的对象时传入了链接,就不再需要这个方法。
  • read:读取robots.txt文件并进行分析。一定要调用这个方法,不然后续的判断都会是False,这个操作相当于计算机执行了读取和分析操作,但不会返回任何内容
  • parse:传入的参数为robots.txt某些行的内容,用来解析文件
  • can_fetch:该方法传入两个参数,第一个是User-agent,第二个为要抓取的URL,返回的结果为True表示可以抓取
  • mtime:返回的是上次抓取和分析的robots.txt的时间,这对于长时间分析和抓取的搜索爬虫是很有必要的,你可能需要定期检查和抓取最新的robots.txt
  • modified:将当前时间设置为上次抓取和分析robots.txt的时间
from urllib.robotparser import RobotFileParserrp = RobotFileParser()#也可将下面那步省略,直接rp = RobotFileParser()rp.set_url('http://www.jianshu.com/robots.txt')rp.read()#也可以将这里改为rp.parse(urlopen(http://www.jianshu.com/robots.txt).read().decode('utf-8').split('/n'))print(rp.can_fetch('*','http://www.jianshu.com/p/b67554025d7d'))print(rp.can_fetch('*',"http://www.jianshu.com/search?q=python&page=1&type=collections"))

由此我们可以分析步骤:

1.传入robot.txt链接

2.用read函数读取

3.分析链接哪些文件可以爬取

转载于:https://www.cnblogs.com/gausstu/p/9500929.html

你可能感兴趣的文章
c++面向对象的一些问题1 0
查看>>
直播视频流技术名词
查看>>
企业级java springboot b2bc商城系统开源源码二次开发-hystrix参数详解(八)
查看>>
java B2B2C 多租户电子商城系统- 整合企业架构的技术点
查看>>
IOC —— AOP
查看>>
比特币现金将出新招,推动比特币现金使用
查看>>
数据库的这些性能优化,你做了吗?
查看>>
某大型网站迁移总结(完结)
查看>>
mysql的innodb中事务日志(redo log)ib_logfile
查看>>
部署SSL证书后,网页内容造成页面错误提示的处理办法
查看>>
MS SQLSERVER通用存储过程分页
查看>>
60.使用Azure AI 自定义视觉服务实现物品识别Demo
查看>>
Oracle 冷备份
查看>>
jq漂亮实用的select,select选中后,显示对应内容
查看>>
C 函数sscanf()的用法
查看>>
python模块之hashlib: md5和sha算法
查看>>
解决ros建***能登录不能访问内网远程桌面的问题
查看>>
pfsense锁住自己
查看>>
vsftpd 相关总结
查看>>
bash complete -C command
查看>>