分析Robots协议:
1.Robots协议
也称为爬虫协议,机器人协议,全称为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些页面不可以抓取。通常放在一个叫做robots.txt的文本文件,一般放在网站的根目录下。当搜索爬虫访问一个站点时,会先检查这个站点根目录下是否有该文件,如果存在会根据其中定义的爬取范围来爬取,如果没有,爬虫会直接访问所有可以直接访问的页面。
下面介绍下robots.txt中的一些关键词:
User-agent:描述搜索爬虫的名称。比如Baiduspdider这代表对百度爬虫有效,设置为*则代表该协议对任何爬虫都有效
Disallow:爬虫不允许爬取的范围,如果为 / 则表示所有都不可以爬取
Allow:爬虫允许爬取的范围
每个爬虫都有属于自己的Disallow和Allow,当然Robots文件也可以为空
每个爬虫都有自己的名称,比如百度爬虫叫BaiduSpider,谷歌爬虫叫Googlebot等
2.robotparser
该模块提供了一个类RobotFileParser,他可以根据robots.txt文件来判断一个爬取爬虫是否有权限来爬取这个网页
使用时可以只要在构造方法里传入robots.txt的链接即可
urllib.robotparser.RobotFileParser(url='')
也可用他的方法:
- set_url:用来设置robots.txt的链接,如果在创建RobotFileParser的对象时传入了链接,就不再需要这个方法。
- read:读取robots.txt文件并进行分析。一定要调用这个方法,不然后续的判断都会是False,这个操作相当于计算机执行了读取和分析操作,但不会返回任何内容
- parse:传入的参数为robots.txt某些行的内容,用来解析文件
- can_fetch:该方法传入两个参数,第一个是User-agent,第二个为要抓取的URL,返回的结果为True表示可以抓取
- mtime:返回的是上次抓取和分析的robots.txt的时间,这对于长时间分析和抓取的搜索爬虫是很有必要的,你可能需要定期检查和抓取最新的robots.txt
- modified:将当前时间设置为上次抓取和分析robots.txt的时间
from urllib.robotparser import RobotFileParserrp = RobotFileParser()#也可将下面那步省略,直接rp = RobotFileParser()rp.set_url('http://www.jianshu.com/robots.txt')rp.read()#也可以将这里改为rp.parse(urlopen(http://www.jianshu.com/robots.txt).read().decode('utf-8').split('/n'))print(rp.can_fetch('*','http://www.jianshu.com/p/b67554025d7d'))print(rp.can_fetch('*',"http://www.jianshu.com/search?q=python&page=1&type=collections"))
由此我们可以分析步骤:
1.传入robot.txt链接
2.用read函数读取
3.分析链接哪些文件可以爬取