python爬虫入门---第四篇:网站对爬虫的限制及突破测试
大部分网站对网络爬虫都有限制,限制方式有两种: 一、Robots协议;二、网站通过判断对网站访问http的头部信息来查看是否是爬虫,并对爬虫做相关拦截 第一种限制是书面限制,第二种是强制性阻拦限制。那我们如何去突破第二种限制呢? 首先我们要爬取一个网站大部分会使用requests库的get()方法,而get()方法返回的response对象中包含了我们对网站的请求信息。例如: url = <span style="color: #800000">'<span style="color: #800000">https://www.cnblogs.com/huwt/<span style="color: #800000">'<span style="color: #000000">res =<span style="color: #000000"> requests.get(url) <span style="color: #0000ff">print(res.request.headers)-----------------------------------------------输出结果:{'User-Agent': 'python-requests/2.19.1','Accept-Encoding': 'gzip,deflate','Accept': '/','Connection': 'keep-alive'} 通过请求的头部信息我们可以看到一个键值对:'User-Agent': 'python-requests/2.19.1',而强制性的限制就是通过判断'User-Agent'的值来判断是否为爬虫, 只要我们将请求对象中'User-Agent'的值修改为浏览器的'User-Agent'即可,例如: url = <span style="color: #800000">'<span style="color: #800000">https://www.cnblogs.com/huwt/<span style="color: #800000">'<span style="color: #000000">res = requests.get(url,headers = {<span style="color: #800000">'<span style="color: #800000">User-Agent<span style="color: #800000">':<span style="color: #800000">'<span style="color: #800000">Mozilla/5.0<span style="color: #800000">'<span style="color: #000000">}) <span style="color: #0000ff">print(res.request.headers) -----------------------------------------------输出结果:{'User-Agent': 'Mozilla/5.0','Connection': 'keep-alive'} 我们可以看到通过修改get()方法的参数就能将'User-Agent'的值被修改为'Mozilla/5.0',此时我们的爬虫模拟成了Mozilla/5.0浏览器, 这样就可以不被识别的去访问一些有所限制的网站了。 提醒: 以上方法只供实验测试使用,任何一名爬虫使用者都应遵守Robots协议,文明爬取网站。 (编辑:岳阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- python – 在OS X上安装Numba时出错
- python – 通过多维数组的所有1维子阵列进行迭代
- python – Django:有没有办法在与包含ManyToManyField的模
- python-2.7 – Sphinx的LaTeX错误:找不到文件`titlesec.st
- gettext – Flask-Babel如何在Jinja模板文件中使用翻译
- python – 查找列表中所有可能的子列表
- python – 填充OpenCV轮廓的外部
- 【Tensorflow】Anaconda中激活tensorflow后如何使用
- python – 如何使用SQLAlchemy映射一个类与多个表?
- Python – 将非常大(6.4GB)的XML文件转换为JSON