iis服务器助手广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫之采集登陆后才能看到数据的方法是什么
  • 257
分享到

Python爬虫之采集登陆后才能看到数据的方法是什么

2024-04-02 19:04:59 257人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍“python爬虫之采集登陆后才能看到数据的方法是什么”,在日常操作中,相信很多人在python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操

这篇文章主要介绍“python爬虫之采集登陆后才能看到数据的方法是什么”,在日常操作中,相信很多人在python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫之采集登陆后才能看到数据的方法是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

Python爬虫之采集登陆后才能看到数据的方法是什么

爬虫在采集网站的过程中,部分数据价值较高的网站,会限制访客的访问行为。这种时候建议通过登录的方式,获取目标网站的cookie,然后再使用cookie配合代理IP进行数据采集分析。

1 使用表单登陆

这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。

#! -*- encoding:utf-8 -*-  import requests  import random  import requests.adapters    # 要访问的目标页面  targetUrlList = [      "https://Httpbin.org/ip",      "https://httpbin.org/headers",      "https://httpbin.org/user-agent",  ]    # 代理服务器(产品官网 www.16yun.cn)  proxyHost = "t.16yun.cn"  proxyPort = "31111"    # 代理隧道验证信息  proxyUser = "username"  proxyPass = "passWord"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {      "host": proxyHost,      "port": proxyPort,      "user": proxyUser,      "pass": proxyPass,  }    # 设置 http和https访问都是用HTTP代理  proxies = {      "http": proxyMeta,      "https": proxyMeta,  }    # 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IP  s = requests.session()    # 设置cookie  cookie_dict = {"jsESSION":"123456789"}  cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)  s.cookies = cookies    for i in range(3):      for url in targetUrlList:          r = s.get(url, proxies=proxies)          print r.text

2 使用cookie登陆

使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。

response_captcha = requests_session.get(url=url_login, cookies=cookies)   response1 = requests.get(url_login) # 未登陆   response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Response Cookie!   response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Response Cookie!

若存在验证码,此时采用response = requests_session.post(url=url_login,  data=data)是不行的,做法应该如下:

response_captcha = requests_session.get(url=url_login, cookies=cookies)   response1 = requests.get(url_login) # 未登陆   response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Response Cookie!   response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Response Cookie!

到此,关于“Python爬虫之采集登陆后才能看到数据的方法是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

--结束END--

本文标题: Python爬虫之采集登陆后才能看到数据的方法是什么

本文链接: https://www.lsjlt.com/news/84339.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作