Python爬虫之采集登陆后才能看到数据的方法是什么

2024-04-02 19:04:59 257人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要介绍“python爬虫之采集登陆后才能看到数据的方法是什么”，在日常操作中，相信很多人在python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操

这篇文章主要介绍“python爬虫之采集登陆后才能看到数据的方法是什么”，在日常操作中，相信很多人在python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python爬虫之采集登陆后才能看到数据的方法是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

Python爬虫之采集登陆后才能看到数据的方法是什么

爬虫在采集网站的过程中，部分数据价值较高的网站，会限制访客的访问行为。这种时候建议通过登录的方式，获取目标网站的cookie，然后再使用cookie配合代理IP进行数据采集分析。

1 使用表单登陆

这种情况属于post请求，即先向服务器发送表单数据，服务器再将返回的cookie存入本地。

#! -*- encoding:utf-8 -*-  import requests  import random  import requests.adapters    # 要访问的目标页面  targetUrlList = [      "https://Httpbin.org/ip",      "https://httpbin.org/headers",      "https://httpbin.org/user-agent",  ]    # 代理服务器(产品官网 www.16yun.cn)  proxyHost = "t.16yun.cn"  proxyPort = "31111"    # 代理隧道验证信息  proxyUser = "username"  proxyPass = "passWord"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {      "host": proxyHost,      "port": proxyPort,      "user": proxyUser,      "pass": proxyPass,  }    # 设置 http和https访问都是用HTTP代理  proxies = {      "http": proxyMeta,      "https": proxyMeta,  }    # 访问三次网站，使用相同的Session(keep-alive)，均能够保持相同的外网IP  s = requests.session()    # 设置cookie  cookie_dict = {"jsESSION":"123456789"}  cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)  s.cookies = cookies    for i in range(3):      for url in targetUrlList:          r = s.get(url, proxies=proxies)          print r.text

2 使用cookie登陆

使用cookie登陆，服务器会认为你是一个已登陆的用户，所以就会返回给你一个已登陆的内容。因此，需要验证码的情况可以使用带验证码登陆的cookie解决。

response_captcha = requests_session.get(url=url_login, cookies=cookies)   response1 = requests.get(url_login) # 未登陆   response2 = requests_session.get(url_login) # 已登陆，因为之前拿到了Response Cookie！   response3 = requests_session.get(url_results) # 已登陆，因为之前拿到了Response Cookie！

若存在验证码，此时采用response = requests_session.post(url=url_login, data=data)是不行的，做法应该如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies)   response1 = requests.get(url_login) # 未登陆   response2 = requests_session.get(url_login) # 已登陆，因为之前拿到了Response Cookie！   response3 = requests_session.get(url_results) # 已登陆，因为之前拿到了Response Cookie！

到此，关于“Python爬虫之采集登陆后才能看到数据的方法是什么”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注编程网网站，小编会继续努力为大家带来更多实用的文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫之采集登陆后才能看到数据的方法是什么

本文链接: https://www.lsjlt.com/news/84339.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫之采集登陆后才能看到数据的方法是什么

这篇文章主要介绍“Python爬虫之采集登陆后才能看到数据的方法是什么”，在日常操作中，相信很多人在Python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操...

99+

2024-04-02
python爬虫获取数据的方法是什么

Python爬虫获取数据的方法有以下几种：1. 使用第三方库：Python有很多强大的第三方库，如Requests、Beautifu...

99+

2023-10-19

python
python串口数据采集并保存的方法是什么

在Python中，可以使用pyserial库来进行串口数据采集和保存。以下是一个示例代码，演示了如何使用pyserial库来读取串口...

99+

2023-10-27

python
远程登陆SQL Server 2014数据库的方法是什么

远程登陆SQL Server 2014数据库的方法是什么，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。远程登陆SQLServer (2014)...

99+

2024-04-02
Python爬取数据存入MySQL的方法是什么

Python爬取数据存入MySQL的方法有以下几种：使用Python的MySQLdb模块：MySQLdb是Python与MySQ...

99+

2024-02-29

Python MySQL
python天气数据爬取与分析的方法是什么

Python天气数据爬取与分析的方法主要包括以下几个步骤：1. 确定数据来源：选择一个合适的天气数据源，可以通过网站API获取天气数...

99+

2023-10-12

python
Python爬取天气数据及可视化分析的方法是什么

这篇文章主要讲解了“Python爬取天气数据及可视化分析的方法是什么”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python爬取天气数据及可视化分析的方法是什么”吧！1、数据获取请求网站链...

99+

2023-07-06