Python爬虫利用cookie实现模拟登陆实例详解

爬虫详解实例 2022-06-04 18:06:06 905人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。举个例子，某些网站是需要登录后才能得到你想要的信息的，不登陆只能是游客模式，那么我们可以利用U

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。

举个例子，某些网站是需要登录后才能得到你想要的信息的，不登陆只能是游客模式，那么我们可以利用Urllib2库保存我们以前登录过的Cookie，之后载入cookie获取我们想要的页面，然后再进行抓取。理解cookie主要是为我们快捷模拟登录抓取目标网页做出准备。

我之前的帖子中使用过urlopen()这个函数来打开网页进行抓取，这仅仅只是一个简单的python网页打开器，其参数也仅有urlopen(url,data,timeout),这三个参数对于我们获取目标网页的cookie是远远不够的。这时候我们就要利用到另外一种Opener——Cookiejar。

cookielib也是Python进行爬虫的一个重要模块，他能与urllib2相互结合一起爬取想要的内容。该模块的CookieJar类的对象可以捕获cookie并在后续连接请求时重新发送，这样就可以实现我们所需要的模拟登录功能。

这里特别说明一下，cookielib是在py2.7中自带的模块，无需重新安装，想要查看其自带模块可以查看Python目录下的Lib文件夹，里面有所有安装的模块。我一开始没想起来，在PyCharm中竟然没有搜到cookielib,使用了快捷安装也报错：Couldn't find index page for 'Cookielib' (maybe misspelled?)

查看图片

之后才想起来是不是自带的就有，没想到去lib文件夹一看还真有，白白浪费半个小时各种瞎折腾~~

下面我们就来介绍一下这个模块，该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

它们的关系：CookieJar —-派生—->FileCookieJar —-派生—?>MozillaCookieJar和LWPCookieJar 主要用法，我们下面也会讲到。urllib2.urlopen()函数不支持验证、cookie或者其它Http高级功能。要支持这些功能，必须使用build_opener()（可以用于让python程序模拟浏览器进行访问，作用你懂得~）函数创建自定义Opener对象。

1、首先我们就来获取一下网站的cookie

例子：


#coding=utf-8 
import cookielib 
import urllib2 
 
mycookie = cookielib.CookieJar() #声明一个CookieJar的类对象保存cookie(注意CookieJar的大小写问题) 
handler = urllib2.HTTPCookieProcessor(mycookie) #利用urllib2库中的HTTPCookieProcessor来声明一个处理cookie的处理器 
opener = urllib2.build_opener(handler) #利用handler来构造opener，opener的用法和urlopen()类似 
response = opener.open("http://www.baidu.com") #opener返回的一个应答对象response 
for item in my.cookie: 
  print"name="+item.name 
  print"value="+item.value

结果：


name=BAIDUID 
value=73BD718962A6EA0DAD4CB9578A08FDD0:FG=1 
name=BIDUPSID 
value=73BD718962A6EA0DAD4CB9578A08FDD0 
name=H_PS_PSSID 
value=1450_19035_21122_17001_21454_21409_21394_21377_21526_21189_21398 
name=PSTM 
value=1478834132 
name=BDSVRTM 
value=0 
name=BD_HOME 
value=0

这样我们就得到了一个最简单的cookie。

2、将cookie保存到文件

上面我们得到了cookie,下面我们学习如何保存cookie。在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存

例子：


#coding=utf-8 
import cookielib 
import urllib2 
 
mycookie = cookielib.MozillaCookieJar() #声明一个MozillaCookieJar的类对象保存cookie(注意MozillaCookieJar的大小写问题) 
handler = urllib2.HTTPCookieProcessor(mycookie) #利用urllib2库中的HTTPCookieProcessor来声明一个处理cookie的处理器 
opener = urllib2.build_opener(handler) #利用handler来构造opener，opener的用法和urlopen()类似 
response = opener.open("http://www.baidu.com") #opener返回的一个应答对象response 
for item in mycookie: 
  print"name="+item.name 
  print"value="+item.value 
filename='mycookie.txt'#设定保存的文件名 
mycookie.save(filename,ignore_discard=True, ignore_expires=True)

将上面的例子简单变形就可以得到本例，使用了CookieJar的子类MozillaCookiJar,为什么呢？我们将MozillaCookiJar换成CookieJar试试，下面一张图你就能明白：

查看图片

CookieJar是没有保存save属性的~

save()这个方法中：ignore_discard的意思是即使cookies将被丢弃也将它保存下来，ignore_expires的意思是如果在该文件中cookies已经存在，则覆盖原文件写入，在这里，我们将这两个全部设置为True。运行之后，cookies将被保存到cookie.txt文件中，我们查看一下内容：

查看图片

这样我们就成功保存了我们想要的cookie

3、从文件中获取cookie并访问


<pre style="background-color: rgb(255, 255, 255); font-family: 宋体; font-size: 9pt;"><pre name="code" class="python">#coding=utf-8 
import urllib2 
import cookielib 
import urllib 
 
#第一步先给出账户密码网址准备模拟登录 
postdata = urllib.urlencode({ 
  'stuid': '1605122162', 
  'pwd': 'xxxxxxxxx'#密码这里就不泄漏啦，嘿嘿嘿 
}) 
loginUrl = 'http://ids.xidian.edu.cn/authserver/login?service=http%3A%2F%2Fjwxt.xidian.edu.cn%2Fcaslogin.jsp'# 登录教务系统的URL，成绩查询网址 
 
# 第二步模拟登陆并保存登录的cookie 
filename = 'cookie.txt'  #创建文本保存cookie 
mycookie = cookielib.MozillaCookieJar(filename) # 声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件 
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(mycookie)) #定义这个opener，对象是cookie 
result = opener.open(loginUrl, postdata) 
mycookie.save(ignore_discard=True, ignore_expires=True)# 保存cookie到cookie.txt中 
 
# 第三步利用cookie请求访问另一个网址，教务系统总址 
gradeUrl = 'http://ids.xidian.edu.cn/authserver/login?service'  #只要是帐号密码一样的网址就可以， 请求访问成绩查询网址 
result = opener.open(gradeUrl) 
print result.read()</pre><br> 
<pre></pre> 
<pre></pre> 
<p></p> 
<pre></pre> 
<pre></pre> 
创建一个带有cookie的opener，在访问登录的URL时，将登录后的cookie保存下来，然后利用这个cookie来访问其他网址。 
<p></p> 
<p><br> 
</p> 
<p>核心思想：创建opener,包含了cookie的内容。之后在利用opener时，就会自动使用原先保存的cookie.<br> 
<br> 
</p> 
   
</pre>

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫利用cookie实现模拟登陆实例详解

本文链接: https://www.lsjlt.com/news/13798.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Django利用Cookie实现反爬虫的例子

我们知道，Diango 接收的 HTTP 请求信息里带有 Cookie 信息。Cookie的作用是为了识别当前用户的身份，通过以下例子来说明Cookie的作用。例：浏览器向服务器（...

99+

2024-04-02
java爬虫实战之模拟登陆的示例分析

这篇文章主要介绍了java爬虫实战之模拟登陆的示例分析，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。Java是什么Java是一门面向对象编程语言，可以编写桌面应用程序、Web...

99+

2023-06-14
python爬虫模拟登录之图片验证码实现详解

我们在用爬虫对门户网站进行模拟登录是总会有输入图片验证码的，例如这种那我们怎么解决这个问题实现全自动的模拟登录呢？只要思想不滑坡，办法总比困难多。我这里使用的是百度智能云里面的文...

99+

2024-04-02
使用python模拟浏览器实现登陆

前言你有没有想过，当我们在某个网站上登陆时，网站是如何通过验证的，我们都提交给了网站哪些信息，浏览器都发起了哪些请求？下图是某个网站的登陆界面，接下来就让我们通过命令行模拟浏览器实现登陆操作，看看一个简单的登陆操作，具...

99+

2023-01-31

浏览器 python
python爬虫之利用selenium+opencv识别滑动验证并模拟登陆知乎功能

滑动验证距离分别获取验证码背景图和滑块图两张照片，然后利用opencv库，通过高斯模糊和Canny算法进行处理，然后通过matchTemplate方法进行两张图的匹配，获得滑动距离...

99+

2024-04-02
利用Python实现模拟登录知乎

目录环境与开发工具模拟过程概述参数探索模拟源码运行结果结果一：密码错误结果二：验证码错误结果三：成功登录环境与开发工具在抓包的时候，开始使用的是Chrome开发工具中的Networ...

99+

2024-04-02
python网络爬虫之模拟登录自动获取cookie值验证码识别的具体实现

目录1、爬取网页分析2、验证码识别3、cookie自动获取4、程序源代码chaojiying.pysign in.py1、爬取网页分析爬取的目标网址为：https://www.gu...

99+

2024-04-02
node.js实现简单爬虫示例详解

目录node.js实现简单爬虫第一步第二步爬虫结果小结：node.js实现简单爬虫工具：cheerio cheerio 是 nodejs 特别为服务端定制的，能够快速灵活的对 JQ...

99+

2023-05-17

node.js简单爬虫 node.js爬虫
使用Post方法模拟登陆爬取网页的实现方法

最近弄爬虫，遇到的一个问题就是如何使用post方法模拟登陆爬取网页。下面是极简版的代码：import java.io.BufferedReader;import java.io.InputStreamReader;import java.i...

99+

2023-05-31

java post 模拟登陆
如何利用Python实现模拟登录知乎

环境与开发工具在抓包的时候，开始使用的是Chrome开发工具中的Network，结果没有抓到，后来使用Fiddler成功抓取数据。下面逐步来细化上述过程。模拟知乎登录前，先看看本次案例使用的环境及其工具：Windows 7 + Python...

99+

2023-05-18

Python
如何用定值Cookie实现反爬详解

目录【摘要】Cookie 生成Python Flask 框架生成 CookieFlask make_response 加载模板Flask 判断指定 cookie 是否存在补充知识点【...

99+

2023-05-14

定值Cookie实现反爬 Cookie 反爬
Java 使用maven实现Jsoup简单爬虫案例详解

一、Jsoup的简介 jsoup 是一款Java 的HTML解析器，可直接解析某个UR...

99+

2024-04-02
Python用requests模块实现动态网页爬虫

目录前言开发工具环境搭建总结前言 Python爬虫实战，requests模块，Python实现动态网页爬虫让我们愉快地开始吧~ 开发工具 Python版本： 3.6.4 相关模块：...

99+

2024-04-02
详解C#如何利用爬虫技术实现快捷租房

目录场景需求开发环境开发工具实现代码实现效果场景做为一个码农，大部分都集中在一二线城市，所以租房也就无可避免，面对如今五花八门的租房信息，往往很难找到合适的房子。而如今的这些租房软...

99+

2024-04-02
C++中vector的模拟实现实例详解

目录vector接口总览默认成员函数构造函数拷贝构造赋值重载析构函数迭代器相关函数 begin和end 容量相关函数 size和capacity reserve resi...

99+

2024-04-02
利用Python爬虫实现抢购某宝秒杀商品

目录1、导入对应类库实现对浏览器的操作2、用代码实现购物流程2.1 访问某宝2.2登录某宝2.3 进入购物车2.4 选中所有商品2.5 对比时间,提交结算(重点)前言：某宝秒杀，用...

99+

2024-04-02
python 用递归实现通用爬虫解析器

目录需求分析进一步分析再进一步分析代码实现我们在写爬虫的过程中，除了研究反爬之外，几乎全部的时间都在写解析逻辑。那么，生命苦短，为什么我们不写一个通用解析器呢？对啊！为什么不呢？开整...

99+

2024-04-02
怎么在python中利用递归实现一个爬虫解析器

怎么在python中利用递归实现一个爬虫解析器？相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。另外一种是配置文件预先告知的方式，你配置成什么类型，解析器就通过对应的解析规则去解析...

99+

2023-06-14
如何利用vue实现登陆界面及其跳转详解

1.做登录框步骤：（1）创建vue项目，使用vite方式创建；npm init vue@latest （2）项目结构： src：代码书写位置；app....

99+

2023-05-15

vue登录界面 vue实现登陆跳转 vue实现登陆跳转
Python怎么用requests模块实现动态网页爬虫

小编给大家分享一下Python怎么用requests模块实现动态网页爬虫，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！开发工具Python版本： 3.6.4相关模块：urllib模块；random模块；requests模块...

99+

2023-06-29