iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >如何利用Python实现模拟登录知乎
  • 630
分享到

如何利用Python实现模拟登录知乎

Python 2023-05-18 16:05:09 630人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

环境与开发工具在抓包的时候,开始使用的是Chrome开发工具中的Network,结果没有抓到,后来使用Fiddler成功抓取数据。下面逐步来细化上述过程。模拟知乎登录前,先看看本次案例使用的环境及其工具:windows 7 + python

环境与开发工具

在抓包的时候,开始使用的是Chrome开发工具中的Network,结果没有抓到,后来使用Fiddler成功抓取数据。下面逐步来细化上述过程。

模拟知乎登录前,先看看本次案例使用的环境及其工具:

模拟过程概述

  • 使用Google浏览器结合Fiddler来监控客户端与服务端的通讯过程;

  • 根据监控结果,构造请求服务器过程中传递的参数;

  • 使用Python模拟参数传递过程。

客户端与服务端通信过程的几个关键点:

  • 登录时的url地址。

  • 主要有两种方法可以获取登录时提交的参数【params】:第一种是通过分析页面源代码来找到表单标签及属性;。适应比较简单的页面。第二、使用抓包工具,查看提交的url和参数,通常使用的是Chrome的开发者工具中的Network, Fiddler等。

  • 登录后跳转的url。

参数探索

首先看看这个登录页面,也就是我们登录时的url地址。

如何利用Python实现模拟登录知乎

看到这个页面,我们也可以大概猜测下请求服务器时传递了几个字段,很明显有:用户名、密码、验证码以及“记住我”这几个值。那么实际上有哪些呢?下面来分分析下。

首先查看一下html源码,Google里可以使用CTRL+U查看,然后使用CTRL+F输入input看看有哪些字段值,详情如下:

如何利用Python实现模拟登录知乎

请求服务器时,源代码表明还带有一个隐藏字段“_xsrf”。现在的疑问是参数是通过什么名称进行传递的,因此需要使用别的工具来捕获数据包进行分析。在这里,笔者用的是Fiddler,它可以在Windows系统上工作。当然,你也可以使用其他工具。

由于抓包所得到的信息量较大,寻找所需信息变得较为困难,抓包过程因此变得较为繁琐。关于fiddler,很容易使用,有过不会,可以去百度搜一下。为了防止其他信息干扰,我们先将fiddler中的记录清除,然后输入用户名(笔者使用的是邮箱登录)、密码等信息登录,相应的在fiddler中会有如下结果:

如何利用Python实现模拟登录知乎

备注:如果是使用手机登录,则对应fiddler中的url是“/login/phone_num”。

为了查看详细的请求参数,我们左键单机“/login/email”,可以看到下列信息:

如何利用Python实现模拟登录知乎

请求方式为POST,请求的url为https://www.zhihu.com/login/email。而从From Data可以看出,相应的字段名称如下:

  • _xsrf

  • captcha

  • email

  • passWord

  • remember

对于这五个字段,代码中email、password以及captcha都是手动输入的,remember初始化为true。可以根据登录页面的源文件,获取input标签中名为_xsrf的value值,从而得到剩余的_xsrf。

如何利用Python实现模拟登录知乎

对于验证码,则需要通过额外的请求,该链接可以通过定点查看源码看出:

如何利用Python实现模拟登录知乎

链接为Https://www.zhihu.com/captcha.gif?type=login,这里省略了ts(经测试,可省略掉)。现在,可以使用代码进行模拟登录。

温馨提示:如果使用的是手机号码进行登录,则请求的url为https://www.zhihu.com/login/phone_num,同时email字段名称将变成“phone_num”。

模拟源码

在编写代码实现知乎登录的过程中,笔者将一些功能封装成了一个简单的类WSpider,以便复用,文件名称为WSpider.py。

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 02 14:01:17 2016
@author: liudiwei
"""
import urllib
import urllib2
import cookielib
import logging  

class WSpider(object):
    def __init__(self):
        #init params
        self.url_path = None
        self.post_data = None
        self.header = None
        self.domain = None
        self.operate = None

        #init cookie
        self.cookiejar = cookielib.LWPCookieJar()
        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookiejar))
        urllib2.install_opener(self.opener)

    def setRequestData(self, url_path=None, post_data=None, header=None):
        self.url_path = url_path
        self.post_data = post_data
        self.header = header

    def getHtmlText(self, is_cookie=False):
        if self.post_data == None and self.header == None:
            request = urllib2.Request(self.url_path)
        else:
            request = urllib2.Request(self.url_path, urllib.urlencode(self.post_data), self.header)
        response = urllib2.urlopen(request)
        if is_cookie: 
            self.operate = self.opener.open(request)
        resText = response.read()
        return resText

    """
    Save captcha to local    
    """    
    def saveCaptcha(self, captcha_url, outpath, save_mode='wb'):
        picture = self.opener.open(captcha_url).read() #用openr访问验证码地址,获取cookie
        local = open(outpath, save_mode)
        local.write(picture)
        local.close()    

    def getHtml(self, url):
        page = urllib.urlopen(url)
        html = page.read()
        return html


    """
    功能:将文本内容输出至本地
    @params
        content:文本内容
        out_path: 输出路径
    """
    def output(self, content, out_path, save_mode="w"):
        fw = open(out_path, save_mode)
        fw.write(content)
        fw.close()
        
    """#EXAMPLE
    logger = createLogger('mylogger', 'temp/logger.log')
    logger.debug('logger debug message')  
    logger.info('logger info message')  
    logger.warning('logger warning message')  
    logger.error('logger error message')  
    logger.critical('logger critical message')  
    """    
    def createLogger(self, logger_name, log_file):
        # 创建一个logger
        logger = logging.getLogger(logger_name)  
        logger.setLevel(logging.INFO)  

        # 创建一个handler,用于写入日志文件    
        fh = logging.FileHandler(log_file)  

        # 再创建一个handler,用于输出到控制台    
        ch = logging.StreamHandler()  
        # 定义handler的输出格式fORMatter    

        formatter = logging.Formatter('%(asctime)s | %(name)s | %(levelname)s | %(message)s')  
        fh.setFormatter(formatter)  
        ch.setFormatter(formatter)  
        # 给logger添加handler    

        logger.addHandler(fh)  
        logger.addHandler(ch)  
        return logger

关于模拟登录知乎的源码,保存在zhiHuLogin.py文件,内容如下:

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 02 17:07:17 2016
@author: liudiwei

"""
import urllib
from WSpider import WSpider
from bs4 import BeautifulSoup as BS
import getpass
import JSON
import WLogger as WLog
"""
2016.11.03 由于验证码问题暂时无法正常登陆
2016.11.04 成功登录,期间出现下列问题
验证码错误返回:{ "r": 1, "errcode": 1991829, "data": {"captcha":"验证码错误"}, "msg": "验证码错误" }
验证码过期:{ "r": 1, "errcode": 1991829, "data": {"captcha":"验证码回话无效 :(","name":"ERR_VERIFY_CAPTCHA_SESSioN_INVALID"}, "msg": "验证码回话无效 :(" }
登录:{"r":0, "msg": "登录成功"}
"""
def zhiHuLogin():
    spy = WSpider()
    logger = spy.createLogger('mylogger', 'temp/logger.log')
    homepage = r"https://www.zhihu.com/"    
    html = spy.opener.open(homepage).read()
    soup = BS(html, "html.parser")
    _xsrf = soup.find("input", {'type':'hidden'}).get("value")

    #根据email和手机登陆得到的参数名不一样,email登陆传递的参数是‘email',手机登陆传递的是‘phone_num'
    username = raw_input("Please input username: ")
    password = getpass.getpass("Please input your password: ")
    account_name = None
    if "@" in username:
        account_name = 'email'
    else:
        account_name = 'phone_num' 

    #保存验证码
    logger.info("save captcha to local Machine.")
    captchaURL = r"https://www.zhihu.com/captcha.gif?type=login" #验证码url
    spy.saveCaptcha(captcha_url=captchaURL, outpath="temp/captcha.jpg") #temp目录需手动创建

    #请求的参数列表
    post_data = {
        '_xsrf': _xsrf,
        account_name: username,
        'password': password,
        'remember_me': 'true',
        'captcha':raw_input("Please input captcha: ")

    }

    #请求的头内容
    header ={
        'Accept':'*/*' ,
        'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
        'X-Requested-With':'XMLHttpRequest',
        'Referer':'https://www.zhihu.com/',
        'Accept-Language':'en-GB,en;q=0.8,zh-CN;q=0.6,zh;q=0.4',
        'Accept-Encoding':'gzip, deflate, br',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
        'Host':'www.zhihu.com'
    }

    url = r"https://www.zhihu.com/login/" + account_name
    spy.setRequestData(url, post_data, header)
    resText = spy.getHtmlText()
    jsonText = json.loads(resText)

    if jsonText["r"] == 0:
        logger.info("Login success!")
    else:
        logger.error("Login Failed!")
        logger.error("Error info ---> " + jsonText["msg"])

    text = spy.opener.open(homepage).read() #重新打开主页,查看源码可知此时已经处于登录状态
    spy.output(text, "out/home.html") #out目录需手动创建

if __name__ == '__main__':
    zhiHuLogin()

关于源码的分析,可以参考代码中的注解。

运行结果

在控制台中运行python zhiHuLogin.py,然后按提示输入相应的内容,最后可得到以下不同的结果(举了三个实例):

结果一:密码错误

如何利用Python实现模拟登录知乎

结果二:验证码错误

如何利用Python实现模拟登录知乎

结果三:成功登录

如何利用Python实现模拟登录知乎

以上就是如何利用Python实现模拟登录知乎的详细内容,更多请关注编程网其它相关文章!

--结束END--

本文标题: 如何利用Python实现模拟登录知乎

本文链接: https://www.lsjlt.com/news/212199.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何利用Python实现模拟登录知乎
    环境与开发工具在抓包的时候,开始使用的是Chrome开发工具中的Network,结果没有抓到,后来使用Fiddler成功抓取数据。下面逐步来细化上述过程。模拟知乎登录前,先看看本次案例使用的环境及其工具:Windows 7 + Python...
    99+
    2023-05-18
    Python
  • 利用Python实现模拟登录知乎
    目录环境与开发工具模拟过程概述参数探索模拟源码运行结果结果一:密码错误结果二:验证码错误结果三:成功登录环境与开发工具 在抓包的时候,开始使用的是Chrome开发工具中的Networ...
    99+
    2024-04-02
  • python爬虫之利用selenium+opencv识别滑动验证并模拟登陆知乎功能
    滑动验证距离 分别获取验证码背景图和滑块图两张照片,然后利用opencv库,通过高斯模糊和Canny算法进行处理,然后通过matchTemplate方法进行两张图的匹配,获得滑动距离...
    99+
    2024-04-02
  • Python如何实现模拟豆瓣登录系统
    这篇文章将为大家详细讲解有关Python如何实现模拟豆瓣登录系统,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。大家是不是经常做爬虫类的案例呀今天为大家介绍一个利用Python模拟豆瓣登录系统...
    99+
    2023-06-02
  • 如何用Python模拟登录淘宝
    如何用Python模拟登录淘宝,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。Python模拟登录淘宝,我知道,肯定是吸引了你,一起来看看吧!看了下网上有很多关于模拟登录淘宝...
    99+
    2023-06-02
  • 2019年最新 Python 模拟登录知
    知乎的登录页面已经改版多次,加强了身份验证,网络上大部分模拟登录均已失效,所以我重写了一份完整的,并实现了提交验证码 (包括中文验证码),本文我对分析过程和代码进行步骤分解,完整的代码请见末尾 Github 仓库,不过还是建议看一遍正...
    99+
    2023-01-30
    最新 Python
  • python scrapy实现模拟登录功能
    本篇内容介绍了“python scrapy实现模拟登录功能”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1、requests模块。直接携带c...
    99+
    2023-06-20
  • 使用python模拟登录
    使用python模拟登录运行环境步骤浏览器阶段思路编码使用Java模拟登录 该方法是一个比较麻烦的方法,但是它不需要浏览器的配合,适合爬虫之类。 而另一种,使用webdriver的,使用比这个简单,可以用来做每日签到、打卡之类,使...
    99+
    2023-01-31
    python
  • Python模拟登录多种实现方式
    Python模拟登录多种实现方式 基于Python 3.6 #coding:utf-8 import sys import io import urllib.request import http.cookiejar #####...
    99+
    2023-01-31
    多种 方式 Python
  • 详解如何用Python模拟登录淘宝
    目录一、淘宝登录流程二、模拟登录实现1.判断是否需要验证码2.验证用户名密码3.申请st码4.使用st码登录5.获取淘宝昵称三、总结1.代码结构2.存在问题看了下网上有很多关于模拟登...
    99+
    2024-04-02
  • python使用Cookie模拟登录
    from bs4 import BeautifulSoup import urllib2 url = 'https://www.douban.com' cookie='ll="118234"; __yadk_uid=FZYkMR92Oct...
    99+
    2023-01-31
    python Cookie
  • Python模拟百度登录实例
    原文:http://www.jb51.net/article/78406.htm 记录下来,慢慢学习: 要先获取token,然后再登录 # -*- coding: utf8 -*- import urll...
    99+
    2023-01-31
    实例 Python
  • 如何用python爬取知乎话题?
    因为要做观点,观点的屋子类似于知乎的话题,所以得想办法把他给爬下来,搞了半天最终还是妥妥的搞定了,代码是python写的,不懂得麻烦自学哈!懂得直接看代码,绝对可用 #coding:utf-8 """ @author:haoning @cr...
    99+
    2023-01-31
    如何用 话题 python
  • Python编程使用Selenium模拟淘宝登录实现过程
    目录一、利用xpath进行(全程使用)二、代码部分与图片内容一、利用xpath进行(全程使用) driver.find_element_by_xpath() 二、代码部分与图片...
    99+
    2024-04-02
  • 使用python模拟浏览器实现登陆
    前言 你有没有想过,当我们在某个网站上登陆时,网站是如何通过验证的,我们都提交给了网站哪些信息,浏览器都发起了哪些请求? 下图是某个网站的登陆界面,接下来就让我们通过命令行模拟浏览器实现登陆操作,看看一个简单的登陆操作,具...
    99+
    2023-01-31
    浏览器 python
  • Python+Selenium+phantomjs怎么实现网页模拟登录和截图
    这篇文章主要介绍“Python+Selenium+phantomjs怎么实现网页模拟登录和截图”,在日常操作中,相信很多人在Python+Selenium+phantomjs怎么实现网页模拟登录和截图问题上存在疑惑,小编查阅了各式资料,整理...
    99+
    2023-06-02
  • 如何使用python爬取知乎热榜Top50数据
    目录1、导入第三方库2、程序的主函数3、正则表达式匹配数据4、程序运行结果5、程序源代码1、导入第三方库 import urllib.request,urllib.error ...
    99+
    2024-04-02
  • 如何使用Charles和requests模拟微博登录
    这篇文章主要讲解了“如何使用Charles和requests模拟微博登录”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何使用Charles和requests模拟微博登录”吧!1. 用Cha...
    99+
    2023-06-02
  • python爬虫模拟登录之图片验证码实现详解
    我们在用爬虫对门户网站进行模拟登录是总会有输入图片验证码的,例如这种 那我们怎么解决这个问题实现全自动的模拟登录呢?只要思想不滑坡,办法总比困难多。我这里使用的是百度智能云里面的文...
    99+
    2024-04-02
  • JavaWeb如何使用mvc模式实现登录功能
    这篇文章给大家分享的是有关JavaWeb如何使用mvc模式实现登录功能的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。部署项目、环境搭建 详细内容  1.导包  &...
    99+
    2023-06-29
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作