iis服务器助手广告
返回顶部
首页 > 资讯 > 后端开发 > Python >如何使用python3抓取微信公众号文章
  • 566
分享到

如何使用python3抓取微信公众号文章

如何使用公众文章 2023-01-31 08:01:12 566人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

通过微信公众平台的查找文章接口,抓取我们需要的相关文章 1.首先我们先看一下,通过正常的登录自己的微信公众号,然后用文章搜索功能,搜索一下我们需要查找的相关文章。 打开https://mp.weixin.qq.com 登录公众号,打开素材

通过微信公众平台的查找文章接口,抓取我们需要的相关文章

1.首先我们先看一下,通过正常的登录自己的微信公众号,然后用文章搜索功能,搜索一下我们需要查找的相关文章。
  • 打开https://mp.weixin.qq.com
  • 登录公众号,打开素材管理,点击新建分享图文
    如何使用python3抓取微信公众号文章,了解一下?
  • 打开一个文章搜索接口
    如何使用python3抓取微信公众号文章,了解一下?
  • 输入要搜索的内容后,可以搜索到相关文章的标题、出自哪个公众号等信息。

2.实现思路

  • 这里有一个问题,打开微信公众平台首页,输入账号密码后需要使用管理的微信号扫码确认一下才能最终成功登录微信公众号,这个要怎么解决呢?

  • 我们可以第一次登录的时候按正常的流程输入账号密码,扫码登录,拿到cookies,保存下来以便后面调用这个cookies来验证登录;当然cookies是有失效时间的,但是我在测试的时候好像过了3-4个小时还能用,够做好多事情了。

  • 基本思路:1.通过selenium驱动浏览器 打开登录页面 ,输入账号密码登录 ,获取登录后的cookies,保存cookies以便调用;2.拿到cookies之后 ,去请求首页 登录后直接跳转到个人首页,打开文章搜索框,找一些需要的信息;3.拿到有用的信息后,构造data数据包 ,模拟post请求, 然后返回数据,拿到数据之后 ,解析出我们需要的数据。

3.获取cookies,话不多说,贴个代码

#!/usr/bin/env python
# _*_ coding: utf-8 _*_
from selenium import WEBdriver
import time
import JSON
driver = webdriver.Chrome()    #需要一个谷歌驱动chromedriver.exe,要支持你当前谷歌浏览器的版本
driver.get('Https://mp.weixin.qq.com/')     #发起get请求打开微信公众号平台登录页面,然后输入账号密码登录微信公众号

driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/fORM/div[1]/div[1]/div/span/input').clear()    #定位到账号输入框,清除里面的内容
driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[1]/div[1]/div/span/input').send_keys('这里输入你的账号')   #定位到账号输入框,输入账号
time.sleep(3)     #等待3秒后执行下一步操作,避免因为网络延迟,浏览器来不及加载出输入框,从而导致以下的操作失败
driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[1]/div[2]/div/span/input').clear()   #定位到密码输入框,清除里面的内容
driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[1]/div[2]/div/span/input').send_keys('这里输入你的密码')   #定位到密码输入框,输入密码
time.sleep(3)     #原因和以上相同
driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[3]/label').click()   #点击记住密码
time.sleep(3)     #原因和以上相同
driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[4]/a').click()   #点击登录

time.sleep(15)    #15秒内扫码登录
cookies = driver.get_cookies()  #获取扫码登录成功之后的cookies
print(cookies)       #打印出来看看,如果超时了还不扫码,获取到的cookies是不完整的,不能用来登录公众号,所以第一次必须扫码登录以获取完整的cookies
cookie = {}      #定义一个空字典,以便把获取的cookies以字典的形式写入

for items in cookies:             #把登录成功后获取的cookies提取name和value参数写入空字典cookie
    cookie[items.get('name')] = items.get('value')

with open('cookies.txt','w') as file:          #新建并打开一个cookies.txt文件
    file.write(json.dumps(cookie))  #写入转成字符串的字典

driver.close()      #关闭浏览器

4.新建一个py文件,代码如下

#!/usr/bin/env Python
# _*_ coding: utf-8 _*_
import requests
import json
import re       #正则模块
import random   #随机数模块
import time

#query = 'python'
#读取之前登录后保存的cookies
with open('cookies.txt','r') as file:
    cookie = file.read()

url = 'https://mp.weixin.qq.com/'

headers = {
    'User-Agent': 'Mozilla/5.0 (windows NT 6.3; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    'Referer': 'https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&share=1&token=773059916&lang=zh_CN',
    'Host': 'mp.weixin.qq.com',
}

cookies = json.loads(cookie)    #加载之前获取的cookies
print(cookies)     #可以打印看看,和之前保存的cookies是一样的

response = requests.get(url, cookies = cookies)    #请求https://mp.weixin.qq.com/,传cookies参数,登录成功
token = re.findall(r'token=(\d+)',str(response.url))[0]    #登录成功后,这是的url里是包含token的,要把token参数拿出来,方便后面构造data数据包发起post请求
#print(token)
#random.random()返回0到1之间随机数
#构造data数据包发起post请求
data = {
    'token': token,
    'lang': 'zh_CN',
    'f': 'json',
    'ajax': '1',
    'random': random.random(),
    'url': 'python',
    'begin': '0',
    'count': '3',
}

search_url = 'https://mp.weixin.qq.com/cgi-bin/operate_appmsg?sub=check_appmsg_copyright_stat'      #按F12在浏览器里找post请求的url(搜索文章请求的url)
search_response = requests.post(search_url, cookies=cookies, data=data, headers=headers)     #发起post请求,传cookies、data、headers参数
max_num = search_response.json().get('total')   #获取所有文章的条数
num = int(int(max_num/3)) #每页显示3篇文章,要翻total/3页,不过实际上我搜索了几个关键词,发现微信公众号文章搜索的接口最多显示667页,其实后面还有页数,max_num/3的结果大于667没关系

if __name__ == '__main__':
    query = input('请输入你要搜索的内容:')
begin = 0
while num +1 > 0:
    print(begin)
    data = {
        'token': token,
        'lang': 'zh_CN',
        'f': 'json',
        'ajax': '1',
        'random': random.random(),
        'url': query,
        'begin': '{}'.format(str(begin)),
        'count': '3',
    }

    search_response = requests.post(search_url, cookies=cookies, data=data, headers=headers)

    contentt = search_response.json().get('list')               #list里面是我们需要的内容,所以要获取list

    for items in contentt:                                       #具体需要list里面的哪些参数可以自己选择,这里只获取title、url、nickname、author
        f = open('search.txt',mode='a',)                             #打开一个txt文档,把获取的内容写进去,mode='a'是追加的方式写入,不覆盖
        print('文章标题:',items.get('title'))  #获取文章标题
        f.write('文章标题:')
        f.write(items.get('title'))
        f.write("\n")
        f.write('文章url:')
        f.write(items.get('url'))
        f.write("\n")
        f.write('公众号:')
        f.write(items.get('nickname'))
        f.write("\n")
        f.write('作者:')
        f.write(items.get('author'))
        f.write("\n")
        f.write("\n")
        print('文章url:',items.get('url'))    #获取文章的url
        print('公众号:',items.get('nickname'))  #获取出自哪个微信公众号
        print('文章作者:',items.get('author'))   #获取文章作者

    num -= 1
    begin = int(begin)
    begin += 3
    time.sleep(3)
  • 运行结果如下:

如何使用python3抓取微信公众号文章,了解一下?
如何使用python3抓取微信公众号文章,了解一下?

  • search.txt里保存的内容如下:

如何使用python3抓取微信公众号文章,了解一下?

  • 只要有一个微信公众号就可以实现,可以注册一个试一试。

--结束END--

本文标题: 如何使用python3抓取微信公众号文章

本文链接: https://www.lsjlt.com/news/192621.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何使用python3抓取微信公众号文章
    通过微信公众平台的查找文章接口,抓取我们需要的相关文章 1.首先我们先看一下,通过正常的登录自己的微信公众号,然后用文章搜索功能,搜索一下我们需要查找的相关文章。 打开https://mp.weixin.qq.com 登录公众号,打开素材...
    99+
    2023-01-31
    如何使用 公众 文章
  • python如何实现微信公众号文章爬取
    小编给大家分享一下python如何实现微信公众号文章爬取,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!具体步骤如下:一、安装代理服务器目前使用的是Anyproxy...
    99+
    2023-06-19
  • 怎么用python自动获取微信公众号最新文章
    本篇内容介绍了“怎么用python自动获取微信公众号最新文章”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!微信公众号获取思路常用的微信公众号...
    99+
    2023-07-02
  • python爬取微信公众号文章图片并转为PDF
    遇到那种有很多图的微信公众号文章咋办?一个一个存很麻烦,应朋友的要求自己写了个爬虫。2.0版本完成了!完善了生成pdf的功能,可根据图片比例自动调节大小,防止超出页面范围,增加了序号...
    99+
    2024-04-02
  • 微信小程序如何跳转到微信公众号文章,小程序如何关联公众号或订阅号
    微信小程序如何跳转到微信公众号文章,小程序如何关联公众号或订阅号 前置条件 公众号最高管理权限(或能与最高权限管理者配合操作)小程序开发权限或最高管理权限 小程序方面 根据官方资料描述,小程序中展示微...
    99+
    2023-09-18
    小程序 微信小程序 微信 uni-app
  • c# 基于Titanium爬取微信公众号历史文章列表
    目录什么是Titanium原理简述对于HTTP对于HTTPS为什么要爬取历史文章实现步骤大致思路核心代码测试结果github:https://github.com/justcodin...
    99+
    2024-04-02
  • 如何使用Java开发微信公众号
    这篇文章给大家介绍如何使用Java开发微信公众号,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。首先必须要有一个个人微信公众号个人微信公众号相关的接口权限有限,不过用于个人学习体验一下足够了,如图:然后进入微信公众后台,...
    99+
    2023-06-15
  • 微信公众号如何创建
    小编给大家分享一下微信公众号如何创建,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!微信公众号申请流程:打开百度搜索微信公众平台,找到微信公众号官网并打开。点击“立...
    99+
    2023-06-06
  • PHP开发微信公众号:如何实现文章推荐功能
    PHP开发微信公众号:如何实现文章推荐功能,需要具体代码示例随着移动互联网的发展,微信公众号正逐渐成为企业和个人传播信息的重要平台。为了增加用户体验和吸引更多用户,微信公众号的文章推荐功能成为了不可或缺的一部分。本文将介绍如何使用PHP开发...
    99+
    2023-10-26
    微信公众号 PHP开发 文章推荐
  • 使用Python获取公众号下所有的文章
    目录导出公众号所有文章开发者ID与开发者密码保存数据到CSV文件导出公众号所有文章 随着互联网的不断发展,网络上兴起了很多的自媒体平台。不用我说,相信大家也能知道当下非常流行的平台都...
    99+
    2024-04-02
  • python自动获取微信公众号最新文章的实现代码
    目录微信公众号获取思路采集实例微信公众号获取思路 常用的微信公众号文章获取方法有搜狐、微信公众号主页获取和api接口等多个方法。听说搜狐最近不怎么好用了,之前用的api接口也频繁维护...
    99+
    2024-04-02
  • Html5页面如何获取微信公众号的openid
    小编给大家分享一下Html5页面如何获取微信公众号的openid,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!H5页面是运行在微信浏览器的需要与公众号关联(即需要...
    99+
    2023-06-09
  • 【小程序】微信小程序如何获取微信公众号openid?
    一图总览 大家可以先看看下面的流程图,来了解笔者想实现的功能,简单来说就是两个不同主体间的小程序与公众号该如何产生关联。 注:为什么这里要强调不同主体呢,因为同主体的小程序与公众号是可以通过unionId来进行关联绑定。 ...
    99+
    2023-08-19
    微信小程序 小程序 微信
  • 使用Java怎么对微信公众号批量获取
    今天就跟大家聊聊有关使用Java怎么对微信公众号批量获取,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。首先为代理服务器安装证书,anyproxy默认不解析https链接,安装证书后就...
    99+
    2023-05-30
    java 微信公众号
  • Vue如何开发Html5微信公众号
    这篇文章主要介绍了Vue如何开发Html5微信公众号,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、调起微信支付在微信浏览器里面打开H5网...
    99+
    2024-04-02
  • 微信公众号开发中使用Java如何实现获取用户的信息
    微信公众号开发中使用Java如何实现获取用户的信息?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。首先需要到微信网站去设置一下,我是直接用的微信测试号。        接口配...
    99+
    2023-05-31
    java 微信公众号 用户信息
  • Python实现快速保存微信公众号文章中的图片
    目录一、实现效果(以槿泉壁纸为例)二、实现过程三、源码四、Python正则表达式匹配日期与时间一、实现效果(以槿泉壁纸为例) 二、实现过程 1.新建一个link文本,将需要下...
    99+
    2024-04-02
  • 微信公众号菜单如何配置微信小程序
    这篇文章给大家分享的是有关微信公众号菜单如何配置微信小程序的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。先提条件是你的公众号版定了小程序第一种:直接配置   ...
    99+
    2024-04-02
  • 如何使用PHP开发微信公众号的支付功能
    如何使用PHP开发微信公众号的支付功能随着移动支付的快速发展,微信支付作为国内最主流的支付方式之一,成为了许多企业和个人必备的支付手段。而在开发微信公众号时,如果能够集成支付功能,将能够为用户提供更便捷的支付方式,也能够为企业带来更多的收益...
    99+
    2023-10-27
    微信公众号 PHP开发 支付功能
  • Python怎么实现快速保存微信公众号文章中的图片
    本文小编为大家详细介绍“Python怎么实现快速保存微信公众号文章中的图片”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python怎么实现快速保存微信公众号文章中的图片”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知...
    99+
    2023-07-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作