iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python如何实现微信公众号文章爬取
  • 290
分享到

python如何实现微信公众号文章爬取

2023-06-19 09:06:12 290人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

小编给大家分享一下python如何实现微信公众号文章爬取,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!具体步骤如下:一、安装代理服务器目前使用的是Anyproxy

小编给大家分享一下python如何实现微信公众号文章爬取,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

python如何实现微信公众号文章爬取

具体步骤如下:

一、安装代理服务器

目前使用的是Anyproxy。这个软件的特点是可以获取到https链接的内容。

1 在命令行或者终端运行 npm install -g anyproxy,Mac系统需要加上sudo;

2 生成RootCA,Https需要这个证书:运行命令sudo anyproxy --root(windows可能不需要sudo);

3 启动anyproxy运行命令:sudo anyproxy -i;参数-i是解析HTTPS的意思;

4 安装证书,在手机中安装证书,手机浏览器打开 http://localhost:8002/fetchCrtFile ,能获取rootCA.crt文件。

localhost修改为运行anyproxy的电脑的ip地址,注意手机跟电脑要位于同一个局域网哦。

5 设置代理:在手机wifi连接管理中,设置代理,代理服务器地址就是运行anyproxy的电脑的ip地址。代理服务器默认端口是8001;

现在打开微信,点击到任意一个公众号历史消息或文章中,在终端都可以看到响应的代码滚动。

6 电脑打开浏览器地址http://localhost:8002 可以看到anyproxy的WEB界面。从微信中点开一个历史消息页面,然后再看浏览器的web界面,会滚动出现历史消息页面的地址。

二、用SPY爬取文章列表

由于要保存到数据库里,所以我动用了自己开发的SPY爬虫软件,如果不需要保存到数据库,用chrome就可以了。

1 手机打开公众号的历史文章列表,下拉至最底下,把所有文章都加载出来。

2 打开SPY,输入地址http://localhost:8002,贴入代码。

代码大致的逻辑是:

a、获取mp/profile_ext?action=home&__biz=MzA3ODkyNDg4OA=

中获取到的文章列表数据。

b、由于文章列表数据是异步加载的,所以暂时需要手工在手机里把下拉文章列表,把所有的文章加载进来。

c、然后,SPY里把所有的文章数据提取出来,保存到数据库里。

代码如下:

var results = [];

var doms = document.querySelectorAll('.record_status_done');

var pages = [];

doms.forEach(function(dom, i) {

  var isUrl = dom.children[4].getAttribute('title');

  if (isUrl.match(/\/mp\/profile\_ext\?action\=getmsg\&/i)) {

    pages.push(dom);

  }

});

var step = 0;

stepByStep();

function stepByStep() {

  pages[step].click();

  var res;

  setTimeout(function() {

    if (document.querySelector('.resBodyContent')) {

      res = JSON.parse(jsON.parse(document.querySelector('.resBodyContent').innerText).general_msg_list).list;

    }

    if (res) {

      res.forEach(function(r, i) {

        if (r.app_msg_ext_info) {

          var target = r.app_msg_ext_info;

          console.log(target, step, 'num');

          var obj_save = {

            author: target.author,

            content_url: target.content_url,

            cover: target.cover,

            digest: target.digest,

            title: target.title,

          };

          spy.save(obj_save);

          results.push(obj_save);

          console.log(results.length, step);

        }

      });

    } else {

      console.log(res, document.querySelector('.resBodyContent'))

    }

    step = step + 1;

    setTimeout(function() {

      document.querySelector('.escBtn').click();

    }, 1000);

    if (step < pages.length) {

      setTimeout(function() {

        window.stepByStep();

      }, 3000);

    } else {

      spy.getResult(results)

    }

  }, 1000);

};

以上是“Python如何实现微信公众号文章爬取”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网Python频道!

--结束END--

本文标题: python如何实现微信公众号文章爬取

本文链接: https://www.lsjlt.com/news/295333.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python如何实现微信公众号文章爬取
    小编给大家分享一下python如何实现微信公众号文章爬取,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!具体步骤如下:一、安装代理服务器目前使用的是Anyproxy...
    99+
    2023-06-19
  • python爬取微信公众号文章图片并转为PDF
    遇到那种有很多图的微信公众号文章咋办?一个一个存很麻烦,应朋友的要求自己写了个爬虫。2.0版本完成了!完善了生成pdf的功能,可根据图片比例自动调节大小,防止超出页面范围,增加了序号...
    99+
    2022-11-13
  • 如何使用python3抓取微信公众号文章
    通过微信公众平台的查找文章接口,抓取我们需要的相关文章 1.首先我们先看一下,通过正常的登录自己的微信公众号,然后用文章搜索功能,搜索一下我们需要查找的相关文章。 打开https://mp.weixin.qq.com 登录公众号,打开素材...
    99+
    2023-01-31
    如何使用 公众 文章
  • c# 基于Titanium爬取微信公众号历史文章列表
    目录什么是Titanium原理简述对于HTTP对于HTTPS为什么要爬取历史文章实现步骤大致思路核心代码测试结果github:https://github.com/justcodin...
    99+
    2022-11-11
  • python自动获取微信公众号最新文章的实现代码
    目录微信公众号获取思路采集实例微信公众号获取思路 常用的微信公众号文章获取方法有搜狐、微信公众号主页获取和api接口等多个方法。听说搜狐最近不怎么好用了,之前用的api接口也频繁维护...
    99+
    2022-11-11
  • 怎么用python自动获取微信公众号最新文章
    本篇内容介绍了“怎么用python自动获取微信公众号最新文章”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!微信公众号获取思路常用的微信公众号...
    99+
    2023-07-02
  • Python实现快速保存微信公众号文章中的图片
    目录一、实现效果(以槿泉壁纸为例)二、实现过程三、源码四、Python正则表达式匹配日期与时间一、实现效果(以槿泉壁纸为例) 二、实现过程 1.新建一个link文本,将需要下...
    99+
    2022-11-11
  • PHP开发微信公众号:如何实现文章推荐功能
    PHP开发微信公众号:如何实现文章推荐功能,需要具体代码示例随着移动互联网的发展,微信公众号正逐渐成为企业和个人传播信息的重要平台。为了增加用户体验和吸引更多用户,微信公众号的文章推荐功能成为了不可或缺的一部分。本文将介绍如何使用PHP开发...
    99+
    2023-10-26
    微信公众号 PHP开发 文章推荐
  • 微信小程序如何跳转到微信公众号文章,小程序如何关联公众号或订阅号
    微信小程序如何跳转到微信公众号文章,小程序如何关联公众号或订阅号 前置条件 公众号最高管理权限(或能与最高权限管理者配合操作)小程序开发权限或最高管理权限 小程序方面 根据官方资料描述,小程序中展示微...
    99+
    2023-09-18
    小程序 微信小程序 微信 uni-app
  • Python怎么实现快速保存微信公众号文章中的图片
    本文小编为大家详细介绍“Python怎么实现快速保存微信公众号文章中的图片”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python怎么实现快速保存微信公众号文章中的图片”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知...
    99+
    2023-07-02
  • python如何使用pywinauto驱动微信客户端实现公众号爬虫
    这篇文章主要介绍了python如何使用pywinauto驱动微信客户端实现公众号爬虫,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。pywinauto简介pywinauto是一...
    99+
    2023-06-15
  • python使用pywinauto驱动微信客户端实现公众号爬虫
    目录项目地址pywinauto简介WechatAutomator类init_windowcrawl_gongzhonghaolocate_userprocess_page项目地址 https://github.com...
    99+
    2022-06-02
    python pywinauto python 公众号爬虫
  • 微信公众号如何实现电商变现
    这篇文章主要为大家展示了“微信公众号如何实现电商变现”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“微信公众号如何实现电商变现”这篇文章吧。对于大部分公众号,内容变现是一个大问题。很多公众号会采用...
    99+
    2023-06-10
  • jspXCMS中如何实现微信公众号配置
    这篇“jspXCMS中如何实现微信公众号配置”文章,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要参考一下,对于“jspXCMS中如何实现微信公众号配置”,小编整理了以下知识点,请大家跟着小编的步伐一步一步的慢慢理解...
    99+
    2023-06-26
  • Html5页面如何获取微信公众号的openid
    小编给大家分享一下Html5页面如何获取微信公众号的openid,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!H5页面是运行在微信浏览器的需要与公众号关联(即需要...
    99+
    2023-06-09
  • 【小程序】微信小程序如何获取微信公众号openid?
    一图总览 大家可以先看看下面的流程图,来了解笔者想实现的功能,简单来说就是两个不同主体间的小程序与公众号该如何产生关联。 注:为什么这里要强调不同主体呢,因为同主体的小程序与公众号是可以通过unionId来进行关联绑定。 ...
    99+
    2023-08-19
    微信小程序 小程序 微信
  • 如何在PHP中实现微信公众号开发
    随着移动互联网的发展,微信成为了一个非常受欢迎的社交媒体平台。越来越多的企业和个人开始将微信作为推广和用户互动的渠道。为了在微信平台上搭建自己的公众号,开发一款具有吸引力的应用程序是必不可少的。而对于PHP开发者来说,如何在PHP中实现微信...
    99+
    2023-05-20
    PHP 实现 微信公众号开发
  • 如何用PHP实现微信公众号数据统计
    随着微信公众号逐渐成为企业营销的重要工具之一,对公众号数据的统计分析也变得越来越重要。通过数据分析,可以了解公众号的粉丝数量、活跃度、用户转化率等指标,从而优化运营策略和提高营销效果。本文将介绍如何用PHP实现微信公众号数据统计。一、获取微...
    99+
    2023-05-14
    PHP 微信公众号 数据统计
  • PHP微信开发:如何实现多公众号管理
    随着微信公众号市场的日益火热,越来越多的企业和个人开始关注微信公众号开发,尤其是PHP微信开发技术。但是,对于需要同时管理多个公众号的人来说,如何实现多公众号的管理,是一个需要解决的问题。本文将介绍PHP微信开发中,如何实现多公众号管理。一...
    99+
    2023-05-14
    PHP 微信开发 多公众号管理
  • 微信公众号开发中使用Java如何实现获取用户的信息
    微信公众号开发中使用Java如何实现获取用户的信息?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。首先需要到微信网站去设置一下,我是直接用的微信测试号。        接口配...
    99+
    2023-05-31
    java 微信公众号 用户信息
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作