iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >爬取博客园首页并定时发送到微信
  • 269
分享到

爬取博客园首页并定时发送到微信

发送到首页博客园 2023-01-31 08:01:09 269人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

应女朋友要求,为了能及时掌握技术动向,特意写了这个爬虫,每天定时爬取博客园首页并发送至微信。 环境: python3.4 第三方库 Requests:向服务器发送请求 BeautifulSoup4:解析Html wxpy:微信接口 Sc

应女朋友要求,为了能及时掌握技术动向,特意写了这个爬虫,每天定时爬取博客园首页并发送至微信

环境:

python3.4

第三方库

  • Requests:向服务器发送请求
  • BeautifulSoup4:解析Html
  • wxpy:微信接口
  • Schedule:定时器

代码

# -*-coding:utf-8 -*-

import requests
from requests import exceptions
from bs4 import BeautifulSoup as bs
import re
from wxpy import *
import  schedule
import  time


bot=Bot(cache_path=True)

#获取网页内容
def gethtml(pageIndex):
    #定义请求头 伪装成浏览器
    headers={'User-Agent':'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
    #pageIndex代表页数
    payload={'CateGoryType': 'SiteHome', 'ParentCategoryId': '0', 'CategoryId': '808', 'PageIndex': pageIndex, 'TotalPostCount': '4000'}
    try:
        r=requests.post('https://www.cnblogs.com/mvc/AggSite/PostList.aspx',data=payload,headers=headers)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except requests.RequestException as e:
        return e.strerror
#向微信文件传输助手发送消息
def sendblogmsg(content):
    #搜索自己的好友
    #my_friend = bot.friends().search('')[0]
    my_friend=bot.file_helper
    my_friend.send(content)

def job():
    contents=''
    #i表示当前页数
    for i in range(1,3):
        html=getHtml(i)
        soup=bs(html,"html.parser")
        blogs=soup.findAll("div",{'class':'post_item_body'})
        for blog in blogs:
            title=blog.find('h3').get_text()
            summary=blog.find('p',{'class':'post_item_summary'}).get_text()
            link=blog.find('a',{'class':'titlelnk'})['href']
            content='标题:'+title+'\n链接:'+link+'\n-----------\n'
            contents+=content
        sendblogmsg(contents)
#定时
schedule.every().day.at("06:00").do(job)
while True:
    schedule.run_pending()
    time.sleep(1)
bot.join()

注意事项:

  • 不要进行恶意攻击行为
  • 尽量在空闲时间访问网站,控制访问频率,不要恶意消耗网站资源

--结束END--

本文标题: 爬取博客园首页并定时发送到微信

本文链接: https://www.lsjlt.com/news/193164.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 爬取博客园首页并定时发送到微信
    应女朋友要求,为了能及时掌握技术动向,特意写了这个爬虫,每天定时爬取博客园首页并发送至微信。 环境: Python3.4 第三方库 Requests:向服务器发送请求 BeautifulSoup4:解析Html wxpy:微信接口 Sc...
    99+
    2023-01-31
    发送到 首页 博客园
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作