iis服务器助手广告
返回顶部
首页 > 资讯 > 后端开发 > Python >【Python】备份itpub博客
  • 765
分享到

【Python】备份itpub博客

2023-06-04 14:06:59 765人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

itpub改版了,新版备份博客代码如下,思路和上一版备份思路一样# -*- coding: utf-8 -*-import re import urllib2import

itpub改版了,新版备份博客代码如下,思路和上一版备份思路一样

# -*- coding: utf-8 -*-import re import urllib2import requests,refrom bs4 import BeautifulSoup as bsp for page in range(1,30): ###这儿就是输入你希望下载的页数,输入你的总页数吧url='Http://blog.itpub.net/29096438/list/%d/'% page        ####循环不同的页text = urllib2.urlopen(url).read()pattern = r'<a target=_blank href="/29096438/viewspace-[0-9]*/" class="w750"><p class="title">.*</p></a>' regex = re.compile(pattern) urlList = re.findall(regex,text) ####通过正则表达式找到所有文章的href,此时的href是带上标题的for t in urlList: i= t.split('=')[2].replace('class','').replace('"','').strip(' ') newi=re.sub('/29096438','http://blog.itpub.net/29096438',i).decode('utf-8') fname2=t.split('=')[-1].split('>')[1].split('<')[0]+'.html'.replace(' ','') # print newi,fname2 try: r=requests.get(newi,headers={'User-Agent':'Mozilla/5.0 (linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWEBKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1'}) soup=bsp(r.content,"html.parser") cont=soup.find('div',{'class':'preview-main'}) f=open(fname2,'w') f.write(str(cont)) f.close() print fname2,r,'备份成功'  except: pass ###上面的user-agent随机从下面取一个,我懒的写随机choice了agents = [    'Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',    'Avant Browser/1.2.789rel1 (http://www.avantbrowser.com)',    'Mozilla/5.0 (windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.249.0 Safari/532.5',    'Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US) AppleWebKit/532.9 (KHTML, like Gecko) Chrome/5.0.310.0 Safari/532.9',    'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.514.0 Safari/534.7',    'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US) AppleWebKit/534.14 (KHTML, like Gecko) Chrome/9.0.601.0 Safari/534.14',    'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.14 (KHTML, like Gecko) Chrome/10.0.601.0 Safari/534.14',    'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.20 (KHTML, like Gecko) Chrome/11.0.672.2 Safari/534.20',    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.27 (KHTML, like Gecko) Chrome/12.0.712.0 Safari/534.27',    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.24 Safari/535.1',    'Mozilla/5.0 (Windows NT 6.0) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.120 Safari/535.2',    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.36 Safari/535.7',    'Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9pre) Gecko/2008072421 Minefield/3.0.2pre',    'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10',    'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-GB; rv:1.9.0.11) Gecko/2009060215 Firefox/3.0.11 (.NET CLR 3.5.30729)',    'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6 GTB5',    'Mozilla/5.0 (Windows; U; Windows NT 5.1; tr; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.30729; .NET4.0E)',    'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',    'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',    'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0',    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0a2) Gecko/20110622 Firefox/6.0a2',    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:7.0.1) Gecko/20100101 Firefox/7.0.1',    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:2.0b4pre) Gecko/20100815 Minefield/4.0b4pre',    'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0 )',    'Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)',    'Mozilla/5.0 (Windows; U; Windows XP) Gecko MultiZilla/1.6.1.0a',    'Mozilla/2.02E (Win95; U)',    'Mozilla/3.01Gold (Win95; I)',    'Mozilla/4.8 [en] (Windows NT 5.1; U)',    'Mozilla/5.0 (Windows; U; Win98; en-US; rv:1.4) Gecko Netscape/7.1 (ax)',    'Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.2; U; de-DE) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/234.40.1 Safari/534.6 TouchPad/1.0',]

备份如下

【Python】备份itpub博客

--结束END--

本文标题: 【Python】备份itpub博客

本文链接: https://www.lsjlt.com/news/238355.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 【Python】备份itpub博客
    itpub改版了,新版备份博客代码如下,思路和上一版备份思路一样# -*- coding: utf-8 -*-import re import urllib2import...
    99+
    2023-06-04
  • Python实现博客快速备份的脚本分享
    目录转存文章到MD转存图片到本地鉴于有些小伙伴在寻找博客园迁移到个人博客的方案,本人针对博客园实现了一个自动备份脚本,可以快速将博客园中自己的文章备份成Markdown格式的独立文件...
    99+
    2024-04-02
  • 如何实现网站备份wordpress博客备份及恢复数据详细
    这篇文章主要介绍“如何实现网站备份wordpress博客备份及恢复数据详细”,在日常操作中,相信很多人在如何实现网站备份wordpress博客备份及恢复数据详细问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如...
    99+
    2023-06-10
  • python+django博客simbl
    概述本博客系统基于Django-1.7.7开发而成,通过nginx+uwsgi运行于locvps,Python版本为 2.7.6。功能    1.文章、分类和页面的增删改查;    2.文章按年、月归档;    3.集成simditor富文...
    99+
    2023-01-31
    博客 python django
  • 将博客搬至CSDN —— python
    差不多两年前在oschina写的博客,现在搬到CSDN,原地址:https://my.oschina.net/u/2309100/blog/81877...
    99+
    2023-01-31
    博客 CSDN python
  • Python爬虫抓取csdn博客
            昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。为了解析抓取的...
    99+
    2023-01-31
    爬虫 博客 Python
  • 技术博客2014年3月份头条记录
    ==============3.30-3.31头条回顾=============Mongodb复制集及Sharding的实现[搭建高可用Mongodb集群] [MongoDB集群搭建及Sharding的实现][Microsoft Azure...
    99+
    2023-01-31
    头条 技术 博客
  • Python 增加博客园阅读量
              最近偶然到博客园看了一下,距离上次的博客已经过去很多天了,阅读量却少得可怜,对于博客园小白来说感觉不是很友好(主要是心理不平衡),而且有些博客被其他网站不带出处的转载了,它的阅读量却很多。于是灵光一闪,决定写个程序增...
    99+
    2023-01-30
    博客园 Python
  • Python搭建博客网站小结
    引言 文件结构 关键技术 http工作流程 ORM框架Day3-Day4 web框架Day5 作业成果 博客首页 写博客 文章管理 文章详情 总结 参考 断断续续终于过了一遍廖雪峰的Python教程,于...
    99+
    2023-01-31
    小结 博客网站 Python
  • Python Flask开源博客系统Bl
            本博文在51CTO技术博客首发。        开源不易,Python良心之作,真心送给广大朋友,恳请给予支持,不胜感激!                大家可以从下面的地址中去体验Blog_mini的功能,我把副本部署在了...
    99+
    2023-01-31
    开源 系统 博客
  • 用python写个博客迁移工具
    目录前言掘金的成长搬家命令行工具环境配置main.pycookie.jsongithub 地址前言 最近不少写博客的朋友跟我反馈博客园的一些文章下架了,这让我联想到去年简书一样,我...
    99+
    2024-04-02
  • 利用Python批量保存51CTO博客
    一、背景 最近在整理博客,近在51CTO官网存在文章,想将之前写的全部保存到本地,发现用markdown写的可以导出,富文本的则不行,就想利用Python批量保存自己的博客到本地。 二、代码 git地址 #!/bin/env python ...
    99+
    2023-01-31
    批量 博客 Python
  • 怎么用python搭建个人博客
    要用Python搭建个人博客,可以使用以下步骤:1. 选择Web框架:Python有许多流行的Web框架可供选择,例如Django和Flask。这些框架都提供了快速构建Web应用程序的工具和功能。2. 安装所选框架:根据选择的框架,按照...
    99+
    2023-08-11
    python
  • Python Flask开源个人博客代码
    没有写html模板继承,有时间再补吧,或者感兴趣的自己抽取一下 博客演示站点:http://www.7z1.xyz/ 如出现未备案,请直接访问:http://119.23.230.6/ 后台管理地址:/admin/login ...
    99+
    2023-01-31
    开源 代码 博客
  • 免备案博客空间租用有哪些优势
    免备案博客空间租用的优势包括:1、无需备案免备案博客空间租用无需备案,可以直接使用,无需等待备案审核,节省了时间和精力。2、价格实惠...
    99+
    2023-03-19
    免备案博客空间 空间
  • python脚本备份
    #!/usr/bin/python #encodeing:utf-8 import os import time import string #需要备份的目录 source = ['/usr/local/nagios','/var/www/...
    99+
    2023-01-31
    脚本 备份 python
  • python 生成18年写过的博客词云
    文章链接:https://mp.weixin.qq.com/s/NmJjTEADV6zKdT--2DXq9Q 回看18年,最有成就的就是有了自己的 博客网站,坚持记录,写文章,累计写了36篇了,从一开始的难以下手,到现在成为一种习惯,...
    99+
    2023-01-30
    写过 博客 python
  • NBU 8.0客户端安装和备份配置
    suse 11sp4 nbu client 8.0 首先将客户端地址和服务端地址添加到相互hosts文件中。 nbu 8.0支持Oracle 12c备份,备份脚本包括各种模板 FA1XXXXXXS00...
    99+
    2024-04-02
  • 如何使用Python在GitHub上运行博客
    这篇文章将为大家详细讲解有关如何使用Python在GitHub上运行博客,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。使用 Pelican 创建博客,这是一个基于 Python 的平台,与 GitHub ...
    99+
    2023-06-16
  • 用python备份文件
    光说不练假把式,用小脚本学习Python。 一个简单的备份脚本。 #!/usr/bin/env python3 #-*- coding:utf-8 -*- #for backup import os import time #需要备份的目...
    99+
    2023-01-31
    备份文件 python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作