Python实现博客快速备份的脚本分享

2024-04-02 19:04:59 683人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录转存文章到MD转存图片到本地鉴于有些小伙伴在寻找博客园迁移到个人博客的方案，本人针对博客园实现了一个自动备份脚本，可以快速将博客园中自己的文章备份成markdown格式的独立文件

鉴于有些小伙伴在寻找博客园迁移到个人博客的方案，本人针对博客园实现了一个自动备份脚本，可以快速将博客园中自己的文章备份成markdown格式的独立文件，备份后的md文件可以直接放入到hexo博客中，快速生成自己的站点，而不需要自己逐篇文章迁移，提高了备份文章的效率。

首先第一步将博客园主题替换为codinglife默认主题，第二步登录到自己的博客园后台，然后选择博客备份，备份所有的随笔文章，如下所示：

备份出来以后将其命名为backup.xml，然后新建一个main.py脚本，以及一个blog目录，代码实现的原理是，解析xml格式并依次提取出文档内容，然后分别保存为markdown文件。

转存文章到MD

写入备份脚本，代码如下所示，运行后即可自动转存文件到blog目录下，当运行结束后备份也就结束了。

# powerby: LyShark
# blog: www.cnblogs.com/lyshark
from bs4 import BeautifulSoup
import requests, os,re

header = {"User-Agent": "Mozilla/5.0 (windows NT 6.1; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) By LyShark CnblogsBlog Backup Script"}

# 获取文章,并转成markdown
# blog: www.lyshark.com
def GetMarkDown(xml_file):
    con = open(xml_file, 'r', encoding='utf8').read()
    # 每篇文章都在 <item> 标签里
    items = re.findall("<item>.*?</item>", con, re.I | re.M | re.S)
    ele2 = ['<title>(.+?)</title>', '<link>(.+?)</link>', '<description>(.+?)</description>']
    # md_name = xml_file.split('.xml')[0] + '.md'
    for item in items:
        try:
            title = re.findall(ele2[0], item, re.I | re.S | re.M)[0]
            link = re.findall(ele2[1], item, re.I | re.S | re.M)[0]
            des = re.findall(ele2[2], item, re.I | re.S | re.M)[0]
            des = re.findall('<!\[CDATA\[(.+?)\]\]>', des, re.I | re.S | re.M)[0]  # CDATA 里面放的是文章的内容
            des = des.replace('~~~', "```")
            lines = des.split('\n')
            with open("./blog/" + title.replace("/","") + ".md", mode='w+', encoding='utf8') as f:
                f.write("---\n")
                f.write("title: '{}'\n".fORMat(title.replace("##","").replace("###","").replace("-","").replace("*","").replace("<br>","").replace(":","").replace("：","").replace(" ","").replace(" ","").replace("`","")))
                f.write("copyright: true\n")

                setdate = "2018-12-27 00:00:00"
                try:
                    # 读取时间
                    response = requests.get(url=link, headers=header)
                    print("读取状态: {}".format(response.status_code))

                    if response.status_code == 200:
                        bs = BeautifulSoup(response.text, "html.parser")
                        ret = bs.select('span[id="post-date"]')[0]
                        setdate = str(ret.text)
                        pass
                    else:
                        f.write("date: '2018-12-27 00:00:00'\n")
                except Exception:
                    f.write("date: '2018-12-27 00:00:00'\n")
                    pass

                f.write("date: '{}'\n".format(setdate))

                # description检测
                description_check = lines[0].replace("##","").replace("###","").replace("-","").replace("*","").replace("<br>","").replace(":","").replace("：","").replace(" ","").replace(" ","")
                if description_check == "":
                    f.write("description: '{}'\n".format("该文章暂无概述"))
                elif description_check == "```C":
                    f.write("description: '{}'\n".format("该文章暂无概述"))
                elif description_check == "```python":
                    f.write("description: '{}'\n".format("该文章暂无概述"))
                else:
                    f.write("description: '{}'\n".format(description_check))

                print("[*] 时间: {} --> 标题: {}".format(setdate, title))
                f.write("tags: '{}'\n".format("tags10245"))
                f.write("cateGories: '{}'\n".format("categories10245"))
                f.write("---\n\n")
                f.write('%s' %des)
                f.close()
        except Exception:
            pass

if __name__ == "__main__":
    GetMarkDown("backup.xml")

备份后的效果如下所示：

打开Markdown格式看一下，此处的标签和分类使用了一个别名，在备份下来以后，你可以逐个区域进行替换，将其替换成自己需要的分类类型即可。

转存图片到本地

接着就是继续循环将博客中所有图片备份下来，同样新建一个image文件夹，并运行如下代码实现备份。

# powerby: LyShark
# blog: www.cnblogs.com/lyshark
from bs4 import BeautifulSoup
import requests, os,re

header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) By LyShark CnblogsBlog Backup Script"}

# 从备份XML中找到URL
# blog: www.cnblogs.com/lyshark
def GetURL(xml_file):
    blog_url = []
    con = open(xml_file, 'r', encoding='utf8').read()
    items = re.findall("<item>.*?</item>", con, re.I | re.M | re.S)
    ele2 = ['<title>(.+?)</title>', '<link>(.+?)</link>', '<description>(.+?)</description>']
    for item in items:
        title = re.findall(ele2[0], item, re.I | re.S | re.M)[0]
        link = re.findall(ele2[1], item, re.I | re.S | re.M)[0]
        print("标题: {} --> URL: {} ".format(title,link))
        blog_url.append(link)
    return blog_url

# 下载所有图片
# blog: www.lyshark.com
def DownloadURLPicture(url):
    params = {"encode": "utf-8"}
    response = requests.get(url=url, params=params, headers=header)
    # print("网页编码方式: {} -> {}".format(response.encoding,response.apparent_encoding))
    context = response.text.encode(response.encoding).decode(response.apparent_encoding, "ignore")
    try:
        bs = BeautifulSoup(context, "html.parser")
        ret = bs.select('div[id="cnblogs_post_body"] p img')
        for item in ret:
            try:
                img_src_path = item.get("src")
                img_src_name = img_src_path.split("/")[-1]
                print("[+] 下载图片: {} ".format(img_src_name))
                img_download = requests.get(url=img_src_path, headers=header, stream=True)
                with open("./image/" + img_src_name, "wb") as fp:
                    for chunk in img_download.iter_content(chunk_size=1024):
                        fp.write(chunk)
            except Exception:
                print("下载图片失败: {}".format(img_src_name))
                pass
    except Exception:
        pass

if __name__ == "__main__":
    url = GetURL("backup.xml")
    for u in url:
        DownloadURLPicture(u)

备份后的效果如下：

替换文章内的图片链接地址，可以使用编辑器，启用正则批量替换。

当把博客备份下来以后你就可以把这些文章拷贝到hexo博客_post目录下面，然后hexo命令快速渲染生成博客园的镜像站点，这样也算是增加双保险了。

到此这篇关于Python实现博客快速备份的脚本分享的文章就介绍到这了,更多相关Python备份博客内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python实现博客快速备份的脚本分享

本文链接: https://www.lsjlt.com/news/120266.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python实现博客快速备份的脚本分享

目录转存文章到MD转存图片到本地鉴于有些小伙伴在寻找博客园迁移到个人博客的方案，本人针对博客园实现了一个自动备份脚本，可以快速将博客园中自己的文章备份成Markdown格式的独立文件...

99+

2024-04-02
mysql的备份脚本分享

本篇内容介绍了“mysql的备份脚本分享”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！#!/bin/bas...

99+

2024-04-02
mysql数据备份的脚本分享

本篇内容主要讲解“mysql数据备份的脚本分享”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“mysql数据备份的脚本分享”吧! #!/usr/bin...

99+

2024-04-02
自动备份MYSQL的linux脚本分享

本篇内容主要讲解“自动备份MYSQL的linux脚本分享”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“自动备份MYSQL的linux脚本分享”吧! 这是我写的...

99+

2024-04-02
python 脚本实现备份文件

''' 功能：备份文件版本：1.0 作者：白 ''' import os,time,sys d_dir = '/data/backup/' d_file = 'system_bak.tar.gz' s_dir = ['/etc','/b...

99+

2023-01-31

脚本备份文件 python
备份MySQL数据库的Bash脚本分享

这篇文章主要讲解了“备份MySQL数据库的Bash脚本分享”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“备份MySQL数据库的Bash脚本分享”吧！　　#!...

99+

2024-04-02
mysql的一键备份数据的脚本分享

本篇内容主要讲解“mysql的一键备份数据的脚本分享”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“mysql的一键备份数据的脚本分享”吧!#/bin/sh #b...

99+

2024-04-02
CentOS下mysql定时备份的Shell脚本分享

这篇文章主要讲解了“CentOS下mysql定时备份的Shell脚本分享”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“CentOS下mysql定时备份的Shell脚本分享”吧！1、备份语句&...

99+

2023-06-09
mongodb增量备份脚本的实现

mongodb增量备份脚本的实现？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。mongodb集群架构时，从库是通过异步复制主库的Oplog...

99+

2024-04-02
VBS调用WMI快速关闭IE的脚本分享

本篇内容介绍了“VBS调用WMI快速关闭IE的脚本分享”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！VBS调用WMI秒杀IE把以下文件存为K...

99+

2023-06-08
分享一个对CentOS系统进行备份的脚本

分享一个对CentOS系统进行备份的脚本？很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。#!/bin/sh#设定变量bak_path=/root/bak_linu...

99+

2023-06-07
centos每天自动备份mysql数据库的脚本分享

本篇内容主要讲解“centos每天自动备份mysql数据库的脚本分享”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“centos每天自动备份mysql数据库的脚本...

99+

2024-04-02
自动备份MySQL到FTP并定期清理过期备份的Shell脚本分享

这篇文章主要介绍“自动备份MySQL到FTP并定期清理过期备份的Shell脚本分享”，在日常操作中，相信很多人在自动备份MySQL到FTP并定期清理过期备份的Shell脚本分享问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希...

99+

2023-06-09
一键备份MySQL数据库的批处理脚本分享

这篇文章主要讲解了“一键备份MySQL数据库的批处理脚本分享”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“一键备份MySQL数据库的批处理脚本分享”吧！将如下代码另存为.bat文件代码如下...

99+

2023-06-08
如何实现alwayson的备份还原脚本

这篇文章主要介绍如何实现alwayson的备份还原脚本，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！ 1、备份数据库在主副本上，将需要做AlwaysOn的数据库做一次全备和日...

99+

2024-04-02
linux下实现mysql自动备份的脚本

这篇文章主要介绍“linux下实现mysql自动备份的脚本”，在日常操作中，相信很多人在linux下实现mysql自动备份的脚本问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”...

99+

2024-04-02
Python实现自动玩连连看的脚本分享

目录序言实现步骤全部代码序言最近女朋友在玩连连看，玩了一个星期了还没通关，真的是菜。我实在是看不过去了，直接用python写了个脚本代码，一分钟一把游戏。快是快，就是联网玩容易...

99+

2024-04-02
Python实现考试自动答题的脚本分享

目录导语一、准备环境二、代码展示三、效果展示导语对于新手而言，掌握好方向盘的打法非常重要，关系到我们能否顺利通过驾考，拿到驾照。而开车时方向盘又是最重要的，握好方向盘等...

99+

2023-03-19

Python实现考试自动答题 Python考试自动答题 Python自动答题
如何实现备份数据库的shell脚本

这篇文章将为大家详细讲解有关如何实现备份数据库的shell脚本，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。备份数据库的shell脚本一代码如下:#!/bin/bash#指定运行的脚本shell#运行脚本...

99+

2023-06-09
Python实现校园网自动登录的脚本分享

目录背景思路技术点碎碎念代码背景我在的学校校园网登录是web式的，即随便打开一个网页就会自动跳转到登录页面，然后输入用户名密码，点登录，便可以上网了。但这种登录方式有个缺点：登录...

99+

2024-04-02