Python爬取csnd文章并转为PDF文件

2024-04-02 19:04:59 555人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录1.导入模块2.创建文件夹3.发送请求4.数据解析5.如果把列表里面每一个元素都提取出来6.替换特殊字符7.转换成pdf文件本篇文章流程(爬虫基本思路): 数据来源分析 (只有

发送请求对于文章列表页面发送请求
获取数据获取网页源代码
解析数据文章的url 以及文章标题
发送请求对于文章详情页url地址发送请求
获取数据获取网页源代码
解析数据提取文章标题 / 文章内容
保存数据把文章内容保存成html文件
把html文件转成pdf文件
多页爬取

1.导入模块

import requests # 数据请求 发送请求 第三方模块 pip install requests
import parsel # 数据解析模块 第三方模块 pip install parsel
import os # 文件操作模块
import re # 正则表达式模块
import pdfkit # pip install pdfkit

2.创建文件夹

filename = 'pdf\\' # 文件名字
filename_1 = 'html\\'
if not os.path.exists(filename): #如果没有这个文件夹的话
    os.mkdir(filename) # 自动创建一下这个文件夹

if not os.path.exists(filename_1): #如果没有这个文件夹的话
    os.mkdir(filename_1) # 自动创建一下这个文件夹

3.发送请求

for page in range(1, 11):
    print(f'=================正在爬取第{page}页数据内容=================')
    url = f'https://blog.csdn.net/qdpython/article/list/{page}'

    # Python代码对于服务器发送请求 >>> 服务器接收之后(如果没有伪装)被识别出来, 是爬虫程序, >>> 不会给你返回数据
    # 客户端(浏览器) 对于 服务器发送请求 >>> 服务器接收到请求之后 >>> 浏览器返回一个response响应数据
    # headers 请求头 就是把python代码伪装成浏览器进行请求
    # headers参数字段 是可以在开发者工具里面进行查询 复制
    # 并不是所有的参数字段都是需要的
    # user-agent: 浏览器的基本信息 (相当于披着羊皮的狼, 这样可以混进羊群里面)
    # cookie: 用户信息 检测是否登录账号 (某些网站 是需要登录之后才能看到数据, B站一些数据内容)
    # referer: 防盗链 请求你的网址 是从哪里跳转过来的 (B站视频内容 / 妹子图图片下载 / 唯品会商品数据)
    # 根据不同的网站内容 具体情况 具体分析
    headers = {
        'user-agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
    }
    # 请求方式: get请求 post请求 通过开发者工具可以查看url请求方式是什么样的
    # 搜索 / 登录 /查询 这样是post请求
    response = requests.get(url=url, headers=headers)

4.数据解析

# 需要把获取到的html字符串数据转成 selector 解析对象
selector = parsel.Selector(response.text)
# getall 返回的是列表
href = selector.CSS('.article-list a::attr(href)').getall()

5.如果把列表里面每一个元素都提取出来

for index in href:
    # 发送请求 对于文章详情页url地址发送请求
    response_1 = requests.get(url=index, headers=headers)
    selector_1 = parsel.Selector(response_1.text)
    title = selector_1.css('#articleContentId::text').get()
    new_title = change_title(title)
    content_views = selector_1.css('#content_views').get()
    html_content = html_str.fORMat(article=content_views)
    html_path = filename_1 + new_title + '.html'
    pdf_path = filename + new_title + '.pdf'
    with open(html_path, mode='w', encoding='utf-8') as f:
        f.write(html_content)
        print('正在保存: ', title)

6.替换特殊字符

def change_title(name):
    mode = re.compile(r'[\\\/\:\*\?\"\<\>\|]')
    new_name = re.sub(mode, '_', name)
    return new_name

运行代码，即可下载HTML文件：

7.转换成PDF文件

config = pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')
pdfkit.from_file(html_path, pdf_path, configuration=config)

到此这篇关于Python爬取csnd文章并转为PDF文件的文章就介绍到这了,更多相关Python爬取csnd文章内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬取csnd文章并转为PDF文件

本文链接: https://www.lsjlt.com/news/161462.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬取csnd文章并转为PDF文件

目录1.导入模块2.创建文件夹3.发送请求4.数据解析5.如果把列表里面每一个元素都提取出来6.替换特殊字符7.转换成PDF文件本篇文章流程(爬虫基本思路): 数据来源分析 (只有...

99+

2022-11-12
Python怎么爬取csnd文章并转为PDF文件

今天就跟大家聊聊有关Python怎么爬取csnd文章并转为PDF文件，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。1.导入模块import requests #&...

99+

2023-06-22
python爬取微信公众号文章图片并转为PDF

遇到那种有很多图的微信公众号文章咋办？一个一个存很麻烦，应朋友的要求自己写了个爬虫。2.0版本完成了！完善了生成pdf的功能，可根据图片比例自动调节大小，防止超出页面范围，增加了序号...

99+

2022-11-13
Python中怎么将Office文件转为PDF

这篇文章将为大家详细讲解有关Python中怎么将Office文件转为PDF，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。安装 win32com在实战之前，需要安装 Python 的 win3...

99+

2023-06-16
Python怎么将pdf转为图片？Python如何实现pdf文件转图片

而pdf则是用来保存一些内容已经确定好的数据，因为pdf是无法直接修改内容的，所以也会经常将pdf转为图片来保存。本文就将会来介绍一下pdf转图片的方法，往下看看吧。 1.pdf转图片的话主要实现所需要的模块叫做PyMuPDF，它就是用来...

99+

2023-09-02

python Powered by 金山文档
Python实现PDF文字识别提取并写入CSV文件

目录1.前言2.需求描述3.开始动手动脑3.1安装相关第三方包3.2导入需要用到的第三方库3.3读取pdf文件，并识别内容3.4对识别的数据进行处理，写入csv文件总结1. 前言扫...

99+

2022-11-13
如何利用Python将html转为pdf、word文件

目录前言转 pdf安装 pdfkit 库安装 wkhtmltopdf 文件url 生成 pdf本地 html 文件生成 pdf转 word安装 pypandoc 库安装 pandoc...

99+

2022-12-19

python将html转pdf python将html转word python pdf处理
Python读取hdf文件并转化为tiff格式输出

目录1.Python3读取hdf文件2.使用Python2读取hdf文件3. 如何使Python2和3兼容3.1 修改Python2.7的名字3.2 pip更新3.2 使用pip2下...

99+

2022-11-11
Python提取PDF指定内容并生成新文件

在之前的Python办公自动化案专题中，我们已经介绍了如何有选择的提取某些页面进行合并。但是很多时候，我们并不会预知希望提取的页号，而是希望将包含指定内容的页面提取合并为新PDF，...

99+

2022-11-12
使用python scrapy爬取天气并导出csv文件

目录爬取xxx天气安装创建scray爬虫项目文件说明开始爬虫补充：scrapy导出csv时字段的一些问题1.字段顺序问题：2.输出csv有空行的问题总结爬取xxx天气爬...

99+

2022-11-11
python怎么将读取文件转为字典

要将读取的文件转为字典，可以按照以下步骤进行操作：1. 打开文件并读取内容：pythonwith open('file.txt', ...

99+

2023-10-18

python
Python如何提取PDF指定内容并生成新文件

小编给大家分享一下Python如何提取PDF指定内容并生成新文件，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！01需求描述数据是一份有286页的上市公司公开年报P...

99+

2023-06-15
python | 将pdf文件转换为图片，这一招就够了

一、背景部分情况下，需要将 PDF 页面转换为图片，例如 PNG 或 JPEG 格式。 python 的开源库 pdfplumber，提供了将 pdf 文件转换为图片的方法。如果之前还没有安装和使...

99+

2023-10-20

python pdf 开发语言
python读取二进制文件并对其转码

使用python读取二进制文件并转码的方法：1.新建python项目；2.使用import方法导入struct模块；3.使用open函数打开二进制文件；4.使用read()方法读取文件内容；5.使用struct.unpack方法转换成文本；...

99+

2022-10-18
php怎么读取txt文件并将其转为数组

PHP是非常灵活的编程语言，它可以读取和处理各种不同类型的文件。当我们需要读取一个文本文件并将其转换为数组时，使用PHP是非常方便的。在本文中，我们将讨论如何使用PHP读取文本文件并将其转换为数组。我们将从以下几个方面入手：打开文本文件读取...

99+

2023-05-14

php php文件目录
php如何读取txt文件并将其转为数组

这篇文章主要介绍“php如何读取txt文件并将其转为数组”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“php如何读取txt文件并将其转为数组”文章能帮助大家解决问题。一、打开文本文件在PHP中，我们...

99+

2023-07-05
Python办公自动化之将任意文件转为PDF格式

一、word转PDF 这里借助Python的docx2pdf去完成转换操作，该库的安装命令如下： pip install docx2pdf 目标：读取文件夹下的全部word文...

99+

2022-11-12
php怎么读取远程xml文件并转化为数组

本文操作环境：Windows7系统、PHP7.1版、DELL G3电脑php怎么读取远程xml文件并转化为数组？PHP读取远程xml文件并转化为数组：远程文件如下：http://api.wycq.521g.com/game/mrt_...

99+

2017-06-28

php xml
php如何读取远程xml文件并转化为数组

这篇文章主要讲解了“php如何读取远程xml文件并转化为数组”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“php如何读取远程xml文件并转化为数组”吧！php读取远程xml文件并转化为数组的...

99+

2023-06-25
python用pdfplumber提取pdf表格数据并保存到excel文件中

目录pdfplumber操作pdf文件一、pdfplumber安装及导入二、pdfplumber基础使用1、基础知识2、获取pdf基础信息3、pdfplumber提取表格数据三、提取...

99+

2022-11-11