python 爬取国内小说网站

python 爬取小说 python 爬取国内网站 2022-06-02 22:06:51 485人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

目录原理先行实践篇完整代码原理先行作为一个资深的小说爱好者，国内很多小说网站如出一辙，什么 🖊*阁啊等等，大都是 get 请求返回 html 内容，而且会有标志性的<dl><dd

原理先行

作为一个资深的小说爱好者，国内很多小说网站如出一辙，什么 🖊*阁啊等等，大都是 get 请求返回 html 内容，而且会有标志性的<dl><dd>等标签。
所以大概的原理，就是先 get 请求这个网站，然后对获取的内容进行清洗，写进文本里面，变成一个 txt，导入手机，方便看小说。

实践篇

之前踩过一个坑，一开始我看了几页小说，大概小说的内容网站是https://www.xxx.com/小说编号/章节编号.html，一开始看前几章，我发现章节编号是连续的，于是我一开始想的就是记住起始章节编号，然后在循环的时候章节编号自增就行，后面发现草率了，可能看个 100 章之后，章节列表会出现断层现象，这个具体为啥还真不知道，按理说小说编号固定，可以算是一个数据表，那里面的章节编号不就是一个自增 id 就完了嘛？有懂王可以科普一下！
所以这里要先获取小说的目录列表，并把目录列表洗成一个数组方便我们后期查找！getList.py文件：

定义一个请求书签的方法


# 请求书签地址
def req():
    url = "Https://www.24kwx.com/book/4/4020/"
    strHtml = requests.get(url)
    return strHtml.text

将获取到的内容提取出（id:唯一值/或第 X 章小说）(name:小说的章节名称)（key:小说的章节 id）


# 定义一个章节对象
class Xs(object):
    def __init__(self,id,key,name):
        self._id = id
        self._key = key
        self._name = name

    @property
    def id(self):
        self._id
    @property
    def key(self):
        self._key
    @property
    def name(self):
        self._name

    def getString(self):
        return 'id:%s,name:%s,key:%s' %(self._id,self._name,self._key)

# 转换成书列表
def tranceList():
    key = 0
    name = ""
    xsList = []
    idrule = r'/4020/(.+?).html'
    keyrule = r'第(.+?)章'
    html = req()
    html = re.split("</dt>",html)[2]
    html = re.split("</dl>",html)[0]
    htmlList = re.split("</dd>",html)
    for i in htmlList:
        i = i.strip()
        if(i):
            # 获取id
            id = re.findall(idrule,i)[0]
            lsKeyList = re.findall(keyrule,i)
            # 如果有章节
            if len(lsKeyList) > 0 :
                key = int(lsKeyList[0])
                lsname = re.findall(r'章(.+?)</a>',i)
            else :
                key = key + 1
            # 获取名字
            # lsname = re.findall(r'.html">(.+?)</a>',i)[0]
            # name = re.sub('，',' ', lsname, flags=re.IGNORECASE)
            name = re.findall(r'.html">(.+?)</a>',i)[0]
            xsobj = Xs(id,key,name)
            xsList.append(xsobj.getString())
    writeList(xsList)

注意一下我：如果你从别的语言转 py，第一次写object对象可能会比较懵，没错因为他的object是一个class，这里我创建的对象就是{id,key,name}但是你写入 txt 的时候还是要getString，所以后面想想我直接写个{id:xxx,name:xxx,key:xxx}的字符串不就完了，还弄啥class,后面还是想想给兄弟盟留点看点，就留着了

最后写入 txt 文件


# 写入到文本
def writeList(list):
    f = open("xsList.txt",'w',encoding='utf-8')
    # 这里不能写list，要先转字符串 TypeError: write() argument must be str, not list
    f.write('\n'.join(list))
    print('写入成功')

# 大概写完的txt是这样的
id:3798160,name:第1章 孙子，我是你爷爷,key:1
id:3798161,name:第2章 孙子，等等我！,key:2
id:3798162,name:第3章 天上掉下个亲爷爷,key:3
id:3798163,name:第4章 超级大客户,key:4
id:3798164,name:第5章 一张退婚证明,key:5

ok ! Last one
这里已经写好了小说的目录，那我们就要读取小说的内容，同理

先写个请求


# 请求内容地址
def req(id):
    url = "https://www.24kwx.com/book/4/4020/"+id+".html"
    strHtml = requests.get(url)
    return strHtml.text

读取我们刚刚保存的目录


def getList():
    f = open("xsList.txt",'r', encoding='utf-8')
    # 这里按行读取,读取完后line是个数组
    line = f.readlines()
    f.close()
    return line

定义好一个清洗数据的规则


contextRule = r'<div class="content">(.+?)<script>downByjs();</script>'
titleRule = r'<h1>(.+?)</h1>'
def getcontext(objstr):
    xsobj = re.split(",",objstr)
    id = re.split("id:",xsobj[0])[1]
    name = re.split("name:",xsobj[1])[1]
    html = req(id)
    lstitle = re.findall(titleRule,html)
    title = lstitle[0] if len(lstitle) > 0 else name
    context = re.split('<div id="content" class="showtxt">',html)[1]
    context = re.split('</div>',context)[0]
    context = re.sub('&nbsp;|\r|\n','',context)
    textList = re.split('<br />',context)
    textList.insert(0,title)
    for item in textList :
        writeTxt(item)
    print('%s--写入成功'%(title))

再写入文件


def writeTxt(txt):
    if txt :
        f = open("nr.txt",'a',encoding="utf-8")
        f.write(txt+'\n')

最后当然是串联起来啦


def getTxt():
    # 默认参数配置
    startNum = 1261 # 起始章节
    endNum = 1300 # 结束章节
    # 开始主程序
    f = open("nr.txt",'w',encoding='utf-8')
    f.write("")
    if endNum < startNum:
        print('结束条数必须大于开始条数')
        return
    allList = getList()
    needList = allList[startNum-1:endNum]
    for item in needList:
        getcontext(item)
        time.sleep(0.2)
    print("全部爬取完成")

完整代码

getList.py


import requests
import re

# 请求书签地址
def req():
    url = "https://www.24kwx.com/book/4/4020/"
    strHtml = requests.get(url)
    return strHtml.text

# 定义一个章节对象
class Xs(object):
    def __init__(self,id,key,name):
        self._id = id
        self._key = key
        self._name = name

    @property
    def id(self):
        self._id
    @property
    def key(self):
        self._key
    @property
    def name(self):
        self._name

    def getString(self):
        return 'id:%s,name:%s,key:%s' %(self._id,self._name,self._key)

# 转换成书列表
def tranceList():
    key = 0
    name = ""
    xsList = []
    idrule = r'/4020/(.+?).html'
    keyrule = r'第(.+?)章'
    html = req()
    html = re.split("</dt>",html)[2]
    html = re.split("</dl>",html)[0]
    htmlList = re.split("</dd>",html)
    for i in htmlList:
        i = i.strip()
        if(i):
            # 获取id
            id = re.findall(idrule,i)[0]
            lsKeyList = re.findall(keyrule,i)
            # 如果有章节
            if len(lsKeyList) > 0 :
                key = int(lsKeyList[0])
                lsname = re.findall(r'章(.+?)</a>',i)
            else :
                key = key + 1
            # 获取名字
            # lsname = re.findall(r'.html">(.+?)</a>',i)[0]
            # name = re.sub('，',' ', lsname, flags=re.IGNORECASE)
            name = re.findall(r'.html">(.+?)</a>',i)[0]
            xsobj = Xs(id,key,name)
            xsList.append(xsobj.getString())
    writeList(xsList)

# 写入到文本
def writeList(list):
    f = open("xsList.txt",'w',encoding='utf-8')
    # 这里不能写list，要先转字符串 TypeError: write() argument must be str, not list
    f.write('\n'.join(list))
    print('写入成功')


def main():
    tranceList()

if __name__ == '__main__':
    main()

writeTxt.py


import requests
import re
import time


# 请求内容地址
def req(id):
    url = "https://www.24kwx.com/book/4/4020/"+id+".html"
    strHtml = requests.get(url)
    return strHtml.text

def getList():
    f = open("xsList.txt",'r', encoding='utf-8')
    # 这里按行读取
    line = f.readlines()
    f.close()
    return line

contextRule = r'<div class="content">(.+?)<script>downByJs();</script>'
titleRule = r'<h1>(.+?)</h1>'
def getcontext(objstr):
    xsobj = re.split(",",objstr)
    id = re.split("id:",xsobj[0])[1]
    name = re.split("name:",xsobj[1])[1]
    html = req(id)
    lstitle = re.findall(titleRule,html)
    title = lstitle[0] if len(lstitle) > 0 else name
    context = re.split('<div id="content" class="showtxt">',html)[1]
    context = re.split('</div>',context)[0]
    context = re.sub('&nbsp;|\r|\n','',context)
    textList = re.split('<br />',context)
    textList.insert(0,title)
    for item in textList :
        writeTxt(item)
    print('%s--写入成功'%(title))

def writeTxt(txt):
    if txt :
        f = open("nr.txt",'a',encoding="utf-8")
        f.write(txt+'\n')

def getTxt():
    # 默认参数配置
    startNum = 1261 # 起始章节
    endNum = 1300 # 结束章节
    # 开始主程序
    f = open("nr.txt",'w',encoding='utf-8')
    f.write("")
    if endNum < startNum:
        print('结束条数必须大于开始条数')
        return
    allList = getList()
    needList = allList[startNum-1:endNum]
    for item in needList:
        getcontext(item)
        time.sleep(0.2)
    print("全部爬取完成")

    
def main():
    getTxt()

if __name__ == "__main__":
    main()

以上就是python 爬取国内小说网站的详细内容，更多关于Python 爬取小说网站的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python 爬取国内小说网站

本文链接: https://www.lsjlt.com/news/10897.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python 爬取国内小说网站

目录原理先行实践篇完整代码原理先行作为一个资深的小说爱好者，国内很多小说网站如出一辙，什么 🖊*阁啊等等，大都是 get 请求返回 html 内容，而且会有标志性的<dl><dd...

99+

2022-06-02

python 爬取小说 python 爬取国内网站
Python爬虫之爬取最新更新的小说网站

目录一、引言二、关于相关访问请求及应答报文2.1、百度搜索请求2.2、百度返回搜索结果2.3、小说网站关于最新更新的展现及html报文格式三、实现思路及代码3.1、根据url获取网站...

99+

2022-11-12
python爬虫之小说网站--下载小说(

python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/2447.html) 2.分析自己要得到的内...

99+

2023-01-30

爬虫小说网站小说
python怎么爬取小说内容

在Python中，可以使用`requests`库发送HTTP请求，并使用`BeautifulSoup`库解析HTML页面，从而爬取小...

99+

2023-10-10

python
Python爬取小说

这次爬虫并没有遇到什么难题，甚至没有加header和data就直接弄到了盗版网站上的小说，真是大大的幸运。所用模块：urllib，re 主要分三个步骤：（1）分析小说网址构成；（2）获取网页，并分离出小说章节名和章节内容；（3）写...

99+

2023-01-31

小说 Python
python 爬取全本免费小说网的小说

　　这几天朋友说想看电子书，但是只能在网上看，不能下载到本地后看，问我有啥办法？我找了好几个小说网址看了下，你只能直接在网上看，要下载txt要冲钱买会员，而且还不能在浏览器上直接复制粘贴。之后我就想到python的爬虫不就可以爬取后下载吗...

99+

2023-01-30

小说网全本小说
怎么用python爬取小说内容

使用Python爬取小说内容，可以使用requests库发送HTTP请求获取小说网站的HTML内容，然后使用BeautifulSou...

99+

2023-09-12

python
python爬虫之爬取笔趣阁小说

目录前言一、首先导入相关的模块二、向网站发送请求并获取网站数据三、拿到页面数据之后对数据进行提取四、获取到小说详情页链接之后进行详情页二次访问并获取文章数据五、对小说详情页进行静态页...

99+

2022-11-12
Python scrapy爬取起点中文网小说榜单

一、项目需求爬取排行榜小说的作者，书名，分类以及完结或连载二、项目分析目标url：“https://www.qidian.com/rank/hotsales?style=1&page=1” 通...

99+

2022-06-02

Python scrapy爬取小说榜单 python爬虫
Python的scrapy之爬取6毛小说

闲来无事想看个小说，打算下载到电脑上看，找了半天，没找到可以下载的网站，于是就想自己爬取一下小说内容并保存到本地圣墟第一章沙漠中的彼岸花 - 辰东 - 6毛小说网 http://www.6mao.com/html/40/40184...

99+

2023-01-30

小说 Python scrapy
python爬虫：爬取网站视频

python爬取百思不得姐网站视频：http://www.budejie.com/video/新建一个py文件，代码如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re...

99+

2023-01-31

爬虫视频网站
Python爬虫爬取网站图片

此次python3主要用requests，解析图片网址主要用beautiful soup，可以基本完成爬取图片功能，爬虫这个当然大多数人入门都是爬美女图片，我当然也不落俗套，首先也...

99+

2022-11-12
Python爬虫：爬取小说并存储到数据库

爬取小说网站的小说，并保存到数据库第一步：先获取小说内容#!/usr/bin/python # -*- coding: UTF-8 -*- import ...

99+

2022-10-18
python爬虫之爬取笔趣阁小说升级版

python爬虫高效爬取某趣阁小说这次的代码是根据我之前的笔趣阁爬取的基础上修改的，因为使用的是自己的ip，所以在请求每个章节的时候需要设置sleep（4~5）才不会被封ip...

99+

2022-11-12
python中怎么使用XPath爬取小说

这篇文章将为大家详细讲解有关python中怎么使用XPath爬取小说，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。python的五大特点是什么python的五大特点：1.简单易学，开发程序时，专注的是解决...

99+

2023-06-14
python中使用XPath爬取小说的方法

这篇“python中使用XPath爬取小说的方法”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“python中使用XPath爬...

99+

2023-06-30
python怎么爬取网站所有链接内容

要爬取一个网站的所有链接内容，你可以使用Python中的requests和BeautifulSoup库来实现。下面是一个简单的示例代...

99+

2023-08-14

python
怎么用python爬取网站

使用Python爬取网站的一般步骤如下：1. 导入所需的库，如`requests`或`urllib`用于发送HTTP请求，`beau...

99+

2023-08-31

Python
python使用XPath解析数据爬取起点小说网数据

目录1. xpath 的介绍优点：安装lxml库XML的树形结构：选取节点的表达式举例：2. 爬取起点小说网在浏览器中获取书名和作者测试使用xpath获取起点小说网的数据1. xpa...

99+

2022-11-12
如何用Python爬虫爬取美剧网站

如何用Python爬虫爬取美剧网站，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。爬虫爬取美剧网站！【前言】一直有爱看美剧的习惯，一方面锻炼一下英语听力，一方面打...

99+

2023-06-02