首页 > 资讯 > 前端开发 > node.js >怎么用node抓取小说章节

304

分享到

怎么用node抓取小说章节

2024-04-02 19:04:59 304人浏览安东尼

摘要

本文小编为大家详细介绍“怎么用node抓取小说章节”，内容详细，步骤清晰，细节处理妥当，希望这篇“怎么用node抓取小说章节”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。准备用e

本文小编为大家详细介绍“怎么用node抓取小说章节”，内容详细，步骤清晰，细节处理妥当，希望这篇“怎么用node抓取小说章节”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。

怎么用node抓取小说章节

准备用electron制作一个小说阅读工具练练手，那么首先要解决的就是数据问题，也就是小说的文本。

这里准备使用nodejs对小说网站进行爬虫爬取，尝试爬下一本小说，数据就不存放数据库了，先使用txt作为文本存储

在node中对于网站的请求，本身就存在Http和https库，内部含有request请求方法。

实例:

request = https.request(TestUrl, { encoding:'utf-8' }, (res)=>{
    let chunks = ''
    res.on('data', (chunk)=>{
        chunks += chunk
    })
    res.on('end',function(){
        console.log('请求结束');
    })
})

但是也就到此为止了，只是存取了一个html的文本数据，并不能够对内部元素进行提取之类的工作（也可以正则拿，但是太过复杂）。

我将访问到的数据通过fs.writeFile方法存储起来了，这只是整个网页的html

怎么用node抓取小说章节

但是我想要的还有各个章节中的内容，这样一来就需要获取章节的超链接，组成超链接链表进去爬取

怎么用node抓取小说章节

cheerio库

在文档中，可以使用示例进行调试

怎么用node抓取小说章节

使用cheerio解析HTML

cheerio解析html时，获取dom节点的方式与Jquery相似。

根据之前获取到的书籍首页的html，查找自己想要的dom节点数据

const fs = require('fs')
const cheerio = require('cheerio');

// 引入读取方法
const { getFile, writeFun } = require('./requestNovel')

let hasIndexPromise = getFile('./hasGetfile/index.html');

let bookArray = [];

hasIndexPromise.then((res)=>{
    let htmlstr = res;
    let $ = cheerio.load(htmlstr);

    $(".listmain dl dd a").map((index, item)=>{
        let name = $(item).text(), href = 'https://www.shuquge.com/txt/147032/' + $(item).attr('href')
        if (index > 11){
            bookArray.push({ name, href })
        }
        
    })
    // console.log(bookArray)
    writeFun('./hasGetfile/hrefList.txt', JSON.stringify(bookArray), 'w')
})

打印一下信息

怎么用node抓取小说章节

可以同时将这些信息也存储起来

怎么用node抓取小说章节

现在章节数和章节的链接都有了，那么就可以获取章节的内容了。

因为批量爬取最后需要IP代理，这里还没准备，暂时先写获取某一章节小说的内容方法

爬取某一章节的内容其实也比较简单：

// 爬取某一章节的内容方法
function getOneChapter(n) {
    return new Promise((resolve, reject)=>{
        if (n >= bookArray.length) {
            reject('未能找到')
        }
        let name = bookArray[n].name;
        request = https.request(bookArray[n].href, { encoding:'gbk' }, (res)=>{
            let html = ''
            res.on('data', chunk=>{
                html += chunk;
            })
            res.on('end', ()=>{           
                let $ = cheerio.load(html);
                let content = $("#content").text();
                if (content) {
                    // 写成txt
                    writeFun(`./hasGetfile/${name}.txt`, content, 'w')
                    resolve(content);
                } else {
                    reject('未能找到')
                }
            })
        })
        request.end();
    })
}

getOneChapter(10)

怎么用node抓取小说章节

这样，就可以根据上面的方法，来创造一个调用接口，传入不同的章节参数，获取当前章节的数据

const express = require('express'); 
const IO = express();
const { getAllChapter, getOneChapter } = require('./readIndex')
// 获取章节超链接链表
getAllChapter();

IO.use('/book',function(req, res) {
    // 参数
    let query = req.query;
    if (query.n) {
        // 获取某一章节数据
        let promise = getOneChapter(parseInt(query.n - 1));
        promise.then((d)=>{
            res.json({ d: d })
        }, (d)=>{
            res.json({ d: d })
        })
    } else {
        res.json({ d: 404 })
    }
    
})

//服务器本地主机的数字
IO.listen('7001',function(){
    console.log("启动了。。。");
})

读到这里，这篇“怎么用node抓取小说章节”文章已经介绍完毕，想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会，如果想了解更多相关内容的文章，欢迎关注编程网node.js频道。

--结束END--

本文标题: 怎么用node抓取小说章节

本文链接: https://www.lsjlt.com/news/97647.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

怎么用node抓取小说章节

cheerio库

使用cheerio解析HTML

怎么用node抓取小说章节

使用PyCharm怎么爬取小说

怎么用python爬取小说内容

怎么用node抓取宝可梦图鉴并生成Excel文件

python中怎么使用XPath爬取小说

python怎么爬取小说内容

Web抓取框架JSoup怎么用

怎么用php抓取网页数据

怎么用python抓取游戏数据

使用nodejs怎么抓取页面的始末

怎么用Python爬虫抓取智联招聘

怎么用python爬虫抓取网页文本

怎么用python抓取百度贴吧内容

怎么用Python抓取国家医疗费用数据

怎么使用NodeJs爬虫抓取古代典籍

怎么用Perl抓取网页和提交表格

怎么使用Python定时抓取微博评论

mac怎么使用charles抓取iphone的手机包

大数据采集和抽取怎么做？这篇文章终于说明白了！

怎么用PHP实现抓取天气预报的功能

利用nvm管理多个版本的node.js与npm详解

Node.js中使用socket创建私聊和公聊聊天室

node.js抓取并分析网页内容有无特殊内容的js文件

node.js回调函数之阻塞调用与非阻塞调用

Node.js巧妙实现Web应用代码热更新

Node.js 中使用 async 函数的方法

Node.js重新刷新session过期时间的方法

实例详解Nodejs 保存 payload 发送过来的文件

Nodejs express框架一个工程中同时使用ejs模版和jade模版

深入浅析NodeJs并发异步的回调处理