首页 > 资讯 > 前端开发 > JavaScript >Nodejs实现定时爬虫的完整实例

660

分享到

Nodejs实现定时爬虫的完整实例

2024-04-02 19:04:59 660人浏览薄情痞子

摘要

目录事件起因使用 node Schedule 实现定时任务一、安装 node-schedule二、基本用法三、高级用法四、终止任务总结事件起因前两天要帮朋友B站舰长群审核，一个个

事件起因

前两天要帮朋友B站舰长群审核，一个个去舰长列表查找，自然不是一个程序猿的首选，把任务交给计算机让他自己做，摸鱼才是正道。理论成立开始coding .

由于已知舰长列表的 api 爬虫使用 AxiOS 直接访问接口

于是花了亿点点时间写完了这段爬虫我称之为bilibili-live-captain-tools 1.0


const axios = require('axios')
const roomid = "146088"
const ruid = "642922"
const url = `https://api.live.bilibili.com/xlive/app-room/v2/guardTab/topList?roomid=${roomid}&ruid=${ruid}&page_size=30`

const Captin = {
 1: '总督',
 2: '提督',
 3: '舰长'
}

const reqPromise = url => axios.get(url);

let CaptinList = []
let UserList = []

async function crawler(URL, pageNow) {
 const res = await reqPromise(URL);
 if (pageNow == 1) {
 CaptinList = CaptinList.concat(res.data.data.top3);
 }
 CaptinList = CaptinList.concat(res.data.data.list);
}


function getMaxPage(res) {

 const Info = res.data.data.info
 const { page: maxPage } = Info
 return maxPage
}


function getUserList(res) {

 for (let item of res) {
 const userInfo = item
 const { uid, username, guard_level } = userInfo
 UserList.push({ uid, username, Captin: Captin[guard_level] })
 }
}

async function main(UID) {
 const maxPage = await reqPromise(`${url}&page=1`).then(getMaxPage)
 for (let pageNow = 1; pageNow < maxPage + 1; pageNow++) {
 const URL = `${url}&page=${pageNow}`;
 await crawler(URL, pageNow);
 }
 getUserList(CaptinList)
 console.log(search(UID, UserList))
 return search(UID, UserList)
}

function search(uid, UserList) {
 for (let i = 0; i < UserList.length; i++) {
 if (UserList[i].uid === uid) {
 return UserList[i];
 }
 }
 return 0
}

module.exports = {
 main
}

很明显这个爬虫只能手动触发，直接跑还需要个命令行和node环境，于是就给他用Koa2开了个页面服务，写一个极其简陋的页面


const Koa = require('koa');
const app = new Koa();
const path = require('path')
const fs = require('fs');
const router = require('koa-router')();
const index = require('./index')
const views = require('koa-views')



app.use(views(path.join(__dirname, './'), {
 extension: 'ejs'
}))
app.use(router.routes());

router.get('/', async ctx => {
 ctx.response.type = 'html';
 ctx.response.body = fs.createReadStream('./index.html');
})

router.get('/api/captin', async (ctx) => {
 const UID = ctx.request.query.uid
 console.log(UID)
 const Info = await index.main(parseInt(UID))
 await ctx.render('index', {
 Info,
 })
});

app.listen(3000);

由于页面没有节流防抖，当前版本又只能实时爬取，等待时间较长，频繁刷新自然会触发b站的反爬虫机制，于是当前服务器ip就被风控了。

于是bilibili-live-captain-tools 2.0横空出世


function throttle(fn, delay) {
 var timer;
 return function () {
 var _this = this;
 var args = arguments;
 if (timer) {
  return;
 }
 timer = setTimeout(function () {
  fn.apply(_this, args);
  timer = null; // 在delay后执行完fn之后清空timer，此时timer为假，throttle触发可以进入计时器
 }, delay)
 }
}

再添加节流防抖的同时，使用伪实时爬虫（通过定时任务一分钟爬取一次）

这种情况我们需要去定时执行爬虫脚本了，这个时候我就想到了就可以利用egg的schedule功能了，可是不想让一个爬虫程序如此“大材小用”,遇事不决，百度一下。于是就有了下面的方案

使用 Node Schedule 实现定时任务

Node Schedule是用于node.js的灵活的cron类和非cron类作业调度程序。它允许您使用可选的重复规则来计划作业（任意函数），以在特定日期执行。它在任何给定时间仅使用一个计时器（而不是每秒钟/分钟重新评估即将到来的作业）。

一、安装 node-schedule


npm install node-schedule
# 或
yarn add node-schedule

二、基本用法

一起啊看一下官方给的例子


const schedule = require('node-schedule');

const job = schedule.scheduleJob('42 * * * *', function(){
 console.log('The answer to life, the universe, and everything!');
});

schedule.scheduleJob 的第一个参数需要如下按照规则输入

Node Schedule规则按下表表示

* * * * * *
┬ ┬ ┬ ┬ ┬ ┬
│ │ │ │ │ |
│ │ │ │ │ └ 星期几，取值：0 - 7，其中 0 和 7 都表示是周日
│ │ │ │ └─── 月份，取值：1 - 12
│ │ │ └────── 日期，取值：1 - 31
│ │ └───────── 时，取值：0 - 23
│ └──────────── 分，取值：0 - 59
└─────────────── 秒，取值：0 - 59（可选）
也可以指定一个具体的时间，如：const date = new Date()

看懂规则我们自己实现一个


const schedule = require('node-schedule');

// 定义一个时间
let date = new Date(2021, 3, 10, 12, 00, 0);

// 定义一个任务
let job = schedule.scheduleJob(date, () => {
 console.log("现在时间:",new Date());
});

上面的例子就代表到2021年3月10日12点的时候执行报时

三、高级用法

除了基础的用法，我们还可以使用一些更为灵活的方法来实现定时任务。

3.1、隔一分钟执行一次


const schedule = require('node-schedule');

// 定义规则
let rule = new schedule.RecurrenceRule();
rule.second = 0
//每分钟 0 秒执行一次

// 启动任务
let job = schedule.scheduleJob(rule, () => {
 console.log(new Date());
});

rule 支持设置的值有 second、minute、hour、date、dayOfWeek、month、year 等。

一些常见的规则如下表

每秒执行
rule.second = [0,1,2,3......59];
每分钟 0 秒执行
rule.second = 0;
每小时 30 分执行
rule.minute = 30;
rule.second = 0;
每天 0 点执行
rule.hour =0;
rule.minute =0;
rule.second =0;
每月 1 号的 10 点执行
rule.date = 1;
rule.hour = 10;
rule.minute = 0;
rule.second = 0;
每周一、周三、周五的 0 点和 12 点执行
rule.dayOfWeek = [1,3,5];
rule.hour = [0,12];
rule.minute = 0;
rule.second = 0;

四、终止任务

可以使用 cancel() 终止一个运行中的任务。当任务出现异常及时取消终止任务


job.cancel();

总结

node-schedule 是 Node.js 的一个定时任务（crontab）模块。我们可以使用定时任务来对服务器系统进行维护，让其在固定的时间段执行某些必要的操作，还可以使用定时任务发送邮件、爬取数据等；

到此这篇关于nodejs实现定时爬虫的文章就介绍到这了,更多相关Nodejs定时爬虫内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Nodejs实现定时爬虫的完整实例

本文链接: https://www.lsjlt.com/news/121542.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Nodejs实现定时爬虫的完整实例

目录

事件起因

使用 Node Schedule 实现定时任务

一、安装 node-schedule

二、基本用法

三、高级用法

四、终止任务

总结

本篇文章演示代码以及资料文档资料下载

Nodejs实现定时爬虫的完整实例

使用nodejs实现网页爬虫功能的案例

nodeJS实现简单网页爬虫功能的实例(分享)

半小时实现Java手撸网络爬虫框架(附完整源码)

基于nodejs 的多页面爬虫实例代码

python中如何使用Scrapy实现定时爬虫

SpringBoot定时任务调度与爬虫的配置实现

SpringBoot动态定时任务实现完整版

使用Python爬虫怎么实现定时计划任务

node.js实现博客小爬虫的实例代码

python热力图实现的完整实例

python实现简单爬虫功能的示例

Django利用Cookie实现反爬虫的例子

Python爬虫实现自动化爬取b站实时弹幕的方法

Android自定义评分控件的完整实例

vue实现token登录验证的完整实例

Python爬虫实现爬取京东手机页面的图片(实例代码)

怎么使用nodejs实现一个简单的网页爬虫功能

MySQL完整性约束的定义与实例教程

Golang爬虫及正则表达式的实现示例

京东一面：post为什么会发送两次请求？???

鼠标划过时整行变色284607详解

鼠标划过时整行变色284415处理办法

TypeScript接口和类型的区别小结

细说JS数组遍历的一些细节及实现

深入浅出JavaScript前端中的设计模式

初学者如何快速搭建Express开发系统步骤详解

JavaScrip简单数据类型隐式转换的实现

前端Website sitemap.xml文件搜索引擎优化

vue使用Swiper踩坑解决避坑