首页 > 资讯 > 数据库 >数据采集实战（四）-

403

分享到

数据采集实战（四）-

数据采集实战（四）- 2019-04-29 23:04:36 403人浏览绘本

摘要

1. 概述前段时间在看一本很多人推荐的线性代数教材《线性代数应该这样学》第三版，这一版每个章节都有大量的习题。官方网站上虽然按照章节提供了习题的答案，一来因为网站是国外的，访问不流畅，二来答案中还夹杂着广告，影响查看。所以，想试着将

数据采集实战（四）-

1. 概述

前段时间在看一本很多人推荐的线性代数教材《线性代数应该这样学》第三版，这一版每个章节都有大量的习题。

官方网站上虽然按照章节提供了习题的答案，一来因为网站是国外的，访问不流畅，二来答案中还夹杂着广告，影响查看。
所以，想试着将答案爬取下来制作成pdf，查看起来方便，也不会受网络的影响。

2. 采集流程

只是获取网页比较简单，没什么好说的，这里和前几篇数据采集实战不一样的地方在于：

网页中有数学公式，这些公式通过前端 js的转换才能正常显示，所以从html中直接获取DOM内容是没用的，要获取所有html元素
获取网页之后要去除不必要的元素（比如网页中的header，footer，menu，广告等等），然后再保存网页，也就是采集网页局部内容

绿色背景的部分是通过puppetter来完成的。
蓝色背景的部分在采集之后通过PDF相关的命令行小工具来完成。

2.1 去除网页中元素（绿色背景部分）

    await page.evaluate(() => {
      const domToRemove = [
        "#top-bar-wrap",
        "#site-header",
        "#main> .page-header",
        "#content > article > ul",
        "#content > article > .entry-content > center",
        "#content > article > .entry-content > .google-auto-placed",
        "#content > article > .entry-content > #amzn_assoc_ad_div_adunit0_0",
        "#content > article > .entry-content > #related_posts",
        ".post-tags",
        "nav",
        "section",
        ".addthis-smartlayers",
        "#right-sidebar",
        "footer",
      ];
      for (let j = 0; j < domToRemove.length; j++) {
        const doms = document.querySelectorAll(domToRemove[j]);
        for (let k = 0; k < doms.length; k++) {
          // !!!这一步是关键，将自己从DOM树中删除
          doms[k].parentnode.removeChild(doms[k]);
        }
      }
    });

    // 网页保存成html文件，为了后面可以转换成pdf
    await savePage(
      page,
      "./output/linearAlgebraExercises",
      exercies[i] + ".html"
    );

2.2 生成PDF文档（蓝色背景部分）

将html文件转成pdf的工具很多，python和nodejs有很多这种库，选择一种你熟悉的都可以。
我用的 pandoc，转换效果还不错！数学公式都可以正确显示。

# 转换html的命令示例
pandoc input.html -t latex -o output.pdf

显示效果如下：

合并多个pdf也有很多小工具，我使用的是 pdftk。

# 合并pdf的命令示例
pdftk input1.pdf input2.pdf input3.pdf cat output output.pdf

3. 总结

整个流程很简单，唯一值得说的技术点可能就是在获取网页时，实时的去除了不必要的部分。

虽然很简单，但是整个流程是完备的，对它的细节进行一些完善之后，其实就是一个自动制作电子书的过程。

4. 注意事项

爬取数据只是为了研究学习使用，本文中的代码遵守：

如果网站有 robots.txt，遵循其中的约定
爬取速度模拟正常访问的速率，不增加服务器的负担
只获取完全公开的数据，有可能涉及隐私的数据绝对不碰

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 数据采集实战（四）-

本文链接: https://www.lsjlt.com/news/8809.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

sql中用代码删除两列内容怎么删

2024-05-07

在sql中使用什么语法实现字段的自减

2024-05-07

sql中drop怎么用

2024-05-07

sql中常用的聚合函数有哪些

2024-05-07

oracle中从右往左截取的函数是什么

2024-05-03

oracle中count函数与什么函数一样

2024-05-03

oracle中date和timestamp区别

2024-05-03

oracle中Regr_SLOPE的用法

2024-05-03

oracle中on怎么用

2024-05-03

oracle中case的用法

2024-05-03

热门问答

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

数据采集实战（四）-

1. 概述

2. 采集流程

2.1 去除网页中元素（绿色背景部分）

2.2 生成PDF文档（蓝色背景部分）

3. 总结

4. 注意事项

本篇文章演示代码以及资料文档资料下载

数据采集实战（四）-

数据采集实战（三）-

数据采集实战（五）-

数据采集实战（一）-

数据采集实战（二）-

Python采集C站热榜数据实战示例

Python实战使用XPath采集数据示例解析

数据采集 - Marvin

php实现大数据采集

【Python实战】Python采集情感音频

Python爬虫实战演练之采集糗事百科段子数据

Python采集电影评论实战示例

Python采集王者最低战力信息实战示例

Python爬虫实战演练之采集拉钩网招聘信息数据

亚马逊数据采集

数据采集与存储

Hive实战之Youtube数据集

Python采集C站高校信息实战示例

Python采集王者皮肤图片实战示例

Python采集热搜数据实现详解

sql中用代码删除两列内容怎么删

在sql中使用什么语法实现字段的自减

sql中drop怎么用

sql中常用的聚合函数有哪些

oracle中从右往左截取的函数是什么

oracle中count函数与什么函数一样

oracle中date和timestamp区别

oracle中Regr_SLOPE的用法

oracle中on怎么用

oracle中case的用法