iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >网络爬虫到底是什么意思
  • 524
分享到

网络爬虫到底是什么意思

2023-06-02 06:06:32 524人浏览 八月长安
摘要

这篇文章主要介绍“网络爬虫到底是什么意思”,在日常操作中,相信很多人在网络爬虫到底是什么意思问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”网络爬虫到底是什么意思”的疑惑有所帮助!接下来,请跟着小编一起来学习吧

这篇文章主要介绍“网络爬虫到底是什么意思”,在日常操作中,相信很多人在网络爬虫到底是什么意思问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”网络爬虫到底是什么意思”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

互联网诞生之初,是为了让人们更容易的分享数据、交流通讯。互联网是桥梁,连接了世界各地的人们。网站的点击、浏览都是人为的,与你聊天的也是活生生的人。然而,随着技术的发展,人们对数据的渴望,出现了各种网络机器人,这个时候,你不知道屏幕那端跟你聊天的是一个人还是一条狗,你也不知道你网站的浏览量是人点击出来的,还是机器爬出来的。

表面上看,互联网上是各种各样的人;暗地里,已经布满了形形色色的网络爬虫。

一、搜索引擎时代的网络爬虫

关于网络爬虫的概念,我们先来瞅瞅维基百科(Wikipedia)上面的定义:

网络爬虫(英语:WEB crawler),也叫网上蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

这里提到的编纂网络索引,就是搜索引擎干的事情。我们对搜索引擎并不陌生,Google、百度等搜索引擎可能每天都在帮我们快速获得信息。可能小猿们要问,搜索引擎的工作过程是怎样的呢?

首先,就是有网络爬虫不断抓取各个网站的网页,存放到搜索引擎的数据库
接着,索引程序读取数据库的网页进行清理,建立倒排索引;
最后,搜索程序接收用户的查询关键词,去索引里面找到相关内容,并通过一定的排序算法(Pagerank等)把最相关最好的结果排在最前面呈现给用户。

看上去简简单单的三个部分,却构成了强大复杂的搜索引擎系统。而网络爬虫是其中最基础也很重要的一部分,它决定着搜索引擎数据的完整性和丰富性。我们也看到网络爬虫的主要作用是获取数据。

由此简单地说,网络爬虫就是获取互联网公开数据的自动化工具

这里要强调一下,网络爬虫爬取的是互联网上的公开数据,而不是通过特殊技术非法入侵到网站服务器获取的非公开数据。

可能你要问,什么是“公开数据”呢?简而言之,就是网站上公开让用户浏览、获取的数据。

虽然数据是公开的,但是当某人或机构(如,搜索引擎)大量收集这些数据并因此获利时,也会让数据生产方——网站很不爽,由此而产生法律纠纷。比如,早些年Google因此而惹上官司。

网站们看着搜索引擎因为搜索引擎抓取自己的内容而获利不爽,但也因为搜索引擎带来的流量而高兴不已,于是就出现了网站主动进行搜索引擎优化(SEO, Search Engine Optimization),也就是告诉搜索引擎,我这里的内容好,快来抓取吧!

搜索引擎和网站的博弈,催生了一个君子协议: robots.txt。网站在自己的网站上放上这个文件,告诉爬虫哪些内容可以抓,哪些内容不可以抓;搜索引擎读取网站的robots.txt来知道自己的抓取范围,同时也在访问网站时通过User-Agent来向网站表明自己的身份(这种表明也是君子协议,技术上很容易假扮他人),比如,Google的爬虫叫做Googlebot,百度的爬虫叫做Baiduspider。这样,二者和平共处,互惠互利。

二、大数据时代的网络爬虫

时代在发展,数据变得越来越重要,“大数据”已经成为各行各业讨论的话题,人们对数据的渴望也变成贪婪,数据也就成了“石油”,爬虫也就成了“钻井机”。

为了获取石油,人们使用钻井机;为了获取数据,人们使用爬虫。为了获得数据,人们把互联网钻的是“千疮百孔”。哈哈,这里有些夸张。但人们对数据的获取,已经打破的君子协定,和网站们玩起了猫捉老鼠的游戏,展开了道高一尺魔高一丈的较量。

为什么说是较量呢?因为大量爬虫的行为会给网站带来网络带宽、服务器计算力等方面很大的压力,却几乎不带来任何利益。为了降低这种毫无利益的压力和避免自己的数据被他人集中收集,网站肯定要通过技术手段来限制爬虫;另一方面,爬虫为了获取石油般的数据,就想方设法来突破这种限制。

对于这种较量的理解,还是看活生生的例子来得更透彻。

你有没有花几十块钱让某个软件帮你抢火车票?
攻: 抢票爬虫会不断访问12306来获得火车票座位数据,并进而购买火车票;
防: 12306网站出了变态的认证码,人都经常识别错误。
各种秒杀让你很受伤!
攻: 研究网站的秒杀机制,提前写好爬虫,秒杀时刻,人快不过机器;
防: 有些秒杀的宣传作用很大就懒得防;有些秒杀机制复杂到你很难写出对应的爬虫;有些秒杀成功被发现作弊也会被取消。
爬虫变得越来越多,越来越肆无忌惮,网站也不得不使用各种技术手段来禁止或限制爬虫。这些手段大致包括:

使用账户保护数据,数据仅对登录用户可见;
数据多次异步加载;
限制IP访问频率,甚至封IP;
输入验证码以获得访问权限;
数据在服务器端加密,浏览器端解密;
……
而这些手段也是爬虫在技术实现中要解决和突破的问题。

三、网络爬虫的自我约束

看完上面“猫捉老鼠”的游戏的描述,小猿们不禁要问,网站和爬虫这种对抗较量会不会引起法律问题?
这是一个很好的问题,也是值得每个爬虫开发者思考的问题。

爬虫作为一种技术本身可能无所谓善恶,但是使用它的人就有善恶之分。如何使用爬虫,爬取的数据如何使用,都可能产生潜在的法律问题。作为技术开发的小猿们,都应该思考这个问题。无论何种目的,网络爬虫都不能突破法律的底线,同时也有遵守一定的准则:

遵循robots.txt协议;
避免短时间高并发访问目标网站,避免干扰目标网站的正常运行;
不要抓取个人信息,比如手机通讯录等;
使用抓来的数据注意隐私保护,合法合规。

到此,关于“网络爬虫到底是什么意思”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

--结束END--

本文标题: 网络爬虫到底是什么意思

本文链接: https://www.lsjlt.com/news/229176.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 网络爬虫到底是什么意思
    这篇文章主要介绍“网络爬虫到底是什么意思”,在日常操作中,相信很多人在网络爬虫到底是什么意思问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”网络爬虫到底是什么意思”的疑惑有所帮助!接下来,请跟着小编一起来学习吧...
    99+
    2023-06-02
  • 网络爬虫python指的是什么意思
    这篇文章将为大家详细讲解有关网络爬虫python指的是什么意思,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python可以做什么Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能...
    99+
    2023-06-14
  • 网络爬虫的意义和原理是什么
    本篇内容主要讲解“网络爬虫的意义和原理是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“网络爬虫的意义和原理是什么”吧!人们正在以前所未有的速度转向互联网,我...
    99+
    2024-04-02
  • python爬虫数据是什么意思
    Python爬虫数据指的是使用Python编程语言编写的一种程序,通过模拟浏览器的行为,自动抓取互联网上的各种数据。这些数据可以是网...
    99+
    2023-09-22
    python
  • python中爬虫指的是什么意思
    这篇文章将为大家详细讲解有关python中爬虫指的是什么意思,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬虫;...
    99+
    2023-06-14
  • 爬虫代理指的是什么意思
    这篇文章给大家分享的是有关爬虫代理指的是什么意思的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。爬虫代理是利用开发商开发的爬虫软件,替代我们日程工作中不能解决的频繁更换ip地址问题,比如在网站频繁多次注册账号,在网...
    99+
    2023-06-15
  • python网络爬虫指的是什么
    小编给大家分享一下python网络爬虫指的是什么,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!python有哪些常用库python常用的库:1.requesuts;2.scrapy;3.pillow;4.twisted;5...
    99+
    2023-06-14
  • 网络爬虫使用代理ip的意义是什么
    这篇文章主要讲解了“网络爬虫使用代理ip的意义是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“网络爬虫使用代理ip的意义是什么”吧!从上面的回答中可以看出,如果要提高效率。要大量收集,实...
    99+
    2023-06-20
  • Python网络爬虫之HTTP原理是什么
    今天小编给大家分享一下Python网络爬虫之HTTP原理是什么的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。HTTP 基本原...
    99+
    2023-07-06
  • 网络隔离是什么意思
    网络隔离是指把两个或两个以上的网络断开的基础上,实现数据交换的技术。主要是将有害的网络安全威胁隔离开,保障数据信息在安全的环境下进行资源共享。网络隔离是通过不可路由的协议进行数据交换而达到隔离目的,协议隔离和防火墙不属于同类产品。隔离概念是...
    99+
    2024-04-02
  • Python网络爬虫之Web网页基础是什么
    本文小编为大家详细介绍“Python网络爬虫之Web网页基础是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python网络爬虫之Web网页基础是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。1.网页的...
    99+
    2023-07-05
  • 托管服务器到底是什么意思
    这篇文章主要介绍“托管服务器到底是什么意思”,在日常操作中,相信很多人在托管服务器到底是什么意思问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”托管服务器到底是什么意思”的疑惑有所帮助!接下来,请跟着小编一起来...
    99+
    2023-06-07
  • 云服务器到底是什么意思啊
    云服务器(Cloud Server)是一种云计算服务,它允许用户通过互联网连接到云服务器上托管的虚拟机中。使用云服务器可以帮助企业减少在本地计算设备上的使用,因为它们可以将其存储和计算任务迁移到云端,从而减少成本并提高效率。 简单来说,云...
    99+
    2023-10-26
    到底是什么 服务器
  • 自动驾驶网络到底是什么
    目录1 、从宏观上理解自动驾驶网络2、 未来的自动驾驶网络核心能力3 、实现的阶段性路径4 、SMART2架构智简6S网络全视图1 、从宏观上理解自动驾驶网络 自动驾驶网络名字是从自...
    99+
    2024-04-02
  • pc是什么意思网络用语
    PC是个常见的缩写词,它代表 "Personal Computer"的意思。个人电脑是一种具有普遍应用的计算设备,可以用于处理和存储数据、运行软件程序和连接到互联网。在一个数字化和信息化的时代,个人电脑不仅是一种工具,也...
    99+
    2023-08-14
  • web网络节点是什么意思
    这篇文章主要讲解了“web网络节点是什么意思”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“web网络节点是什么意思”吧!网络节点是指一台电脑或其他设备与一个有独立地址和具有传送或接收数据功能...
    99+
    2023-06-21
  • 如何实现Python底层技术的网络爬虫
    如何使用Python实现网络爬虫的底层技术网络爬虫是一种自动化的程序,用于在互联网上自动抓取和分析信息。Python作为一门功能强大且易于上手的编程语言,在网络爬虫开发中得到了广泛应用。本文将介绍如何使用Python的底层技术来实现一个简单...
    99+
    2023-11-08
    Python 网络爬虫 底层技术
  • 网络上js指的是什么意思
    这篇文章主要介绍了网络上js指的是什么意思,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。js是JavaScript的意思,是一种动态类型、弱...
    99+
    2024-04-02
  • 网络词null指的是什么意思
    这篇文章将为大家详细讲解有关网络词null指的是什么意思,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。网络词null本意是空的,计算机中通常表示空值,无结果,或是空集合,程序通常使用空指针来表示条件;未知...
    99+
    2023-06-06
  • 4g lte网络指的是什么意思
    这篇文章主要介绍4g lte网络指的是什么意思,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!4g lte网络是【TD-LTE】和【FDD-LTE】等LTE网络制式的统称,4G LTE最大的数据传输速率超过100Mbp...
    99+
    2023-06-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作