首页 > 资讯 > 精选 >网络爬虫的原理介绍

393

分享到

网络爬虫的原理介绍

2023-06-02 06:06:40 393人浏览薄情痞子

摘要

这篇文章主要介绍“网络爬虫的原理介绍”，在日常操作中，相信很多人在网络爬虫的原理介绍问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”网络爬虫的原理介绍”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！认识浏览器

这篇文章主要介绍“网络爬虫的原理介绍”，在日常操作中，相信很多人在网络爬虫的原理介绍问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”网络爬虫的原理介绍”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

认识浏览器和服务器

大家对浏览器应该一点都不陌生，可以说，只要上过网的人都知道浏览器。可是，明白浏览器各种原理的人可不一定多。

作为要开发爬虫的小伙伴，是一定一定要明白浏览器的工作原理的。这是你写爬虫的必备工具，别无他。

大家在面试的时候，有没有遇到这么一个非常宏观而又处处细节的解答题：

请说说从你在浏览器地址栏输入网站到你看到网页中间都发生了什么？

这真是一个考验知识面的题啊，经验老道的老猿既可以滔滔不绝的讲上三天三夜，也可以提炼出几分钟的精华讲个大概。大家恐怕对整个过程就一知半解了。

巧的是，对这个问题理解的越透彻，越对写爬虫有帮助。换句话说，爬虫是一个考验综合技能的领域。那么，大家准备好迎接这个综合技能挑战了吗？

废话不多说，我们就从解答这个题目开始，认识浏览器和服务器，看看这中间有哪些知识是爬虫要用到的。

前面也说过，这个问题可以讲上三天三夜，但我们没那么多时间，其中一些细节就略过，把大致流程结合爬虫讲一讲，分成三部分：

浏览器发出请求
服务器做出响应
浏览器接收响应

1. 浏览器发出请求

在浏览器地址栏输入网址后回车，浏览器请服务器提出网页请求，也就是告诉服务器，我要看你的某个网页。
上面短短一句话，蕴藏了无数玄机啊，让我不得不费点口舌一一道来。主要讲述：

网址是不是有效的？
服务器在哪里？
浏览器向服务器发送了些什么？
服务器返回了些什么？

1）网址是不是有效的？

首先，浏览器要判断你输入的网址（URL）是否合法有效。对应URL，小猿们并不陌生吧，以Http(s)开头的那一长串的字符，但是你知道它还可以以ftp, mailto, file, data, irc开头吗？下面是它最完整的语法格式：

URI = scheme:[//authority]path[?query][#fragment]# 其中， authority 又是这样的：authority = [userinfo@]host[:port]# userinfo可以同时包含user name和passWord，以：分割userinfo = [user_name:password]

用图更形象的表现处理就是这样的：

网络爬虫的原理介绍

经验之谈：要判断URL的合法性

python里面可以用urllib.parse来进行URL的各种操作

In [1]: import urllib.parse In [2]: url = 'http://dachong:the_password@www.yuanrenxue.com/user/info?page=2'In [3]: zz = urllib.parse.urlparse(url)Out[4]: ParseResult(scheme='http', netloc='dachong:the_password@www.yuanrenxue.com', path='/user/info', params='', query='page=2', fragment='')

我们看到，urlparse函数把URL分析成了6部分：
scheme://netloc/path;params?query#fragment
需要主要的是 netloc 并不等同于 URL 语法定义中的host

2) 服务器在哪里？

上面URL定义中的host，就是互联网上的一台服务器，它可以是一个IP地址，但通常是我们所说的域名。域名通过DNS绑定到一个（或多个）IP地址上。浏览器要访问某个域名的网站就要先通过DNS服务器解析域名，得到真实的IP地址。
这里的域名解析一般是由操作系统完成的，爬虫不需要关心。然而，当你写一个大型爬虫，像Google、百度搜索引擎那样的爬虫的时候，效率变得很主要，爬虫就要维护自己的DNS缓存。
老猿经验：大型爬虫要维护自己的DNS缓存

3) 浏览器向服务器发送些什么？

浏览器获得了网站服务器的IP地址，就可以向服务器发送请求了。这个请求就是遵循http协议的。写爬虫需要关心的就是http协议的headers，下面是访问 en.wikipedia.org/wiki/URL 时浏览器发送的请求 headers：

网络爬虫的原理介绍

可能已经从图中看出来些端倪，发送的http请求头是类似一个字典的结构：

authority: 就是访问的目标机器；
method: http请求的方法有很多：

GET
HEAD
POST
PUT
DELETE
CONNECT
OPTioNS
TRACE
PATCH
一般，爬虫使用最多的是GET和POST

path: 访问的网站的路径
scheme: 请求的协议类型，这里是https
accept: 能够接受的回应内容类型（Content-Types）
accept-encoding: 能够接受的编码方式列表
accept-language: 能够接受的回应内容的自然语言列表
cache-control: 指定在这次的请求/响应链中的所有缓存机制都必须遵守的指令
cookie: 之前由服务器通过 Set- Cookie发送的一个超文本传输协议Cookie
这是爬虫很关心的一个东东，登录信息都在这里。
upgrade-insecuree-requests: 非标准请求字段，可忽略之。
user-agent: 浏览器身份标识

这也是爬虫很关心的部分。比如，你需要得到手机版页面，就要设置浏览器身份标识为手机浏览器的user-agent。

经验之谈: 通过设置headers跟服务器沟通

4) 服务器返回了些什么？

如果我们在浏览器地址栏输入一个网页网址（不是文件下载地址），回车后，很快就看到了一个网页，里面包含排版文字、图片、视频等数据，是一个丰富内容格式的页面。然而，我通过浏览器查看源代码，看到的却是一对文本格式的html代码。

没错，就是一堆的代码，却让浏览器给渲染成了漂亮的网页。这对代码里面有：

CSS：浏览器根据它来排版，安排文字、图片等的位置；
javascript：浏览器运行它可以让用户和网页交互；
图片等链接：浏览器再去下载这些链接，最终渲染成网页。

而我们想要爬取的信息就藏在html代码中，我们可以通过解析方法提取其中我们想要的内容。如果html代码里面没有我们想要的数据，但是在网页里面却看到了，那就是浏览器通过ajax请求异步加载（偷偷下载）了那部分数据。

这个时候，我们就要通过观察浏览器的加载过程来发现具体是哪个ajax请求加载了我们需要的数据。

到此，关于“网络爬虫的原理介绍”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注编程网网站，小编会继续努力为大家带来更多实用的文章！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 网络爬虫的原理介绍

本文链接: https://www.lsjlt.com/news/229175.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

网络爬虫的原理介绍

认识浏览器和服务器

1. 浏览器发出请求

1）网址是不是有效的？

2) 服务器在哪里？

3) 浏览器向服务器发送些什么？

4) 服务器返回了些什么？

本篇文章演示代码以及资料文档资料下载

网络爬虫的原理介绍

关于Python网络爬虫requests库的介绍

Python网络爬虫之HTTP原理

网络爬虫的意义和原理是什么

Python网络爬虫之HTTP原理是什么

爬虫基本原理介绍、实现以及问题解决

爬虫的基本原理

爬虫中网络ip的用法

网络爬虫的常见方式

Python3网络爬虫实战-19、代理基

python教程网络爬虫及数据可视化原理解析

python爬虫的工作原理

网络爬虫如何使用http代理api

Android编写简单的网络爬虫

python网络爬虫的流程步骤

python网络爬虫指的是什么

网络安全及防御之SQL注入原理介绍

Python 网页爬虫原理及代理 IP 使用

如何在Python中处理网络爬虫的问题

代理IP对网络爬虫的影响有哪些

C++ 函数声明中的常量和内联函数：深入探讨它们的优化优势

PHP 函数新特性是否可以作为选型时的决策因素？

C++ 函数库详解：系统功能的外延如何拓展

PHP 数组转 JSON 的快捷技巧

golang函数管道通信中的竞争条件规避

如何使用泛型编写高性能的golang代码

C++ 函数递归详解：尾递归优化

匈牙利表示法在 C++ 函数命名中的利弊分析

C++ 函数重写的边界：探索继承中重写机制的局限

如何为 PHP 网站实现身份验证和授权

网络爬虫的原理介绍

认识浏览器和服务器

1. 浏览器发出请求

1） 网址是不是有效的？

2) 服务器在哪里？

3) 浏览器向服务器发送些什么？

4) 服务器返回了些什么？

本篇文章演示代码以及资料文档资料下载

1）网址是不是有效的？