首页 > 资讯 > 后端开发 > Python >1.认识网络爬虫

406

分享到

1.认识网络爬虫

爬虫 python 搜索引擎 2023-09-25 14:09:17 406人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

1.认识网络爬虫网络爬虫爬虫的合法性HTTP协议请求与响应(重点) 网络爬虫爬虫的全名叫网络爬虫，简称爬虫。他还有其他的名字，比如网络机器人，网络蜘蛛等等。爬虫就好像一个探测机

1.认识网络 爬虫

网络爬虫

爬虫的全名叫网络爬虫，简称爬虫。他还有其他的名字，比如网络机器人，网络蜘蛛等等。爬虫就好像一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

你可以这样理解，每个爬虫都是你的分身。就像孙悟空拔了一撮汗毛，吹出一堆猴子一样。
你每天使用的百度，其实就是利用了这种爬虫技术：每天放出无数爬虫到各个网站，把他们的信息抓回来，然后等你来检索。

爬虫的合法性

爬虫本身没有违法这一说法，它只是一种工具，一种技术。
详情请参考中国网信网发布的网络爬虫的法律规制。

在使用爬虫时候，我们需要谨记三点：
1、遵守 Robots 协议(君子协议)：

robots是搜索引擎爬虫协议，也就是你网站和爬虫的协议。

简单的理解：robots是告诉搜索引擎，你可以爬取收录我的什么页面，你不可以爬取和收录我的那些页面。robots很好的控制网站那些页面可以被爬取，那些页面不可以被爬取。

主流的搜索引擎都会遵守robots协议。并且robots协议是爬虫爬取网站第一个需要爬取的文件。爬虫爬取robots文件后，会读取上面的协议，并准守协议爬取网站，收录网站。

2、不能造成对方服务器瘫痪。

但不是说只要遵守 Robots 协议的爬虫就没有问题，还涉及到两个因素，第一不能大规模爬虫导致对方服务器瘫痪，这等于网络攻击。

3、不能非法获利

恶意利用爬虫技术抓取数据，攫取不正当竞争的优势，甚至是牟取不法利益的，则可能触犯法律。实践中，非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少，大多是以不正当竞争为由提请诉讼。

爬虫为什么选择python：

python语言具有简单、易学、易读、易维护、用途广泛、速度快、免费、开源等诸多优点。正是因为其中的一些优点让众多程序大佬选择用Python来爬虫：

简单易学。Python作为动态语言更适合初学者。Python可以让初学者把精力集中在编程对象和思维方法上，而不用去担心语法、类型等，并且Python语法清晰简洁，调试起来比Java简单的多。

稳定。Python的强大架构可以使爬虫程序高效平稳地运行。

免费开源。Python是FLOSS（自由/开放源码软件）之一。使用者可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。

速度快。Python的底层是用C语言写的，很多标准库和第三方库也都是用C写的，运行速度非常快。

可拓展性。如果需要一段关键代码运行得更快，可以部分程序用C或c++编写，然后在Python程序中使用它们，因此Python适合一些可扩展的后台应用。

多线程。爬虫是一个典型的多任务处理场景，请求页面时会有较长的延迟，总体来说更多的是等待。Python多线程或进程会更优化程序效率，提升整个系统下载和分析能力。

Http协议

超文本传输协议（英文：HyperText Transfer Protocol，缩写：HTTP）是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础。

工作原理：
HTTP协议定义WEB客户端如何从Web服务器请求Web页面，以及服务器如何把Web页面传送给客户端。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求报文，请求报文包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行作为响应，响应的内容包括协议的版本、成功或者错误代码、服务器信息、响应头部和响应数据。

在这里插入图片描述

请求与响应(重点)

HTTP请求过程
我们在浏览器中输入一个URL，回车之后便会在浏览器中观察到页面内容。实际上，这个过程是浏览器向网站所在的服务器发送了一个请求，网站服务器接受到这个请求后进行处理和解析，然后返回对应的响应，接着传回给浏览器。响应里包含了页面的源代码等内容，浏览器再对其进行解析，便将网页呈现了出来。

'''请求请求行 请求方式 （get，post）请求地址（url）-》 协议(http)请求头 -》 放在服务器上要使用的信息，爬虫需要的重要内容（头部，cookie，）请求体 -》一般放一些参数（get，post）响应状态行 -》协议 状态码 （100）响应头 -》放在客户端上要使用的信息响应体 —》返回客户端上的数据（html页面，JSON数据等）'''

以淘宝网页版举例：

打开一个网页:

在这里插入图片描述

如何鼠标右键，点击检查,或者查看页面源代码，就可以查看页面的源代码。

在这里插入图片描述

接着点击网络，然后刷新，点击文档，选择文档

文档名字和链接基本上是相同的。
然后右键点击文档。出现下列数据：

在这里插入图片描述

响应体：

在这里插入图片描述

状态码：

http爬虫常返回的状态码以及解决方法
100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。

101：转换协议在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。

200：请求成功处理方式：获得响应的内容，进行处理

201：请求完成，结果是创建了新资源。新创建资源的URI可在响应的实体中得到处理方式：爬虫中不会遇到

202：请求被接受，但处理尚未完成处理方式：阻塞等待

204：服务器端已经实现了请求，但是没有返回新的信息。如果客户是用户代理，则无须为此更新自身的文档视图。处理方式：丢弃

300：该状态码不被HTTP/1.0的应用程序直接使用，只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。处理方式：若程序中能够处理，则进行进一步处理，如果程序中不能处理，则丢弃

301：请求到的资源都会分配一个永久的URL，这样就可以在将来通过该URL来访问此资源处理方式：重定向到分配的URL（永久重定向，重要）

302：请求到的资源在一个不同的URL处临时保存处理方式：重定向到临时的URL（临时重定向，重要）

304：请求的资源未更新处理方式：丢弃，使用本地缓存文件（没有发送请求，用的是本地缓存文件，重要）

400：非法请求处理方式：丢弃
401：未授权处理方式：丢弃
403：禁止处理方式：丢弃
404：没有找到处理方式：丢弃
405：请求方式不对

500：服务器内部错误服务器遇到了一个未曾预料的状况，导致了它无法完成对请求的处理。一般来说，这个问题都会在服务器端的源代码出现错误时出现。（服务器问题，代码有问题，重要）

501：服务器无法识别服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法，并且无法支持其对任何资源的请求。

502：错误网关作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。

cookie与session id
cookie

指某些网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据（通常经过加密）。也就是说如果知道一个用户的Cookie，并且在Cookie有效的时间内，就可以利用Cookie以这个用户的身份登录这个网站。

session id

SessionID 的途：
1、sessionID用来判断是同一次会话，至于会话用来做什么，看需求.
2、session是保存在服务器端的，它有一个生命期，客户端的cookie只是保存了id信息，关闭浏览器时，服务器端的session只要还在同一个生命期内还是同一次会话。

保存SessionID的方式：

一种技术叫做表单隐藏字段。就是服务器会自动修改表单，添加一个隐藏字段，以便在表单提交时能够把session id传递回服务器。

保存session id的方式可以采用cookie，这样在交互过程中浏览器可以自动的按照规则把这个标识发送给服务器。

由于cookie可以被人为的禁止，必须有其它的机制以便在cookie被禁止时仍然能够session id传递回服务器，经常采用的一种技术叫做 URL重写，就是把session id附加在URL路径的后面，附加的方式也有两种，一种是作为URL路径的附加信息，另一种是作为查询字符串附加在 URL后面。网络在整个交互过程中终保持状态，就必须在每个客户端可能请求的路径后面都包含这个session id。

悲索之人烈焰加身，堕落者不可饶恕。永恒燃烧的羽翼，带我脱离凡间的沉沦。

来源地址：https://blog.csdn.net/weixin_50804299/article/details/129358639

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 1.认识网络爬虫

本文链接: https://www.lsjlt.com/news/417425.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

1.认识网络爬虫

1.认识网络爬虫网络爬虫爬虫的合法性HTTP协议请求与响应(重点) 网络爬虫爬虫的全名叫网络爬虫，简称爬虫。他还有其他的名字，比如网络机器人，网络蜘蛛等等。爬虫就好像一个探测机...

99+

2023-09-25

爬虫 python 搜索引擎
Python3网络爬虫实战-1、请求库安

爬虫可以简单分为几步：抓取页面、分析页面、存储数据。在第一步抓取页面的过程中，我们就需要模拟浏览器向服务器发出请求，所以需要用到一些 Python 库来实现 HTTP 请求操作，在本书中我们用到的第三方库有 Requests、Seleni...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-11、爬虫框

ScrapySplash 是一个 Scrapy 中支持 JavaScript 渲染的工具，本节来介绍一下它的安装方式。ScrapySplash 的安装分为两部分，一个是是 Splash 服务的安装，安装方式是通过 Docker，安装之后会...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-15、爬虫基

在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 基本原理等。那么本章内容就对一些在做爬虫之前所需要的基础知识做一些简单的总结。在本节我们会详细了解 HTTP 的基本原理...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-10、爬虫框

我们直接用 Requests、Selenium 等库写爬虫，如果爬取量不是太大，速度要求不高，是完全可以满足需求的。但是写多了会发现其内部许多代码和组件是可以复用的，如果我们把这些组件抽离出来，将各个功能模块化，就慢慢会形成一个框架雏形，久...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫(十一)：爬虫黑科

原文链接： Jack-Cui，http://blog.csdn.net/c406495762 运行平台： Windows Python版本： Python3.x IDE： Sublime text3 1 前言近期，有些朋友问我一些关...

99+

2023-01-31

爬虫网络
Python3网络爬虫实战-17、爬虫基

爬虫，即网络爬虫，我们可以把互联网就比作一张大网，而爬虫便是在网上爬行的蜘蛛，我们可以把网的节点比做一个个网页，爬虫爬到这就相当于访问了该页面获取了其信息，节点间的连线可以比做网页与网页之间的链接关系，这样蜘蛛通过一个节点后可以顺着节点连线...

99+

2023-01-31

爬虫实战网络
python之网络爬虫

一、演绎自已的北爱踏上北漂的航班，开始演奏了我自已的北京爱情故事二、爬虫11、网络爬虫的思路首先：指定一个url，然后打开这个url地址，读其中的内容。其次：从读取的内容中过滤关键字；这一步是关键，可以通过查看源代码的方式...

99+

2023-01-31

爬虫网络 python
python写网络爬虫

#!/usr/bin/evn python import re #导入正则表达式模块import urllib #导入urllib模块，读取页面与下载页面需要用到def getH...

99+

2023-01-31

爬虫网络 python
Python3网络爬虫入门知识点有哪些

本篇内容介绍了“Python3网络爬虫入门知识点有哪些”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！　...

99+

2024-04-02
java网络爬虫的基础知识有哪些

这篇文章主要介绍“java网络爬虫的基础知识有哪些”，在日常操作中，相信很多人在java网络爬虫的基础知识有哪些问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”java网络爬虫的基础知识有哪些”的疑惑有所帮助！...

99+

2023-06-16
python网络爬虫实战

目录一、概述二、原理三、爬虫分类1、传统爬虫2、聚焦爬虫3、通用网络爬虫（全网爬虫）四、网页抓取策略1、宽度优先搜索：2、深度优先搜索：3、最佳优先搜索：4、反向链接数策略：5、Pa...

99+

2024-04-02
Python3网络爬虫实战-9、APP爬

Appium 是移动端的自动化测试工具，类似于前面所说的 Selenium，利用它我们可以驱动 Android、iOS 等设备完成自动化测试，比如模拟点击、滑动、输入等操作，其官方网站为：http://appium.io/，本节来了解一下 ...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-7、APP爬

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProx...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-8、APP爬

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProx...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-6、APP爬

除了 Web 网页，爬虫也可以对 APP 的数据进行抓取，APP 中的页面要加载出来，首先需要获取数据，那么这些数据一般是通过请求服务器的接口来获取的，由于 APP 端没有像浏览器一样的开发者工具直接比较直观地看到后台的请求，所以对 APP...

99+

2023-01-31

爬虫实战网络
爬虫笔记1：Python爬虫常用库

请求库：1、urllib：urllib库是Python3自带的库（Python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。2、requests：requests属于第三方库，使用起来...

99+

2023-01-31

爬虫常用笔记
5.网络爬虫——Xpath解析

网络爬虫——Xpath解析 Xpath简介Xpath解析节点选择路径表达式谓语未知节点 Xpath实战演示豆果美食实战获取数据源代码前言： 📝&#x...

99+

2023-09-01

爬虫 python 开发语言云原生
Python爬虫之网络请求

目录1.IP代理2.Cookie3.异常处理 1.IP代理某些网站会检测一段时间内某IP的访问次数，若访问次数过多会禁止访问，这时需要设置一些代理服务器，每隔一段时间换一...

99+

2024-04-02
Python网络爬虫之获取网络数据

目录使用 Python 获取网络数据编写爬虫代码使用 IP 代理总结Python 语言的优势在于其功能强大，可以用于网络数据采集、数据分析等各种应用场景。本篇文章将介绍如何使用 Py...

99+

2023-05-18

Python获取网络数据 Python爬取数据