Python爬虫之网络请求

2024-04-02 19:04:59 780人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录1.IP代理2.Cookie3.异常处理 1.IP代理某些网站会检测一段时间内某IP的访问次数，若访问次数过多会禁止访问，这时需要设置一些代理服务器，每隔一段时间换一

1.IP代理

某些网站会检测一段时间内某IP的访问次数，若访问次数过多会禁止访问，这时需要设置一些代理服务器，每隔一段时间换一个代理。IP代理的分类：

①透明代理：目标网站可以得知使用了代理以及源IP地址，显然这不符合要求；
②匿名代理：目标网站知道使用了代理，但不知道源IP地址；
③高匿代理：最保险的方式，目标网站既不知道使用了代理，也不知道源IP地址。

2.Cookie

解决Http的无状态性，第一次向服务器发送请求时，服务器生成Cookie作为请求头并储存到浏览器中；浏览器再次发送请求时将携带Cookie信息。

import urllib.request
from http import cookiejar
filename = 'cookie.txt'
#获取Cookie
def get_cookie():
    #实例化一个MozillaCookieJar用于存储cookie
    cookie = cookiejar.MozillaCookieJar(filename)
    #创建handler对象
    handler = urllib.request.HTTPCookieProcessor(cookie)
    #创建opener对象
    opener = urllib.request.build_opener(handler)
    #请求网址
    url = 'https://tieba.baidu.com/index.html?traceid=#'
    resp = opener.open(url) #发送请求
    #存储cookie文件
    cookie.save()
 
#读取cookie
def use_cookie():
    #实例化MozillaCookieJar
    cookie = cookiejar.MozillaCookieJar()
    #加载cookie文件
    cookie.load(filename)
    print(cookie)
 
get_cookie()
use_cookie()

3.异常处理

①urllib.error.URLError：用于捕获由urllib.request产生的异常，使用reason属性返回错误原因

import urllib.request
import urllib.error
 
url = 'http://www.Google.com'
try:
    resp = urllib.request.urlopen(url)
except urllib.error.URLError as e:
    print(e.reason)

输出结果：

[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。

②urllib.error.HTTPError：用于处理HTTP与HTTPS请求的错误，

有三个属性：

code：请求返回的状态码
reason：返回错误的原因
headers：请求返回的响应头信息

import urllib.request
import urllib.error
 
url = 'https://movie.douban.com/'
try:
    resp = urllib.request.urlopen(url)
except urllib.error.HTTPError as e:
    print('原因：',e.reason)
    print('响应状态码：',str(e.code))
    print('响应头数据：',e.headers)

到此这篇关于python爬虫之网络请求的文章就介绍到这了,更多相关python 网络请求内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫之网络请求

本文链接: https://www.lsjlt.com/news/117251.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫之网络请求

目录1.IP代理2.Cookie3.异常处理 1.IP代理某些网站会检测一段时间内某IP的访问次数，若访问次数过多会禁止访问，这时需要设置一些代理服务器，每隔一段时间换一...

99+

2022-11-10
python爬虫#网络请求request

中文文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功...

99+

2023-01-30

爬虫网络 python
Python爬虫之网络请求实例分析

本篇内容介绍了“Python爬虫之网络请求实例分析”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！1.IP代理某些网站会检测一段时间内某IP的...

99+

2023-06-30
爬虫学习之第一章网络请求

爬虫的实际例子：搜索引擎（百度、谷歌、360搜索等）。伯乐在线。惠惠购物助手。数据分析与研究（数据冰山知乎专栏）。抢票软件等。什么是网络爬虫：通俗理解：爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据...

99+

2023-01-31

爬虫网络
python之网络爬虫

一、演绎自已的北爱踏上北漂的航班，开始演奏了我自已的北京爱情故事二、爬虫11、网络爬虫的思路首先：指定一个url，然后打开这个url地址，读其中的内容。其次：从读取的内容中过滤关键字；这一步是关键，可以通过查看源代码的方式...

99+

2023-01-31

爬虫网络 python
python爬虫系列网络请求案例详解

目录urllib的介绍urllib库的四大模块：案例发送请求参数说明：代码案例发送请求-Request请求IP代理IP代理分类：使用cookie使用步骤：异常处理学习了之前的基础和爬...

99+

2022-11-12
Python爬虫基础讲解之请求

目录一、请求目标(URL)二、网址的组成:三、请求体(response)四、请求方法(Method)五、常用的请求报头六、requests模块查看请求体一、请求目标(URL) URL...

99+

2022-11-12
4.网络爬虫—Post请求(实战演示)

网络爬虫—Post请求实战演示 POST请求GET请求POST请求和GET请求的区别获取二进制数据爬[百度官网](https://www.baidu.com/)logo实战发送post...

99+

2023-08-31

爬虫 python 云原生开发语言人工智能
Python3网络爬虫实战-2、请求库安

在上一节我们了解了 ChromeDriver 的配置方法，配置完成之后我们便可以用 Selenium 来驱动 Chrome 浏览器来做相应网页的抓取。那么对于 Firefox 来说，也可以使用同样的方式完成 Selenium 的对接，这时...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-1、请求库安

爬虫可以简单分为几步：抓取页面、分析页面、存储数据。在第一步抓取页面的过程中，我们就需要模拟浏览器向服务器发出请求，所以需要用到一些 Python 库来实现 HTTP 请求操作，在本书中我们用到的第三方库有 Requests、Seleni...

99+

2023-01-31

爬虫实战网络
Python网络爬虫之HTTP原理

目录⭐️爬虫基础🌟HTTP 基本原理✨URI和 URL✨超文本✨HTTP 和HTTPS ✨HTTP 请求过程✨请求✨响应⭐️爬虫基础在写爬虫之前，我们还需要了解一些基础知...

99+

2023-05-15

Python网络爬虫HTTP原理 Python网络HTTP原理 Python HTTP原理
Python网络爬虫之获取网络数据

目录使用 Python 获取网络数据编写爬虫代码使用 IP 代理总结Python 语言的优势在于其功能强大，可以用于网络数据采集、数据分析等各种应用场景。本篇文章将介绍如何使用 Py...

99+

2023-05-18

Python获取网络数据 Python爬取数据
Python网络爬虫之Web网页基础

目录⭐️Web网页基础🌟1.网页的组成✨HTML✨CSS✨JavaScript🌟2.网页的结构🌟3.节点树和节点间的关系🌟4.选择器🌟5.总结⭐️Web网页基础我们在学习爬虫之前，...

99+

2023-05-15

Python网络爬虫Web网页基础 Python网络Web网页基础 Python Web网页基础
Python爬虫-02：HTTPS请求与

目录 1. HTTP和HTTPS 1.1. HTTP的请求和响应流程：打开一个网页的过程 1.2. URL 2. ...

99+

2023-01-30

爬虫 Python HTTPS
Python爬虫基础之请求的示例分析

小编给大家分享一下Python爬虫基础之请求的示例分析，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！一、请求目标(URL)URL又叫作统一资源定位符，是用于完整地...

99+

2023-06-15
python写网络爬虫

#!/usr/bin/evn python import re #导入正则表达式模块import urllib #导入urllib模块，读取页面与下载页面需要用到def getH...

99+

2023-01-31

爬虫网络 python
Python网络爬虫之怎么获取网络数据

使用 Python 获取网络数据使用 Python 语言从互联网上获取数据是一项非常常见的任务。Python 有一个名为 requests 的库，它是一个 Python 的 HTTP 客户端库，用于向 Web 服务器发起 HTTP 请求。我...

99+

2023-05-14

Python
Python网络爬虫之如何获取网络数据

本篇内容介绍了“Python网络爬虫之如何获取网络数据”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！使用 Python 获取网络数据使用 P...

99+

2023-07-06
Python网络爬虫实战案例之：7000

一、前言本文是《Python开发实战案例之网络爬虫》的第三部分：7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。二、章节目录 3.1 业务流程3.2 页面结构分析：目录页3.3 页面结构分析：详情...

99+

2023-01-31

爬虫实战案例
Java HttpClient爬虫请求

**本项目采用spring-boot构建， maven工程添加依赖 pom文件 4.0.0 org.test testDome 0.0.1-SNAPSHOT org.apache.httpcomponents htt...

99+

2023-08-17

java 爬虫开发语言