广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python爬虫urllib中的异常模块处理
  • 578
分享到

python爬虫urllib中的异常模块处理

2024-04-02 19:04:59 578人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录urllib中的异常处理url的组成部分URLErrorHttpError简介Urllib.error 模块异常处理urllib中的异常处理 在我们写爬虫程序时,若出现url中的

urllib中的异常处理

在我们写爬虫程序时,若出现url中的错误,那么我们就无法爬取我们想要的内容,对此,我们引入了urllib中的异常处理。

url的组成部分

URL由6个部分组成:eg:

https://www.baidu.com/s?wd=易烊千玺

  • 协议(http/https)
  • 主机(www.baidu.com)
  • 端口号(80/443)
  • 路径(s)
  • 参数(wd=易烊千玺)
  • 锚点

常见的端口号:

http(80) https(443) Mysql(3306) oracle(1521) Redis(6379) mongoDB(27017)

URLError

通常来说,URLError报错通常为url地址中主机部分的错误:

实例:

url = 'https://www.baidu.com1/'

运行结果:

urllib.error.URLError: <urlopen error [Errno 11001] getaddrinfo failed

HTTPError

这个异常的通常是url地址中参数或是路径的错误。

实例:

url = 'https://www.jianshu.com/p/3388cf148dba1'

运行结果:

urllib.error.HTTPError: HTTP Error 404: Not Found

简介

  • HTTPError类是URLError类的子类
  • 导入的包urllib.error.HTTPError/urllib.error.URLError
  • http错误:http错误是针对浏览器无法连接到服务器而增加的出来的错误提示,引导并告诉浏览者该页是出了什么问题。
  • 通过urllib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更健壮,可以通过try -except进行捕获异常。

Urllib.error 模块

urllib.error 模块为 urllib.request 所引发的异常定义了异常类,基础异常类是 URLError。

urllib.error 包含了两个方法,URLError 和 HTTPError。

URLError 是 OSError 的一个子类,用于处理程序在遇到问题时会引发此异常(或其派生的异常)。

HTTPError 是 URLError 的一个子类,用于处理特殊 HTTP 错误例如作为认证请求的时候,包含的属性 code 为 HTTP 的状态码, reason 为引发异常的原因,headers 为导致 HTTPError 的特定 HTTP 请求的 HTTP 响应头。

异常处理

用try except语句块捕获并处理异常,其基本语法结构如下所示:

try:可能产生异常的代码块

except [ (Error1, Error2, … ) [as e] ]:处理异常的代码块1

except [ (Error3, Error4, … ) [as e] ]:处理异常的代码块2

except [Exception]:处理其它异常

实例:

原url= ‘https://www.jianshu.com/p/3388cf148dba’

源码

import urllib.request
import urllib.error
url = 'https://www.jianshu.com1/p/3388cf148dba'
# url的组成 eg:https://www.baidu.com/s?wd=易烊千玺
# 1.协议(http/https) 2.主机(www.baidu.com) 3.端口号(80/443) 4.路径(s) 5.参数(wd=易烊千玺) 6.锚点
#  常见的端口号
# http(80) https(443) mysql(3306) oracle(1521) redis(6379) monGodb(27017)
headers = {
'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
try:
    request = urllib.request.Request(url = url,headers = headers)
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf8')
    print(content)
except urllib.error.HTTPError:
    print('HTTP异常,请稍后!')
except urllib.error.URLError:
    print('URL异常,请稍后!')

1.URLError

url = ‘https://www.jianshu.com1/p/3388cf148dba’

运行结果:

2.HTTPError

url = ‘https://www.jianshu.com/p/3388cf148dba111’

运行结果:

由于HTTPRError是URLError的子类,所以需先写httperror的异常处理,否则一律认为是URLError的异常。urllib的异常处理就写到这啦,希望大家都不会出现异常,更多关于python爬虫urllib异常处理的资料请关注编程网其它相关文章!

--结束END--

本文标题: python爬虫urllib中的异常模块处理

本文链接: https://www.lsjlt.com/news/117824.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python爬虫urllib中的异常模块处理
    目录urllib中的异常处理url的组成部分URLErrorHTTPError简介Urllib.error 模块异常处理urllib中的异常处理 在我们写爬虫程序时,若出现url中的...
    99+
    2022-11-11
  • python爬虫urllib中的异常模块如何处理
    这篇文章主要介绍“python爬虫urllib中的异常模块如何处理”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python爬虫urllib中的异常模块如何处理”文章能帮助大家解决问题。urllib...
    99+
    2023-06-30
  • Python中urllib爬虫、request模块和parse模块的示例分析
    小编给大家分享一下Python中urllib爬虫、request模块和parse模块的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!urlliburlli...
    99+
    2023-06-14
  • Python中urllib+urllib2+cookielib模块编写爬虫实战
    超文本传输协议http构成了万维网的基础,它利用URI(统一资源标识符)来识别Internet上的数据,而指定文档地址的URI被称为URL(既统一资源定位符),常见的URL指向文件、目录或者执行复杂任务的对...
    99+
    2022-06-04
    爬虫 实战 模块
  • python爬虫urllib库中parse模块urlparse的使用方法
    这篇文章主要介绍了python爬虫urllib库中parse模块urlparse的使用方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。在python爬虫urllib库中,u...
    99+
    2023-06-14
  • python爬虫之请求模块urllib的基本使用
    目录前言urllib的子模块HttpResponse常用方法与属性获取信息urlli.parse的使用(一般用于处理带中文的url)✅爬取baidu官网HTML源代码✅添加请求头信息...
    99+
    2022-11-10
  • 使用Python的urllib和urllib2模块制作爬虫的实例教程
    urllib 学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看.整篇笔记主要分以下几个部...
    99+
    2022-06-04
    爬虫 实例教程 模块
  • 玩转python爬虫之URLError异常处理
    本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务...
    99+
    2022-06-04
    爬虫 玩转 异常
  • Python之异常处理、模块与包
    MarkdownPad Document程序中错误分成两种语法错误:过不了Python解释器逻辑错误异常处理什么是异常处理Python解释器检测到错误,触发异常,在发生异常时捕捉异常,如果捕捉成功则进入另外一个处理分支,是程序不会崩溃,这就...
    99+
    2023-01-31
    模块 异常 Python
  • 一文搞懂python异常处理、模块与包
    一 异常处理 1.什么是异常 Error(错误)是系统中的错误,程序员是不能改变的和处理的,如系统崩溃,内存空间不足,方法调用栈溢等。遇到这样的错误,建议让程序终止。 Except...
    99+
    2022-11-12
  • Node.js 异步异常的处理与domain模块解析
    异步异常处理 异步异常的特点 由于node的回调异步特性,无法通过try catch来捕捉所有的异常: try { process.nextTick(function () { foo.bar()...
    99+
    2022-06-04
    模块 异常 Node
  • Python中使用urllib2模块编写爬虫的简单上手示例
    提起python做网络爬虫就不得不说到强大的组件urllib2。在python中正是使用urllib2这个组件来抓取网页的。urllib2是Python的一个获取URLs(Uniform Resource ...
    99+
    2022-06-04
    爬虫 示例 上手
  • Python异步爬虫requests和aiohttp中代理IP的使用
    爬虫要想爬的好,IP代理少不了。。现在网站基本都有些反爬措施,访问速度稍微快点,就会发现IP被封,不然就是提交验证。下面就两种常用的模块来讲一下代理IP的使用方式。话不多说,直接开始...
    99+
    2022-11-13
  • Python异常处理如何才能写得优雅(retrying模块)
    目录前言不负责任版本简单处理版本改进处理版本安装与使用安装使用总结前言 在写程序时,我们会经常碰到程序出现异常,这时候我们就不得不处理这些异常,以保证程序的健壮性。 处理异常的版本有...
    99+
    2022-11-13
  • python爬虫实战之制作属于自己的一个IP代理模块
    目录一、使用PyChram的正则二、制作一个随机User-Agent模块三、最终实践3.1 爬取快代理上的ip3.2 验证爬取到的ip是否可用3.3 实战:利用爬取到的ip访问CSDN博客网址1000次四、总结一、使...
    99+
    2022-06-02
    Python自制IP代理模块 python ip代理
  • Python 中的异常处理
    异常处理在任何一门编程语言里都是值得关注的一个话题,良好的异常处理可以让你的程序更加健壮,清晰的错误信息更能帮助你快速修复问题。在Python中,和不部分高级语言一样,使用了try/except/finally语句块来处理异常,如果你有其他...
    99+
    2023-01-31
    异常 Python
  • 如何在Python中处理网络爬虫的问题
    如何在Python中处理网络爬虫的问题网络爬虫是获取互联网上信息的重要方式,而Python作为一种简单易用且功能强大的编程语言,被广泛用于网络爬虫开发。本文将介绍如何在Python中处理网络爬虫的问题,并提供具体的代码示例。一、网络爬虫的基...
    99+
    2023-10-22
    Python 网络爬虫 处理问题
  • 解析Node.js异常处理中domain模块的使用方法
    NodeJS 提供了 domain 模块,可以简化异步代码的异常处理。在介绍该模块之前,我们需要首先理解“域”的概念。简单的讲,一个域就是一个 JS 运行环境,在一个运行环境中,如果一个异常没有被捕获,将作...
    99+
    2022-06-04
    使用方法 模块 异常
  • Python中的Selenium异常处理
    在进行爬虫爬取淘宝商品信息时候,利用selenium来模拟浏览器进行爬取时遇到了这个问题: selenium.common.exception.WebDriverException:...
    99+
    2022-11-11
  • Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理)
    我们可以利用urllib来抓取远程的数据进行保存哦,以下是python3 抓取网页资源的多种方法,有需要的可以参考借鉴。 1、最简单 import urllib.request response = u...
    99+
    2022-06-04
    详解 异常 方法
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作