iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python的urllib模块怎么用
  • 425
分享到

Python的urllib模块怎么用

2023-06-30 15:06:23 425人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍了python的urllib模块怎么用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python的urllib模块怎么用文章都会有所收获,下面我们一起来看看吧。一、Python urllib 模

这篇文章主要介绍了python的urllib模块怎么用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python的urllib模块怎么用文章都会有所收获,下面我们一起来看看吧。

一、Python urllib 模块是什么

urllib 模块是 Python 标准库,其价值在于抓取网络上的 URL 资源,入门爬虫时必学的一个模块。

不过更多的爬虫工程师上手学习的模块已经更换为 requests 了。

python3 中 urllib 模块包括如下内容。

  • urllib.request:请求模块,用于打开和读取 URL;

  • urllib.error:异常处理模块,捕获 urllib.error 抛出异常;

  • urllib.parse:URL 解析,爬虫程序中用于处理 URL 地址;

  • urllib.robotparser:解析 robots.txt 文件,判断目标站点哪些内容可爬,哪些不可以爬,但是用的很少。

二、使用方法

上手案例

打开一个测试站点,然后返回服务器响应内容。

from urllib.request import urlopenwith urlopen('https://www.example.net') as html:    page = html.read()print(page)

上述代码用到了 urllib.requests 模块,其内部定义了打开 URL 的函数,授权验证的方法,重定向,cookie 操作等方法。

代码中用到的 urlopen() 函数,就是打开一个 URL,该函数的语法格式如下所示:

urllib.request.urlopen(url, data=None, timeout=Socket._GLOBAL_DEFAULT_TIMEOUT,            *, cafile=None, capath=None, cadefault=False, context=None)

参数描述如下所示:

  • url:请求地址;

  • data:发送到服务器的其他数据对象,默认为 None;

  • timeout:超时时间;

  • cafile 和 capath:cafile 为 CA 证书, capath 为 CA 证书的路径,使用 HttpS 需要用到;

  • context:ssl.SSLContext 类型,用来指定 SSL 设置。

调用该对象的 read() 方法,可以读取到整个网页数据。

其余的函数与文件读取类似,分别是 readline()readlines()

还可以调用对象的 getcode() 方法,获取网页状态码。

print(html.getcode()) # 返回 200

urlopen() 返回对象的更多方法

使用 urlopen() 可以得到一个 HTTPResposne 类型的对象,它包括上文提及的 read() 方法,getcode() 方法,除此之外,还有如下内容可以使用。

  • getheaders():获取请求头内容;

  • getheader(name):获取指定请求头;

  • msg:信息属性;

  • version:版本属性;

  • status:状态属性。

urllib.Request() 类

URL 请求抽象类,使用它可以扩展更多的请求配置,其构造方法如下所示:

def __init__(self, url, data=None, headers={},                 origin_req_host=None, unverifiable=False,                 method=None)

其参数说明如下所示:

  • url:请求地址,必选参数;

  • data:请求参数,必须为 bytes 类型数据,可以使用 urlencode() 进行编码;

  • headers:字典类型,请求头设置;

  • origin_req_host:请求的主机地址,IP 或域名;

  • method:请求方法。

测试代码如下所示:

from urllib import request, parseurl = 'http://httpbin.org/post'headers = {    'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) 你的UA'}dict = {    'name': 'xiangpica'}# 转换数据类型data = bytes(parse.urlencode(dict), encoding='utf8')# 实例化对象req = request.Request(url=url, data=data, headers=headers, method='POST')# 添加请求头req.add_header('HOST', 'httpbin.org')# 发送数据response = request.urlopen(req)print(response.read().decode('utf-8'))

urllib.parse

该模块主要用于解析 URL,函数原型如下所示:

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)

参数说明如下:

  • urlstring:URL 地址;

  • scheme:协议类型,可用的包括 file、ftp、Gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh、telnet……;

  • allow_fragments:是否忽略 URL 中的 fragment 部分。

标准的 URL 格式如下:

scheme://netloc/path;params?query#fragment

说明如下所示:

  • scheme:URL 协议;

  • netloc:域名和端口;

  • path:路径;

  • params:最后一个路径元素参数,不常用;

  • query:查询字符串

  • fragment:片段标志。

from urllib.parse import urlparseresult = urlparse('http://www.example.com/index.html;info?id=10086#comment')print(type(result), result)print(result.scheme, result[0])print(result.netloc, result[1])print(result.path, result[2])print(result.params, result[3])print(result.query, result[4])print(result.fragment, result[5])

运行结果如下所示:

<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.example.com', path='/index.html', params='info', query='id=10086', fragment='comment')
http http
www.example.com www.example.com
/index.html /index.html
info info
id=10086 id=10086
comment comment

urlparse() 返回结果是一个 ParseResult 类型的对象。

其余内容

  • urlunparse() 方法与上述方法逻辑相反;

  • urljoin() 方法用于拼接链接;

  • urlencode():格式化请求参数;

  • quote():将内容转换为 URL 编码格式,尤其是转换中文字符

  • unquote():对 URL 进行解码。

三、提高场景

error 模块

在 urllib 中,error 模块定义异常,其包含如下类:

  • URLError:OSError 的一个子类,用于处理程序在遇到问题时会引发此异常;

  • HTTPError:URLError 的一个子类,用于处理特殊 HTTP 错误例如作为认证请求的时候

关于“Python的urllib模块怎么用”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“Python的urllib模块怎么用”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注编程网Python频道。

--结束END--

本文标题: Python的urllib模块怎么用

本文链接: https://www.lsjlt.com/news/329932.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python的urllib模块怎么用
    这篇文章主要介绍了Python的urllib模块怎么用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python的urllib模块怎么用文章都会有所收获,下面我们一起来看看吧。一、Python urllib 模...
    99+
    2023-06-30
  • Python学习:使用urllib模块读
    request 还是requests? 来自Python小白真诚的求助!没办法,只能求助Google了! 原来,Requests模块是一个用于网络访问的模块,网络访问就是利用某些参数发送请求,然后获取我们想要的信息。其实类似的模块...
    99+
    2023-01-31
    模块 Python urllib
  • Python 爬虫 urllib模块:p
    本程序以爬取 'http://httpbin.org/post' 为例格式:  导入urllib.request  导入urllib.parse  数据编码处理,再设为utf-8编码:  bytes(urllib.parse.urlenco...
    99+
    2023-01-31
    爬虫 模块 Python
  • python中的urllib模块中的方法
    python urllib.request之urlopen函数urllib是基于http的高层库,它有以下三个主要功能:(1)request处理客户端的请求(2)response处理服务端的响应(3)parse会解析url下面讨论的是req...
    99+
    2023-01-31
    模块 方法 python
  • Python的HTTP客户端模块urllib与urllib3怎么使用
    一、urllib概述:urllib是Python中请求url连接的官方标准库,就是你安装了python,这个库就已经可以直接使用了,基本上涵盖了基础的网络请求功能。在Python2中主要为urllib和urllib2,在Python3中整合...
    99+
    2023-05-20
    Python Http urllib
  • Python技能树共建之python urllib 模块
    目录一、Python urllib 模块是什么二、使用方法上手案例urlopen() 返回对象的更多方法urllib.Request() 类urllib.parse三、提高场景err...
    99+
    2024-04-02
  • python爬虫之请求模块urllib的基本使用
    目录前言urllib的子模块HttpResponse常用方法与属性获取信息urlli.parse的使用(一般用于处理带中文的url)✅爬取baidu官网HTML源代码✅添加请求头信息...
    99+
    2024-04-02
  • python爬虫urllib中的异常模块处理
    目录urllib中的异常处理url的组成部分URLErrorHTTPError简介Urllib.error 模块异常处理urllib中的异常处理 在我们写爬虫程序时,若出现url中的...
    99+
    2024-04-02
  • Python中urllib爬虫、request模块和parse模块的示例分析
    小编给大家分享一下Python中urllib爬虫、request模块和parse模块的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!urlliburlli...
    99+
    2023-06-14
  • python爬虫urllib库中parse模块urlparse的使用方法
    这篇文章主要介绍了python爬虫urllib库中parse模块urlparse的使用方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。在python爬虫urllib库中,u...
    99+
    2023-06-14
  • Python网络请求模块urllib与requests使用介绍
    目录urlib 介绍Requests 介绍无需参数直接请求单个页面带参数的 GET 请求发送 POST 请求Python 网络请求模块 urllib 、requests Python...
    99+
    2024-04-02
  • python爬虫urllib中的异常模块如何处理
    这篇文章主要介绍“python爬虫urllib中的异常模块如何处理”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python爬虫urllib中的异常模块如何处理”文章能帮助大家解决问题。urllib...
    99+
    2023-06-30
  • Python中的time模块和calendar模块怎么用
    这篇文章将为大家详细讲解有关Python中的time模块和calendar模块怎么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。在Python中对时间和日期的处理方式有很多,其中转换日期是最常见的一个功...
    99+
    2023-06-25
  • python中的sys模块和os模块怎么用
    今天小编给大家分享一下python中的sys模块和os模块怎么用的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。1.sys模块...
    99+
    2023-06-29
  • python的command模块怎么用
    Python的`cmd`模块是一个基于类的模块,用于创建交互式命令行解析器。下面是使用`cmd`模块的基本步骤:1. 导入`cmd`...
    99+
    2023-09-27
    python
  • Python的tempfile模块怎么用
    这篇文章主要介绍“Python的tempfile模块怎么用”,在日常操作中,相信很多人在Python的tempfile模块怎么用问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python的tempfile模块...
    99+
    2023-06-29
  • Python的Re模块怎么用
    这篇文章主要介绍Python的Re模块怎么用,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、基础语法总结1.1、匹配单个字符a . d D w W s S [...] [^...]匹配单个字符(.)规则:匹配除换行...
    99+
    2023-06-17
  • Python网络编程之HTTP客户端模块urllib与urllib3
    一、urllib 概述: urllib是Python中请求url连接的官方标准库,就是你安装了python,这个库就已经可以直接使用了,基本上涵盖了基础的网络请求功能。在Python...
    99+
    2024-04-02
  • python怎么引用Python模块
    本篇内容介绍了“python怎么引用Python模块”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  import语句  自定义模块可以采用...
    99+
    2023-06-02
  • Python怎么使用模块
    这篇文章给大家分享的是有关Python怎么使用模块的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1.1 导入模块import 模块名form 模块名import 功能名form 模块名 import *impor...
    99+
    2023-06-22
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作