iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python urllib.request模块的使用详解
  • 528
分享到

python urllib.request模块的使用详解

2024-04-02 19:04:59 528人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录urllib子模块 request模块 function request.urlopen() class request.Request python的urllib模块提供了一系

python的urllib模块提供了一系列操作url的功能,可以让我们通过url打开任意资源。其中比较常用的就是request模块,本篇主要介绍requset模块。

urllib子模块

  • urllib.request 打开或请求url
  • urllib.error 捕获处理请求时产生的异常
  • urllib.parse 解析url
  • urllib.robotparser 用于解析robots.txt文件

robots.txt是一种存放于网站根目录下文本文件,用来告诉网络爬虫服务器上的那些文件可以被查看。又被成为robots协议,是一种约定俗成的协议。

request模块

function request.urlopen()

urlopen方法用来打开资源url,常用带参数形式urlopen(url,data=None),url:资源url,data:携带的数据。

方法的返回值始终为一个对象,并可以调用相应的方法获取返回的信息。其中对于Httphttps的url来说会返回一个http.client.HTTPResponse对象;


import urllib.request
# 我们用本地的一个简单html文件来测试
url = 'http://127.0.0.1:8848/chenjy/test.html'

req = urllib.request.urlopen(url)

print(req)

1. read() 返回服务器返回的原始数据;


import urllib.request

url ='http://127.0.0.1:8848/chenjy/test.html'

req = urllib.request.urlopen(url)

print(req.read())

我们可以再调用decode()方法来解码。


import urllib.request

url = 'http://127.0.0.1:8848/chenjy/test.html'

req = urllib.request.urlopen(url)

print(req.read().decode())

2.geturl() 返回获取资源的url;

  • 创建一个测试页

import urllib.request
url = 'http://127.0.0.1:8848/chenjy/test.html' 

req = urllib.request.urlopen(url)

print(req.geturl())

我们在页面中添加js脚本重定向页面window.location.href='http://127.0.0.1:8848/chenjy/test2.html';,会发现访问的时候会重定向到test2,但是geturl还是获取的重定向前的

我们启动一个项目并添加一个拦截器当访问index.html的时候重定向到/ls/html/list.html页面,geturl获取的是重定向后的页面


@Override
  	    public void handle(String target, HttpServletRequest request, HttpServletResponse response, boolean[] isHandled) {
  	      int index = target.lastIndexOf("index.html");
  	  	  if (index != -1){
    	    	HandlerKit.redirect("/ls/html/list.html",request,response,isHandled);
  	  	  }
  	      
  	    }

import urllib.request
url = 'http://localhost:8088/ls/index.html'

req = urllib.request.urlopen(url)

print(req.geturl())

3.info() 返回页面的元信息;


import urllib.request
url = 'http://127.0.0.1:8848/chenjy/test.html'

req = urllib.request.urlopen(url)

print(req.info())

4.getcode() 返回页面的状态码;


import urllib.request
url = 'http://127.0.0.1:8848/chenjy/test.html'

req = urllib.request.urlopen(url)

print(req.getcode())

class request.Request

url请求类 Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

  • url:请求url
  • data:请求传参;bytes字节流
  • headers:请求头
  • origin_req_host:请求原始主机;不带端口
  • unverifiable:是否不可验证;
  • method :请求方法;如GET、POST、PUT等

import urllib.request

# 模拟iphone5请求百度手机版页面
url = 'https://www.baidu.com/'

user_agent = 'Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWEBKit/603.1.30 (KHTML, like Gecko) Version/10.0 Mobile/14E304 Safari/602.1'
headers = {
  'User-Agent': user_agent
}

# 抓取page信息
req = urllib.request.Request(url, headers=headers,method='GET')
page = urllib.request.urlopen(req).read().decode('utf-8')

print(page)

以上就是Python urllib.request模块的使用详解的详细内容,更多关于python urllib.request模块的资料请关注编程网其它相关文章!

--结束END--

本文标题: python urllib.request模块的使用详解

本文链接: https://www.lsjlt.com/news/121862.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python urllib.request模块的使用详解
    目录urllib子模块 request模块 function request.urlopen() class request.Request python的urllib模块提供了一系...
    99+
    2022-11-11
  • 如何在python项目中使用urllib.request模块
    今天就跟大家聊聊有关如何在python项目中使用urllib.request模块,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。urllib子模块urllib.request 打开或请...
    99+
    2023-06-14
  • python中os模块和sys模块的使用详解
    目录一、os模块二、os模块中的os.walk()函数三、sys模块一、os模块 os.getcwd() 获取当前的工作目录 os.chdir(‘绝对路径/相对于当前工作...
    99+
    2023-03-21
    python os模块 python sys模块
  • Python中shutil模块的使用详解
    简介:shutil 模块提供了一系列对文件和文件集合的高阶操作。特别是提供了一些支持文件拷贝和删除的函数,该模块主要强大之处在于其对文件的复制与删除操作更是比较支持好。 主要方法: ...
    99+
    2022-11-13
  • 详解Python中httptools模块的使用
    如果你用过 FastAPI 的话,那么你一定知道 uvicorn,它是一个基于 uvloop 和 httptools 实现的高性能 ASGI 服务器。 其中 uvloop 采用 Cy...
    99+
    2023-03-03
    Python httptools模块使用 Python httptools模块 Python httptools
  • Python之OptionParser模块使用详解
    目录介绍基本用法参数选项OptionParser()parser.add_option()生成帮助错误提示代码示例总结介绍 OptionParser是一个更方便、更灵活、更强大的用于...
    99+
    2022-11-13
  • Python中Numpy模块使用详解
    目录NumPyndarray对象​ ​Numpy数据类型​​Numpy数组属性NumPy NumPy(Numerical Python) 是 Python 的一个扩展程序库...
    99+
    2022-11-11
  • python常用模块详解
    目录一、模块概述二、模块内容三、模块导入的原理四、模块导入的方法五、random模块 六、time模块(1)python表示时间的三种格式(2)常用方法:(3)时间元组、时...
    99+
    2022-11-12
  • python的logging模块详解
    日志级别>>>import logging >>>logging.NOTSET 0 >>>logging.DEBUG 10 >>>logging.INFO 20 >...
    99+
    2023-01-31
    详解 模块 python
  • Python的io模块详解
    Python的io模块提供了多个流式处理接口,具体的处理函数实现位于_pyio.py模块中。 在_io.py模块中,提供了唯一的模块方法open(name, mode=None, buffering=None),但是没有read()方法。...
    99+
    2023-01-31
    详解 模块 Python
  • Python的random模块详解
    目录 1.random()函数 2.randint(a, b)函数 3.uniform(a, b)函数 4.choice(seq)函数 5.shuffle(seq)函数 6.sample(seq, k)函数 7.randrange([sta...
    99+
    2023-10-20
    python numpy 数据分析
  • Python的psutil模块详解
    目录一、psutil模块:1.psutil介绍2.安装psutil模块: 二、.获取系统基本信息的使用:1.CPU信息2.内存信息 3.磁盘信息5.其他系统信息:...
    99+
    2023-05-18
    Python 模块 Python psutil模块
  • python的os模块详解
            本章介绍python自带模块os,os为操作系统 operating system 的简写,意为python与电脑的交互。主要学习的函数有 os.getcwd()、os.chdir()、os.path.basename()...
    99+
    2023-10-24
    python
  • python Tkinter模块使用方法详解
    目录一、前言1.1、Tkinter是什么二、准备工作2.1、Windows演示环境搭建三、Tkinter创建窗口3.1、创建出一个窗口3.2、给窗口取一个标题3.3、窗口设置3.3、...
    99+
    2022-11-10
  • 详解python时间模块中的datetime模块
    Python提供了多个内置模块用于操作日期时间,像calendar,time,datetime。time模块我在之前的文章已经有所介绍,它提供的接口与C标准库time.h基本一致。相比于time模块,dat...
    99+
    2022-06-04
    模块 详解 时间
  • python—xlwt模块详解
    一、前言 xlwt模块是python中专门用于写入Excel的拓展模块,可以实现创建表单、写入指定单元格、指定单元格样式等人工实现的功能,一句话就是人使用excel实现的功能,这个扩展包都可以实现。 ...
    99+
    2023-09-04
    python excel 自动化办公 xlwt
  • python—requests模块详解
    一、前言 1、requests简介 requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,它是python语言的第三方的库,专门用于发送HTTP请求,使用...
    99+
    2023-09-04
    python 开发语言 requests 网络爬虫
  • 详解Python requests模块
    前言 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。...
    99+
    2022-06-02
    Python requests模块 Python模块
  • python datetime模块详解
    目录1. 获取当前时间2. 时间间隔 timedelta3. datetime 转 字符串 strftime()4. 字符串 转 datetime对象 datetime.strpti...
    99+
    2022-11-12
  • python sys模块详解
      sys.argv           命令行参数List,第一个元素是程序本身路径 sys.modules.keys() 返回所有已经导入的模块列表 sys.exc_info()     获取当前正在处理的异...
    99+
    2023-01-31
    详解 模块 python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作