广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python中urllib的整理
  • 536
分享到

python中urllib的整理

pythonurllib 2023-01-30 22:01:46 536人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

本不想使用这个玩意,奈何看到很多地方使用,随手整理下   urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程数据下载到本地 urlretrieve(url, filename=None, re

本不想使用这个玩意,奈何看到很多地方使用,随手整理下

 

urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程数据下载到本地

urlretrieve(url, filename=None, reporthook=None, data=None)。
  • 参数filename指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)
  • 参数reporthook是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函数来显示当前的下载进度
  • 参数data指post导服务器的数据,该方法返回一个包含两个元素的(filename, headers) 元组,filename 表示保存到本地的路径,header表示服务器的响应头
urlopen一般常用的有三个参数:
urllib.requeset.urlopen(url,data,timeout)
        url:  需要打开的网址
        data:Post提交的数据
        timeout:设置网站的访问超时时间
urlopen返回对象提供一些基本方法(快速请求)
read() :返回文本数据
readline():返回一行
info():表示远程服务器返回的头信息。
getcode():返回Http状态码,如果是http请求,200表示请求成功完成;404表示网址未找到。
geturl():返回请求的url。
直接用urllib.request模块的urlopen()获取页面,req的数据格式为bytes类型,需要decode()解码,转换成str类型
import urllib.request
import re
url = 'http://tieba.baidu.com/p/2460150866'
req=urllib.request.urlopen(url).read().decode()
r=re.findall(r'src="(.*?\.jpg)" pic_ext',req)
x=0
for i in r:
local='F://python/'
urllib.request.urlretrieve(i,local+ '%s.jpg' % x)
x=x+1
 
浏览器的模拟(需要添加headers头信息,urlopen不支持,需要使用Request)
 
import urllib.request
url='http://www.baidu.com'
header={'User-Agent': 'Mozilla/5.0 (windows NT 6.1; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/58.0.3029.96 Safari/537.36'}
request=urllib.request.Request(url,headers=header)
response=urllib.request.urlopen(request).read()
f=open('file1','wb')
f.write(response)
f.close()
 

--结束END--

本文标题: python中urllib的整理

本文链接: https://www.lsjlt.com/news/179908.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python中urllib的整理
    本不想使用这个玩意,奈何看到很多地方使用,随手整理下   urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程数据下载到本地 urlretrieve(url, filename=None, re...
    99+
    2023-01-30
    python urllib
  • python爬虫urllib中的异常模块处理
    目录urllib中的异常处理url的组成部分URLErrorHTTPError简介Urllib.error 模块异常处理urllib中的异常处理 在我们写爬虫程序时,若出现url中的...
    99+
    2022-11-11
  • python中的urllib模块中的方法
    python urllib.request之urlopen函数urllib是基于http的高层库,它有以下三个主要功能:(1)request处理客户端的请求(2)response处理服务端的响应(3)parse会解析url下面讨论的是req...
    99+
    2023-01-31
    模块 方法 python
  • python爬虫urllib中的异常模块如何处理
    这篇文章主要介绍“python爬虫urllib中的异常模块如何处理”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python爬虫urllib中的异常模块如何处理”文章能帮助大家解决问题。urllib...
    99+
    2023-06-30
  • Python中urllib库和requests库区别
    本篇内容主要讲解“Python中urllib库和requests库区别”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python中urllib库和requests库区别”吧!一、前言在使用Pyt...
    99+
    2023-06-15
  • Python爬虫中urllib库怎么用
    这篇文章给大家分享的是有关Python爬虫中urllib库怎么用的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。一、说明:urllib库是python内置的一个http请求库,requests库就是基于该库开发出来...
    99+
    2023-06-29
  • urllib库如何在python中使用
    今天就跟大家聊聊有关urllib库如何在python中使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1、请求模块:urllib.requestpython2import urll...
    99+
    2023-06-14
  • Python中urllib3与urllib的区别是什么
    这期内容当中小编将会给大家带来有关Python中urllib3与urllib的区别是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。urllib库urllib 是一个用来处理网络请求的python标准库...
    99+
    2023-06-20
  • Python的urllib模块怎么用
    这篇文章主要介绍了Python的urllib模块怎么用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python的urllib模块怎么用文章都会有所收获,下面我们一起来看看吧。一、Python urllib 模...
    99+
    2023-06-30
  • python urllib库的使用详解
    目录1、请求模块:urllib.request data参数:post请求urlopen()中的参数timeout:设置请求超时时间:响应类型:响应的状态码、响应头:使用代理:url...
    99+
    2022-11-12
  • python之urllib使用代理访问网页
    在写爬虫前,先去xicidaili.com上面随便找两个免费的代码如下# coding: utf-8 __author__ = 'www.py3study.com' import&nb...
    99+
    2023-01-30
    网页 python urllib
  • python包中的urllib网络请求怎么实现
    这篇文章主要讲解了“python包中的urllib网络请求怎么实现”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python包中的urllib网络请求怎么实现”吧!一、简介是一个 pytho...
    99+
    2023-06-30
  • Python爬虫中urllib3与urllib的区别是什么
    目录urllib库urllib.request模块Request对象1 . 请求头添加2. 操作cookie3. 设置代理urllib.parse模块urllib.error模块urllib.robotparse模块...
    99+
    2022-06-02
    Python urllib3 urllib Python urllib3
  • Python urllib库的使用指南详解
    目录urlopenRequestUser-Agent添加更多的Header信息添加一个特定的header随机添加/修改User-Agent所谓网页抓取,就是把URL地址中指定的网络资...
    99+
    2022-11-10
  • Python爬虫之Urllib库的基本使
    # get请求 import urllib.request response = urllib.request.urlopen("http://www.baidu.com") print(response.read().decode('...
    99+
    2023-01-30
    爬虫 Python Urllib
  • Python爬虫urllib和requests的区别详解
    我们讲了requests的用法以及利用requests简单爬取、保存网页的方法,这节课我们主要讲urllib和requests的区别。 1、获取网页数据 第一步,引入模块。 两者引入...
    99+
    2022-11-12
  • python爬虫urllib库中parse模块urlparse的使用方法
    这篇文章主要介绍了python爬虫urllib库中parse模块urlparse的使用方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。在python爬虫urllib库中,u...
    99+
    2023-06-14
  • Python中urllib+urllib2+cookielib模块编写爬虫实战
    超文本传输协议http构成了万维网的基础,它利用URI(统一资源标识符)来识别Internet上的数据,而指定文档地址的URI被称为URL(既统一资源定位符),常见的URL指向文件、目录或者执行复杂任务的对...
    99+
    2022-06-04
    爬虫 实战 模块
  • Python爬虫库urllib的使用教程详解
    目录Python urllib库urllib.request模块urlopen函数Request 类urllib.error模块URLError 示例HTTPError示例...
    99+
    2022-11-21
    Python爬虫库urllib使用 Python urllib使用 Python urllib
  • Python中的xlrd模块使用整理
    目录1.简述:2.xlrd模块的基本操作2.1打开excel文件获取book对象2.2获取xlrd.book.Book 对象中的所有sheet名称2.3获取xlrd.book.Book对象中的所有sheet对象2.4...
    99+
    2022-06-02
    xlrd模块的使用 Python xlrd模块
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作