广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫学习之requests的使用教程
  • 949
分享到

Python爬虫学习之requests的使用教程

2024-04-02 19:04:59 949人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

目录requests库简介requests库安装1、pip命令安装2、下载代码进行安装requests库的使用发送请求get请求抓取二进制数据post请求POST请求的文件上传利用r

requests库简介

requests 库是一个常用的用于 Http 请求的模块,它使用 python 语言编写,可以方便的对网页进行爬取,是学习 Python 爬虫的较好的http请求模块。 它基于 urllib 库,但比 urllib 方便很多,能完全满足我们 HTTP 请求以及处理 URL 资源的功能。

requests库安装

如果已经安装了 anaconda ,就已经自带了 requets 库(建议新手安装 Python 的话直接安装 anaconda 就好了,可以省去很多繁琐的安装过程的)。如果确实没有安装,可以通过以下两种方式来进行安装

1、pip命令安装

在有pip的情况下直接客户端输入命令下载

pip install requests

2、下载代码进行安装

由于 pip 命令可能安装失败所以有时我们要通过下载第三方库文件来进行安装。

GitHub 上的地址为:https://github.com/requests/requests

下载文件到本地之后,解压到 python 安装目录。

之后打开解压文件,在此处运行命令行并输入:

python setup.py install

即可。

之后我们测试 requests 模块是否安装正确,在交互式环境中输入

import requests

如果没有任何报错,说明requests模块我们已经安装成功了

requests库的使用

发送请求

在时用requests库要导入requests模块

import requests

接下来我们就可以尝试获取某个页面

import requests

r = requests.get('http://www.baidu.com')
print(r.text)

现在,我们有一个名为 r 的 Response 对象。我们可以从这个对象中获取所有我们想要的信息

除了get请求我们还有PUT,DELETE,HEAD 以及 OPTioNS 这些http请求方式

接下来我们先看看get请求

get请求

上面的例子就是我们用get方法获取到了百度的首页,并且输出打印结果为

<!DOCTYPE html>
    <!--STATUS OK--><html> <head>......</body> </html>

Requests 允许你使用 ​params​ 关键字参数,以一个字符串字典来提供这些参数。举例来说,如果你想传递 key1=value1 和 key2=value2 到 httpbin.org/get ,那么你可以使用如下代码:

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)

通过print(r.url),可以打印输出URL

http://httpbin.org/get?key2=value2&key1=value1

注意字典里值为 ​None​ 的键都不会被添加到 URL 的查询字符串里。

你还可以将一个列表作为值传入:

payload = {‘key1’: ‘value1’, ‘key2’: [‘value2’, ‘value3’]}

范例

import requests  

url = 'http://httpbin.org/get'
params = {  
    'name': 'jack',  
    'age': 25
}  
r = requests.get(url, params = params)  
print(r.text)

输出结果

在这里,我们将请求的参数封装为一个 JSON 格式的数据,然后在 get 方法中传给 params 参数,这样就完成了带参数的 GET 请求 URL 的拼接,省去了自己拼接 http://httpbin.org/get?age=22&name=jack 的过程,非常的方便。

此外,在上面我们看到返回的r.tetx虽然是个字符串,但是它其实是个jsON格式的字符串,我们可以通过 r.json() 方法来将其直接转换为JSON格式数据,从而可以直接解析,省去了引入 json 模块的麻烦。示例如下

import requests

url = 'http://httpbin.org/get'
params = {
    'name': 'jack',
    'age': 25
}
r = requests.get(url, params = params)
print(type(r.json()))
print(r.json())
print(r.json().get('args').get('age'))

输出结果

<class 'dict'>
{'args': {'age': '25', 'name': 'jack'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.28.1', 'X-Amzn-Trace-Id': 'Root=1-6300e24d-71111778036e3f8339b55886'}, 'origin': '223.90.115.87', 'url': 'http://httpbin.org/get?name=germey&age=25'}
25

抓取二进制数据

从上面的例子中我们发现我们可以轻松获取网页的html文档,但是如果我们在浏览网址时想要获取的是图片、视频、音频这些内容的话又该怎么办呢?

我们知道视频音频这些不过就是二进制码,所以我们获取二进制码就能够获取到这些形形色色的图片视频了,接下来我们看看如何获取这些二进制码

接下来以baidu的站点图标为例:

import requests

r = requests.get('https://baidu.com/favicon.ico')
print(r.text)
print(r.content)
......  
b'\x00\......x00'

使用content我们可以输出获取的文档的二进制码,但是我们又该如何处理这些二进制码呢?

其实很简单直接将其保留到本地就可以了

import requests

r = requests.get('https://baidu.com/favicon.ico')
with open('favicon.ico', 'wb') as f:
    f.write(r.content)

运行之后就发现我们成功爬取了图片,其实其他之类的视频也是这样操作的

post请求

接下来就是另外一种请求方式post请求

先看看是如何进行请求的

import requests

data = {'name': 'jack', 'age': '25'}
r = requests.post("http://httpbin.org/post", data=data)
print(r.text)

输出结果

在这里我们将需要的表单数据通过data进行提交,完成一次post请求

同时,你还可以为 ​data​ 参数传入一个元组列表。在表单中多个元素使用同一 key 的时候,这种方式尤其有效:

data = (('key1', 'value1'), ('key1', 'value2'))

POST请求的文件上传

范例

import requests

files = {'file': open('favicon.ico', 'rb')}
r = requests.post('http://httpbin.org/post', files=files)
print(r.text)

我们通过传入files参数来实现文件上传,不过前提是open方法中的文件需要存在(这里我上传的文件就是在get请求里面获取的百度图标),在这里不写路径表示该文件在当前目录下, 否则需要写上完整的路径。这个网站会返回响应,里面包含 files 这个字段,而 fORM 字段是空的,这证明文件上传部分会单独有一个 files 字段来标识。

利用requests返回响应状态码

r.status_code:获得返回的响应状态码

r.status_code == requests.codes.ok:内置状态码查询

Response.raise_for_status():抛出异常的响应状态

利用前两个方法我们可以获得响应的状态

 r = requests.get('http://httpbin.org/get')
 r.status_code
200

查询状态

r.status_code == requests.codes.ok
True

如果我们发送一个错误请求获取,我们就可以使用Response.raise_for_status()来抛出异常

r = requests.get('http://httpbin.org/status/404')
r.status_code
404

bad_r.raise_for_status()
Traceback (most recent call last):
  File "requests/models.py", line 832, in raise_for_status
    raise http_error
requests.exceptions.HTTPError: 404 Client Error

如果响应正常就不会抛出异常,返回以None

到此这篇关于python爬虫学习之requests的使用教程的文章就介绍到这了,更多相关Python requests内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python爬虫学习之requests的使用教程

本文链接: https://www.lsjlt.com/news/120118.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python爬虫学习之requests的使用教程
    目录requests库简介requests库安装1、pip命令安装2、下载代码进行安装requests库的使用发送请求get请求抓取二进制数据post请求POST请求的文件上传利用r...
    99+
    2022-11-11
  • Python 爬虫学习笔记之多线程爬虫
    XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊。其实我个人认...
    99+
    2022-06-04
    爬虫 之多 线程
  • Python 爬虫学习笔记之单线程爬虫
    介绍 本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图 怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像...
    99+
    2022-06-04
    爬虫 单线程 学习笔记
  • Python爬虫学习教程:天猫商品数据爬虫
    天猫商品数据爬虫使用教程下载chrome浏览器查看chrome浏览器的版本号,下载对应版本号的chromedriver驱动pip安装下列包pip install seleniumpip install pyquery登录微博,并通过微博绑定...
    99+
    2023-06-02
  • python爬虫之requests库的使用详解
    目录python爬虫—requests库的用法基本的get请求带参数的GET请求:解析json使用代理获取cookie会话维持证书验证设置超时异常捕获异常处理 总结 python爬虫...
    99+
    2022-11-12
  • python爬虫之requests库使用代理方式
    目录安装上requests库GET方法谷歌浏览器的开发者工具POST方法使用代理在看这篇文章之前,需要大家掌握的知识技能: python基础html基础http状态码 让我们看看这篇...
    99+
    2022-11-11
  • python爬虫框架Scrapy基本应用学习教程
    在正式编写爬虫案例前,先对 scrapy 进行一下系统的学习。 scrapy 安装与简单运行 使用命令 pip install scrapy 进行安装,成功之后,还需要随手收藏几个网...
    99+
    2022-11-12
  • Python爬虫之BeautifulSoup的基本使用教程
    目录bs4的安装bs4的快速入门解析器的比较(了解即可)对象种类bs4的简单使用获取标签内容获取标签名字获取a标签的href属性值遍历文档树案例练习思路代码实现总结bs4的安装 要使...
    99+
    2022-11-13
  • python学习-Selenium爬虫之使用代理ip的方法
     今天给大家分享的是如何在爬取数据的时候防止IP被封,今天给大家分享两种方法,希望大家可以认真学习,再也不用担心被封IP啦。第一种:降低访问速度,我们可以使用time模块中的sleep,使程序每运行一次后就睡眠1s,这样的话就可以...
    99+
    2023-06-02
  • python爬虫入门教程--优雅的HTTP库requests(二)
    前言 urllib、urllib2、urllib3、httplib、httplib2 都是和 HTTP 相关的 Python 模块,看名字就觉得很反人类,更糟糕的是这些模块在 Python2 与 Pytho...
    99+
    2022-06-04
    爬虫 优雅 入门教程
  • Python爬虫Requests库的使用详情
    目录一、Requests库的7个主要的方法二、Response对象的属性三、爬取网页通用代码四、Resquests库的常见异常五、Robots协议展示六、案例展示一、Requests...
    99+
    2022-11-11
  • 好程序员Python学习路线之python爬虫入门
      好程序员Python学习路线之python爬虫入门,随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yaho...
    99+
    2023-06-02
  • Python的爬虫程序编写框架Scrapy入门学习教程
    1. Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 其最初是为了页面抓取 (更确切来说, 网络抓取...
    99+
    2022-06-04
    爬虫 框架 入门
  • Python爬虫之使用BeautifulSoup和Requests抓取网页数据
    目录一、简介二、网络爬虫的基本概念三、Beautiful Soup 和 Requests 库简介四、选择一个目标网站五、使用 Requests 获取网页内容六、使用 Beautifu...
    99+
    2023-05-14
    Python爬虫 使用BeautifulSoup和Requests Python爬虫抓取网页数据
  • python爬虫入门教程--利用requests构建知乎API(三)
    前言 在爬虫系列文章 优雅的HTTP库requests 中介绍了 requests 的使用方式,这一次我们用 requests 构建一个知乎 API,功能包括:私信发送、文章点赞、用户关注等,因为任何涉及用...
    99+
    2022-06-04
    爬虫 入门教程 python
  • python爬虫之selenium库的安装及使用教程
    目录第一步:python中安装selenium库第二步:下载谷歌浏览器驱动并合理放置第三步:使用selenium爬取QQ音乐歌词(简单示例)第一步:python中安装selenium...
    99+
    2022-11-12
  • python爬虫Mitmproxy安装使用学习笔记
    目录一、简介和安装1.1、概念和作用概念作用1.2、安装1.3、工具介绍二、设置代理2.1、PC端设置代理2.2、PC端安装证书2.3、移动端设置代理三、 mitmdump3.1、插...
    99+
    2022-11-12
  • Python爬虫之线程池的使用
    目录一、前言二、同步代码演示三、异步,线程池代码四、同步爬虫爬取图片五、使用线程池的异步爬虫爬取4K美女图片一、前言 学到现在,我们可以说已经学习了爬虫的基础知识,如果没有那些奇奇怪...
    99+
    2022-11-12
  • python爬虫框架scrapy代理中间件掌握学习教程
    目录代理的使用场景使用 HttpProxyMiddleware 中间件代理的使用场景 编写爬虫代码的程序员,永远绕不开就是使用代理,在编码过程中,你会碰到如下情形: 网络不好,需要代...
    99+
    2022-11-12
  • Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据
    这篇文章主要介绍了Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python爬虫之怎么使用BeautifulSoup和Reque...
    99+
    2023-07-05
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作