首页 > 资讯 > 后端开发 > Python >Python3网络爬虫实战-20、使用U

358

分享到

Python3网络爬虫实战-20、使用U

爬虫实战网络 2023-01-31 07:01:47 358人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

学习爬虫，最初的操作便是来模拟浏览器向服务器发出一个请求，那么我们需要从哪个地方做起呢？请求需要我们自己来构造吗？我们需要关心请求这个数据结构的实现吗？我们需要了解 Http、tcp、IP 层的网络传输通信吗？我们需要知道服务器的响应和应答

学习爬虫，最初的操作便是来模拟浏览器向服务器发出一个请求，那么我们需要从哪个地方做起呢？请求需要我们自己来构造吗？我们需要关心请求这个数据结构的实现吗？我们需要了解 Http、tcp、IP 层的网络传输通信吗？我们需要知道服务器的响应和应答原理吗？

可能你不知道无从下手，不用担心，python 的强大之处就是提供了功能齐全的类库来帮助我们完成这些请求，最基础的 HTTP 库有 Urllib、Httplib2、Requests、Treq 等。

拿 Urllib 这个库来说，有了它，我们只需要关心请求的链接是什么，需要传的参数是什么以及可选的请求头设置就好了，不用深入到底层去了解它到底是怎样来传输和通信的。有了它，两行代码就可以完成一个请求和响应的处理过程，得到网页内容，是不是感觉方便极了？

接下来，就让我们从最基础的部分开始了解这些库的使用方法吧。

在 Python2 版本中，有 Urllib 和 Urlib2 两个库可以用来实现Request的发送。而在 python3 中，已经不存在 Urllib2 这个库了，统一为 Urllib，其官方文档链接为：https://docs.python.org/3/lib...

我们首先了解一下 Urllib 库，它是 Python 内置的 HTTP 请求库，也就是说我们不需要额外安装即可使用，它包含四个模块：

第一个模块 request，它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。
第二个 error 模块即异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。
第三个 parse 模块是一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等等的方法。
第四个模块是 robotparser，主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬的，其实用的比较少。

在这里重点对前三个模块进行下讲解。

使用 Urllib 的 request 模块我们可以方便地实现 Request 的发送并得到 Response，我们本节来看下它的具体用法。

1. urlopen()

urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理authenticaton（授权验证），redirections（重定向)，cookies（浏览器Cookies）以及其它内容。
我们来感受一下它的强大之处，以 Python 官网为例，我们来把这个网页抓下来：

import urllib.request
response = urllib.request.urlopen('https://www.python.org')
print(response.read().decode('utf-8'))
Python资源分享qun 784758214 ,内有安装包，pdf，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

看一下运行结果，如图 3-1 所示：

Python3网络爬虫实战-20、使用Urllib：发送请求

图 3-1 运行结果
真正的代码只有两行，我们便完成了 Python 官网的抓取，输出了网页的源代码，得到了源代码之后呢？我们想要的链接、图片地址、文本信息不就都可以提取出来了吗？
接下来我们看下它返回的到底是什么，利用 type() 方法输出 Response 的类型。

import urllib.request

response = urllib.request.urlopen('https://www.python.org')
print(type(response))

输出结果如下：

<class 'http.client.HTTPResponse'>

通过输出结果可以发现它是一个 HTTPResposne 类型的对象，它主要包含的方法有 read()、readinto()、getheader(name)、getheaders()、fileno() 等方法和 msg、version、status、reason、debuglevel、closed 等属性。
得到这个对象之后，我们把它赋值为 response 变量，然后就可以调用这些方法和属性，得到返回结果的一系列信息了。
例如调用 read() 方法可以得到返回的网页内容，调用 status 属性就可以得到返回结果的状态码，如 200 代表请求成功，404 代表网页未找到等。
下面再来一个实例感受一下：

import urllib.request

response = urllib.request.urlopen('https://www.python.org')
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))

运行结果如下：

200
[('Server', 'Nginx'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'SAMEORIGIN'), ('X-Clacks-Overhead', 'GNU Terry Pratchett'), ('Content-Length', '47397'), ('Accept-Ranges', 'bytes'), ('Date', 'Mon, 01 Aug 2016 09:57:31 GMT'), ('Via', '1.1 varnish'), ('Age', '2473'), ('Connection', 'close'), ('X-Served-By', 'cache-lcy1125-LCY'), ('X-Cache', 'HIT'), ('X-Cache-Hits', '23'), ('Vary', 'Cookie'), ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains')]
nginx

可见，三个输出分别输出了响应的状态码，响应的头信息，以及通过调用 getheader() 方法并传递一个参数 Server 获取了 headers 中的 Server 值，结果是 nginx，意思就是服务器是 nginx 搭建的。
利用以上最基本的 urlopen() 方法，我们可以完成最基本的简单网页的 GET 请求抓取。
如果我们想给链接传递一些参数该怎么实现呢？我们首先看一下 urlopen() 函数的api：

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

可以发现除了第一个参数可以传递 URL 之外，我们还可以传递其它的内容，比如 data（附加数据）、timeout（超时时间）等等。
下面我们详细说明下这几个参数的用法。

data参数

data 参数是可选的，如果要添加 data，它要是字节流编码格式的内容，即 bytes 类型，通过 bytes() 方法可以进行转化，另外如果传递了这个 data 参数，它的请求方式就不再是 GET 方式请求，而是 POST。
下面用一个实例来感受一下：

import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({'Word': 'hello'}), encoding='utf8')
response = urllib.request.urlopen('http://httpbin.org/post', data=data)
print(response.read())

在这里我们传递了一个参数 word，值是 hello。它需要被转码成bytes（字节流）类型。其中转字节流采用了 bytes() 方法，第一个参数需要是 str（字符串）类型，需要用 urllib.parse 模块里的 urlencode() 方法来将参数字典转化为字符串。第二个参数指定编码格式，在这里指定为 utf8。
在这里请求的站点是 httpbin.org，它可以提供 HTTP 请求测试，本次我们请求的 URL 为：http://httpbin.org/post，这个链接可以用来测试 POST 请求，它可以输出 Request 的一些信息，其中就包含我们传递的 data 参数。
运行结果如下：

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "fORM": {
    "word": "hello"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "10", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.7"
  }, 
  "JSON": null, 
  "origin": "124.126.3.94, 124.126.3.94", 
  "url": "https://httpbin.org/post"
}

我们传递的参数出现在了 form 字段中，这表明是模拟了表单提交的方式，以 POST 方式传输数据。

timeout参数

timeout 参数可以设置超时时间，单位为秒，意思就是如果请求超出了设置的这个时间还没有得到响应，就会抛出异常，如果不指定，就会使用全局默认时间。它支持 HTTP、HTTPS、FTP 请求。
下面来用一个实例感受一下：

import urllib.request

response = urllib.request.urlopen('http://httpbin.org/get', timeout=1)
print(response.read())

运行结果如下：

During handling of the above exception, another exception occurred:

Traceback (most recent call last): File "/var/py/python/urllibtest.py", line 4, in <module> response = urllib.request.urlopen('http://httpbin.org/get', timeout=1)
...
urllib.error.URLError: <urlopen error timed out>

在这里我们设置了超时时间是 1 秒，程序 1 秒过后服务器依然没有响应，于是抛出了 URLError 异常，它属于 urllib.error 模块，错误原因是超时。
因此我们可以通过设置这个超时时间来控制一个网页如果长时间未响应就跳过它的抓取，利用 try except 语句就可以实现这样的操作，代码如下：

import Socket
import urllib.request
import urllib.error

try:
    response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print('TIME OUT')

在这里我们请求了 http://httpbin.org/get 这个测试链接，设置了超时时间是 0.1 秒，然后捕获了 URLError 这个异常，然后判断异常原因是 socket.timeout 类型，意思就是超时异常，就得出它确实是因为超时而报错，打印输出了 TIME OUT。
运行结果如下：

TIME OUT

常理来说，0.1 秒内基本不可能得到服务器响应，因此输出了 TIME OUT 的提示。
这样，我们可以通过设置 timeout 这个参数来实现超时处理，有时还是很有用的。

其他参数

还有 context 参数，它必须是 ssl.SSLContext 类型，用来指定 SSL 设置。
cafile 和 capath 两个参数是指定 CA 证书和它的路径，这个在请求 HTTPS 链接时会有用。
cadefault 参数现在已经弃用了，默认为 False。
以上讲解了 urlopen() 方法的用法，通过这个最基本的函数可以完成简单的请求和网页抓取，如需更加详细了解，可以参见官方文档：https://docs.python.org/3/lib...。

2. Request

由上我们知道利用 urlopen() 方法可以实现最基本请求的发起，但这几个简单的参数并不足以构建一个完整的请求，如果请求中需要加入 Headers 等信息，我们就可以利用更强大的 Request 类来构建一个请求。
首先我们用一个实例来感受一下 Request 的用法：

import urllib.request

request = urllib.request.Request('https://python.org')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

可以发现，我们依然是用 urlopen() 方法来发送这个请求，只不过这次 urlopen() 方法的参数不再是一个 URL，而是一个 Request 类型的对象，通过构造这个这个数据结构，一方面我们可以将请求独立成一个对象，另一方面可配置参数更加丰富和灵活。
下面我们看一下 Request 都可以通过怎样的参数来构造，它的构造方法如下：

class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

第一个 url 参数是请求 URL，这个是必传参数，其他的都是可选参数。
第二个 data 参数如果要传必须传 bytes（字节流）类型的，如果是一个字典，可以先用 urllib.parse 模块里的 urlencode() 编码。
第三个 headers 参数是一个字典，这个就是 Request Headers 了，你可以在构造 Request 时通过 headers 参数直接构造，也可以通过调用 Request 实例的 add_header() 方法来添加。

添加 Request Headers 最常用的用法就是通过修改 User-Agent 来伪装浏览器，默认的 User-Agent 是 Python-urllib，我们可以通过修改它来伪装浏览器，比如要伪装火狐浏览器，你可以把它设置为：

Mozilla/5.0 (X11; U; linux i686) Gecko/20071127 Firefox/2.0.0.11

第四个 origin_req_host 参数指的是请求方的 host 名称或者 IP 地址。
第五个 unverifiable 参数指的是这个请求是否是无法验证的，默认是False。意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个 HTML 文档中的图片，但是我们没有自动抓取图像的权限，这时 unverifiable 的值就是 True。
第六个 method 参数是一个字符串，它用来指示请求使用的方法，比如GET，POST，PUT等等。

下面我们传入多个参数构建一个 Request 来感受一下：

from urllib import request, parse

url = 'http://httpbin.org/post'
headers = {
    'User-Agent': ,
    'Host': 'httpbin.org'
}
dict = {
    'name': 'Germey'
}
data = bytes(parse.urlencode(dict), encoding='utf8')
req = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

在这里我们通过四个参数构造了一个 Request，url 即请求 URL，在headers 中指定了 User-Agent 和 Host，传递的参数 data 用了 urlencode() 和 bytes() 方法来转成字节流，另外指定了请求方式为 POST。
运行结果如下：

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "mark"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "9", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/4.0 (compatible; MSIE 5.5; windows NT)"
  }, 
  "json": null, 
  "origin": "124.126.3.94, 124.126.3.94", 
  "url": "https://httpbin.org/post"
}

通过观察结果可以发现，我们成功设置了 data，headers 以及 method。
另外 headers 也可以用 add_header() 方法来添加。

req = request.Request(url=url, data=data, method='POST')
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')

如此一来，我们就可以更加方便地构造一个 Request，实现请求的发送啦。

3. 高级用法

有没有发现，在上面的过程中，我们虽然可以构造 Request，但是一些更高级的操作，比如 Cookies 处理，代理设置等操作我们该怎么办？
接下来就需要更强大的工具 Handler 登场了。
简而言之我们可以把它理解为各种处理器，有专门处理登录验证的，有处理 Cookies 的，有处理代理设置的，利用它们我们几乎可以做到任何 HTTP 请求中所有的事情。
首先介绍下 urllib.request 模块里的 BaseHandler类，它是所有其他 Handler 的父类，它提供了最基本的 Handler 的方法，例如 default_open()、protocol_request() 方法等。
接下来就有各种 Handler 子类继承这个 BaseHandler 类，举例几个如下：

HTTPDefaultErrorHandler 用于处理 HTTP 响应错误，错误都会抛出 HTTPError 类型的异常。
HTTPRedirectHandler 用于处理重定向。
HTTPCookieProcessor 用于处理 Cookies。
ProxyHandler 用于设置代理，默认代理为空。
HTTPPasswordMgr 用于管理密码，它维护了用户名密码的表。
HTTPBasicAuthHandler 用于管理认证，如果一个链接打开时需要认证，那么可以用它来解决认证问题。
另外还有其他的 Handler 类，在这不一一列举了，详情可以参考官方文档： https://docs.python.org/3/lib...

它们怎么来使用，不用着急，下面会有实例为你演示。
另外一个比较重要的类就是 OpenerDirector，我们可以称之为 Opener，我们之前用过 urlopen() 这个方法，实际上它就是 Urllib为我们提供的一个 Opener。
那么为什么要引入 Opener 呢？因为我们需要实现更高级的功能，之前我们使用的 Request、urlopen() 相当于类库为你封装好了极其常用的请求方法，利用它们两个我们就可以完成基本的请求，但是现在不一样了，我们需要实现更高级的功能，所以我们需要深入一层进行配置，使用更底层的实例来完成我们的操作。
所以，在这里我们就用到了比调用 urlopen() 的对象的更普遍的对象，也就是 Opener。
Opener 可以使用 open() 方法，返回的类型和 urlopen() 如出一辙。那么它和 Handler 有什么关系？简而言之，就是利用 Handler 来构建 Opener。
下面我们用几个实例来感受一下他们的用法：

认证

有些网站在打开时它就弹出了一个框，直接提示你输入用户名和密码，认证成功之后才能查看页面，如图 3-2 所示：

Python3网络爬虫实战-20、使用Urllib：发送请求

图 3-2 认证页面
那么我们如果要请求这样的页面怎么办呢？
借助于 HTTPBasicAuthHandler 就可以完成，代码如下：

from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
from urllib.error import URLError

username = 'username'
password = 'password'
url = 'http://localhost:5000/'

p = HTTPPasswordMgrWithDefaultRealm()
p.add_password(None, url, username, password)
auth_handler = HTTPBasicAuthHandler(p)
opener = build_opener(auth_handler)

try:
    result = opener.open(url)
    html = result.read().decode('utf-8')
    print(html)
except URLError as e:
    print(e.reason)

在这里，首先实例化了一个 HTTPBasicAuthHandler 对象，参数是 HTTPPasswordMgrWithDefaultRealm 对象，它利用 add_password() 添加进去用户名和密码，这样我们就建立了一个处理认证的 Handler。
接下来利用 build_opener() 方法来利用这个 Handler 构建一个 Opener，那么这个 Opener 在发送请求的时候就相当于已经认证成功了。
接下来利用 Opener 的 open() 方法打开链接，就可以完成认证了，在这里获取到的结果就是认证后的页面源码内容。

代理

在做爬虫的时候免不了要使用代理，如果要添加代理，可以这样做：

from urllib.error import URLError
from urllib.request import ProxyHandler, build_opener

proxy_handler = ProxyHandler({
    'http': 'http://127.0.0.1:9743',
    'https': 'https://127.0.0.1:9743'
})
opener = build_opener(proxy_handler)
try:
    response = opener.open('https://www.baidu.com')
    print(response.read().decode('utf-8'))
except URLError as e:
    print(e.reason)

在此本地搭建了一个代理，运行在 9743 端口上。
在这里使用了 ProxyHandler，ProxyHandler 的参数是一个字典，键名是协议类型，比如 HTTP 还是 HTTPS 等，键值是代理链接，可以添加多个代理。
然后利用 build_opener() 方法利用这个 Handler 构造一个 Opener，然后发送请求即可。

Cookies

Cookies 的处理就需要 Cookies 相关的 Handler 了。
我们先用一个实例来感受一下怎样将网站的 Cookies 获取下来，代码如下：

import http.cookiejar, urllib.request

cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
for item in cookie:
    print(item.name+"="+item.value)

首先我们必须声明一个 CookieJar 对象，接下来我们就需要利用 HTTPCookieProcessor 来构建一个 Handler，最后利用 build_opener() 方法构建出 Opener，执行 open() 函数即可。
运行结果如下：

BAIDUID=4329C4F53C9D52CA1E6AC6CA18DA356F:FG=1
BIDUPSID=4329C4F53C9D52CA1E6AC6CA18DA356F
H_PS_PSSID=26522_1449_21090_29135_29238_28519_29098_29368_28834_29221_26350_20719
PSTM=1560743836
delPer=0
BDSVRTM=0
BD_HOME=0

可以看到输出了每一条 Cookie 的名称还有值。
不过既然能输出，那可不可以输出成文件格式呢？我们知道 Cookies 实际也是以文本形式保存的。
答案当然是肯定的，我们用下面的实例来感受一下：

filename = 'cookies.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)

这时的 CookieJar就需要换成 MozillaCookieJar，生成文件时需要用到它，它是 CookieJar 的子类，可以用来处理 Cookies 和文件相关的事件，读取和保存 Cookies，它可以将 Cookies 保存成 Mozilla 型浏览器的 Cookies 的格式。
运行之后可以发现生成了一个 cookies.txt 文件。
内容如下：

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file!  Do not edit.

.baidu.com    TRUE    /    FALSE    3708227627    BAIDUID    7270D7398BA0805A388F14699840D7DC:FG=1
.baidu.com    TRUE    /    FALSE    3708227627    BIDUPSID    7270D7398BA0805A388F14699840D7DC
.baidu.com    TRUE    /    FALSE        H_PS_PSSID    1430_21093_29135_29237_28518_29098_29368_28837_29221
.baidu.com    TRUE    /    FALSE    3708227627    PSTM    1560743980
.baidu.com    TRUE    /    FALSE        delPer    0
www.baidu.com    FALSE    /    FALSE        BDSVRTM    0
www.baidu.com    FALSE    /    FALSE        BD_HOME    0

另外还有一个 LWPCookieJar，同样可以读取和保存 Cookies，但是保存的格式和 MozillaCookieJar 的不一样，它会保存成与 libwww-perl(LWP) 的 Cookies 文件格式。
要保存成 LWP 格式的 Cookies 文件，可以在声明时就改为：

cookie = http.cookiejar.LWPCookieJar(filename)

生成的内容如下：

#LWP-Cookies-2.0
Set-Cookie3: BAIDUID="A19638BE46B11E183219DD2CFBC4557E:FG=1"; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-07-05 07:14:46Z"; version=0
Set-Cookie3: BIDUPSID=A19638BE46B11E183219DD2CFBC4557E; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-07-05 07:14:46Z"; version=0
Set-Cookie3: H_PS_PSSID=26524_1444_21120_29135_29237_28519_29098_29369_28832_29220; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0
Set-Cookie3: PSTM=1560744039; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-07-05 07:14:46Z"; version=0
Set-Cookie3: delPer=0; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0
Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
Set-Cookie3: BD_HOME=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0

由此看来生成的格式还是有比较大的差异的。
那么生成了 Cookies 文件，怎样从文件读取并利用呢？
下面我们以 LWPCookieJar 格式为例来感受一下：

cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookies.txt', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
print(response.read().decode('utf-8'))
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

可以看到我们这里调用了 load() 方法来读取本地的 Coookis 文件，获取到了 Cookies 的内容。不过前提是我们首先利用生成了 LWPCookieJar 格式的 Cookies，获取到 Cookies 之后，后面同样的方法构建 Handler 和 Opener 即可。
运行结果正常输出百度网页的源代码。
好，通过如上用法，我们可以实现绝大多数请求功能的设置了。

4. 结语

以上便是 Urllib 库中 request 模块的基本用法

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python3网络爬虫实战-20、使用U

本文链接: https://www.lsjlt.com/news/192146.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python3网络爬虫实战-20、使用U

学习爬虫，最初的操作便是来模拟浏览器向服务器发出一个请求，那么我们需要从哪个地方做起呢？请求需要我们自己来构造吗？我们需要关心请求这个数据结构的实现吗？我们需要了解 HTTP、TCP、IP 层的网络传输通信吗？我们需要知道服务器的响应和应答...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-23、使用U

利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析，本节我们来简单了解一下它的用法。 Robots 协议也被称作爬虫协议、机器人协议，它的全名叫做网络爬虫排除标准（Robots Exclusio...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-21、使用U

在前面一节我们了解了 Request 的发送过程，但是在网络情况不好的情况下，出现了异常怎么办呢？这时如果我们不处理这些异常，程序很可能报错而终止运行，所以异常处理还是十分有必要的。 Urllib 的 error 模块定义了由 reques...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-22、使用U

Urllib 库里还提供了 parse 这个模块，它定义了处理 URL 的标准接口，例如实现 URL 各部分的抽取，合并以及链接转换。它支持如下协议的 URL 处理：file、ftp、gopher、hdl、http、https、imap、m...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-10、爬虫框

我们直接用 Requests、Selenium 等库写爬虫，如果爬取量不是太大，速度要求不高，是完全可以满足需求的。但是写多了会发现其内部许多代码和组件是可以复用的，如果我们把这些组件抽离出来，将各个功能模块化，就慢慢会形成一个框架雏形，久...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-11、爬虫框

ScrapySplash 是一个 Scrapy 中支持 JavaScript 渲染的工具，本节来介绍一下它的安装方式。ScrapySplash 的安装分为两部分，一个是是 Splash 服务的安装，安装方式是通过 Docker，安装之后会...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-15、爬虫基

在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 基本原理等。那么本章内容就对一些在做爬虫之前所需要的基础知识做一些简单的总结。在本节我们会详细了解 HTTP 的基本原理...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-17、爬虫基

爬虫，即网络爬虫，我们可以把互联网就比作一张大网，而爬虫便是在网上爬行的蜘蛛，我们可以把网的节点比做一个个网页，爬虫爬到这就相当于访问了该页面获取了其信息，节点间的连线可以比做网页与网页之间的链接关系，这样蜘蛛通过一个节点后可以顺着节点连线...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-9、APP爬

Appium 是移动端的自动化测试工具，类似于前面所说的 Selenium，利用它我们可以驱动 Android、iOS 等设备完成自动化测试，比如模拟点击、滑动、输入等操作，其官方网站为：http://appium.io/，本节来了解一下 ...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-7、APP爬

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProx...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-8、APP爬

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProx...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-6、APP爬

除了 Web 网页，爬虫也可以对 APP 的数据进行抓取，APP 中的页面要加载出来，首先需要获取数据，那么这些数据一般是通过请求服务器的接口来获取的，由于 APP 端没有像浏览器一样的开发者工具直接比较直观地看到后台的请求，所以对 APP...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-30、PyQ

在上一节我们介绍了 BeautifulSoup 的使用，它是一个非常强大的网页解析库，可有没有觉得它的一些方法使用有点不适应？有没有觉得它的 CSS 选择器功能没有那么强大？如果你对 Web 有所涉及，如果你比较喜欢用 CSS 选择器，如...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-18、Ses

在浏览网站的过程中我们经常会遇到需要登录的情况，有些页面只有登录之后我们才可以访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就会需要重新登录。还有一些网站有时在我们打开浏览器的时候就自动登录了，而且很长的时间都不会失效，这种...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-25、req

在前面一节我们了解了 Requests 的基本用法，如基本的 GET、POST 请求以及 Response 对象的用法，本节我们再来了解下 Requests 的一些高级用法，如文件上传，代理设置，Cookies 设置等等。我们知道 Re...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-16、Web

我们平时用浏览器访问网站的时候，一个个站点形形×××，页面也各不相同，但有没有想过它是为何才能呈现出这个样子的？那么本节我们就来了解一下网页的基本组成、结构、节点等内容。网页可以分为三大部分，HTML、CSS、JavaScript，我们...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-24、req

在前面一节我们了解了 Urllib 的基本用法，但是其中确实有不方便的地方。比如处理网页验证、处理 Cookies 等等，需要写 Opener、Handler 来进行处理。为了更加方便地实现这些操作，在这里就有了更为强大的库 Request...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-27、Req

本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容，Requests 相较于 Urllib 使用更加方便，而目前我们还没有系统学习 HTML 解析库，所以可能对 HTML 的解析库不是很了解，所以本节我们选...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-5、Web库

Web 想必我们都不陌生，我们现在日常访问的网站都是 Web 服务程序搭建而成的，Python 同样不例外也有一些这样的 Web 服务程序，比如 Flask、Django 等，我们可以拿它来开发网站，开发接口等等。在本书中，我们主要要用到...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-13、部署相

在将 Scrapy 代码部署到远程 Scrapyd 的时候，其第一步就是要将代码打包为 Egg 文件，其次需要将 Egg 文件上传到远程主机，这个过程如果我们用程序来实现是完全可以的，但是我们并不需要做这些工作，因为 ScrapydCli...

99+

2023-01-31

爬虫实战网络