爬虫养成记 - 网络下载器urllib_编程网

申明：本系列文章借鉴了慕课网的课程，Http://www.imooc.com/learn/563。慕课网是一个非常赞的学习网站。

urllib2是python2.x下的一个模块，在python3.x中，urllib2被拆分成urllib.request和urllib.error.

实现一个最简单的下载器

使用urllib2.urlopen(url)函数可以给服务器发送一个请求。
该函数返回一个file-like object. 该返回的对象有三个额外的函数：

geturl() 取得服务器返回的url。一般用来判断是否需要重定向。
info() 获取页面的meta信息
getcode() 获取响应的http状态码

例如我们写了一小段程序

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
print response.getcode()
print response.info()

用来下载百度首页的内容。

构造一个request对象

urllib2.urlopen()函数不仅仅能接收一个url字符串，还能接收一个request对象。
我们可以在Request对象中添加数据和header。

设置请求头

import urllib2

request = urllib2.Request('https://www.zhihu.com/question/28593608/answer/141936198')
request.add_header('User-Agent', 'Mozilla/5.0')

response = urllib2.urlopen(request)
print response.read()

Post请求方法和在请求中添加数据

上面的代码是一个爬取知乎某一个回答的代码。我们可以看到，我们并没有在request中添加data。
urllib2 默认没有data的，请求方式为GET。
urllib2 如果添加了data，那么请求方式为POST。
例如：

import urllib

values = {
    "name": "charlie",
    "age": 20,
    "gender": "male"
}

data = urllib.urlencode(values)

request.add_data(data)

我们使用POST方式提交数据的时候，我们需要创建一个字典型数据，并且用urllib.urlencode()函数将器编码成字符串，并用Request.add_data()函数添加到request中。

cookie、https、Proxy、HttpRedirect

实际情况中，往往比上面的更加复杂，例如很多网站会设置cookie、可以会使用https加密传输，可能会设置代理，会有重定向等。
如何要处理上面这些特殊的情境，那么我们则需要添加特殊的处理器。

HTTPCookieProcessor
ProxyHandler
HTTPHandler
HTTPRedirectHandler

构造好上述对象后，需要运用urllib2.build_opener()创建一个opener.
然后将opener安装到urllib2中: urllib2.install_opener(opener)。
例如：

import urllib2
import cookielib

cookie_jar = cookielib.CookieJar()
cookie_processor = urllib2.HTTPCookieProcessor(cookiejar=cookie_jar)
opener = urllib2.build_opener(cookie_processor)
urllib2.install_opener(opener)

response = urllib2.urlopen("http://www.baidu.com")
for item in cookie_jar:
    print item.name, item.value

如上述代码所示，我们先新建了一个CookieJar。CookieJar是一个内存中保存cookie的对象。
然后我们构造一个cookie的处理器——HTTPCookieProcessor。
然后我们在根据cookie处理器构造一个opener。

opener的概念

opener我们可以理解成打开网页获取response的东西。默认的opener只能接收url、data或resquest等的一个opener。
如果我们想要获得更加多的功能，那么我们就需要构造一个有HttpCookieProcessor的opener。

更多关于urllib2的opener概念，可以阅读一篇非常棒的文章：http://cuiqinGCai.com/968.html

爬虫养成记 - 网络下载器urllib

实现一个最简单的下载器

构造一个request对象

设置请求头

Post请求方法和在请求中添加数据

cookie、https、Proxy、HttpRedirect

opener的概念

本篇文章演示代码以及资料文档资料下载

爬虫养成记 - 网络下载器urllib

node网络爬虫实例了解下？

如何使用Python网络爬虫实现起点小说下载

python3爬虫（4）各种网站视频下载

【Python3爬虫】网易云音乐歌单下载

python3 网页爬虫图片下载无效链

python3爬虫-下载网易云音乐，评论

python爬虫之小说网站--下载小说(

PHP学习笔记：网络爬虫与数据采集

Python爬虫怎么全网搜索并下载音乐

Python：使用爬虫抓取网页中的视频并下载（完整源码）

python网络爬虫如何实现个性化音乐播放器

python网络爬虫实现个性化音乐播放器示例解析

阿里云网络服务器下载详细教程

怎么分析Python网络爬虫四大选择器正则表达式、BS4、Xpath、CSS

WindowsXP系统设置虚拟连接附网络加速器下载

阿里云服务器下的载荷投递服务高效稳定的网络传输

记录一下谷歌浏览器在mac启动台生成网页图标的问题

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义