iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python3网络爬虫实战-1、请求库安
  • 301
分享到

Python3网络爬虫实战-1、请求库安

爬虫实战网络 2023-01-31 07:01:46 301人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

爬虫可以简单分为几步:抓取页面、分析页面、存储数据。 在第一步抓取页面的过程中,我们就需要模拟浏览器向服务器发出请求,所以需要用到一些 python 库来实现 Http 请求操作,在本书中我们用到的第三方库有 Requests、seleni

爬虫可以简单分为几步:抓取页面、分析页面、存储数据。

在第一步抓取页面的过程中,我们就需要模拟浏览器向服务器发出请求,所以需要用到一些 python 库来实现 Http 请求操作,在本书中我们用到的第三方库有 Requests、selenium、Aiotttp 等。

在本节我们介绍一下这些请求库的安装方法。

由于 Requests 属于第三方库,也就是 Python 默认不会自带这个库,需要我们手动去安装,下面我们首先看一下它的安装过程。

1. 相关链接

2. 安装

pip3 install requests

3. 验证安装

为了验证库是否已经安装成功,可以在命令行下测试一下:

$ python3
>>> import requests
Python资源分享qun 784758214 ,内有安装包,pdf学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

在命令行首先输入 python3,进入命令行模式,然后输入如上内容,如果什么错误提示也没有,那么就证明我们已经成功安装了 Requests。

Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等等操作,对于一些 javascript 渲染的页面来说,此种抓取方式非常有效,下面我们来看下 Selenium 的安装过程。

1. 相关链接

2. 安装

pip3 install selenium

3. 验证安装

进入 Python 命令行交互模式,导入一下 Selenium 包,如果没有报错,则证明安装成功。

$ python3
>>> import selenium

但这样还不够,我们还需要浏览器如 Chrome、Firefox 等浏览器来配合 Selenium 工作。

下面我们会介绍 Chrome、Firefox、Phantomjs 三种浏览器的配置方式,有了浏览器我们才可以配合 Selenium 进行页面的抓取。

在上节我们成功安装好了 Selenium 库,但是它是一个自动化测试工具,需要浏览器来配合它使用,那么本节我们就介绍一下 Chrome 浏览器及 ChromeDriver 驱动的配置。
首先需要下载一个 Chrome 浏览器,方法多样,在此不再赘述。
随后我们需要安装一个 ChromeDriver 才能驱动 Chrome 浏览器完成相应的操作,下面我们来介绍下怎样安装 ChromeDriver。

1. 相关链接

2. Mac安装

brew install chromedriver

如果安装失败,使用下面方法

brew cask install chromedriver

3. 验证安装

配置完成之后,就可以在命令行下直接执行 chromedriver 命令了。
命令行下输入:
chromedriver
输入控制台有类似输出,如图 1-17 所示:
Python3网络爬虫实战-1、请求库安装:Requests、Selenium、ChromeDriv

图 1-17 控制台输出
如果有类似输出则证明 ChromeDriver 的环境变量配置好了。
随后再在程序中测试,执行如下 Python 代码:

from selenium import WEBdriver
browser = webdriver.Chrome()
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

运行之后会弹出一个空白的 Chrome 浏览器,证明所有的配置都没有问题,如果没有弹出,请检查之前的每一步的配置。
如果弹出之后闪退,则可能是 ChromeDriver 版本和 Chrome 版本不简容,请更换 ChromeDriver 版本。
如果没有问题,接下来我们就可以利用 Chrome 来做网页抓取了。

4. 结语

既然 Chrome 可以通过 Selenium 驱动,Firefox 也可以,如果想要实现 Selenium 驱动 Firefox 浏览器可以参考下面的 GeckoDriver 的安装。

--结束END--

本文标题: Python3网络爬虫实战-1、请求库安

本文链接: https://www.lsjlt.com/news/192156.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作