首页 > 资讯 > 后端开发 > Python >Python3网络爬虫实战-3、数据库的

247

分享到

Python3网络爬虫实战-3、数据库的

爬虫实战数据库 2023-01-31 07:01:26 247人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

抓取下网页代码之后，下一步就是从网页中提取信息，提取信息的方式有多种多样，可以使用正则来提取，但是写起来会相对比较繁琐。在这里还有许多强大的解析库，如 LXML、BeautifulSoup、PyQuery 等等，提供了非常强大的解析方法，如

抓取下网页代码之后，下一步就是从网页中提取信息，提取信息的方式有多种多样，可以使用正则来提取，但是写起来会相对比较繁琐。在这里还有许多强大的解析库，如 LXML、BeautifulSoup、PyQuery 等等，提供了非常强大的解析方法，如 XPath 解析、CSS 选择器解析等等，利用它们我们可以高效便捷地从从网页中提取出有效信息。

本节我们就来介绍一下这些库的安装过程。

LXML 是 python 的一个解析库，支持 html 和 XML 的解析，支持 XPath 解析方式，而且解析效率非常高。

1. 相关链接

2. Mac下的安装

pip3 install lxml

如果产生错误，可以执行如下命令将必要的类库安装：

xcode-select --install
Python资源分享qun 784758214 ,内有安装包，pdf，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

之后再重新运行 Pip 安装就没有问题了。

LXML 是一个非常重要的库，后面的 BeautifulSoup、scrapy 框架都需要用到此库，所以请一定安装成功。

3. 验证安装

安装完成之后，可以在 Python 命令行下测试。

$ python3
>>> import lxml

如果没有错误报出，则证明库已经安装好了。

BeautifulSoup 是 Python 的一个 HTML 或 XML 的解析库，我们可以用它来方便地从网页中提取数据，它拥有强大的 api 和多样的解析方式，本节我们了解下它的安装方式。

1. 相关链接

2. 准备工作

BeautifulSoup 的 HTML 和 XML 解析器是依赖于 LXML 库的，所以在此之前请确保已经成功安装好了 LXML 库，具体的安装方式参见上节。

3. Pip 安装

目前 BeautifulSoup 的最新版本是 4.x 版本，之前的版本已经停止开发了，推荐使用 Pip 来安装，安装命令如下：

pip3 install beautifulsoup4

命令执行完毕之后即可完成安装。

4. 验证安装

安装完成之后可以运行下方的代码验证一下。

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'lxml')
print(soup.p.string)

运行结果：

Hello

如果运行结果一致则证明安装成功。

注意在这里我们虽然安装的是 beautifulsoup4 这个包，但是在引入的时候是引入的 bs4，这是因为这个包源代码本身的库文件夹名称就是 bs4，所以安装完成之后，这个库文件夹就被移入到我们本机 Python3 的 lib 库里，所以识别到的库文件名称就叫做 bs4，所以我们引入的时候就引入 bs4 这个包。

因此，包本身的名称和我们使用时导入的包的名称并不一定是一致的。

PyQuery 同样是一个强大的网页解析工具，它提供了和 Jquery 类似的语法来解析 HTML 文档，支持 CSS 选择器，使用非常方便，本节我们了解下它的安装方式。

1. 相关链接

gitHub：https://github.com/gawel/pyquery
PyPi：https://pypi.python.org/pypi/...
官方文档：http://pyquery.readthedocs.io/

2. Pip安装


pip3 install pyquery

3. 验证安装

安装完成之后，可以在 Python 命令行下测试。

$ python3
>>> import pyquery

如果没有错误报出，则证明库已经安装好了。

爬虫过程中难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候我们可以直接用 OCR 来识别。

1. OCR

OCR，即 Optical Character Recognition，光学字符识别。是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。那么对于图形验证码来说，它都是一些不规则的字符，但是这些字符确实是由字符稍加扭曲变换得到的内容。
例如这样的验证码，如图 1-22 和 1-23 所示：
Python3网络爬虫实战-3、数据库的安装：MySQL、MongoDB、Redis

图 1-22 验证码

Python3网络爬虫实战-3、数据库的安装：MySQL、MongoDB、Redis

图 1-23 验证码
对于这种验证码，我们便可以使用 OCR 技术来将其转化为电子文本，然后爬虫将识别结果提交给服务器，便可以达到自动识别验证码的过程。
Tesserocr 是 Python 的一个 OCR 识别库，但其实是对 Tesseract 做的一层 Python API 封装，所以它的核心是 Tesseract，所以在安装 Tesserocr 之前我们需要先安装 Tesseract，本节我们来了解下它们的安装方式。

2. 相关链接

Tesserocr GitHub：https://github.com/sirfz/tess...
Tesserocr PyPi：https://pypi.python.org/pypi/...
Tesseract下载地址：http://digi.bib.uni-mannheim/....
Tesseract GitHub：https://github.com/tesseract-...
Tesseract 语言包：https://github.com/tesseract-...
Tesseract 文档：https://github.com/tesseract-...

3. Mac下的安装

Mac 下首先使用 Homebrew 安装 Imagemagick 和 Tesseract 库：

brew install imagemagick 
brew install tesseract 
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

接下来再安装 Tesserocr 即可：

pip3 install tesserocr pillow

这样我们便完成了 Tesserocr 的安装。

4. 验证安装

接下来我们可以使用 Tesseract 和 Tesserocr 来分别进行测试。
下面我们以如下的图片为样例进行测试，如图 1-26 所示：
Python3网络爬虫实战-3、数据库的安装：MySQL、MongoDB、Redis

图 1-26 测试样例
图片链接为：https://raw.githubusercontent/...，可以直接保存或下载。
我们首先用命令行进行测试，将图片下载保存为 image.png，然后用 Tesseract 命令行测试，命令如下：

tesseract image.png result -l eng && cat result.txt

运行结果：

Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Python3WEBSpider

我们调用了 tesseract 命令，第一个参数为图片名称，第二个参数 result 为结果保存的目标文件名称，-l 指定使用的语言包，在此使用 eng 英文，然后再用 cat 命令将结果输出。
第二行的运行结果便是图片的识别结果，Python3WebSpider。
我们可以看到这时已经成功将图片文字转为电子文本了。
然后我们还可以利用 Python 代码来测试，这里就需要借助于 Tesserocr 库了，测试代码如下：

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

如果在运行期间python3闪退，出现下面错误：

!strcmp(locale, "C"):Error:Assert failed:in file baseapi.cpp, line 209

就需要这样运行了：

import locale
locale.setlocale(locale.LC_ALL,'C')

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

在这里我们首先利用 Image 读取了图片文件，然后调用了 tesserocr 的 image_to_text() 方法，再将将其识别结果输出。
运行结果：

Python3WebSpider

另外我们还可以直接调用 file_to_text() 方法，也可以达到同样的效果：

import tesserocr
print(tesserocr.file_to_text('image.png'))
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

运行结果：

Python3WebSpider

如果成功输出结果，则证明 Tesseract 和 Tesserocr 都已经安装成功。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python3网络爬虫实战-3、数据库的

本文链接: https://www.lsjlt.com/news/192381.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python3网络爬虫实战-3、数据库的

抓取下网页代码之后，下一步就是从网页中提取信息，提取信息的方式有多种多样，可以使用正则来提取，但是写起来会相对比较繁琐。在这里还有许多强大的解析库，如 LXML、BeautifulSoup、PyQuery 等等，提供了非常强大的解析方法，如...

99+

2023-01-31

爬虫实战数据库
Python3网络爬虫实战-5、Web库

Web 想必我们都不陌生，我们现在日常访问的网站都是 Web 服务程序搭建而成的，Python 同样不例外也有一些这样的 Web 服务程序，比如 Flask、Django 等，我们可以拿它来开发网站，开发接口等等。在本书中，我们主要要用到...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-10、爬虫框

我们直接用 Requests、Selenium 等库写爬虫，如果爬取量不是太大，速度要求不高，是完全可以满足需求的。但是写多了会发现其内部许多代码和组件是可以复用的，如果我们把这些组件抽离出来，将各个功能模块化，就慢慢会形成一个框架雏形，久...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-11、爬虫框

ScrapySplash 是一个 Scrapy 中支持 JavaScript 渲染的工具，本节来介绍一下它的安装方式。ScrapySplash 的安装分为两部分，一个是是 Splash 服务的安装，安装方式是通过 Docker，安装之后会...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-15、爬虫基

在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 基本原理等。那么本章内容就对一些在做爬虫之前所需要的基础知识做一些简单的总结。在本节我们会详细了解 HTTP 的基本原理...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-17、爬虫基

爬虫，即网络爬虫，我们可以把互联网就比作一张大网，而爬虫便是在网上爬行的蜘蛛，我们可以把网的节点比做一个个网页，爬虫爬到这就相当于访问了该页面获取了其信息，节点间的连线可以比做网页与网页之间的链接关系，这样蜘蛛通过一个节点后可以顺着节点连线...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-28、解析库

上一节我们实现了一个最基本的爬虫，但提取页面信息时我们使用的是正则表达式，用过之后我们会发现构造一个正则表达式还是比较的繁琐的，而且万一有一点地方写错了就可能会导致匹配失败，所以使用正则来提取页面信息多多少少还是有些不方便的。对于网页的节...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-29、解析库

前面我们介绍了正则表达式的相关用法，但是一旦正则写的有问题，可能得到的就不是我们想要的结果了，而且对于一个网页来说，都有一定的特殊的结构和层级关系，而且很多节点都有id或class来对作区分，所以我们借助于它们的结构和属性来提取不也是可以的...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-9、APP爬

Appium 是移动端的自动化测试工具，类似于前面所说的 Selenium，利用它我们可以驱动 Android、iOS 等设备完成自动化测试，比如模拟点击、滑动、输入等操作，其官方网站为：http://appium.io/，本节来了解一下 ...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-4、存储库的

在前面一节我们介绍了几个数据库的安装方式，但这仅仅是用来存储数据的数据库，它们提供了存储服务，但如果想要和 Python 交互的话也同样需要安装一些 Python 存储库，如 MySQL 需要安装 PyMySQL，MongoDB 需要安装 ...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-7、APP爬

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProx...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-8、APP爬

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProx...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-6、APP爬

除了 Web 网页，爬虫也可以对 APP 的数据进行抓取，APP 中的页面要加载出来，首先需要获取数据，那么这些数据一般是通过请求服务器的接口来获取的，由于 APP 端没有像浏览器一样的开发者工具直接比较直观地看到后台的请求，所以对 APP...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-30、PyQ

在上一节我们介绍了 BeautifulSoup 的使用，它是一个非常强大的网页解析库，可有没有觉得它的一些方法使用有点不适应？有没有觉得它的 CSS 选择器功能没有那么强大？如果你对 Web 有所涉及，如果你比较喜欢用 CSS 选择器，如...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-18、Ses

在浏览网站的过程中我们经常会遇到需要登录的情况，有些页面只有登录之后我们才可以访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就会需要重新登录。还有一些网站有时在我们打开浏览器的时候就自动登录了，而且很长的时间都不会失效，这种...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-25、req

在前面一节我们了解了 Requests 的基本用法，如基本的 GET、POST 请求以及 Response 对象的用法，本节我们再来了解下 Requests 的一些高级用法，如文件上传，代理设置，Cookies 设置等等。我们知道 Re...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-16、Web

我们平时用浏览器访问网站的时候，一个个站点形形×××，页面也各不相同，但有没有想过它是为何才能呈现出这个样子的？那么本节我们就来了解一下网页的基本组成、结构、节点等内容。网页可以分为三大部分，HTML、CSS、JavaScript，我们...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-24、req

在前面一节我们了解了 Urllib 的基本用法，但是其中确实有不方便的地方。比如处理网页验证、处理 Cookies 等等，需要写 Opener、Handler 来进行处理。为了更加方便地实现这些操作，在这里就有了更为强大的库 Request...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-27、Req

本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容，Requests 相较于 Urllib 使用更加方便，而目前我们还没有系统学习 HTML 解析库，所以可能对 HTML 的解析库不是很了解，所以本节我们选...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-2、请求库安

在上一节我们了解了 ChromeDriver 的配置方法，配置完成之后我们便可以用 Selenium 来驱动 Chrome 浏览器来做相应网页的抓取。那么对于 Firefox 来说，也可以使用同样的方式完成 Selenium 的对接，这时...

99+

2023-01-31

爬虫实战网络