Python3网络爬虫实战-9、APP爬

爬虫实战网络 2023-01-31 07:01:29 883人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

Appium 是移动端的自动化测试工具，类似于前面所说的 selenium，利用它我们可以驱动 Android、iOS 等设备完成自动化测试，比如模拟点击、滑动、输入等操作，其官方网站为：http://appium.io/，本节来了解一下

Appium 是移动端的自动化测试工具，类似于前面所说的 selenium，利用它我们可以驱动 Android、iOS 等设备完成自动化测试，比如模拟点击、滑动、输入等操作，其官方网站为：http://appium.io/，本节来了解一下 Appium 的安装方式。

GitHub：https://github.com/appium/appium
官方网站：http://appium.io/
官方文档：http://appium.io/introduction...
下载链接：https://github.com/appium/app...
python Client：https://github.com/appium/pyt...

首先我们需要安装 Appium，Appium 负责驱动移动端来完成一系列操作，对 ioS 设备来说，它使用苹果的 UIAutomation 来实现驱动，对于 Android 来说，它使用 UiAutomator 和 Selendroid 来实现驱动。
同时 Appium 也相当于一个服务器，我们可以向 Appium 发送一些操作指令，Appium 就会根据不同的指令对移动设备进行驱动，完成不同的动作。
安装 Appium 有两种方式，一种是直接下载安装包 Appium Desktop 来安装，另外一种是通过 node.js 来安装，下面我们各自介绍一下两种安装方式。

Appium Desktop

Appium Desktop 支持全平台的安装，我们直接从 gitHub 的 Releases 里面安装即可，链接为：https://github.com/appium/app...。

windows 平台可以下载 exe 安装包如 appium-desktop-Setup-1.1.0.exe，Mac 平台可以下载 dmg 安装包如 appium-desktop-1.1.0.dmg，linux 平台可以选择下载源码，但是更推荐用下文的 node.js 安装方式。
安装完成之后运行之后页面如图 1-73 所示：

[外链图片转存失败(img-D4LVxHtL-1564062548537)(https://upload-images.jianshu.io/upload_images/17885815-44d5f10efdfcd17c.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图 1-73 运行页面
如果出现此页面则证明安装成功。

Node.js

首先需要安装 Node.js，具体的安装方式可以参见：http://www.runoob.com/nodejs/...，安装完成之后就可以使用 npm 命令了。
接下来使用 npm 命令全局安装 Appium 即可，命令如下：

npm install -g appium
Python资源分享qun 784758214 ,内有安装包，pdf，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

等待命令执行执行完成即可，这样就成功安装了 Appium。

如果我们要使用 Android 设备做 App 抓取的话，还需要下载和配置 Android SDK，在这里推荐直接安装 Android Studio，其下载地址为：https://developer.android.com/...，下载之后直接安装即可。
完成之后我们还需要下载 Android SDK，直接打开首选项里面的 Android SDK 设置页面，勾选要安装的 SDK 版本，点击确定即可开始下载和安装勾选的 SDK 版本，如图 1-74 所示：

Python3网络爬虫实战-9、APP爬取相关库的安装：Appium的安装

图 1-74 Android SDK 设置页面
另外还需要配置一下环境变量，添加 ANDROID_HOME 为 Android SDK 所在路径，然后再添加 SDK 文件夹下的 tools 和 platfORM-tools 文件夹到 PATH 中。
更详细的配置可以参考 Android Studio 的官方文档：https://developer.android.com/...。

首先需要声明的是，Appium 是一个做自动化测试的工具，用它来测试我们自己开发的 App 是完全没问题的，它携带的是开发者证书（Development Certificate）。但如果我们想拿 iOS 设备来做数据爬取的话又是另外一回事了，一般我们做数据爬取都是使用现有的APP，在 iOS 上一般都是通过 App Store 下载的，它携带的是分发证书（Distribution Certificate），而携带这种证书的应用都是禁止被测试的，所以只有获取 ipa 安装包再重新签名之后才可以被 Appium 测试，具体的方法不再展开阐述，如感兴趣可以搜索相关资料。
因此在这里推荐直接使用 Android 来进行测试，如果你可以完成上述操作重签名操作，那么可以参考如下内容配置 iOS 开发环境。
Appium 驱动 iOS 设备必须要在 Mac 下进行，Windows 和 Linux 是平台是无法完成的，下面只介绍一下 Mac 平台的相关配置。
Mac 平台需要的配置如下：

Mac OS X 10.12 及更高版本

XCode 8 及更高版本
配置满足要求之后执行如下命令即可配置开发依赖的一些库和工具：

xcode-select --install
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

这样 iOS 部分开发环境就配置完成了，我们就可以用 iOS 模拟器来进行测试和数据抓取了。
如果想要用真机进行测试和数据抓取，还需要额外配置一下其他的环境

以上是 Appium 开发环境的搭建，在后文我们会用它来抓取微信朋友圈的内容。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python3网络爬虫实战-9、APP爬

本文链接: https://www.lsjlt.com/news/192154.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python3网络爬虫实战-9、APP爬

Appium 是移动端的自动化测试工具，类似于前面所说的 Selenium，利用它我们可以驱动 Android、iOS 等设备完成自动化测试，比如模拟点击、滑动、输入等操作，其官方网站为：http://appium.io/，本节来了解一下 ...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-7、APP爬

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProx...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-8、APP爬

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProx...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-6、APP爬

除了 Web 网页，爬虫也可以对 APP 的数据进行抓取，APP 中的页面要加载出来，首先需要获取数据，那么这些数据一般是通过请求服务器的接口来获取的，由于 APP 端没有像浏览器一样的开发者工具直接比较直观地看到后台的请求，所以对 APP...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-11、爬虫框

ScrapySplash 是一个 Scrapy 中支持 JavaScript 渲染的工具，本节来介绍一下它的安装方式。ScrapySplash 的安装分为两部分，一个是是 Splash 服务的安装，安装方式是通过 Docker，安装之后会...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-15、爬虫基

在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 基本原理等。那么本章内容就对一些在做爬虫之前所需要的基础知识做一些简单的总结。在本节我们会详细了解 HTTP 的基本原理...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-10、爬虫框

我们直接用 Requests、Selenium 等库写爬虫，如果爬取量不是太大，速度要求不高，是完全可以满足需求的。但是写多了会发现其内部许多代码和组件是可以复用的，如果我们把这些组件抽离出来，将各个功能模块化，就慢慢会形成一个框架雏形，久...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-17、爬虫基

爬虫，即网络爬虫，我们可以把互联网就比作一张大网，而爬虫便是在网上爬行的蜘蛛，我们可以把网的节点比做一个个网页，爬虫爬到这就相当于访问了该页面获取了其信息，节点间的连线可以比做网页与网页之间的链接关系，这样蜘蛛通过一个节点后可以顺着节点连线...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-30、PyQ

在上一节我们介绍了 BeautifulSoup 的使用，它是一个非常强大的网页解析库，可有没有觉得它的一些方法使用有点不适应？有没有觉得它的 CSS 选择器功能没有那么强大？如果你对 Web 有所涉及，如果你比较喜欢用 CSS 选择器，如...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-18、Ses

在浏览网站的过程中我们经常会遇到需要登录的情况，有些页面只有登录之后我们才可以访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就会需要重新登录。还有一些网站有时在我们打开浏览器的时候就自动登录了，而且很长的时间都不会失效，这种...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-25、req

在前面一节我们了解了 Requests 的基本用法，如基本的 GET、POST 请求以及 Response 对象的用法，本节我们再来了解下 Requests 的一些高级用法，如文件上传，代理设置，Cookies 设置等等。我们知道 Re...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-16、Web

我们平时用浏览器访问网站的时候，一个个站点形形×××，页面也各不相同，但有没有想过它是为何才能呈现出这个样子的？那么本节我们就来了解一下网页的基本组成、结构、节点等内容。网页可以分为三大部分，HTML、CSS、JavaScript，我们...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-24、req

在前面一节我们了解了 Urllib 的基本用法，但是其中确实有不方便的地方。比如处理网页验证、处理 Cookies 等等，需要写 Opener、Handler 来进行处理。为了更加方便地实现这些操作，在这里就有了更为强大的库 Request...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-27、Req

本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容，Requests 相较于 Urllib 使用更加方便，而目前我们还没有系统学习 HTML 解析库，所以可能对 HTML 的解析库不是很了解，所以本节我们选...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-5、Web库

Web 想必我们都不陌生，我们现在日常访问的网站都是 Web 服务程序搭建而成的，Python 同样不例外也有一些这样的 Web 服务程序，比如 Flask、Django 等，我们可以拿它来开发网站，开发接口等等。在本书中，我们主要要用到...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-23、使用U

利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析，本节我们来简单了解一下它的用法。 Robots 协议也被称作爬虫协议、机器人协议，它的全名叫做网络爬虫排除标准（Robots Exclusio...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-13、部署相

在将 Scrapy 代码部署到远程 Scrapyd 的时候，其第一步就是要将代码打包为 Egg 文件，其次需要将 Egg 文件上传到远程主机，这个过程如果我们用程序来实现是完全可以的，但是我们并不需要做这些工作，因为 ScrapydCli...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-19、代理基

我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么的美好，然而一杯茶的功夫可能就会出现错误，比如 403 Forbidden，这时候打开网页一看，可能会看到“您的 IP 访问频率太高”这样的提示。出...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-28、解析库

上一节我们实现了一个最基本的爬虫，但提取页面信息时我们使用的是正则表达式，用过之后我们会发现构造一个正则表达式还是比较的繁琐的，而且万一有一点地方写错了就可能会导致匹配失败，所以使用正则来提取页面信息多多少少还是有些不方便的。对于网页的节...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-21、使用U

在前面一节我们了解了 Request 的发送过程，但是在网络情况不好的情况下，出现了异常怎么办呢？这时如果我们不处理这些异常，程序很可能报错而终止运行，所以异常处理还是十分有必要的。 Urllib 的 error 模块定义了由 reques...

99+

2023-01-31

爬虫实战网络