Python 爬虫利器 Selenium

爬虫利器 Python 2023-01-30 22:01:03 144人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

前面几节，我们学习了用 requests 构造页面请求来爬取静态网页中的信息以及通过 requests 构造 ajax 请求直接获取返回的 JSON 信息。还记得前几节，我们在构造请求时会给请求加上浏览器 headers,目的就是为了让

前面几节，我们学习了用 requests 构造页面请求来爬取静态网页中的信息以及通过 requests 构造 ajax 请求直接获取返回的 JSON 信息。

还记得前几节，我们在构造请求时会给请求加上浏览器 headers,目的就是为了让我们的请求模拟浏览器的行为，防止被网站的反爬虫策略限制。今天要介绍的 selenium 是一款强大的工具，它可以控制我们的浏览器，这样一来程序的行为就和人类完全一样了。

通过使用 Selenium 可以解决几个问题：

页面内容是由 javascript 动态生成，通过 requests 请求页面无法获取内容。
爬虫程序被反爬虫策略限制
让程序的行为和人一样

安装

pip install selenium
安装浏览器驱动

驱动下载地址

下载后把驱动文件加入环境变量。或者直接把驱动文件和 python脚本放到同一文件夹下面
测试
安装完成后，可以编写以下脚本来测试是否安装成功。
Python from selenium import WEBdriver driver = webdriver.Chrome() # 创建一个 Chrome WebDriver 实例 driver.get('https://www.baidu.com/') # 打开网址
运行后会发现程序自动打开了 Chrome 浏览器，并且定向到了百度首页。
与页面交互
WebDriver定义了很多方法，我们可以很方便的操作页面上的元素
比如获取元素，可以通过 driver.find_element_by_id("id")或者driver.find_element_by_name("name")以及 xpath路径的方式来获取元素。可以通过send_keys 向输入框中写入文本。
python from selenium import webdriver driver = webdriver.Chrome() driver.get('Https://www.baidu.com/') search_input = driver.find_element_by_id("kw") # 获取到百度搜索框 search_input.send_keys("刘亦菲") # 自动输入刘亦菲 submit = driver.find_element_by_id("su") # 获取到百度一下按钮 submit.click() # 点击搜索
运行以上脚本，程序会自动打开 Chrome 浏览器，并自动搜索刘亦菲
其他操作
Selenium 可以进行各种各样的操作，使程序完全符合人类的操作习惯。下面看一下还有哪些功能。

具体可以看官方文档，这里贴一下地址
[https://selenium-python-zh.readthedocs.io/en/latest/index.html](https://selenium-python-zh.readthedocs.io/en/latest/index.html)

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python 爬虫利器 Selenium

本文链接: https://www.lsjlt.com/news/179782.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python 爬虫利器 Selenium

前面几节，我们学习了用 requests 构造页面请求来爬取静态网页中的信息以及通过 requests 构造 Ajax 请求直接获取返回的 JSON 信息。还记得前几节，我们在构造请求时会给请求加上浏览器 headers,目的就是为了让...

99+

2023-01-30

爬虫利器 Python
python爬虫之利用Selenium+Requests爬取拉勾网

目录一、前言二、分析url三、获取所有城市和页数四、生成params参数五、获取数据六、总结一、前言利用selenium+requests访问页面爬取拉勾网招聘信息二、分析url...

99+

2024-04-02
Selenium爬虫

第01节 Selenium 1. Selenium概述 Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器。因为Selenium可以控制浏览器发...

99+

2023-09-18

python chrome 爬虫
08 Python爬虫之selenium

---恢复内容开始--- 一. 先介绍图片懒加载技术　　当获取一个网站的图片数据时，只能爬取到图片的名称，并不能获得链接，而且也不能获得xpath表达式。这是应用了图片懒加载技术。　　- 图片懒加载技术的概念：　　　　-- 图片懒加...

99+

2023-01-31

爬虫 Python selenium
Python3爬虫利器:Selenium怎么安装

小编给大家分享一下Python3爬虫利器:Selenium怎么安装，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！python主要应用领域有哪些1、云计算，典型应用OpenStack。2、WEB前端开发，众多大型网站均为Py...

99+

2023-06-14
python中如何利用selenium进行浏览器爬虫

这篇文章给大家介绍python中如何利用selenium进行浏览器爬虫，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。相信大家刚开始在做爬虫的时候,是不是requests和sound这两个库来使用,这样确实有助于我们学习...

99+

2023-06-02
python爬虫之selenium模块

目录一、什么是Selenium二、selenium安装1、PhantomJS：无可视化界面的浏览器(无头浏览器)2、下载浏览器驱动三、selenium基本使用1、声明浏览器对象He...

99+

2024-04-02
Python-Selenium自动化爬虫

目录1.安装2.下载浏览器驱动3.实例3.1下载对应版本的浏览器驱动3.2测试code，打开一个网页，并获取网页的标题3.3一个小样例3.4自动输入并跳转4.开启无头模式5.保存页面...

99+

2024-04-02
python: 爬虫利器requests

requests并不是系统自带的模块，他是第三方库，需要安装才能使用闲话少说，来，让我们上代码：简单的看一下效果： import requests requests = requests.session() headers = { ...

99+

2023-01-31

爬虫利器 python
Python爬虫基础初探selenium

目录Seleniumselenium的用途selenium是优缺点1. Selenium工作原理1.1 Selenium配置1.2 浏览器驱动1.3 使用Selenium2 快速入门...

99+

2024-04-02
python爬虫selenium模块详解

目录selenium模块 selenium基本概念基本使用基于浏览器自动化的操作selenium处理iframe：selenium模拟登陆QQ空间无头浏览器和规避检测selenium...

99+

2024-04-02
python爬虫之利用selenium模块自动登录CSDN

目录一、页面分析二、引入selenium模块及驱动2.1 并将安装好的Chromedriver.exe引入到代码中2.2 浏览器驱动引入三、爬虫模拟登录3.1 设置网址链接3.2 切...

99+

2024-04-02
Python爬虫利器二之Beautif

上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beautiful Soup，有了它我们可...

99+

2023-01-31

爬虫利器 Python
python3爬虫-通过selenium

from selenium import webdriver from selenium.common.exceptions import NoSuchElementException from selenium.webdriver.c...

99+

2023-01-31

爬虫 selenium
python 爬虫利器优美的Beauti

近期在研究py的网络编程，编写爬虫也是顺利成章的，开始在纠结与用正则表达式来匹配，到后来发现了Beautifulsoup，用他可以非常完美的帮我完成了这些任务： Beautiful Soup 是用Python写的一个HT...

99+

2023-01-31

爬虫利器优美
Linux 服务器配置selenium 爬虫

Linux 服务器配置使用代理 IP 的selenium 爬虫在 Linux 服务器运行爬虫有时可以取得奇效，但在 Linux 服务器环境（即无图形化界面）下配置爬虫环境、代理 IP 与常见的 Windows 环境有着较大区别。本文为...

99+

2023-12-23

服务器 linux selenium
python爬虫之selenium模块怎么使用

这篇文章主要介绍了python爬虫之selenium模块怎么使用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇python爬虫之selenium模块怎么使用文章都会有所收获，下面我们一起来看看吧。一、什么是Se...

99+

2023-06-30
Python怎么实现selenium多线程爬虫

要在Python中实现Selenium多线程爬虫，你可以按照以下步骤进行操作：导入必要的库： from selenium im...

99+

2023-10-24

Python selenium
Python爬虫基础之selenium库怎么用

小编给大家分享一下Python爬虫基础之selenium库怎么用，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！一、selenium简介官网总的来说： seleni...

99+

2023-06-15
web自动化爬虫selenium ce

基本环境：centos7,python3.x 1.安装selenium pip3 install selenium 2.安装chrome-browser wget https://dl.google.com/linux/d... --no...

99+

2023-01-31

爬虫 web ce