iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python 爬虫利器 Selenium
  • 144
分享到

Python 爬虫利器 Selenium

爬虫利器Python 2023-01-30 22:01:03 144人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

前面几节,我们学习了用 requests 构造页面请求来爬取静态网页中的信息以及通过 requests 构造 ajax 请求直接获取返回的 JSON 信息。 还记得前几节,我们在构造请求时会给请求加上浏览器 headers,目的就是为了让

前面几节,我们学习了用 requests 构造页面请求来爬取静态网页中的信息以及通过 requests 构造 ajax 请求直接获取返回的 JSON 信息。

还记得前几节,我们在构造请求时会给请求加上浏览器 headers,目的就是为了让我们的请求模拟浏览器的行为,防止被网站的反爬虫策略限制。今天要介绍的 selenium 是一款强大的工具,它可以控制我们的浏览器,这样一来程序的行为就和人类完全一样了。

通过使用 Selenium 可以解决几个问题:

  • 页面内容是由 javascript 动态生成,通过 requests 请求页面无法获取内容。
  • 爬虫程序被反爬虫策略限制
  • 让程序的行为和人一样
  1. 安装

    pip install selenium

  2. 安装浏览器驱动

    驱动下载地址

    下载后把驱动文件加入环境变量。或者直接把驱动文件和 python脚本放到同一文件夹下面

  3. 测试
    安装完成后,可以编写以下脚本来测试是否安装成功。
    Python from selenium import WEBdriver driver = webdriver.Chrome() # 创建一个 Chrome WebDriver 实例 driver.get('https://www.baidu.com/') # 打开网址
    运行后会发现程序自动打开了 Chrome 浏览器,并且定向到了百度首页。

  4. 与页面交互
    WebDriver定义了很多方法,我们可以很方便的操作页面上的元素
    比如获取元素,可以通过 driver.find_element_by_id("id")或者driver.find_element_by_name("name")以及 xpath路径的方式来获取元素。可以通过send_keys 向输入框中写入文本。
    python from selenium import webdriver driver = webdriver.Chrome() driver.get('Https://www.baidu.com/') search_input = driver.find_element_by_id("kw") # 获取到百度搜索框 search_input.send_keys("刘亦菲") # 自动输入 刘亦菲 submit = driver.find_element_by_id("su") # 获取到百度一下按钮 submit.click() # 点击搜索
    运行以上脚本,程序会自动打开 Chrome 浏览器,并自动搜索 刘亦菲

  5. 其他操作
    Selenium 可以进行各种各样的操作,使程序完全符合人类的操作习惯。下面看一下还有哪些功能。

other.png

具体可以看官方文档,这里贴一下地址
[https://selenium-python-zh.readthedocs.io/en/latest/index.html](https://selenium-python-zh.readthedocs.io/en/latest/index.html)

--结束END--

本文标题: Python 爬虫利器 Selenium

本文链接: https://www.lsjlt.com/news/179782.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python 爬虫利器 Selenium
    前面几节,我们学习了用 requests 构造页面请求来爬取静态网页中的信息以及通过 requests 构造 Ajax 请求直接获取返回的 JSON 信息。 还记得前几节,我们在构造请求时会给请求加上浏览器 headers,目的就是为了让...
    99+
    2023-01-30
    爬虫 利器 Python
  • python爬虫之利用Selenium+Requests爬取拉勾网
    目录一、前言二、分析url三、获取所有城市和页数四、生成params参数五、获取数据六、总结一、前言 利用selenium+requests访问页面爬取拉勾网招聘信息 二、分析url...
    99+
    2024-04-02
  • Selenium爬虫
    第01节 Selenium 1. Selenium概述 Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器。 因为Selenium可以控制浏览器发...
    99+
    2023-09-18
    python chrome 爬虫
  • 08 Python爬虫之selenium
    ---恢复内容开始--- 一. 先介绍图片懒加载技术   当获取一个网站的图片数据时,只能爬取到图片的名称,并不能获得链接,而且也不能获得xpath表达式。这是应用了图片懒加载技术。   - 图片懒加载技术的概念:     -- 图片懒加...
    99+
    2023-01-31
    爬虫 Python selenium
  • Python3爬虫利器:Selenium怎么安装
    小编给大家分享一下Python3爬虫利器:Selenium怎么安装,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!python主要应用领域有哪些1、云计算,典型应用OpenStack。2、WEB前端开发,众多大型网站均为Py...
    99+
    2023-06-14
  • python中如何利用selenium进行浏览器爬虫
    这篇文章给大家介绍python中如何利用selenium进行浏览器爬虫,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。相信大家刚开始在做爬虫的时候,是不是requests和sound这两个库来使用,这样确实有助于我们学习...
    99+
    2023-06-02
  • python爬虫之selenium模块
    目录一、什么是Selenium二、selenium安装1、PhantomJS: 无可视化界面的浏览器(无头浏览器)2、下载浏览器驱动三、selenium基本使用1、声明浏览器对象He...
    99+
    2024-04-02
  • Python-Selenium自动化爬虫
    目录1.安装2.下载浏览器驱动3.实例3.1下载对应版本的浏览器驱动3.2测试code,打开一个网页,并获取网页的标题3.3一个小样例3.4自动输入并跳转4.开启无头模式5.保存页面...
    99+
    2024-04-02
  • python: 爬虫利器requests
    requests并不是系统自带的模块,他是第三方库,需要安装才能使用 闲话少说,来,让我们上代码:简单的看一下效果: import requests requests = requests.session() headers = { ...
    99+
    2023-01-31
    爬虫 利器 python
  • Python爬虫基础初探selenium
    目录Seleniumselenium的用途selenium是优缺点1. Selenium工作原理1.1 Selenium配置1.2 浏览器驱动1.3 使用Selenium2 快速入门...
    99+
    2024-04-02
  • python爬虫selenium模块详解
    目录selenium模块 selenium基本概念基本使用基于浏览器自动化的操作selenium处理iframe:selenium模拟登陆QQ空间无头浏览器和规避检测selenium...
    99+
    2024-04-02
  • python爬虫之利用selenium模块自动登录CSDN
    目录一、页面分析二、引入selenium模块及驱动2.1 并将安装好的Chromedriver.exe引入到代码中2.2 浏览器驱动引入三、爬虫模拟登录3.1 设置网址链接3.2 切...
    99+
    2024-04-02
  • Python爬虫利器二之Beautif
    上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可...
    99+
    2023-01-31
    爬虫 利器 Python
  • python3爬虫-通过selenium
    from selenium import webdriver from selenium.common.exceptions import NoSuchElementException from selenium.webdriver.c...
    99+
    2023-01-31
    爬虫 selenium
  • python 爬虫利器优美的Beauti
        近期在研究py的网络编程,编写爬虫也是顺利成章的,开始在纠结与用正则表达式来匹配,到后来发现了Beautifulsoup,用他可以非常完美的帮我完成了这些任务:       Beautiful Soup 是用Python写的一个HT...
    99+
    2023-01-31
    爬虫 利器 优美
  • Linux 服务器配置selenium 爬虫
    Linux 服务器配置使用代理 IP 的selenium 爬虫 ​ 在 Linux 服务器运行爬虫有时可以取得奇效,但在 Linux 服务器环境(即无图形化界面)下配置爬虫环境、代理 IP 与常见的 Windows 环境有着较大区别。本文为...
    99+
    2023-12-23
    服务器 linux selenium
  • python爬虫之selenium模块怎么使用
    这篇文章主要介绍了python爬虫之selenium模块怎么使用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇python爬虫之selenium模块怎么使用文章都会有所收获,下面我们一起来看看吧。一、什么是Se...
    99+
    2023-06-30
  • Python怎么实现selenium多线程爬虫
    要在Python中实现Selenium多线程爬虫,你可以按照以下步骤进行操作: 导入必要的库: from selenium im...
    99+
    2023-10-24
    Python selenium
  • Python爬虫基础之selenium库怎么用
    小编给大家分享一下Python爬虫基础之selenium库怎么用,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、selenium简介官网总的来说: seleni...
    99+
    2023-06-15
  • web自动化爬虫selenium ce
    基本环境:centos7,python3.x 1.安装selenium pip3 install selenium 2.安装chrome-browser wget https://dl.google.com/linux/d... --no...
    99+
    2023-01-31
    爬虫 web ce
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作