Python爬虫基础之selenium库的用法总结

Python selenium库用法 python爬虫 2022-06-02 22:06:13 458人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

目录一、selenium简介二、selenium基本用法三、常用用法四、cookie的设置、获取与删除五、文件的上传与下载文件上传upload六、窗口的切换七、项目实战一、selenium简介官网总的来说：

一、selenium简介

官网

在这里插入图片描述

总的来说： selenium库主要用来做浏览器的自动化脚本库。

二、selenium基本用法


from selenium import WEBdriver

url = 'Http://www.baidu.com'

# 将webdriver实例化
path = 'C:\Program Files (x86)\python38-32\chromedriver.exe'
browser = webdriver.Chrome(executable_path = path)

# 用谷歌浏览器访问百度
 
r = browser.get(url)
with open ('test.txt','wb+') as f:
    f.write(r.content)

三、常用用法


'''
代码功能：selenium是的常用用法
时间：@Date: 2021-05-22 21:37:05
'''

from selenium import webdriver

# 导入Options类
from selenium.webdriver.chrome.options import Options

url = "https://movie.douban.com/"

# Options的实例化
chrome_options = Options()

# 设置浏览器参数

# --headless 是不显示浏览器启动以及执行过程
chrome_options.add_argument('--headless')

# 设置lang和User-Agent信息，防止反爬检测
chrome_options.add_argument('lang=zh_CN.utf-8')

UserAgent = 'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/90.0.4430.93 Safari/537.36'

chrome_options.add_argument('User-Agent='+UserAgent)

# 启动浏览器并设置chrome_options参数
driver = webdriver.Chrome(chrome_options=chrome_options)

# 设置浏览器窗口最大化
# driver.maximize_window()

# # 设置浏览器窗口最小化
# driver.minimize_window()

driver.get(url)

# 获取网页的标题
print(driver.title)

# page_source是获取网页的HTML代码
print(driver.page_source)

四、cookie的设置、获取与删除


from selenium import webdriver
import time

# 启动浏览器
driver = webdriver.Chrome()
driver.get('https://www.youdao.com')
time.sleep(5)

# 添加cookie
driver.add_cookie({'name':'login','value':'登录'})

# 获取全部cookie
allCookies = driver.get_cookies()

print('全部cookies',allCookies)

# 获取name为login的cookie
cookie = driver.get_cookie('login')
print('name为login的cookie',cookie)

# 删除单个cookie
driver.delete_cookie('login')
print("\n--------------剩余的cookies\n",driver.get_cookies())

# 删除全部cookies
driver.delete_all_cookies()

print("-------------剩余的cookies------------\n",driver.get_cookies())

time.sleep(60)

五、文件的上传与下载文件上传upload


<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>
<body>
    <h1>配合selenium模拟上传文件</h1>
    <input type='file' name='file' />
</body>
</html>


'''
代码功能：selenium上传文件 --配合upload.html使用
时间：@Date: 2021-05-23 09:56:53
'''


from selenium import webdriver
import time

driver = webdriver.Chrome()

url = 'http://localhost:52330/selenium/upload.html'

driver.get(url)

ele = driver.find_element_by_name('file')
print("获取到的元素",ele)

# 注意路径不能有中文字符
ele.send_keys('D:\dcsdk_eventv3.db')
time.sleep(10)

下载文件


'''
代码功能：模拟文件下载
时间：@Date: 2021-05-23 10:21:28
'''

from selenium import webdriver
import time

# 设置文件保存路径，如果不设置，会默认保存到Downloads文件夹

options = webdriver.ChromeOptions()

prefs = {'download.default_directory':'D:\\'}
options.add_experimental_option('prefs',prefs)

# 启动浏览器
driver = webdriver.Chrome()

# 下载PC版微信
driver.get('https://pc.weixin.qq.com')

# 浏览器窗口最大化
driver.maximize_window()
time.sleep(5)
# 点击下载按钮
driver.find_element_by_class_name('download-button').click()

time.sleep(30)

六、窗口的切换


from selenium import webdriver
import time

url = 'https://www.baidu.com/'
driver = webdriver.Chrome()

# 隐式等待，一次设置对整个driver的周期都起作用
driver.implicitly_wait(30)

driver.get(url)

# 使用js开启新的窗口
js = 'window.open("https://www.soGou.com/")'
driver.execute_script(js)


# 获取当前显示的窗口信息
current_window = driver.current_window_handle

print(driver)
# 获取浏览器的全部窗口信息
handles = driver.window_handles
print('获取到的窗口全部信息\n------------------\n',handles)


'''
获取到的窗口全部信息
------------------
 ['CDwindow-7FB808B4F24EF5385A9AFBDC21FA13B9', 'CDwindow-E879C0A64E734C3F88468A4388F48E3B']
'''

# 设置延时看切换的效果
time.sleep(3)


# 根据窗口信息进行窗口切换
# 切换到百度搜索的窗口
driver.switch_to_window(handles[0])
time.sleep(3)


# 切换到搜狗窗口
driver.switch_to_window(handles[1])

七、项目实战


'''
代码功能：熟悉selenium的自动化操作
时间：2020/5/22
'''


from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# Keys 类中定义了很多快捷键


url = 'https://wwww.baidu.com'

path = 'C:\Program Files (x86)\python38-32\chromedriver.exe'
driver = webdriver.Chrome(executable_path=path)
driver.get(url)

# 获取输入框标签对象
element = driver.find_element_by_id('kw')

# 输入框输入内容
element.send_keys('Python你')
time.sleep(2)

# 删除最后一个文字
element.send_keys(Keys.BACK_SPACE)
time.sleep(2)

# 添加空格加教程
element.send_keys(Keys.SPACE)
element.send_keys("教程")
time.sleep(2)


# ctrl+a 全选输入框内容
element.send_keys(Keys.CONTROL, 'a')
time.sleep(2)

# ctrl+x 剪切输入框内容
element.send_keys(Keys.CONTROL, 'x')
time.sleep(2)
# ctrl+v 复制
element.send_keys(Keys.CONTROL, 'v')
time.sleep(2)

# 回车键
driver.find_element_by_id('su').send_keys(Keys.ENTER)
time.sleep(10)

到此这篇关于python爬虫基础之selenium库的用法总结的文章就介绍到这了,更多相关Python selenium库内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫基础之selenium库的用法总结

本文链接: https://www.lsjlt.com/news/10753.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫基础之selenium库怎么用

小编给大家分享一下Python爬虫基础之selenium库怎么用，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！一、selenium简介官网总的来说： seleni...

99+

2023-06-15
Python爬虫基础之爬虫的分类知识总结

目录一、通用爬虫二、搜索引擎的局限性三、Robots协议四、请求与相应一、通用爬虫通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目...

99+

2024-04-02
Python爬虫基础初探selenium

目录Seleniumselenium的用途selenium是优缺点1. Selenium工作原理1.1 Selenium配置1.2 浏览器驱动1.3 使用Selenium2 快速入门...

99+

2024-04-02
Python之爬虫基础

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫...

99+

2023-08-31

python 爬虫开发语言
python基础之Numpy库中array用法总结

目录前言为什么要用numpy数组的创建生成均匀分布的array：生成特殊数组获取数组的属性数组索引，切片，赋值数组操作输出数组总结前言 Numpy是Python的一个科学计算的库，提...

99+

2024-04-02
python爬虫之『入门基础』

1.首先需要了解一下http请求，当用户在地址栏中输入网址，发送网络请求的过程是什么？可以参考我之前学习的时候转载的一篇文章一次完整的HTTP事务过程–超详细 2.还需要了解一下http的请求方式有兴趣的同学可以去查一下http的八...

99+

2023-01-31

爬虫入门基础
python基础之爬虫入门

目录前言一、简单静态网页的爬取1.1 选取爬虫策略——缩略图1.2 选取爬虫策略——高清大图二、动态加载网站的爬取2.1 选取爬虫策略——selenium2.2 选取爬虫策略——ap...

99+

2024-04-02
Python爬虫之Requests库的基

1 import requests 2 response = requests.get('http://www.baidu.com/') 3 print(type(response)) 4 print(response....

99+

2023-01-30

爬虫 Python Requests
python爬虫之selenium库的安装及使用教程

目录第一步：python中安装selenium库第二步：下载谷歌浏览器驱动并合理放置第三步：使用selenium爬取QQ音乐歌词（简单示例）第一步：python中安装selenium...

99+

2024-04-02
Python爬虫基础讲解之请求

目录一、请求目标(URL)二、网址的组成:三、请求体(response)四、请求方法(Method)五、常用的请求报头六、requests模块查看请求体一、请求目标(URL) URL...

99+

2024-04-02
Python爬虫之Urllib库的基本使

# get请求 import urllib.request response = urllib.request.urlopen("http://www.baidu.com") print(response.read().decode('...

99+

2023-01-30

爬虫 Python Urllib
python实现selenium网络爬虫的方法小结

selenium最初是一个自动化测试工具，而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题，selenium本质是通过驱动浏览器，完全模拟浏览器...

99+

2024-04-02
Python网络爬虫之Web网页基础

目录⭐️Web网页基础🌟1.网页的组成✨HTML✨CSS✨JavaScript🌟2.网页的结构🌟3.节点树和节点间的关系🌟4.选择器🌟5.总结⭐️Web网页基础我们在学习爬虫之前，...

99+

2023-05-15

Python网络爬虫Web网页基础 Python网络Web网页基础 Python Web网页基础
python爬虫之selenium模块怎么使用

这篇文章主要介绍了python爬虫之selenium模块怎么使用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇python爬虫之selenium模块怎么使用文章都会有所收获，下面我们一起来看看吧。一、什么是Se...

99+

2023-06-30
python爬虫之利用Selenium+Requests爬取拉勾网

目录一、前言二、分析url三、获取所有城市和页数四、生成params参数五、获取数据六、总结一、前言利用selenium+requests访问页面爬取拉勾网招聘信息二、分析url...

99+

2024-04-02
python学习-Selenium爬虫之使用代理ip的方法

今天给大家分享的是如何在爬取数据的时候防止IP被封，今天给大家分享两种方法，希望大家可以认真学习，再也不用担心被封IP啦。第一种：降低访问速度，我们可以使用time模块中的sleep，使程序每运行一次后就睡眠1s，这样的话就可以...

99+

2023-06-02
Python爬虫之requests库基本介绍

目录一、说明二、基本用法：总结一、说明 requests是一个很实用的Python HTTP客户端库，爬虫和测试服务器响应数据时经常会用到，requests是Python语言的第三方...

99+

2024-04-02
Python爬虫基础之请求的示例分析

小编给大家分享一下Python爬虫基础之请求的示例分析，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！一、请求目标(URL)URL又叫作统一资源定位符，是用于完整地...

99+

2023-06-15
Python基础篇之字符串方法总结

目录字符串拼接字符串分割字符串替换字符串大小写转换字符串判断partition()的用法总结python中字符串内置方法很多，可以通过dir()方式查看具体有哪些方法，下表是pyth...

99+

2023-05-17

Python字符串方法总结 Python字符串方法 Python字符串
python基础之编码规范总结

目录一、PEP 8规范二、缩进三、行的最大长度四、空行五、命名约定六、字符串引号七、包八、注释一、PEP 8规范官方文档：https://legacy.python.org/dev...

99+

2024-04-02