首页 > 资讯 > 后端开发 > Python >Python使用Selenium自动进行百度搜索的实现

221

分享到

Python使用Selenium自动进行百度搜索的实现

Python Selenium自动百度搜索 Python Selenium自动搜索 2022-06-02 22:06:03 221人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

目录安装 selenium写代码点位网页元素我们今天介绍一个非常适合新手的python自动化小项目，项目虽小，但是五脏俱全。它是一个自动化操作网页浏览器的小应用：打开浏览器，进入百度网页，搜索关键词，最后把搜索结果保

我们今天介绍一个非常适合新手的python自动化小项目，项目虽小，但是五脏俱全。它是一个自动化操作网页浏览器的小应用：打开浏览器，进入百度网页，搜索关键词，最后把搜索结果保存到一个文件里。这个例子非常适合新手学习 Python网络自动化，不仅能够了解如何使用Selenium，而且还能知道一些超级好用的小工具。

当然有人把操作网页，然后把网页的关键内容保存下来的应用一律称作网络爬虫，好吧，如果你想这么爬取内容，随你。但是，我更愿意称它为网络机器人。

我今天介绍的项目使用Selenium，Selenium 是支持 WEB 浏览器自动化的一系列工具和库的综合项目。Selenium 的核心是 WebDriver，这是一个编写指令集的接口，可以在许多浏览器中互换运行。

闲言少叙，硬货安排。

安装 Selenium

可以使用 pip 安装 Python 的 Selenium 库：pip install selenium

（可选项：要执行项目并控制浏览器，需要安装特定于浏览器的 WebDriver 二进制文件。

下载 WebDriver 二进制文件并放入系统 PATH 环境变量中.）

由于本地浏览器版本升级，引起的版本不一致问题，和系统PATH环境变量的设置比较繁琐，所以我使用webdriver_manager，

安装 Install manager:


pip install webdriver-manager

写代码

引入模块：


from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

首先我们定义一个类Search_Baidu，它主要用于初始化；定义自动化步骤的方法；结束关闭浏览器。


class Search_Baidu:
def __init__(self):
def search(self, keyWord):
def tear_down(self):

接下来我们分别介绍每个方法的实现过程。


   def __init__(self): #类构造函数，用于初始化selenium的webdriver
        url = 'https://www.baidu.com/' #这里定义访问的网络地址
        self.url = url

        options = webdriver.ChromeOptions()
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) # 不加载图片,加快访问速度
        options.add_experimental_option('excludeSwitches', ['enable-automation']) # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium
# 这里使用chrome浏览器，而且使用我们刚才安装的webdriver_manager的chrome driver，并赋值上面的浏览器设置options变量
        self.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)
        self.wait = WebDriverWait(self.browser, 10) #超时时长为10s，由于自动化需要等待网页控件的加载，所以这里设置一个默认的等待超时，时长为10秒

    def tear_down(self):
        self.browser.close() #最后，关闭浏览器

接下来是重头戏，写我们操作浏览器的步骤，打开浏览器，进入百度网页，输入搜索关键字：Selenium，等待搜索结果，把搜索结果的题目和网址保存到文件里。


def search(self, keyword):
    # 打开百度网页
    self.browser.get(self.url)
    # 等待搜索框出现，最多等待10秒，否则报超时错误
    search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="kw"]')))
    # 在搜索框输入搜索的关键字
    search_input.send_keys(keyword)
    # 回车
    search_input.send_keys(Keys.ENTER)
    # 等待10秒钟
    self.browser.implicitly_wait(10)
    # 找到所有的搜索结果
    results = self.browser.find_elements_by_CSS_selector(".t a , em , .c-title-text")
    # 遍历所有的搜索结果
    with open("search_result.txt","w") as file:            
        for result in results:
            if result.get_attribute("href"):
                print(result.get_attribute("text").strip())
                # 搜索结果的标题
                title = result.get_attribute("text").strip()
                # 搜索结果的网址
                link = result.get_attribute("href")
                # 写入文件
                file.write(f"Title: {title}, link is: {link} \n")

点位网页元素

这里头有个关键点，就是如何点位网页元素：

比如：


search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="kw"]')))

还有：


self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")

打个比方，快递员通过地址找到你家，给你送快递，这里的XPATH和CSS Selector就是网页元素的地址，那么如何得到呢？
第一个就是Chrome自带的开发者工具，可以快捷键F12，也可以自己在下图中找到：

在这里插入图片描述

然后在百度搜索框，右键：

在这里插入图片描述

找到输入框的html元素，

在这里插入图片描述

在HTML元素右键，拷贝XPath地址。

在这里插入图片描述

这是比较简单的定位网页元素的方法。接下来我们定位搜索结果元素的时候，就遇到了麻烦，如下图：

在这里插入图片描述

我们不能单独的定位每个元素，而是要找到规律，一次把所有的搜索结果找到，然后返回一个list，我们好遍历这个list，这个怎么实现呢？

接下来，我们请出一大神器：SelectorGadget

在这里插入图片描述

SelectorGadget是一个CSS Selector生成器，大家可以在他的官方文档找到具体的使用说明，我这里简单介绍一下：
首先启动SelectorGadget，点击一下图标

在这里插入图片描述

浏览器会出现下面的框框：

在这里插入图片描述

然后我们在网页用鼠标左键，点击我们要定位的元素

在这里插入图片描述

然后页面会变成下面的样子：

在这里插入图片描述

所有黄色的部分说明都被选择了，如果我们不想要的元素，右键点击，使它变为红色，说明它被去掉了。如果没有被选择我们又需要的元素，我们左键选择它，使它变为绿色。最后我们希望选择的页面元素都变成了绿色或者黄色，如下图：

在这里插入图片描述

我们就可以拷贝框框里的内容作为CSS Selector了。

在这里插入图片描述

通过CSS Selector找到所有的搜索结果。


results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")

到此，我们就实现了这么个简单的小应用了，其实selenium就是帮助我们自动操作网页元素，所以我们定位网页元素就是重中之重，希望本文给你带来一点帮助。

下面我附上代码：


from datetime import time
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

class Search_Baidu:
    def __init__(self):
        url = 'Https://www.baidu.com/'
        self.url = url

        options = webdriver.ChromeOptions()
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) # 不加载图片,加快访问速度
        options.add_experimental_option('excludeSwitches', ['enable-automation']) # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium

        self.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)
        self.wait = WebDriverWait(self.browser, 10) #超时时长为10s

    def search(self, keyword):
        # 打开百度网页
        self.browser.get(self.url)
        # 等待搜索框出现，最多等待10秒，否则报超时错误
        search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="kw"]')))
        # 在搜索框输入搜索的关键字
        search_input.send_keys(keyword)
        # 回车
        search_input.send_keys(Keys.ENTER)
        # 等待10秒钟
        self.browser.implicitly_wait(10)
        # 找到所有的搜索结果
        results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")
        # 遍历所有的搜索结果
        with open("search_result.txt","w") as file:            
            for result in results:
                if result.get_attribute("href"):
                    print(result.get_attribute("text").strip())
                    # 搜索结果的标题
                    title = result.get_attribute("text").strip()
                    # 搜索结果的网址
                    link = result.get_attribute("href")
                    # 写入文件
                    file.write(f"Title: {title}, link is: {link} \n")

    def tear_down(self):
        self.browser.close()

if __name__ == "__main__":
    search = Search_Baidu()
    search.search("selenium")
    search.tear_down()

到此这篇关于Python使用Selenium自动进行百度搜索的实现的文章就介绍到这了,更多相关Python Selenium自动百度搜索内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python使用Selenium自动进行百度搜索的实现

本文链接: https://www.lsjlt.com/news/11117.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python实现简单的百度搜索

#!/usr/bin/python # coding=utf-8 import urllib import urllib2 #实现百度关键字查询的小例子 #定义基础url url = "http://www.baidu.com/s" ...

99+

2023-01-31

百度搜索简单 python
使用Ajax怎么实现一个百度搜索框的自动提示功能

这篇文章给大家介绍使用Ajax怎么实现一个百度搜索框的自动提示功能，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。<%@ page language="java" ...

99+

2023-06-08
Python通过tkinter实现百度搜索的代码

本篇内容介绍了“Python通过tkinter实现百度搜索的代码”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！Python主要用来做什么Py...

99+

2023-06-14
Python使用百度通用API进行翻译实现

想汉化StarUML这个软件，感觉工作量太大，想要用Python自动翻译。结果网上找的一个个用不了，或者用一会儿就断。于是自己手写了一个简单的，只有两个类：APIConfig和T...

99+

2023-02-27

Python 百度API翻译 Python 百度翻译
Python10行代码实现模拟百度搜索的示例

目录1. 获取百度搜索接口2. 指定搜索内容3. UA伪装4. 将响应内容写入文件5. 使用浏览器打开页面1000块钱做个百度？能提出这种要求的客户实乃乙方克星、民族之光、科创永动机...

99+

2024-04-02
使用selenium模拟动态登录百度页面的实现

目标：模拟手动登录百度页面的过程，打开chrome浏览器，输入百度网址，进入百度网页，点击登录，输入账号和密码，进入登录页面。代码演示过程： from selenium impor...

99+

2023-05-20

selenium模拟动态登录百度页面 selenium动态登录
Python通过tkinter实现百度搜索的示例代码

本文主要介绍了Python通过tkinter实现百度搜索的示例代码，分享给大家，具体如下： """ 百度搜索可视化 """ import tkinter import win...

99+

2024-04-02
什么是Selenium？使用Selenium进行自动化测试！

你知道什么是 Selenium 吗？你知道为什么要使用它吗？答案就在本文中，很高兴能够与你共飧。自动化测试正席卷全球，Selenium 认证是业界最抢手的技能之一。什么是 Selenium？ Selenium 是一种开源工具，用于在 ...

99+

2023-09-26

selenium 测试工具性能测试软件测试测试工程师
如何使用批处理实现百度关键字搜索

这篇文章将为大家详细讲解有关如何使用批处理实现百度关键字搜索，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。@echo off set a= set/p a...

99+

2023-06-09
用Python实现爬取百度热搜信息

目录前言库函数准备数据爬取网页爬取数据解析数据保存总结前言何为爬虫，其实就是利用计算机模拟人对网页的操作例如模拟人类浏览购物网站使用爬虫前一定要看目标网站可刑不可刑：-） ...

99+

2024-04-02
Python实现百度贴吧自动顶贴机

开发这款小工具，我们需要做一些准备： url.txt：多个需要顶起的帖子地址。 reply：多条随机回复的内容。 selenium：浏览器自动化测试框架首先，我们先使用pip完成selenium的安装。示例代码： pip inst...

99+

2023-01-31

贴吧 Python 顶贴机
python实现百度文库自动化爬取

目录项目介绍已有功能环境安装Windows用看这里ubuntu用户看这里使用方式：主要代码项目地址项目介绍可以下载doc，ppt，pdf．对于doc文档可以下载，doc中的表格无法...

99+

2024-04-02
JS模拟百度搜索框和选项卡的实现

目录练习1 练习2，选项卡，详细代码如下：练习1 实现搜索框内，输入相关数字，在下方显示相关内容，模拟百度搜索，详细代码如下： <!DOCTYPE html> ...

99+

2024-04-02
AJax如何实现类似百度搜索栏的功能

小编给大家分享一下AJax如何实现类似百度搜索栏的功能，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！实习过程中需要用到异步提交功能，于是试着去了解了一下ajax，...

99+

2023-06-08
如何使用python selenium实现自动化测试

这篇文章主要介绍如何使用python selenium实现自动化测试，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！一、安装selenium打开命令控制符输入：pip install -U selenium火狐浏览器安...

99+

2023-06-15
怎么用Python实现爬取百度热搜信息

小编给大家分享一下怎么用Python实现爬取百度热搜信息，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！前言何为爬虫，其实就是利用计算机模拟人对网页的操作例如模拟人类浏览购物网站使用爬虫前一定要看目标网站可刑不可刑：-）...

99+

2023-06-26
互联网中如何设置禁止百度移动搜索对网页进行转码

这篇文章主要为大家展示了“互联网中如何设置禁止百度移动搜索对网页进行转码”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“互联网中如何设置禁止百度移动搜索对网页进行转码”这篇文章吧。　　在百度移动搜...

99+

2023-06-10
Python怎么使用百度通用API进行翻译

这篇文章主要介绍“Python怎么使用百度通用API进行翻译”，在日常操作中，相信很多人在Python怎么使用百度通用API进行翻译问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python怎么使用百度通用A...

99+

2023-07-05
如何使用批处理打开网页实现百度关键字搜索

这篇文章给大家分享的是有关如何使用批处理打开网页实现百度关键字搜索的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。代码如下:@echo off set a= set/p&nb...

99+

2023-06-09
Python实现自动上传文件到百度网盘

目录1.准备2.授权bypy访问百度网盘3.开始使用bypy4.文件上传功能5.文件同步功能要使用Python自动上传文件到百度网盘，你可以使用bypy开源模块，它提供了丰富的功能，...

99+

2023-05-17

Python上传文件到百度网盘 Python上传文件到网盘 Python上传文件