iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >如何用Python爬取百度搜索结果并保存
  • 299
分享到

如何用Python爬取百度搜索结果并保存

2023-06-15 17:06:28 299人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要讲解了“如何用python爬取百度搜索结果并保存”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何用Python爬取百度搜索结果并保存”吧! 一、前言众所周知,百度上直

这篇文章主要讲解了“如何用python爬取百度搜索结果并保存”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何用Python爬取百度搜索结果并保存”吧!

 一、前言

众所周知,百度上直接搜索关键字会出来一大堆东西,时常还会伴随有广告出现,不小心就点进去了,还得花时间退出来,有些费劲。

最近群里有个小伙伴提出一个需求,需要获取百度上关于粮食的相关讲话文章标题和链接。正好小编最近在学习爬虫,就想着拿这个需求来练练手。我们都知道,对Python来说,有大量可用的库,实现起来并不难,动手吧。

二、项目目标

爬取百度上关键字为“粮食”的搜索结果,并保存,提交给客户,用于进一步分析我国粮食政策。

三、项目准备

软件:PyCharm

需要的库:JSON, requests,etree

四、项目分析

1)如何进行关键词搜索?

利用response库,直接Get网址获得搜索结果。网址如下:

https://www.baidu.com/s?wd=粮食

2)如何获取标题和链接?

利用etree对原代码进行规范梳理后,通过Xpath定位到文章标题和href,获取标题和文章链接。

3)如何保存搜索结果?

新建txt文件,对搜索结果循环写入,保存即可。

五、项目实现

1、第一步导入需要的库

import json import requests from lxml import etree

2、第二步用requests进行请求搜索

headers = {     "User-Agent":"Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/88.0.4324.104 Safari/537.36" } response = requests.get('Https://www.baidu.com/s?wd=粮食&lm=1', headers=headers)

3、第三步对获取的源代码进行整理分析,通过Xpath定位需要的资源

r = response.text    html = etree.HTML(r, etree.HTMLParser())    r1 = html.xpath('//h4')    r2 = html.xpath('//*[@class="c-abstract"]')    r3 = html.xpath('//*[@class="t"]/a/@href')

4、第四步把有用资源循环读取保存

for i in range(10):     r11 = r1[i].xpath('string(.)')     r22 = r2[i].xpath('string(.)')     r33 = r3[i]     with open('ok.txt', 'a', encoding='utf-8') as c:          c.write(json.dumps(r11,ensure_ascii=False) + '\n')          c.write(json.dumps(r22, ensure_ascii=False) + '\n')          c.write(json.dumps(r33, ensure_ascii=False) + '\n')     print(r11, end='\n')     print('------------------------')     print(r22, end='\n')     print(r33)

六、效果展示

程序运行结果,如下图所示:

如何用Python爬取百度搜索结果并保存

保存为txt的文件最终结果如下图所示:

如何用Python爬取百度搜索结果并保存

七、总结

本文介绍了如何利用Python对百度搜索结果进行爬取、保存,是一个小爬虫,这也是Python好玩的地方,有大量免费的库可用,能帮你实现各种需求。工作量大,学会用Python!

感谢各位的阅读,以上就是“如何用Python爬取百度搜索结果并保存”的内容了,经过本文的学习后,相信大家对如何用Python爬取百度搜索结果并保存这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

--结束END--

本文标题: 如何用Python爬取百度搜索结果并保存

本文链接: https://www.lsjlt.com/news/281058.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何用Python爬取百度搜索结果并保存
    这篇文章主要讲解了“如何用Python爬取百度搜索结果并保存”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何用Python爬取百度搜索结果并保存”吧! 一、前言众所周知,百度上直...
    99+
    2023-06-15
  • 用Python实现爬取百度热搜信息
    目录前言库函数准备数据爬取网页爬取数据解析数据保存总结前言 何为爬虫,其实就是利用计算机模拟人对网页的操作 例如 模拟人类浏览购物网站 使用爬虫前一定要看目标网站可刑不可刑 :-) ...
    99+
    2024-04-02
  • Python中怎么保存搜索引擎结果
    本篇文章给大家分享的是有关Python中怎么保存搜索引擎结果,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。#!/usr/bin/env python  #-...
    99+
    2023-06-17
  • 怎么用Python实现爬取百度热搜信息
    小编给大家分享一下怎么用Python实现爬取百度热搜信息,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!前言何为爬虫,其实就是利用计算机模拟人对网页的操作例如 模拟人类浏览购物网站使用爬虫前一定要看目标网站可刑不可刑 :-)...
    99+
    2023-06-26
  • Python百度指数获取脚本下载并保存
    目录前言具体步骤1. 获得cookie值2. 使用我的代码可视化总结前言 有时候大家需要知道一个关键词在互联网上的热度,想知道某个关键词的热度变化趋势。大家可能就是使用百度指数、微信...
    99+
    2024-04-02
  • 如何使用Python自动爬取图片并保存
    小编给大家分享一下如何使用Python自动爬取图片并保存,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、准备工作用python来实现对百度图片的爬取并保存,以情...
    99+
    2023-06-22
  • python 使用requests爬取百度图片并显示
    爬取百度图片并显示 引言一、图片显示二、代码详解2.1 得到网页内容2.2 提取图片url2.3 图片显示 三、完整代码 引言 爬虫(Spider),又称网络爬虫(Web Crawle...
    99+
    2023-10-04
    python 爬虫 百度图片 requests
  • python如何爬取微博热搜存入Mysql
    这篇文章主要介绍了python如何爬取微博热搜存入Mysql,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Python主要用来做什么Python主要应用于:1、Web开发;2...
    99+
    2023-06-14
  • 使用Python怎么爬取网站图片并保存
    这期内容当中小编将会给大家带来有关使用Python怎么爬取网站图片并保存,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。第一步,导入模块import requestsfrom bs4&n...
    99+
    2023-06-06
  • 使用python如何随心所欲地爬取百度图片
    小编给大家分享一下使用python如何随心所欲地爬取百度图片,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、前言之前爬取了很多静态网页的内容,包括:小说、图片等...
    99+
    2023-06-06
  • Python爬虫如何获取数据并保存到数据库中
    本篇内容主要讲解“Python爬虫如何获取数据并保存到数据库中”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python爬虫如何获取数据并保存到数据库中”吧!1.简介介绍-网络爬虫(又称为网页蜘...
    99+
    2023-07-02
  • 如何利用python多线程爬取天气网站图片并保存
    目录1.1 题目1.2 思路 1.2.1 发送请求1.2.2 解析网页 1.2.3 获取结点 1.2.4 数据保存 (单线程) 1.2.4 数据保存 (多线程)总结1.1 题目 指定...
    99+
    2024-04-02
  • 利用Java如何实现爬取网络图片并保存
    这篇文章给大家介绍利用Java如何实现爬取网络图片并保存,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。具体内容如下package getUrlPic;import java.io.ByteArrayOutputStre...
    99+
    2023-05-31
    java ava
  • Sphinx PHP 如何优化搜索速度与结果排名
    在现代互联网时代,高效的搜索引擎对于网站的用户体验非常重要。Sphinx是一种流行的全文搜索引擎,它在PHP应用中广泛使用。然而,随着数据量的增加,搜索速度和结果排名可能会成为一个问题。本文将介绍如何通过一些优化技术来提高Sphinx PH...
    99+
    2023-10-21
    PHP(编程语言) 优化(性能优化) Sphinx(搜索引擎)
  • 如何使用Python通过获取剪切板数据实现百度划词搜索功能
    小编给大家分享一下如何使用Python通过获取剪切板数据实现百度划词搜索功能,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、实现划词功能说是划词翻译,实际上我们...
    99+
    2023-06-15
  • 如何使用批处理实现百度关键字搜索
    这篇文章将为大家详细讲解有关如何使用批处理实现百度关键字搜索,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。@echo off set a= set/p a...
    99+
    2023-06-09
  • 怎么用Python标准库修改搜索引擎获取结果
    这篇文章主要讲解了“怎么用Python标准库修改搜索引擎获取结果”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python标准库修改搜索引擎获取结果”吧!我输入的关键字作为地址参数传递...
    99+
    2023-06-17
  • Sphinx PHP 如何应对多表联合搜索与结果合并
    首先,我们需要准备好 Sphinx PHP 的环境。你可以使用 Composer 来安装 Sphinx PHP,只需在项目目录下的 composer.json 文件中添加如下依赖:{ "require": { ...
    99+
    2023-10-21
    结果合并 多表联合搜索 Sphinx PHP
  • Sphinx PHP 如何与缓存技术结合提升搜索速度
    一、缓存概念和原理缓存是一种将计算结果或数据存储在快速访问的介质中的技术。当需要相同的计算结果或数据时,可以直接从缓存中获取,而不需要重新计算或查询。这样可以大大提高响应速度和性能。二、Sphinx PHP 扩展介绍Sphinx PHP 扩...
    99+
    2023-10-21
    PHP 缓存技术 Sphinx
  • 利用Python通过获取剪切板数据实现百度划词搜索功能
    目录一、实现划词功能二、运行错误三、解决问题一、实现划词功能 说是划词翻译,实际上我们是通过获取用户的剪切板内容,通过一系列的操作得到的。首先呢,我们就先实现如何获取剪切板内容的程序...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作