Python网络爬虫实例讲解

爬虫实例网络 2022-06-04 19:06:55 634人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

聊一聊python与网络爬虫。 1、爬虫的定义爬虫：自动抓取互联网数据的程序。 2、爬虫的主要框架爬虫程序的主要框架如上图所示，爬虫调度端通过URL管理器获取待爬取的URL链接，若URL管理器中存在待

聊一聊python与网络爬虫。

1、爬虫的定义

爬虫：自动抓取互联网数据的程序。

2、爬虫的主要框架

查看图片

爬虫程序的主要框架如上图所示，爬虫调度端通过URL管理器获取待爬取的URL链接，若URL管理器中存在待爬取的URL链接，爬虫调度器调用网页下载器下载相应网页，然后调用网页解析器解析该网页，并将该网页中新的URL添加到URL管理器中，将有价值的数据输出。

3、爬虫的时序图

查看图片

4、URL管理器

URL管理器管理待抓取的URL集合和已抓取的URL集合，防止重复抓取与循环抓取。URL管理器的主要职能如下图所示：

查看图片

URL管理器在实现方式上，Python中主要采用内存(set)、和关系数据库(Mysql)。对于小型程序，一般在内存中实现，Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序，一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库，这是python自带的模块。对于2.x版本中的urllib2库，在python3.x中集成到urllib中，在其request等子模块中。urllib中的urlopen函数用于打开url，并获取url数据。urlopen函数的参数可以是url链接，也可以使request对象，对于简单的网页，直接使用url字符串做参数就已足够，但对于复杂的网页，设有防爬虫机制的网页，再使用urlopen函数时，需要添加Http header。对于带有登录机制的网页，需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取，可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配，对于特点比较鲜明的目标数据具有较好的作用，但通用性不高。BeautifulSoup是第三方模块，用于结构化解析url内容。将下载到的网页内容解析为DOM树，下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

查看图片

关于BeautifulSoup的具体使用，在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条，并将这些词条保存在新建的excel中。上代码：


from bs4 import BeautifulSoup 
import re 
import xlrd 
<span style="font-size:18px;">import xlwt 
from urllib.request import urlopen 
 
 
 
excelFile=xlwt.Workbook() 
sheet=excelFile.add_sheet('league of legend') 
## 百度百科：英雄联盟## 
html=urlopen("http://baike.baidu.com/subview/3049782/11262116.htm") 
bsObj=BeautifulSoup(html.read(),"html.parser") 
#print(bsObj.prettify()) 
 
row=0 
 
for node in bsObj.find("div",{"class":"main-content"}).findAll("div",{"class":"para"}): 
  links=node.findAll("a",href=re.compile("^(/view/)[0-9]+.htm$")) 
  for link in links: 
    if 'href' in link.attrs: 
      print(link.attrs['href'],link.get_text()) 
      sheet.write(row,0,link.attrs['href']) 
      sheet.write(row,1,link.get_text()) 
      row=row+1 
 
 
excelFile.save('E:ProjectPythonlol.xls')</span>

输出的部分截图如下：

查看图片

excel部分的截图如下：

查看图片

以上就是本文的全部内容，希望对大家学习Python网络爬虫有所帮助。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python网络爬虫实例讲解

本文链接: https://www.lsjlt.com/news/14998.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

node网络爬虫实例了解下？

今天给大家分享的是node爬虫，写得不好的大家多关照，指出背景交代，以下写的demo都是参照《python3网络爬虫开发实战》用node实现的，所以demo的具体思路什么的，大家可以去看书上的介绍，感兴趣的，可以去了解一波。 [x] ...

99+

2023-01-31

爬虫解下实例
python网络爬虫实战

目录一、概述二、原理三、爬虫分类1、传统爬虫2、聚焦爬虫3、通用网络爬虫（全网爬虫）四、网页抓取策略1、宽度优先搜索：2、深度优先搜索：3、最佳优先搜索：4、反向链接数策略：5、Pa...

99+

2024-04-02
Python网络爬虫实战案例之：7000

一、前言本文是《Python开发实战案例之网络爬虫》的第三部分：7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。二、章节目录 3.1 业务流程3.2 页面结构分析：目录页3.3 页面结构分析：详情...

99+

2023-01-31

爬虫实战案例
Python网络爬虫举例分析

这篇文章主要讲解了“Python网络爬虫举例分析”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python网络爬虫举例分析”吧！先来看一段简单的代码。import requests...

99+

2023-06-02
10.网络爬虫—MongoDB详讲与实战

网络爬虫—MongoDB详讲与实战 MongoDBMongoDB安装创建数据目录1.数据库操作2.集合操作3.文档操作4.索引操作5.聚合操作6.备份与恢复 MongoDB增删改查mong...

99+

2023-09-10

爬虫 mongodb 数据库 python
Python爬虫之网络请求实例分析

本篇内容介绍了“Python爬虫之网络请求实例分析”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！1.IP代理某些网站会检测一段时间内某IP的...

99+

2023-06-30
python之网络爬虫

一、演绎自已的北爱踏上北漂的航班，开始演奏了我自已的北京爱情故事二、爬虫11、网络爬虫的思路首先：指定一个url，然后打开这个url地址，读其中的内容。其次：从读取的内容中过滤关键字；这一步是关键，可以通过查看源代码的方式...

99+

2023-01-31

爬虫网络 python
python写网络爬虫

#!/usr/bin/evn python import re #导入正则表达式模块import urllib #导入urllib模块，读取页面与下载页面需要用到def getH...

99+

2023-01-31

爬虫网络 python
python爬虫系列网络请求案例详解

目录urllib的介绍urllib库的四大模块：案例发送请求参数说明：代码案例发送请求-Request请求IP代理IP代理分类：使用cookie使用步骤：异常处理学习了之前的基础和爬...

99+

2024-04-02
Python3网络爬虫实战-11、爬虫框

ScrapySplash 是一个 Scrapy 中支持 JavaScript 渲染的工具，本节来介绍一下它的安装方式。ScrapySplash 的安装分为两部分，一个是是 Splash 服务的安装，安装方式是通过 Docker，安装之后会...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-15、爬虫基

在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 基本原理等。那么本章内容就对一些在做爬虫之前所需要的基础知识做一些简单的总结。在本节我们会详细了解 HTTP 的基本原理...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-10、爬虫框

我们直接用 Requests、Selenium 等库写爬虫，如果爬取量不是太大，速度要求不高，是完全可以满足需求的。但是写多了会发现其内部许多代码和组件是可以复用的，如果我们把这些组件抽离出来，将各个功能模块化，就慢慢会形成一个框架雏形，久...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-17、爬虫基

爬虫，即网络爬虫，我们可以把互联网就比作一张大网，而爬虫便是在网上爬行的蜘蛛，我们可以把网的节点比做一个个网页，爬虫爬到这就相当于访问了该页面获取了其信息，节点间的连线可以比做网页与网页之间的链接关系，这样蜘蛛通过一个节点后可以顺着节点连线...

99+

2023-01-31

爬虫实战网络
Python爬虫必备之Xpath简介及实例讲解

目录前言一、Xpath简介二、Xpath语法规则语法规则标签定位属性定位索引定位取文本内容三、语法规则练习总结前言网上已经有很多大佬发过Xpath，而且讲的都很好，我是因为刚开始学...

99+

2024-04-02
Python爬虫之网络请求

目录1.IP代理2.Cookie3.异常处理 1.IP代理某些网站会检测一段时间内某IP的访问次数，若访问次数过多会禁止访问，这时需要设置一些代理服务器，每隔一段时间换一...

99+

2024-04-02
python爬虫#网络请求request

中文文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功...

99+

2023-01-30

爬虫网络 python
Python3网络爬虫实战-9、APP爬

Appium 是移动端的自动化测试工具，类似于前面所说的 Selenium，利用它我们可以驱动 Android、iOS 等设备完成自动化测试，比如模拟点击、滑动、输入等操作，其官方网站为：http://appium.io/，本节来了解一下 ...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-7、APP爬

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProx...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-8、APP爬

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProx...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-6、APP爬

除了 Web 网页，爬虫也可以对 APP 的数据进行抓取，APP 中的页面要加载出来，首先需要获取数据，那么这些数据一般是通过请求服务器的接口来获取的，由于 APP 端没有像浏览器一样的开发者工具直接比较直观地看到后台的请求，所以对 APP...

99+

2023-01-31

爬虫实战网络