Python爬虫包 BeautifulSoup 递归抓取实例详解

递归爬虫详解 2022-06-04 18:06:05 457人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

Python爬虫包 BeautifulSoup 递归抓取实例详解概要：爬虫的主要目的就是为了沿着网络抓取需要的内容。它们的本质是一种递归的过程。它们首先需要获得网页的内容，然后分析页面内容并找到另一个

Python爬虫包 BeautifulSoup 递归抓取实例详解

概要：

爬虫的主要目的就是为了沿着网络抓取需要的内容。它们的本质是一种递归的过程。它们首先需要获得网页的内容，然后分析页面内容并找到另一个URL，然后获得这个URL的页面内容，不断重复这一个过程。

让我们以维基百科为一个例子。

我们想要将维基百科中凯文·贝肯词条里所有指向别的词条的链接提取出来。


# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date:  2016-12-25 10:35:00
# @Last Modified by:  HaonanWu
# @Last Modified time: 2016-12-25 10:52:26
from urllib2 import urlopen
from bs4 import BeautifulSoup

html = urlopen('Http://en.wikipedia.org/wiki/Kevin_Bacon')
bsObj = BeautifulSoup(html, "html.parser")

for link in bsObj.findAll("a"):
  if 'href' in link.attrs:
    print link.attrs['href']

上面这个代码能够将页面上的所有超链接都提取出来。


/wiki/Wikipedia:Protection_policy#semi
#mw-head
#p-search
/wiki/Kevin_Bacon_(disambiguation)
/wiki/File:Kevin_Bacon_SDCC_2014.jpg
/wiki/San_DieGo_Comic-Con
/wiki/Philadelphia
/wiki/Pennsylvania
/wiki/Kyra_Sedgwick

首先，提取出来的URL可能会有一些重复的

其次，有一些URL是我们不需要的，如侧边栏、页眉、页脚、目录栏链接等等。

所以通过观察，我们可以发现所有指向词条页面的链接都有三个特点：

它们都在id是bodyContent的div标签里 URL链接不包含冒号 URL链接都是以/wiki/开头的相对路径（也会爬到完整的有http开头的绝对路径）


from urllib2 import urlopen
from bs4 import BeautifulSoup
import datetime
import random
import re

pages = set()
random.seed(datetime.datetime.now())
def getLinks(articleUrl):
  html = urlopen("http://en.wikipedia.org"+articleUrl)
  bsObj = BeautifulSoup(html, "html.parser")
  return bsObj.find("div", {"id":"bodyContent"}).findAll("a", href=re.compile("^(/wiki/)((?!:).)*$"))

links = getLinks("/wiki/Kevin_Bacon")
while len(links) > 0:
  newArticle = links[random.randint(0, len(links)-1)].attrs["href"]
  if newArticle not in pages:
    print(newArticle)
    pages.add(newArticle)
    links = getLinks(newArticle)

其中getLinks的参数是/wiki/<词条名称>，并通过和维基百科的绝对路径合并得到页面的URL。通过正则表达式捕获所有指向其他词条的URL，并返回给主函数。

主函数则通过调用递归getlinks并随机访问一条没有访问过的URL，直到没有了词条或者主动停止为止。

这份代码可以将整个维基百科都抓取下来


from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

pages = set()
def getLinks(pageUrl):
  global pages
  html = urlopen("http://en.wikipedia.org"+pageUrl)
  bsObj = BeautifulSoup(html, "html.parser")
  try:
    print(bsObj.h1.get_text())
    print(bsObj.find(id ="mw-content-text").findAll("p")[0])
    print(bsObj.find(id="ca-edit").find("span").find("a").attrs['href'])
  except AttributeError:
    print("This page is missing something! No worries though!")

  for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")):
    if 'href' in link.attrs:
      if link.attrs['href'] not in pages:
        #We have encountered a new page
        newPage = link.attrs['href']
        print("----------------n"+newPage)
        pages.add(newPage)
        getLinks(newPage)
getLinks("")

一般来说python的递归限制是1000次，所以需要人为地设置一个较大的递归计数器，或者用其他手段让代码在迭代1000次之后还能运行。

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫包 BeautifulSoup 递归抓取实例详解

本文链接: https://www.lsjlt.com/news/13727.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫之使用BeautifulSoup和Requests抓取网页数据

目录一、简介二、网络爬虫的基本概念三、Beautiful Soup 和 Requests 库简介四、选择一个目标网站五、使用 Requests 获取网页内容六、使用 Beautifu...

99+

2023-05-14

Python爬虫使用BeautifulSoup和Requests Python爬虫抓取网页数据
Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

这篇文章主要介绍了Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Python爬虫之怎么使用BeautifulSoup和Reque...

99+

2023-07-05
python 用递归实现通用爬虫解析器

目录需求分析进一步分析再进一步分析代码实现我们在写爬虫的过程中，除了研究反爬之外，几乎全部的时间都在写解析逻辑。那么，生命苦短，为什么我们不写一个通用解析器呢？对啊！为什么不呢？开整...

99+

2024-04-02
Python实例详解递归算法

递归是一种较为抽象的数学逻辑，可以简单的理解为「程序调用自身的算法」。维基百科对递归的解释是：递归（英语：Recursion），又译为递回，在数学与计算机科学中，是指在函数的定义...

99+

2024-04-02
Python爬虫实例：爬取猫眼电影——破

字体反爬字体反爬也就是自定义字体反爬，通过调用自定义的字体文件来渲染网页中的文字，而网页中的文字不再是文字，而是相应的字体编码，通过复制或者简单的采集是无法采集到编码后的文字内容的。现在貌似不少网站都有采用这种反爬机制，我们通过猫眼...

99+

2023-01-30

爬虫猫眼实例
怎么在python中利用递归实现一个爬虫解析器

怎么在python中利用递归实现一个爬虫解析器？相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。另外一种是配置文件预先告知的方式，你配置成什么类型，解析器就通过对应的解析规则去解析...

99+

2023-06-14
Python爬虫,获取,解析,存储详解

目录1.获取数据2.解析数据3.数据保存为CSV格式和存入数据库总结1.获取数据 import requests def drg(url): try: h...

99+

2024-04-02
Python爬虫抓取几个常见小问题的示例分析

这篇文章主要介绍Python爬虫抓取几个常见小问题的示例分析，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！python有哪些常用库python常用的库：1.requesuts；2.scrapy；3.pillow；4....

99+

2023-06-14
python数据解析BeautifulSoup爬取三国演义章节示例

目录数据解析Beautiful SoupBeautiful Soup用法案例—爬取三国演义章节及对应的内容数据解析数据解析就是将爬取到的整个页面中的局部的内容进行提取。python...

99+

2024-04-02
Python爬取求职网requests库和BeautifulSoup库使用详解

目录一、requests库1、requests简介2、安装requests库3、使用requests获取网页数据我们先导入模块4、总结requests的一些方法二、Beautifu...

99+

2024-04-02
Python爬虫实现抓取电影网站信息并入库

目录一.环境搭建1.下载安装包2.修改环境变量3.安装依赖模块二.代码开发三.运行测试1.新建电影信息表2.代码运行四.问题排查和修复1.空白字符报错2.请求报错一.环境搭建 1.下...

99+

2024-04-02
java 爬虫详解及简单实例

Java爬虫一、代码爬虫的实质就是打开网页源代码进行匹配查找，然后获取查找到的结果。打开网页：URL url = new URL(http://www.cnblogs.com/Renyi-Fan/p/6896901.html);...

99+

2023-05-31

java 爬虫 ava
node.js实现简单爬虫示例详解

目录node.js实现简单爬虫第一步第二步爬虫结果小结：node.js实现简单爬虫工具：cheerio cheerio 是 nodejs 特别为服务端定制的，能够快速灵活的对 JQ...

99+

2023-05-17

node.js简单爬虫 node.js爬虫
Python使用爬虫爬取贵阳房价的方法详解

目录1序言1.1生存压力带来的哲思1.2 买房&房奴2爬虫 2.1基本概念2.2 爬虫的基本流程 3爬取贵阳房价并写入表格3.1结果展...

99+

2024-04-02
python爬虫指南之xpath实例解析

Python爬虫指南之XPath实例解析XPath是一种用于在XML文档中进行导航和查找元素的语言。在爬虫中，XPath可以用于解析...

99+

2023-08-15

python
如何使用Python爬虫实现抓取电影网站信息并入库

这篇文章主要介绍如何使用Python爬虫实现抓取电影网站信息并入库，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！一.环境搭建1.下载安装包访问 Python官网下载地址：https://www.python.org/...

99+

2023-06-29
python爬虫系列网络请求案例详解

目录urllib的介绍urllib库的四大模块：案例发送请求参数说明：代码案例发送请求-Request请求IP代理IP代理分类：使用cookie使用步骤：异常处理学习了之前的基础和爬...

99+

2024-04-02
详解Python如何实现尾递归优化

目录一般递归与尾递归一般递归尾递归C中尾递归的优化Python开启尾递归优化一般递归与尾递归一般递归 def normal_recursion(n): if n == 1:...

99+

2024-04-02
Python实现爬取房源信息的示例详解

目录前言分析页面，寻找切入点爬取数据整理数据，导出文件前言最近由于工作突然变动，新的办公地点离现在的住处很远，必须要换房子租了。我坐上中介的小电驴，开始探索城市各处的陌生角落。 ...

99+

2024-04-02
VUE3+TS递归组件实现TreeList设计实例详解

目录前言功能分析数据结构实现方式插件式开发插件如何注册插件需要设计那些事件插槽内容插件需要传入那些值支持拖拽功能draggable拖拽相关事件dragStartdragOverdra...

99+

2024-04-02