beautiful soup爬虫初识

爬虫 beautiful soup 2023-01-30 22:01:17 223人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

Beautiful Soup的安装,简称bs4pip3 install bs4bs4解析器选择解析器使用方法优势劣势python标准库BeautifulSoup(markup, "html.parser")Python的

Beautiful Soup的安装,简称bs4

pip3 install bs4

bs4解析器选择

解析器	使用方法	优势	劣势
python标准库	BeautifulSoup(markup, "html.parser")	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, "lxml")	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, ["lxml-xml"]) BeautifulSoup(markup, "xml")	速度快唯一支持XML的解析器	需要安装C语言库
HTML5lib	BeautifulSoup(markup, "html5lib")	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

官方推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定

lxml解析器安装

pip3 install lxml

使用bs4过滤器

自建示例文件scenery.html文件的内容如下:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>武汉旅游景点</title>
    <meta name="description" content="武汉旅游景点 精简版" />
    <meta name="author" content="hstking">
</head>
<body>
    <div id="content">
        <div class="title">
            <h3>武汉景点</h3>
        </div>
        <ul class="table">
            <li>景点<a>门票价格</a></li>
        </ul>
        <ul class="content">
            <li nu="1">东湖 <a class="price">60</a></li>
            <li nu="2">磨山 <a class="price">60</a></li>
            <li nu="3">欢乐谷 <a class="price">108</a></li>
            <li nu="4">武昌极地海洋世界 <a class="price">150</a></li>
            <li nu="5">玛雅水上乐园 <a class="price">150</a></li>
        </ul>
    </div>

</body>
</html>

使用lxml解析器，打印scenery.html内容

from bs4 import BeautifulSoup

# 使用lxml解析器
soup = BeautifulSoup(open('scenery.html', encoding='utf8'), 'lxml')
# prettify按标准的缩进格式的结构输出
print(soup.prettify())

执行结果: 按照标准的缩进格式的结构输出

bs4解析器lxml练习:

#!/usr/bin/env python
# coding: utf-8
from bs4 import BeautifulSoup

# 使用lxml解析器
soup = BeautifulSoup(open('scenery.html', encoding='utf8'), 'lxml')
# prettify按标准的缩进格式的结构输出
print(soup.prettify())

# 获取第一次出现的标签名为ul的标签内容
print(soup.ul)
print('\n')

# 使用bs4过滤器soup.find()的方法获取第一次出现的标签内容
print(soup.find('ul'))
print('\n')

# 使用soup.find_all方法获取所有符合条件的标签列表，然后从列表中读取就行了
print(soup.find_all('ul'))  # 获取所有ul中所有内容
print('\n')

print(soup.find_all('ul')[0])  # 获取第一个ul中的所有内容
print('\n')

print(soup.find_all('ul')[1])  # 获取第二个ul中的所有内容
print('\n')

# 可以用soup.find(TagName, attrs={attrName:attrValue})的方法获取Tag的位置
# 获取li标签nu='3'的内容,适用标签名相同，属性不同的标签
print(soup.find('li', attrs={'nu': '3'}))
print('\n')

# 标签名相同,属性相同,连属性值都相同的标签
# 可以用soup.find_all(TagName,attr={'attName':'attValue'})将符合条件的内容全部放到列表里面
# 找a标签，class='price'的第一个内容
print(soup.find_all('a', attrs={'class': 'price'})[0])
print('\n')

# 获取li标签，nu='2'的内容
Tags = soup.find('li', attrs={'nu': '2'})
print(Tags)
print(Tags.a)  # 获取nu='2'里面的a标签内容
print(Tags.find('a'))  # 获取nu='2'里面的a标签内容
print('\n')

# 获取li标签，nu='4'的内容
Tag = soup.find('li', attrs={'nu': '4'})
print(Tag)

# 获取li标签,nu='4'中nu的值
print(Tag.get('nu'))

# 获取li标签,nu='4'中的文本内容
ss = Tag.get_text()
print(ss)

# 以空格切割上面文本内容拿到第一个值
print(Tag.get_text().split(' ')[0])

# 获取li标签下a标签的文本内容
print(Tag.a.get_text())

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: beautiful soup爬虫初识

本文链接: https://www.lsjlt.com/news/179139.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

beautiful soup爬虫初识

Beautiful Soup的安装,简称bs4pip3 install bs4bs4解析器选择解析器使用方法优势劣势Python标准库BeautifulSoup(markup, "html.parser")Python的...

99+

2023-01-30

爬虫 beautiful soup
python爬虫beautiful soup的使用方式

目录前言一，Beautiful Soup简介二，Beautiful Soup的解析器2.1 各种解析器一览2.2 引入解析器的语法三，Beautiful Soup解析得到的四种对象3...

99+

2024-04-02
python网络爬虫精解之Beautiful Soup的使用说明

目录一、Beautiful Soup的介绍二、Beautiful Soup的使用1、节点选择器2、提取信息3、关联选择4、方法选择器5、CSS选择器一、Beautiful Soup的...

99+

2024-04-02
【100天精通python】Day43：python网络爬虫开发_爬虫基础（urlib库、Beautiful Soup库、使用代理+实战代码）

目录 1 urlib 库 2 Beautiful Soup库 3 使用代理 3.1 代理种类 HTTP、HTTPS 和 SOCKS5 3.2 使用 urllib 和 requests 库使用代理 3.3 案例：自建代理池 4 实战提取视频...

99+

2023-08-31

python 爬虫 http
一起学爬虫——使用Beautiful S

要想学好爬虫，必须把基础打扎实，之前发布了两篇文章，分别是使用XPATH和requests爬取网页，今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup爬取网页。什么是Beautiful ...

99+

2023-01-30

爬虫 Beautiful
python3爬虫初探（六）之EXCEL

　在爬取数据之后，数据的保存就成为一个新的问题，一般不太大的的数据存储到EXCEL就可以了。这里介绍一个python的第三方库——xlsxwriter. 这个库的安装就不介绍了，pip就可以，不用FQ。这里仅介绍一些简单常用的命令。　首...

99+

2023-01-31

爬虫 EXCEL
Python爬虫系列 - 初探：爬取新闻

Get发送内容格式 Get方式主要需要发送headers、url、cookies、params等部分的内容。 t = requests.get(url, headers = header, params = content, cooki...

99+

2023-01-30

爬虫系列新闻
Python爬虫基础初探selenium

目录Seleniumselenium的用途selenium是优缺点1. Selenium工作原理1.1 Selenium配置1.2 浏览器驱动1.3 使用Selenium2 快速入门...

99+

2024-04-02
python小白的初步爬虫

前序：最近工作不是很忙，领导突然找我谈话，说是谈话，其实就是分配活呗。果不其然，很快进入正题, 给了我一个网址链接，然后说需要商品的信息。。。巴拉巴拉。好吧，去做吧。我当时的内心是崩溃的，python爬虫压根没碰过，这下完蛋了，...

99+

2023-01-30

爬虫 python
1.认识网络爬虫

1.认识网络爬虫网络爬虫爬虫的合法性HTTP协议请求与响应(重点) 网络爬虫爬虫的全名叫网络爬虫，简称爬虫。他还有其他的名字，比如网络机器人，网络蜘蛛等等。爬虫就好像一个探测机...

99+

2023-09-25

爬虫 python 搜索引擎
Python爬虫突破反爬虫机制知识点总结

1、构建合理的HTTP请求标头。 HTTP的请求头是一组属性和配置信息，当您发送一个请求到网络服务器时。因为浏览器和Python爬虫发送的请求头不同，反爬行器很可能会被检测到。 2、...

99+

2024-04-02
【Python | 边学边敲边记】第四次：初识爬虫框架Scrapy

一、前言本系列上一篇：【Python | 边学边敲边记】第三次：URL去重策略今天给大家分享的是，Python里的爬虫框架Scrapy学习，包含python虚拟环境的搭建、虚拟环境的使用、Scrapy安装方法详解、Scrapy基本使用、Sc...

99+

2023-06-02
Python爬虫基础之爬虫的分类知识总结

目录一、通用爬虫二、搜索引擎的局限性三、Robots协议四、请求与相应一、通用爬虫通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目...

99+

2024-04-02
Python爬虫知识点梳理

做数据分析和任何一门技术一样，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为...

99+

2023-01-31

爬虫知识点 Python
Python爬虫突破反爬虫机制知识点有哪些

这篇文章主要介绍“Python爬虫突破反爬虫机制知识点有哪些”，在日常操作中，相信很多人在Python爬虫突破反爬虫机制知识点有哪些问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python爬虫突破反爬虫机制...

99+

2023-06-25
Python小知识 - Python爬虫进阶：如何克服反爬虫技术

Python爬虫进阶：如何克服反爬虫技术爬虫是一种按照一定的规则，自动抓取网页信息的程序。爬虫也叫网页蜘蛛、蚂蚁、小水滴，是一种基于特定算法的自动化程序，能够按照一定的规则自动的抓取网页中的信...

99+

2023-09-08

Python YYDS
Python爬虫入门(一)（适合初学者）

Python爬虫入门(一) （适合初学者）关于爬虫是什么，怎样保证爬虫的合法性小编在这就不再过多的阐述，从本章起，小编将和大家一起分享在学习python爬虫中的所学，希望可以和大家一起进步，也希望各...

99+

2023-09-02

爬虫
爬虫Python验证码识别入门

目录爬虫Python验证码识别 1、批量下载验证码图片2、识别代码看看效果 3、折腾降噪、去干扰爬虫Python验证码识别前言：二值化、普通降噪、8邻域降...

99+

2024-04-02
python爬虫基础知识有哪些

这篇文章主要介绍“python爬虫基础知识有哪些”，在日常操作中，相信很多人在python爬虫基础知识有哪些问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”python爬虫基础知识有哪些”的疑惑有所帮助！接下来...

99+

2023-06-02
Python反爬虫的知识点有哪些

这篇文章主要介绍了Python反爬虫的知识点有哪些的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Python反爬虫的知识点有哪些文章都会有所收获，下面我们一起来看看吧。一、为什么要反爬虫在设计反爬虫系统之前，我...

99+

2023-06-17