Python去除html标签的几种方法总结

Python去除html标签 Python html标签 html标签去除 2023-01-03 18:01:29 178人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录python去除html标签的方法Python正则表达式去除html标签的属性总结Python去除html标签的方法最近小说看得比较多，但是很多小说网站都存在各种小广告，看起来

Python去除html标签的方法

最近小说看得比较多，但是很多小说网站都存在各种小广告，看起来很不方便，所以就自己写了个小程序，把小说都爬下来，然后搭个自己喜欢WEB页面来看。

在爬取过程中没有出现太大的问题，只有在清洗数据时，发现小说文本中混杂HTML标签，所以就需要对标签进行清洗。

我自己尝试了字符串的处理方式，正则，还有lxml等方式来处理这个问题，现在记录一下使用方式。

我们使用下面这个字符串举例说明，内容为一段html代码。需要对这段字符串进行处理，提取文本

html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'

1. 使用正则来处理

import re

pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)

输出结果：

你好哈哈大家好

2. 使用BeautifulSoup来处理

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

输出结果：

你好哈哈大家好

3. 使用lxml来出来

from lxml import etree

response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))

输出结果：

你好哈哈大家好

python正则表达式去除html标签的属性

import re
test='<p class="pictext" align="center">陈细妹</p>'
test=re.sub(r'(<[^>\s]+)\s[^>]+?(>)', r'\1\2', test)
print(test)

输出

<p>陈细妹</p>

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python去除html标签的几种方法总结

本文链接: https://www.lsjlt.com/news/176536.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python去除html标签的几种方法总结

目录Python去除html标签的方法python正则表达式去除html标签的属性总结Python去除html标签的方法最近小说看得比较多，但是很多小说网站都存在各种小广告，看起来...

99+

2023-01-03

Python去除html标签 Python html标签 html标签去除
python 去除html标签的几种方法

#! /usr/bin/python # -*- coding:utf-8 -*- ''' Created on 2013-12-18 @author: Java ''' import re from HTMLParser import...

99+

2023-01-31

几种方法标签 python
使用python去除HTML中标签的几种

这个repo 用来记录一些python技巧、书籍、学习链接等，欢迎star github地址待删除HTML示例标签如下： In [96]: test Out[96]: '<p>just for test</p&...

99+

2023-01-31

几种标签 python
使用java去除html标签的方法

这篇文章主要为大家展示了“使用java去除html标签的方法”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“使用java去除html标签的方法”这篇文章吧。在java中，可以使用replaceAl...

99+

2023-06-15
总结php去除字符串重复部分的几种常见方法

在PHP编程中，我们经常需要去除字符串中的重复部分。这种需求在数据处理和字符串匹配方面非常常见。本文将介绍几种常见的方法来去除字符串中的重复部分。一、使用函数array_unique()函数array_unique()是PHP中最简单和最快...

99+

2023-05-14
python导出requirements.txt的几种方法总结

目录python导出requirements.txt的几种方法1. pip freezen > requirements.txt2. pip list --format=fre...

99+

2023-02-02

python导出requirements.txt python requirements.txt python导出requirements.txt方法
python字典取值的几种方法总结

目录方法一：使用方括号 [ ] 运算符方法二：使用get()方法方法三：使用items()方法方法四：使用keys()方法方法五：使用values()方法方法六：使用in关键字方法七...

99+

2023-05-15

python字典取值 python字典 python字典取值方法
总结Python读取TIF影像的几种方法

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录导入模块TIF文件路径方法1:tiffile方法2:PIL方法3:opencv方法4:gdal方法1方法5:gdal...

99+

2023-09-02

python opencv 图像处理
Python和C/C++交互的几种方法总结

前言 python作为一门脚本语言，其好处是语法简单，很多东西都已经封装好了，直接拿过来用就行，所以实现同样一个功能，用Python写要比用C/C++代码量会少得多。但是优点也必然也伴随着缺点（这是肯定的，...

99+

2022-06-04

几种方法 Python
python遍历 truple list dictionary的几种方法总结

实例如下： def TestDic1(): dict2 ={'aa':222,11:222} for val in dict2: print val def TestDic2(): ...

99+

2022-06-04

遍历几种方法 python
JavaScript获取标签的几种方式小结

目录js 获取标签2.通过标签名称获取标签。3.通过class获取标签，获取到的也是包含该class的标签集合4.通过选择器找到所有符合条件的标签集合。5.几种获取特殊标签的写法js...

99+

2023-02-17

JavaScript获取标签 JavaScript标签获取
遍历python字典几种方法总结(推荐)

如下所示： aDict = {'key1':'value1', 'key2':'value2', 'key3':'value3'} print '-----------dict-------------...

99+

2022-06-04

遍历字典几种方法
Android UI更新的几种方法总结

Android UI更新做过Android开发的人都遇到过这样的问题：随着需求的变化，某些入口界面会出现UI的增减、内容变化和跳转界面变化等问题，这里就说明几种方...

99+

2022-06-06

方法 Android
android操作XML的几种方法总结

XML作为一种业界公认的数据交换格式，在各个平台与语言之上，都有广泛使用和实现。其标准型，可靠性，安全性......毋庸置疑。在android平台上，我们要想实现数据存储和数据...

99+

2022-06-06

XML 方法 Android
Vue获取DOM的几种方法总结

目录Vue获取DOM的方法1、使用DOM API直接找元素2、refs3、使用自定义指令vue3.0获取虚拟dom方法Vue获取DOM的方法 Vue实现了MVVM模型，将数据和表现进...

99+

2022-11-13

Vue获取DOM Vue获取DOM方法 Vue DOM
Java中删除文件或文件夹的几种方法总结

目录删除文件或文件夹的四种基础方法上面的四个方法简单对比File.delete()和Files.delete(Path path)对比如何删除整个目录或者目录中的部分文件walkFi...

99+

2023-05-15

Java删除文件 Java删除文件夹
Android中去掉标题栏的几种方法(三种)

1.在java代码中 (SplashActivity继承AppCompatActivity时无效) 2.在manifest.xml中改Theme 3.先在style.xm...

99+

2022-06-06

方法标题栏 Android
Python中创建字典的几种方法总结(推荐)

1、传统的文字表达式： >>> d={'name':'Allen','age':21,'gender':'male'} >>> d {'age': 21, 'name...

99+

2022-06-04

字典几种方法 Python
Android截屏截图的几种方法总结

　Android截屏　　Android截屏的原理：获取具体需要截屏的区域的Bitmap，然后绘制在画布上，保存为图片后进行分享或者其它用途一、Activity截屏截Activity界面（包含空白的状态栏） public static B...

99+

2023-05-31

android 截屏截图
SQL去重的3种实用方法总结

目录1.distinct去重2.group by去重3.row_number() over (parttion by 分组列 order by 排序列)补充：SQL根据某列或几列分组去重——row...

99+

2022-10-26