iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python如何通过正则匹配指定字符开头与结束提取中间内容
  • 674
分享到

python如何通过正则匹配指定字符开头与结束提取中间内容

Python 官方文档:入门教程 => 点击学习

摘要

目录一、提取包含始末字符二、不包含始末字符串三、.*和.+正则提取的区别四、起始有无^的区别五、pandas对具体列的内容通过正则表达式进行数据提取六、遇到的报错参考文章:一、提取包

一、提取包含始末字符

1、起始字符串固定

a = re.findall('起始字符串.*结束字符串',str)

2、起始字符串不固定(即从首字符串提取到固定的字符串结束),用^指定从首字符串开始

a = re.findall('^.*结束字符串',str)

二、不包含始末字符串

#方法1
a = re.findall('(?<=始字符串).*?(?=末字符串)',str)
#方法2
a = re.findall('始字符串(.*?)末字符串',str)

在 re.findall()的方法中 '始字符串.末字符串’ 可以匹配到相同的值直到最后一个值;如果参数为 '始字符串.?末字符串’则只匹配到第一个值。其实使用.*和.+都能提取特定始末字符串中间的内容,下面顺便说下两者的区别。

三、.*和.+正则提取的区别

.:匹配任意字符
*:匹配0个或多个字符
?:非贪婪模式,在符合的条件下,尽可能少的匹配(尽可能短的匹配)

str2 = "aabab"
a = re.findall('a.*?b',str2)	#结果:['aab', 'ab']
b = re.findall('a.+?b',str2)	#结果:['aab']

.?:匹配aab和ab ,因为可以匹配0个字符,所以可以匹配得到ab
.+?:匹配aab,因为+必须a和b中间至少有一个字符,所以排除了ab

四、起始有无^的区别

str2 = "aabab"
c = re.findall('.*',str2)	#结果:['aabab', '']
d = re.findall('^.*',str2)	#结果:['aabab']

五、pandas对具体列的内容通过正则表达式进行数据提取

1.使用前要确保该列的类型统一,str或者float格式,最好事先通过astype强制转换一下

2.df[‘新列名’]=df[‘提取的列名’].str.extract(‘正则表达式’, expand = True)

六、遇到的报错

报错:pattern contains no capture groups
翻译:模式不包含捕获组)
解决:根据docs ,您需要为 str.extract 指定一个捕获组(即括号)好,提取。

参考文章:

https://www.cnblogs.com/ZhangHT97/p/13427325.html
Https://www.cnblogs.com/YouJeffrey/p/15209895.html

https://blog.csdn.net/dudu3332/article/details/111555572 

到此这篇关于python通过正则匹配指定字符开头与结束提取中间内容的文章就介绍到这了,更多相关Python正则匹配提取中间内容内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: python如何通过正则匹配指定字符开头与结束提取中间内容

本文链接: https://www.lsjlt.com/news/196833.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作