iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python 正则表达式入门(初级篇)
  • 953
分享到

Python 正则表达式入门(初级篇)

入门正则表达式Python 2022-06-04 18:06:02 953人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

引子 首先说 正则表达式是什么? 正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计

引子

首先说 正则表达式是什么?

正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。

引用自维基百科https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F

定义是定义,太正经了就没法用了。我们来举个栗子:假如你在写一个爬虫,你得到了

一个网页的html源码。其中有一段

<html><body><h1>hello world<h1></body></html>

你想要把这个hello world提取出来,但你这时如果只会python 的字符串处理,那么第一反应可能是


s = <html><body><h1>hello world<h1></body></html>
start_index = s.find('<h1>')

然后从这个位置向下查找到下一个<h1>出现这样做未尝不可,但是很麻烦不是吗。需要考虑多个标签,一不留神就多匹配到东西了,而如果想要非常准确的匹配到,又得多加循环判断,效率太低。

这时候,正则表达式就是首选的帮手。

干货开始

入门级别

接着说我们刚才那个例子。我们如果拿正则处理这个表达式要怎么做呢?


import re
key = r"<html><body><h1>hello world<h1></body></html>"#这段是你要匹配的文本
p1 = r"(?<=<h1>).+?(?=<h1>)"#这是我们写的正则表达式规则,你现在可以不理解啥意思
pattern1 = re.compile(p1)#我们在编译这段正则表达式
matcher1 = re.search(pattern1,key)#在源文本中搜索符合正则表达式的部分
print matcher1.group(0)#打印出来

你可以尝试运行上面的代码,看看是不是和我们想象的一样(博主是在Python2.7环境下)发现代码挺少挺简单?往下看。而且正则表达式实际上要比看起来的那种奇形怪状要简单得多。

首先,从最基础的正则表达式说起。

假设我们的想法是把一个字符串中的所有"python"给匹配到。我们试一试怎么做


import re
key = r"javapythonhtmlvhdl"#这是源文本
p1 = r"python"#这是我们写的正则表达式
pattern1 = re.compile(p1)#同样是编译
matcher1 = re.search(pattern1,key)#同样是查询
print matcher1.group(0)

看完这段代码,你是不是觉得:卧槽?这就是正则表达式?直接写上去就行?

确实,正则表达式并不像它表面上那么奇葩,如果不是我们故意改变一些符号的含义时,你看到的就是想要匹配的。

所以,先把大脑清空,先认为正则表达式就是和想要匹配的字符串长得一样。在之后的练习中我们会逐步进化

初级

0.无论是python还是正则表达式都是区分大小写的,所以当你在上面那个例子上把"python"换成了"Python",那就匹配不到你心爱的python了。

1.重新回到第一个例子中那个<h1>hello world<h1>匹配。假如我像这么写,会怎么样?


import re
key = r"<h1>hello world<h1>"#源文本
p1 = r"<h1>.+<h1>"#我们写的正则表达式,下面会将为什么
pattern1 = re.compile(p1)
print pattern1.findall(key)#发没发现,我怎么写成findall了?咋变了呢?

有了入门级的经验,我们知道那两个<h1>就是普普通通的字符,但是中间的是什么鬼?

.字符在正则表达式代表着可以代表任何一个字符(包括它本身)

findall返回的是所有符合要求的元素列表,包括仅有一个元素时,它还是给你返回的列表。

机智如你可能会突然问:那我如果就只是想匹配"."呢?结果啥都给我返回了咋整?在正则表达式中有一个字符,其实如果你编程经验较多的话,你就会发现这是好多地方的“转义符”。在正则表达式里,这个符号通常用来把特殊的符号转成普通的,把普通的转成特殊的23333(并不是特殊的“2333”,写完才发现会不会有脑洞大的想歪了)。

举个栗子,你真的想匹配"chuxiuhong@hit.edu.cn"这个邮箱(我的邮箱),你可以把正则表达式写成下面这个样子:


import re
key = r"afiouwehrfuichuxiuhong@hit.edu.cnaskdjhfiOSueh"
p1 = r"chuxiuhong@hit.edu.cn"
pattern1 = re.compile(p1)
print pattern1.findall(key)

发现了吧,我们在.的前面加上了转义符,但是并不是代表匹配“.”的意思,而是只匹配“.”的意思!
不知道你细不细心,有没有发现我们第一次用.时,后面还跟了一个+?那这个加号是干什么的呢?
其实不难想,我们说了“.字符在正则表达式代表着可以代表任何一个字符(包括它本身)”,但是"hello world"可不是一个字符啊。
+的作用是将前面一个字符或一个子表达式重复一遍或者多遍。
比方说表达式“ab+”那么它能匹配到“abbbbb”,但是不能匹配到"a",它要求你必须得有个b,多了不限,少了不行。你如果问我有没有那种“有没有都行,有多少都行的表达方式”,回答是有的。
*跟在其他符号后面表达可以匹配到它0次或多次
比方说我们在王叶内遇到了链接,可能既有Http://开头的,又有https://开头的,我们怎么处理?


import re
key = r"http://www.nsfbuhwe.com and https://www.auhfisna.com"#胡编乱造的网址,别在意
p1 = r"https*://"#看那个星号!
pattern1 = re.compile(p1)
print pattern1.findall(key)

输出

['http://', 'https://']

2.比方说我们有这么一个字符串"cat hat mat qat",你会发现前面三个是实际的单词,最后那个是我胡编乱造的(上百度查完是昆士兰英语学院的缩写= =)。如果你本来就知道"at"前面是c、h、m其中之一时这才构成单词,你想把这样的匹配出来。根据已经学到的知识是不是会想到写出来三个正则表达式进行匹配?实际上不需要。因为有一种多字符匹方式

[]代表匹配里面的字符中的任意一个

还是举个栗子,我们发现啊,有的程序员比较过分,,在<html></html>这对标签上,大小写混用,老害得我们抓不到想要的东西,我们该怎么应对?是写16*16种正则表达式挨个匹配?no


import re
key = r"lalala<hTml>hello</Html>heiheihei"
p1 = r"<[Hh][Tt][Mm][Ll]>.+?</[Hh][Tt][Mm][Ll]>"
pattern1 = re.compile(p1)
print pattern1.findall(key)

输出

['<hTml>hello</Html>']

我们既然有了范围性的匹配,自然有范围性的排除。

[^]代表除了内部包含的字符以外都能匹配

还是cat,hat,mat,qat这个例子,我们想匹配除了qat以外的,那么就应该这么写:


import re
key = r"mat cat hat pat"
p1 = r"[^p]at"#这代表除了p以外都匹配
pattern1 = re.compile(p1)
print pattern1.findall(key)

输出

为了方便我们写简洁的正则表达式,它本身还提供下面这样的写法

正则表达式 代表的匹配字符 [0-9] 0123456789任意之一 [a-z] 小写字母任意之一 [A-Z] 大写字母任意之一 d 等同于[0-9] D 等同于[^0-9]匹配非数字 w 等同于[a-z0-9A-Z_]匹配大小写字母、数字和下划线 W 等同于[^a-z0-9A-Z_]等同于上一条取非

3.介绍到这里,我们可能已经掌握了大致的正则表达式的构造方式,但是我们常常会在实战中遇到一些匹配的不准确的问题。比方说:


import re
key = r"chuxiuhong@hit.edu.cn"
p1 = r"@.+."#我想匹配到@后面一直到“.”之间的,在这里是hit
pattern1 = re.compile(p1)
print pattern1.findall(key)

输出结果

['@hit.edu.']

呦呵!你咋能多了呢?我理想的结果是@hit.,你咋还给我加量了呢?这是因为正则表达式默认是“贪婪”的,我们之前讲过,“+”代表是字符重复一次或多次。但是我们没有细说这个多次到底是多少次。所以它会尽可能“贪婪”地多给我们匹配字符,在这个例子里也就是匹配到最后一个“.”。

我们怎么解决这种问题呢?只要在“+”后面加一个“?”就好了。


import re
key = r"chuxiuhong@hit.edu.cn"
p1 = r"@.+?."#我想匹配到@后面一直到“.”之间的,在这里是hit
pattern1 = re.compile(p1)
print pattern1.findall(key)

输出结果

['@hit.']

加了一个“?”我们就将贪婪的“+”改成了懒惰的“+”。这对于[abc]+,w*之类的同样适用。

小测验:上面那个例子可以不使用懒惰匹配,想一种方法得到同样的结果

**个人建议:在你使用"+","*"的时候,一定先想好到底是用贪婪型还是懒惰型,尤其是当你用到范围较大的项目上时,因为很有可能它就多匹配字符回来给你!!!**

为了能够准确的控制重复次数,正则表达式还提供

{a,b}(代表a<=匹配次数<=b)

还是举个栗子,我们有sas,saas,saaas,我们想要sas和saas,我们怎么处理呢?


import re
key = r"saas and sas and saaas"
p1 = r"sa{1,2}s"
pattern1 = re.compile(p1)
print pattern1.findall(key)

输出

['saas', 'sas']

如果你省略掉{1,2}中的2,那么就代表至少匹配一次,那么就等价于?

如果你省略掉{1,2}中的1,那么就代表至多匹配2次。

下面列举一些正则表达式里的元字符及其作用

元字符 说明 . 代表任意字符 [ ] 匹配内部的任一字符或子表达式 [^] 对字符集和取非 - 定义一个区间 对下一字符取非(通常是普通变特殊,特殊变普通) * 匹配前面的字符或者子表达式0次或多次 *? 惰性匹配上一个 + 匹配前一个字符或子表达式一次或多次 +? 惰性匹配上一个 ? 匹配前一个字符或子表达式0次或1次重复 {n} 匹配前一个字符或子表达式 {m,n} 匹配前一个字符或子表达式至少m次至多n次 {n,} 匹配前一个字符或者子表达式至少n次 {n,}? 前一个的惰性匹配 ^ 匹配字符串的开头 A 匹配字符串开头 $ 匹配字符串结束 [b] 退格字符 c 匹配一个控制字符 d 匹配任意数字 D 匹配数字以外的字符 t 匹配制表符 w 匹配任意数字字母下划线 W 不匹配数字字母下划线

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,同时也希望多多支持编程网!

--结束END--

本文标题: Python 正则表达式入门(初级篇)

本文链接: https://www.lsjlt.com/news/13931.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python正则表达式入门篇
    本文主要为没有使用正则表达式经验的新手入门所写。 转载请写明出处 引子 首先说 正则表达式是什么? 正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression...
    99+
    2023-01-31
    入门篇 正则表达式 python
  • 一篇文章带你入门Python正则表达式
    目录Python3 正则表达式1.match函数2.search函数search和match的区别3. sub函数4.compile函数5.findall6.finditer7.sp...
    99+
    2024-04-02
  • Python正则表达式初识(四)
    今天继续给大家分享Python正则表达式基础知识,主要给大家介绍一下特殊字符“{}”的用法,具体的教程如下。特殊字符“{}”实质上也是一个限定词的用法,其限定前面字符所出现的次数,其常用的模式有三种,分别是“{数字}”、“{数字,}”和“{...
    99+
    2023-01-31
    正则表达式 Python
  • Python正则表达式初识(一)
    首先跟大家简单唠叨两句为什么要学习正则表达式,为什么在网络爬虫的时候离不开正则表达式。正则表达式在处理字符串的时候扮演着非常重要的角色,在网络爬虫的时候也十分常用,大家可以把它学的简单一些,但是不能不学。尽管网络爬虫相关库给我们提供了丰富的...
    99+
    2023-01-31
    正则表达式 Python
  • PHP入门指南:正则表达式
    随着互联网的不断发展,网站的数量和复杂度越来越高。在这样的情况下,PHP编程语言逐渐成为了构建动态网站的主流编程语言之一。而正则表达式则是PHP编程中必不可少的一部分之一。本文将带您了解PHP中的正则表达式,从而为您在网站开发过程中提供进一...
    99+
    2023-05-24
    PHP 正则表达式 入门
  • 如何入门正则表达式Regex
    这篇文章给大家介绍如何入门正则表达式Regex,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。今天要分享的内容是正则表达式Regex。某天中午正要拿起手机打...
    99+
    2024-04-02
  • python正则表达式
    笔记:一:简介 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 主要介绍Python中常用的正则表达式处理函数 提高工作效率,完成内置函数无法完成的任务! 搜索常用正则表达式!-...
    99+
    2023-01-30
    正则表达式 python
  • python 正则表达式
    正则表达式的作用:用来匹配字符串 一、字符串方法 字符串提供的方法是完全匹配,不能进行模糊匹配 s = 'hello world' # 字符串提供的方法是完全匹配,不能进行模糊匹配 print(s.find('ll')) # 2 ...
    99+
    2023-01-30
    正则表达式 python
  • Golang 正则表达式从入门到精通
    go 正则表达式通过 regexp.mustcompile 编译正则表达式字符串,并使用 regexp.regexp 对象进行匹配、查找和替换操作。常见的用例包括验证用户输入、解析文本和...
    99+
    2024-04-08
    golang 正则表达式
  • 轻松入门正则表达式之非贪婪匹配篇详解
    非贪婪匹配 (.*?) import re a = '456qwe789rty123abc' re=re.findall('456(.*?)789',a) pri...
    99+
    2024-04-02
  • Python入门教程(二十九)Python的RegEx正则表达式
    RegEx 或正则表达式是形成搜索模式的字符序列。 RegEx 可用于检查字符串是否包含指定的搜索模式。 RegEx 模块 Python 提供名为 re 的内置包,可用于处理正则表达...
    99+
    2023-05-18
    Python RegEx Python正则表达式
  • 【Java 基础篇】Java 正则表达式
    文章目录 导言一、正则表达式的基本概念二、使用正则表达式的步骤三、示例代码1. 匹配字符串2. 提取匹配的内容3. 替换字符串 总结 导言 正则表达式是一种强大的文本模式匹配工具...
    99+
    2023-09-18
    java 正则表达式 python
  • Go语言入门学习之正则表达式
    目录前言什么是正则表达式MatchString 函数Compile 函数MustCompile 函数FindAllString 函数FindAllStringIndex 函数Spli...
    99+
    2024-04-02
  • 正则表达式入门知识点有哪些
    这篇文章主要为大家展示了“正则表达式入门知识点有哪些”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“正则表达式入门知识点有哪些”这篇文章吧。1.正则表达式入门之什么是正则表达式基本说来,正则表达式...
    99+
    2023-06-17
  • 正则表达式基础学习一文入门
    目录正则表达式是什么元字符贪婪匹配、非贪婪匹配和独占模式分组和引用四种匹配模式断言常用正则Demo正则表达式是什么 校验数据的有效性、查找符合要求的文本以及对文本进行切割和替换等操...
    99+
    2023-03-23
    正则表达式基础 正则表达式入门
  • Python 正则表达式:search
    本文介绍re模块的search的用法复杂匹配 = re.compile(正则表达式): 将正则表达式实例化             +        re.search(要匹配的字符串): 从字符串开头 开始匹配简单匹配 = re.sear...
    99+
    2023-01-31
    正则表达式 Python search
  • Python 正则表达式:split
    作用:用正则表达式的字符分割字符串,正则的字符会被抛弃。本文以 提取URL的地址与参数 为例,介绍re模块的split的用法: 返回值 -> 列表复杂匹配 = re.compile(正则表达式): 将正则表达式实例化         ...
    99+
    2023-01-31
    正则表达式 Python split
  • Python 正则表达式:compile
    本文以匹配×××ID为例,介绍re模块的compile与match的用法复杂匹配 = re.compile(正则表达式): 将正则表达式实例化             +        re.match(要匹配的字符串): 从字符串开 头/...
    99+
    2023-01-31
    正则表达式 Python compile
  • 一篇文章彻底搞懂python正则表达式
    目录前言1. 正则表达式的基本概念2. python的正则表达式re模块3. 正则表达式语法(1)匹配单个字符(2)匹配多个字符(3)边界匹配(4)分组匹配4. re模块相关方法使用...
    99+
    2024-04-02
  • 在python正则表达式中是怎样正确使用正则表达式
    这篇文章将为大家详细讲解有关在python正则表达式中是怎样正确使用正则表达式,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。现在我们已经看了一些简单的正则表达式,那么我们实际在 Python...
    99+
    2023-06-17
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作