iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python爬虫入门教程--正则表达式完全指南(五)
  • 612
分享到

python爬虫入门教程--正则表达式完全指南(五)

爬虫入门教程指南 2022-06-04 18:06:26 612人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

前言 正则表达式处理文本有如疾风扫秋叶,绝大部分编程语言都内置支持正则表达式,它应用在诸如表单验证、文本提取、替换等场景。爬虫系统更是离不开正则表达式,用好正则表达式往往能收到事半功倍的效果。 介绍正则表达

前言

正则表达式处理文本有如疾风扫秋叶,绝大部分编程语言都内置支持正则表达式,它应用在诸如表单验证、文本提取、替换等场景。爬虫系统更是离不开正则表达式,用好正则表达式往往能收到事半功倍的效果。

介绍正则表达式前,先来看一个问题,下面这段文本来自豆瓣的某个网页链接,我对内容进行了缩减。问:如何提取文本中所有邮箱地址呢?


html = """
  <style>
   .qrcode-app{
    display: block;
    background: url(/pics/qrcode_app4@2x.png) no-repeat;
   }
  </style>

  <div class="reply-doc content">
   <p class="">34613453@qq.com,谢谢了</p>
   <p class="">30604259@qq.com麻烦楼主</p>
  </div>
  <p class="">490010464@163.com<br/>谢谢</p>
  """

如果你还没接触过正则表达式,我想对此会是一筹莫展,不用正则,似乎想不到一种更好的方式来处理,不过,我们暂且放下这个问题,待学习完正则表达式之后再来考虑如何解决。

字符串的表现形式

python 字符串有几种表现形式,以u开头的字符串称为Unicode字符串,它不在本文讨论范围内,此外,你应该还看到过这两种写法:


>>> foo = "hello"
>>> bar = r"hello"

前者是常规字符串,后者 r 开头的是原始字符串,两者有什么区别?因为在上面的例子中,它们都是由普通文本字符组成的串,在这里没什么区别,下面可以证明


>>> foo is bar
True
>>> foo == bar
True

但是,如果字符串中包括有特殊字符,会是什么情况呢?再来看一个例子:


>>> foo = "n"
>>> bar = r"n"

>>> foo, len(foo)
('n', 1)
>>> bar, len(bar)
('\n', 2)
>>> foo == bar
False
>>>

"n" 是一个转义字符,它在 ASCII 中表示换行符。而 r"n" 是一个原始字符串,原始字符串不对特殊字符进行转义,它就是你看到的字面意思,由 "" 和 "n" 两个字符组成的字符串。

定义原始字符串可以用小写r或者大写R开头,比如 r"b" 或者 R"b" 都是允许的。在 Python 中,正则表达式一般用原始字符串的形式来定义,为什么呢?

举例来说,对于字符 "b" 来说,它在 ASCII 中是有特殊意义的,表示退格键,而在正则表达式中,它是一个特殊的元字符,用于匹配一个单词的边界,为了能让正则编译器正确地表达它的意义就需要用原始字符串,当然也可以使用反斜杠 "" 对常规定义的字符串进行转义


>>> foo = "\b"
>>> bar = r"b"
>>> foo == bar
True

正则基本介绍

正则表达式由普通文本字符和特殊字符(元字符)两种字符组成。元字符在正则表达式中具有特殊意义,它让正则表达式具有更丰富的表达能力。例如,正则表达式 r"a.d"中 ,字符 'a' 和 'd' 是普通字符,'.' 是元字符,. 可以指代任意字符,它能匹配 'a1d'、'a2d'、'acd' ,它的匹配流程是:

查看图片

Python 内置模块 re 是专门用于处理正则表达式的模块。


>>> rex = r"a.d" # 正则表达式文本
>>> original_str = "and" # 原始文本
>>> pattern = re.compile(rex) # 正则表达式对象
>>> m = pattern.match(original_str) # 匹配对象
>>> m 
<_sre.SRE_Match object at 0x101c85b28>

# 等价于
>>> re.match(r"a.d", "and")
<_sre.SRE_Match object at 0x10a15dcc8>

如果原文本字符串与正则表达式匹配,那么就会返回一个 Match 对象,当不匹配时,match 方法返回的 None,通过判断m是否为None可进行表单验证。

接下来,我们需要学习更多元字符。

基本元字符

.:匹配除换行符以外的任意一个字符,例如:"a.c" 可以完全匹配 "abc",也可以匹配 "abcef" 中的 "abc" : 转义字符,使特殊字符具有本来的意义,例如: 1.2 可以匹配 1.2 [...]:匹配方括号中的任意一个字符,例如:a[bcd]e 可以匹配 abe、ace、ade,它还支持范围操作,比如:a到z可表示为 "a-z",0到9可表示为 "0-9",注意,在 "[]" 中的特殊字符不再有特殊意义,就是它字面的意义,例如:[.*]就是匹配 . 或者 * [^...],字符集取反,表示只要不是括号中出现的字符都可以匹配,例如:a[^bcd]e 可匹配 aee、afe等

>>> re.match(r"a.c", "abc").group()
'abc'
>>> re.match(r"a.c", "abcef").group()
'abc'
>>> re.match(r"1.2", "1.2").group()
'1.2'
>>> re.match(r"a[0-9]b", "a2b").group()
'a2b'
>>> re.match(r"a[0-9]b", "a5b11").group()
'a5b'
>>> re.match(r"a[.*?]b", "a.b").group()
'a.b'
>>> re.match(r"abc[^w]", "abc!123").group()
'abc!

group 方法返回原字符串(abcef)中与正则表达式相匹配的那部分子字符串(abc),提前是要匹配成功 match 方法才会返回 Match 对象,进而才有group方法。

预设元字符

w 匹配任意一个单词字符,包括数字和下划线,它等价于 [A-Za-z0-9_],例如 awc 可以匹配 abc、acc W 匹配任意一个非单词字符,与 w 操作相反,它等价于 [^A-Za-z0-9_],例如: aWc 可匹配 a!c s 匹配任意一个空白字符,空格、回车等都是空白字符,例如:asc 可以配 anc,这里的 n表示回车 S 匹配任意一个非空白字符 d 匹配任意一个数字,它等价于[0-9],例如:adc 可匹配 a1c、a2c ... D 匹配任意一个非数字

边界匹配

边界匹配相关的符号专门用于修饰字符。

^ 匹配字符的开头,在字符串的前面,例如:^abc 表示匹配 a开头,后面紧随bc的字符串,它可以匹配 abc $ 匹配字符的结尾,在字符串的末尾位置,例如: hello$

>>> re.match(r"^abc","abc").group()
'abc'
>>> re.match(r"^abc$","abc").group()
'abc'

重复匹配

前面的元字符都是针对单个字符来匹配的,如果希望匹配的字符重复出现,比如匹配身份证号码,长度18位,那么就需要用到重复匹配的元字符

* 重复匹配零次或者更多次 ? 重复匹配零次或者一次 + 重复匹配1次或者多次 {n} 重复匹配n次 {n,} 重复匹配至少n次 {n, m} 重复匹配n到m次

# 简单匹配身份证号码,前面17位是数字,最后一位可以是数字或者字母X
>>> re.match(r"d{17}[dX]", "42350119900101153X").group()
'42350119900101153X'

# 匹配5到12的QQ号码
>>> re.match(r"d{5,12}$", "4235011990").group()
'4235011990'

逻辑分支

匹配一个固定电话号码,不同地区规则不一样,有的地方区号是3位,电话是8位,有的地方区号是4位,电话为7位,区号与号码之间用 - 隔开,如果应对这样的需求呢?这时你需要用到逻辑分支条件字符 |,它把表达式分为左右两部分,先尝试匹配左边部分,如果匹配成功就不再匹配后面部分了,这是逻辑 "或" 的关系


# abc|cde 可以匹配abc 或者 cde,但优先匹配abc
>>> re.match(r"aa(abc|cde)","aaabccde").group()
'aaabc'

0d{2}-d{8}|0d{3}-d{7} 表达式以0开头,既可以匹配3位区号8位号码,也可以匹配4位区号7位号码


>>> re.match(r"0d{2}-d{8}|0d{3}-d{7}", "0755-4348767").group()
'0755-4348767'
>>> re.match(r"0d{2}-d{8}|0d{3}-d{7}", "010-34827637").group()
'010-34827637'

分组

前面介绍的匹配规则都是针对单个字符而言的,如果想要重复匹配多个字符怎么办,答案是,用子表达式(也叫分组)来表示,分组用小括号"()"表示,例如 (abc){2} 表示匹配abc两次, 匹配一个IP地址时,可以使用 (d{1,3}.){3}d{1,3},因为IP是由4组数组3个点组成的,所有,前面3组数字和3个点可以作为一个分组重复3次,最后一部分是一个1到3个数字组成的字符串。如:192.168.0.1。

关于分组,group 方法可用于提取匹配的字符串分组,默认它会把整个表达式的匹配结果当做第0个分组,就是不带参数的 group() 或者是 group(0),第一组括号中的分组用group(1)获取,以此类推


>>> m = re.match(r"(d+)(w+)", "123abc")
#分组0,匹配整个正则表达式
>>> m.group()
'123abc'
#等价
>>> m.group(0)
'123abc'
# 分组1,匹配第一对括号
>>> m.group(1)
'123'
# 分组2,匹配第二对括号
>>> m.group(2)
'abc'
>>>

通过分组,我们可以从字符串中提取出想要的信息。另外,分组还可以通过指定名字的方式获取。


# 第一个分组的名字是number
# 第二个分组的名字是char
>>> m = re.match(r"(?P<number>d+)(?P<char>w+)", "123abc")
>>> m.group("number")
'123'
# 等价
>>> m.group(1)
'123'

贪婪与非贪婪

默认情况下,正则表达式重复匹配时,在使整个表达式能得到匹配的前提下尽可能匹配多的字符,我们称之为贪婪模式,是一种贪得无厌的模式。例如: r"a.*b" 表示匹配 a 开头 b 结尾,中间可以是任意多个字符的字符串,如果用它来匹配 aaabcb,那么它会匹配整个字符串。


>>> re.match(r"a.*b", "aaabcb").group()
'aaabcb'

有时,我们希望尽可能少的匹配,怎么办?只需要在量词后面加一个问号" ?",在保证匹配的情况下尽可能少的匹配,比如刚才的例子,我们只希望匹配 aaab,那么只需要修改正则表达式为 r"a.*?b"


>>> re.match(r"a.*?b", "aaabcb").group()
'aaab'
>>>

非贪婪模式在爬虫应用中使用非常频繁。比如之前在公众号「Python之禅」曾写过一篇爬取网站并将其转换为pdf文件的场景,在网页上涉及img标签元素是相对路径的情况,我们需要把它替换成绝对路径


>>> html = '<img src="/images/cateGory.png"><img src="/images/js_framework.png">'

# 非贪婪模式就匹配的两个img标签
# 你可以改成贪婪模式看看可以匹配几个
>>> rex = r'<img.*?src="(.*?)">'
>>> re.findall(rex, html)
['/images/category.png', '/images/js_framework.png']
>>>

>>> def fun(match):
...  img_tag = match.group()
...  src = match.group(1)
...  full_src = "Http://foofish.net" + src
...  new_img_tag = img_tag.replace(src, full_src)
...  return new_img_tag
...
>>> re.sub(rex, fun, html)
<img src="http://foofish.net/images/category.png"><img src="http://foofish.net/images/js_framework.png">

sub 函数可以接受一个函数作为替换目标对象,函数返回值用来替换正则表达式匹配的部分,在这里,我把整个img标签定义为一个正则表达式 r'',group() 返回的值是 <img src="/images/category.png"> ,而 group(1) 的返回值是 /images/category.png,最后,我用 replace 方法把相对路径替换成绝对路径。

到此,你应该对正则表达式有了初步的了解,现在我想你应该能解决文章开篇提的问题了。

正则表达式的基本介绍也到这里告一段落,虽然代码示例中用了re模块中的很多方法,但我还没正式介绍该模块,考虑到文章篇幅,我把这部分放在下篇,下篇将对re的常用方法进行介绍。

总结

以上就是这篇文章的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对编程网的支持。

--结束END--

本文标题: python爬虫入门教程--正则表达式完全指南(五)

本文链接: https://www.lsjlt.com/news/13218.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • PHP入门指南:正则表达式
    随着互联网的不断发展,网站的数量和复杂度越来越高。在这样的情况下,PHP编程语言逐渐成为了构建动态网站的主流编程语言之一。而正则表达式则是PHP编程中必不可少的一部分之一。本文将带您了解PHP中的正则表达式,从而为您在网站开发过程中提供进一...
    99+
    2023-05-24
    PHP 正则表达式 入门
  • Python爬虫之正则表达式(1)
    廖雪峰正则表达式学习笔记 1:用\d可以匹配一个数字;用\w可以匹配一个字母或数字; '00\d' 可以匹配‘007’,但是无法匹配‘00A’; ‘\d\d\d’可以匹配‘010’; ‘\w\w\d’可以匹配‘py3’; 2...
    99+
    2023-01-30
    爬虫 正则表达式 Python
  • python正则表达式入门篇
    本文主要为没有使用正则表达式经验的新手入门所写。 转载请写明出处 引子 首先说 正则表达式是什么? 正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression...
    99+
    2023-01-31
    入门篇 正则表达式 python
  • Python爬虫正则表达式怎么理解
    本篇内容介绍了“Python爬虫正则表达式怎么理解”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!元字符^ $ * + . | {} [] ...
    99+
    2023-06-17
  • python爬虫之解析库正则表达式
       上次说到了requests库的获取,然而这只是开始,你获取了网页的源代码,但是这并不是我们的目的,我们的目的是解析链接里面的信息,比如各种属性  @href  @class span  抑或是p节点里面的文本内容,但是我们需要一种工...
    99+
    2023-01-30
    爬虫 正则表达式 python
  • Python入门教程(二十九)Python的RegEx正则表达式
    RegEx 或正则表达式是形成搜索模式的字符序列。 RegEx 可用于检查字符串是否包含指定的搜索模式。 RegEx 模块 Python 提供名为 re 的内置包,可用于处理正则表达...
    99+
    2023-05-18
    Python RegEx Python正则表达式
  • 从零开始学习 Java:简单易懂的入门指南之正则表达式(十五)
    正则表达式 1.1 正则表达式的概念及演示1.2 正则表达式-字符类1.3 正则表达式-逻辑运算符1.4 正则表达式-预定义字符1.5 正则表达式-数量词1.6 正则表达式练习11.7 正则表达式练习2 1.1 正则表达式的...
    99+
    2023-08-22
    学习 java python 开发语言 spring boot spring cloud
  • Python正则表达式的使用教程
    这篇文章主要介绍“Python正则表达式的使用教程”,在日常操作中,相信很多人在Python正则表达式的使用教程问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python正则表达式的使用教程”的疑惑有所帮助!...
    99+
    2023-06-16
  • 一篇文章带你入门Python正则表达式
    目录Python3 正则表达式1.match函数2.search函数search和match的区别3. sub函数4.compile函数5.findall6.finditer7.sp...
    99+
    2024-04-02
  • Python正则表达式保姆式教学详细教程
    目录一、re模块1.导入re模块2.findall()的语法:二、正则表达式1.普通字符2.元字符(二)正则的使用1.编译正则2.正则对象的使用方法3.Match object 的操...
    99+
    2024-04-02
  • python网络爬虫精解之正则表达式的使用说明
    目录一、常见的匹配规则二、常见的匹配方法1、match()2、search()3、findall()4、sub()5、compile()一、常见的匹配规则 二、常见的匹配方法 1、...
    99+
    2024-04-02
  • Python入门教程(二十)Python的Lambda表达式
    目录语法lambda 函数可接受任意数量的参数:为何使用 Lambda 函数?lambda 函数是一种小的匿名函数。 lambda 函数可接受任意数量的参数,但只能有一个表达式。 语...
    99+
    2023-05-17
    Python 表达式 Python Lambda
  • python正则表达式re.search()的基本使用教程
    1 re.search() 的作用: re.search会匹配整个字符串,并返回第一个成功的匹配。如果匹配失败,则返回None  从源码里面可以看到re.search()方...
    99+
    2024-04-02
  • Python Lambda表达式进阶指南:从入门到精通
    Lambda 表达式的简介与基本语法 Lambda 表达式由一个函数参数列表,一个冒号和一个函数体组成。函数参数列表与普通函数的参数列表相同,函数体则是一个表达式,而不是一组语句。 # 示例:返回一个函数,该函数接收两个数字并返回它...
    99+
    2024-02-23
    Python Lambda表达式 函数 匿名函数 表达式 高级编程
  • Python使用re模块实现正则表达式操作指南
    目录一、前言二、匹配字符串1.使用match()方法进行匹配2.使用search()方法进行匹配3.使用findall()方法进行匹配三、替换字符串四、使用正则表达式分割字符串总结&...
    99+
    2024-04-02
  • 怎么分析Python网络爬虫四大选择器正则表达式、BS4、Xpath、CSS
    怎么分析Python网络爬虫四大选择器正则表达式、BS4、Xpath、CSS,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。今天小编来给大家总结一下这四个选择器,让大家更加深刻的...
    99+
    2023-06-04
  • 从入门到精通:Python Windows实时编程算法完全指南!
    Python是一种非常流行的编程语言,它可以应用于各种不同的领域,包括数据科学、机器学习、自然语言处理等等。而在Windows平台上,Python也可以被用于实时编程算法的开发。本文将为大家介绍如何从入门到精通,使用Python在Windo...
    99+
    2023-06-15
    windows 实时 编程算法
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作