广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Java正则表达式之分组和替换方式
  • 841
分享到

Java正则表达式之分组和替换方式

2024-04-02 19:04:59 841人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

目录1 正则表达式热身匹配电话号码匹配邮箱特殊字符替换2 分组3 分组替换4 反向引用5 反向引用替换正则表达式的子表达式(分组)不是很好懂,但却是很强大的文本处理工具。 1 正则表

正则表达式的子表达式(分组)不是很好懂,但却是很强大的文本处理工具

1 正则表达式热身

匹配电话号码


// 电话号码匹配
// 手机号段只有 13xxx 15xxx 18xxxx 17xxx
System.out.println("18304072984".matches("1[3578]\\d{9}"));   // true

// 座机号:010-65784236,0316-3312617,022-12465647,03123312336
String regex = "0\\d{2}-?\\d{8}|0\\d{3}-?\\d{7}";
String telStr = "010-43367458";
System.out.println(telStr.matches(regex));  // true

匹配邮箱


String mail = "i@jiaobuchong.com.cn";
String reg = "[a-zA-Z_0-9]+@[a-zA-Z0-9]+(\\.[a-zA-Z]+){1,2}";
System.out.println(mail.matches(reg));  // true

特殊字符替换

将不是中文的字符替换为空:


String input = "神探狄仁&*%$杰之四大天王@bdfbdbdfdgds23532";
String reg = "[^\\u4e00-\\u9fa5]";
input = input.replaceAll(reg, "");
System.out.println(input);   // 神探狄仁杰之四大天王

汉字的Unicode编码范围是:\u4e00-\u9fa5

2 分组

组是用括号划分的正则表达式,可以根据组的编号来引用某个组。组号为 0 表示整个表达式,组号 1 表示第一对括号扩起的组,以此类推。

看 Java API 中 Pattern 中的描述:

Capturing groups are numbered by counting their opening parentheses from left to right. In the expression ((A)(B(C))), for example, there are four such groups:

1. ((A)(B(C)))
2. (A)
3. (B(C))
4. (C)

再比如 A(B(C))D 有三个组:组 0 是 ABCD,组 1 是 BC,组 2 是 C,

可以根据有多少个左括号来来确定有多少个分组,括号里的表达式都称子表达式。

Eg1:

Matcher 对象提供很多方法:

  • GoupCount() 返回该正则表达式模式中的分组数目,对应于「左括号」的数目
  • group(int i) 返回对应组的匹配字符,没有匹配到则返回 null
  • start(int group) 返回对应组的匹配字符的起始索引
  • end(int group) 返回对应组的匹配字符的最后一个字符索引加一的值

// 这个正则表达式有两个组,
// group(0) 是 \\$\\{([^{}]+?)\\}
// group(1) 是 ([^{}]+?)
String regex = "\\$\\{([^{}]+?)\\}";
Pattern pattern = Pattern.compile(regex);
String input = "${name}-babalala-${age}-${address}";

Matcher matcher = pattern.matcher(input);
System.out.println(matcher.groupCount());
// find() 像迭代器那样向前遍历输入字符串
while (matcher.find()) {
    System.out.println(matcher.group(0) + ", pos: "
            + matcher.start() + "-" + (matcher.end() - 1));
    System.out.println(matcher.group(1) + ", pos: " +
            matcher.start(1) + "-" + (matcher.end(1) - 1));
}

输出:

1
${name}, pos: 0-6
name, pos: 2-5
${age}, pos: 17-22
age, pos: 19-21
${address}, pos: 24-33
address, pos: 26-32

group翻译成中文就是分组。

group()或group(0)对应于整个正则表达式每次匹配到的内容,

group(1)表示括号中(一个子表达式分组)匹配到的内容。

Eg2:

为了更直观的看分组,在 Eg1 的正则表达式上再多加一对括号:


String regex = "(\\$\\{([^{}]+?)\\})";
Pattern pattern = Pattern.compile(regex);
String input = "${name}-babalala-${age}-${address}";

Matcher matcher = pattern.matcher(input);
// matcher.find() 方法会对 input 这个字符串多次进行匹配,如果能匹配到,这个匹配结果里就会包含多个分组,我们可以从分组里提取我们想要的结果
while (matcher.find()) {
    System.out.println(matcher.group(0) + ", pos: " + matcher.start());
    System.out.println(matcher.group(1) + ", pos: " + matcher.start(1));
    System.out.println(matcher.group(2) + ", pos: " + matcher.start(2));
}

输出:

${name}, pos: 0
${name}, pos: 0
name, pos: 2
${age}, pos: 17
${age}, pos: 17
age, pos: 19
${address}, pos: 24
${address}, pos: 24
address, pos: 26

由此可得出一对括号一个分组,可以通过左括号数来确定有多少个分组。

通过group()获取分组中的匹配字串应用场景很广泛,

在笔者的一个项目中,通过使用这个特性实现了很有意思的通配符替换,感动!

Eg3(通过分组提取想要的数据):


// 这个正则表达式会提取字符串中的「数字」和「字母」
        Pattern pattern = Pattern.compile("([0-9]+).*?([a-zA-Z]+)");
        String input = "那就20200719这样吧sunny。。。。。。。122432该拿什么与眼泪抗衡twinkle";
        Matcher matcher = pattern.matcher(input);
        // 每个匹配到的子串分组的个数
        int group = matcher.groupCount();
        // 如果输入串有多个可被匹配的子串,这里会多次进行匹配
        while (matcher.find()) {
            System.out.println("匹配到的子串:" + matcher.group());  // 匹配到的子串
            for (int i = 1; i <= group; i++) {
                System.out.println("分组" + i + ": " + matcher.group(i));
            }
        }

输出:

匹配到的子串:20200719这样吧sunny
分组1: 20200719
分组2: sunny
匹配到的子串:122432该拿什么与眼泪抗衡twinkle
分组1: 122432
分组2: twinkle

3 分组替换

Eg1:


String tel = "18304072984";
// 括号表示组,被替换的部分$n表示第n组的内容
tel = tel.replaceAll("(\\d{3})\\d{4}(\\d{4})", "$1****$2");
System.out.print(tel);   // output: 183****2984

replaceAll 是一个替换字符串的方法,正则表达式中括号表示一个分组,replaceAll 的参数 2 中可以使用 $n(n 为数字)来依次引用子表达式中匹配到的分组字串,"(\\d{3})\\d{4}(\\d{4})", "$1****$2",分为前(前三个数字)中间四个数字(最后四个数字) 替换为(第一组数字保持不变 $1)(中间为 * )(第二组数字保持不变 $2)。

Eg2:


String one = "hello girl hi hot".replaceFirst("(\\w+)\\s+(\\w+)", "$2 $1"); 
String two = "hello girl hi hot".replaceAll("(\\w+)\\s+(\\w+)", "$2 $1"); 
System.out.println(one);   // girl hello hi hot
System.out.println(two);   // girl hello hot hi

理解了Eg1,这个例子也自然就理解了。

Eg3:

来一个实用的例子,重复标点符号替换:


String input = "假如生活欺骗了你,,,相信吧,,,快乐的日子将会来临!!!…………";

// 重复标点符号替换
String duplicateSymbolReg = "([。?!?!,]|\\.\\.\\.|……)+";
input = input.replaceAll(duplicateSymbolReg, "$1");
System.out.println(input);

输出:

假如生活欺骗了你,相信吧,快乐的日子将会来临!……

正则表达式:([。?!?!,]|\\.\\.\\.|……)+,括号中是一个分组:表示一个标点符号,+表示这个分组出现一次或多次,$1分组的内容(一个标点符号)。replaceAll 就使用$1去对字符串进行替换了。

Eg4:

IP地址排序


String ip = "192.68.1.254 102.49.23.013 10.10.10.10 2.2.2.2 8.109.90.30";
ip = ip.replaceAll("(\\d+)", "00$1");
System.out.println(ip);

ip = ip.replaceAll("0*(\\d{3})", "$1");
System.out.println(ip);
String[] strs = ip.split(" ");

Arrays.sort(strs);
for (String str : strs) {
    str = str.replaceAll("0*(\\d+)", "$1");
    System.out.println(str);
}

输出:

00192.0068.001.00254 00102.0049.0023.00013 0010.0010.0010.0010 002.002.002.002 008.00109.0090.0030
192.068.001.254 102.049.023.013 010.010.010.010 002.002.002.002 008.109.090.030
2.2.2.2
8.109.90.30
10.10.10.10
102.49.23.13
192.68.1.254

  • 让IP地址的每一段都是3位,替换之后有4位的情况
  • 保证IP地址每一段都是3位
  • 排序之

写到这里,笔者不禁感叹,真的很强大!

4 反向引用

使用小括号指定一个子表达式分组后,匹配这个子表达式的文本可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:以分组的左括号为标志,从左向右,第一个分组的组号为1,第二个为2,以此类推。

Eg:



String regex = "(.)\\1(.)\\2";  
System.out.println("安安静静".matches(regex));   // true
System.out.println("安静安静".matches(regex));   // false

上面 (.) 表示一个分组,里面 . 表示任意字符,每一个字符都是一个分组,

\\1表示组1(安)又出现了一次,\\2表示组2(静)又出现了一次。

那匹配 安静安静,怎么写正则表达式?根据上面的例子,将安静分成一个组,然后这个组又出现了一次就是安静安静:


String regex = "(..)\\1";  
System.out.println("安静安静".matches(regex));   // true
System.out.println("安安静静".matches(regex));   // false

5 反向引用替换

Eg1:


String str = "我我...我我...我要..要要...要要...找找找一个....女女女女...朋朋朋朋朋朋...友友友友友..友.友...友...友友!!!";
        

str = str.replaceAll("\\.+", "");
System.out.println(str);

str = str.replaceAll("(.)\\1+", "$1");
System.out.println(str);

输出:

我我我我我要要要要要找找找一个女女女女朋朋朋朋朋朋友友友友友友友友友友!!!
我要找一个女朋友!

(.)表示任意一个字符都会成为一个分组;\\1+ 引用分组(一个字符),表示出现1次或多次这个分组。 $1引用分组(.)将多个重复字符替换成一个字符。

Eg2:

替换重复出现的两位数之间的内容:


"xx12abdd12345".replaceAll("(\\d{2}).+?\\1", "");  //结果为 xx345

是不是觉得很神奇!

使用replace系列的方法要注意的一个异常: Java replaceAll()方法报错Illegal group reference

以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程网。

--结束END--

本文标题: Java正则表达式之分组和替换方式

本文链接: https://www.lsjlt.com/news/158799.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Java正则表达式之分组和替换方式
    目录1 正则表达式热身匹配电话号码匹配邮箱特殊字符替换2 分组3 分组替换4 反向引用5 反向引用替换正则表达式的子表达式(分组)不是很好懂,但却是很强大的文本处理工具。 1 正则表...
    99+
    2022-11-12
  • Java正则表达式中如何实现分组和替换
    小编给大家分享一下Java正则表达式中如何实现分组和替换,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!正则表达式的子表达式(分组)不是很好懂,但却是很强大的文本处理工具。1 正则表达式热身匹配电话号码// 电话号...
    99+
    2023-06-21
  • 替换javascript正则表达式的方法
    这篇文章主要讲解了“替换javascript正则表达式的方法”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“替换javascript正则表达式的方法”吧!javascript正则表达式使用替换...
    99+
    2023-06-14
  • php正则表达式如何替换指定部分
    这篇文章主要讲解了“php正则表达式如何替换指定部分”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“php正则表达式如何替换指定部分”吧!一、PHP正则表达式概述正则表达式是一种用于描述字符串...
    99+
    2023-07-05
  • Python正则表达式分组
    Python正则表达式分组 分组就是用一对圆括号“()”括起来的正则表达式,匹配出的内容就表示一个分组。从正则表达式的左边开始看,看到的第一个左括号&ldqu...
    99+
    2022-12-19
    Python正则表达式分组 命名分组 后向引用 前向否定断言 后向否定断言
  • Java正则表达式(匹配、切割、替换、获取)等方法
    正则表达式:符合一定规则的表达式作用:用于专门操作字符串特点:用于一些特定的符号来表示一些代码操作,这样就简化书写,主要是学习一些特殊符号的使用好处:可以简化对字符串的复杂操作。弊端:符号定义越多,正则越长,阅读性越差具体操作:匹配:Str...
    99+
    2023-05-31
    java 正则表达式 ava
  • Java 之正则表达式语法及常用正则表达式汇总
    正则表达式概念: 正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为 regex、regexp 或 RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表...
    99+
    2023-08-18
    正则表达式 java 开发语言
  • python使用正则表达式替换匹配成功的组
    正则表达式简介 正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概...
    99+
    2022-06-04
    正则表达式 python
  • java正则表达式匹配替换大括号变量${}和替换${}变量的值
    java正则表达式替换“$ {}”特殊字符并还原,以及java正则表达式替换${}变量为变量的值这两种操作的代码示例。 import java.text.SimpleDateFormat;import...
    99+
    2023-10-11
    java 正则表达式 jvm
  • 深入浅出解析正则表达式-替换原则
    正则表达式的替换原则是指在使用正则表达式进行替换操作时,根据指定的正则表达式模式匹配到的内容将被替换为指定的替换字符串。在正则表达式...
    99+
    2023-08-11
    正则表达式
  • idea 正则表达式搜索替换应用详解
    idea 正则表达式搜索替换简单应用 利用正则表达式,idea可以进行快速大量替换  1.CTRL+R 快捷键调出下面当前页面替代操作栏 注意要使用正则表达式替换需要勾选...
    99+
    2022-11-12
  • 如何使用DW正则表达式批量替换
    小编给大家分享一下如何使用DW正则表达式批量替换,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!想法:想把<a href="#" targ...
    99+
    2023-06-08
  • Python使用正则表达式实现文本替换的方法
    本文实例讲述了Python使用正则表达式实现文本替换的方法。分享给大家供大家参考,具体如下: 2D客户端编程从某种意义上来讲就是素材组织,所以,图片素材组织经常需要批量处理,python一定是最佳选择,不管...
    99+
    2022-06-04
    文本 方法 正则表达式
  • 怎么用Python正则表达式实现分页按钮href替换
    本篇内容介绍了“怎么用Python正则表达式实现分页按钮href替换”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!帖子上有分页功能的按钮,如...
    99+
    2023-06-17
  • 正则表达式组的示例分析
    这篇文章主要为大家展示了“正则表达式组的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“正则表达式组的示例分析”这篇文章吧。正则表达式组的理解把正则表达式的一部分放在圆括号内,你可以将它们...
    99+
    2023-06-17
  • PHP中如何执行正则表达式的搜索和替换
    这篇文章主要介绍“PHP中如何执行正则表达式的搜索和替换”,在日常操作中,相信很多人在PHP中如何执行正则表达式的搜索和替换问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”PHP中如何执行正则表达式的搜索和替换...
    99+
    2023-06-25
  • Java如何使用正则表达式实现替换文本功能
    本篇文章给大家分享的是有关Java如何使用正则表达式实现替换文本功能,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。具体如下:package replaceDemo;import...
    99+
    2023-05-31
    java 正则表达式 ava
  • Java正则表达式APIMatcher类方法
    目录一、Pattern.DOTALL二、Pattern.LITERAL三、Pattern.MULTILINE四、Matcher类方法索引方法Study方法Replacement方法一...
    99+
    2022-11-13
  • python使用正则表达式替换匹配成功的组并输出替换的次数
    正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语...
    99+
    2022-06-04
    次数 正则表达式 python
  • Idea使用正则表达式批量替换字符串的方法
    由于一开始的粗放扩张,公司项目代码里,遗留有很多类似魔法数的写死的id,导致现在维护困难。于是交给我任务,将这些id替换成静态变量。 这些id有十多种,分布在十个文件中,总共六十多处...
    99+
    2022-11-12
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作