一道小问题了解Scala和Java的正则

本文详细介绍了如何使用正则表达式在Java和Scala中匹配特定模式的字符串,包括去除包裹字符的方法,以及如何利用正则表达式的组功能精确提取所需信息。

问题:比如现在有一个字符串"[] [1] [abc123]",用正则匹配中括号中有值的字符串。

这类问题在实际项目中可能会经常遇到,我们获取到的数据可能是用某些特定的符号进行分割,比如上面字符串使用的一个空格来分割的(比如其它的一些空字符),然后获得某些信息又由特定的字符包裹着,比如上面的是用中括号包裹(也可能是其它的,比如括号,大括号等等)。

 

一、正则表达式匹配

首先看Java代码怎么来提取

import java.util.regex.Matcher;
import java.util.regex.Pattern;

...

    //这里正则表达式也可以使用如下另外两种
    // ① "\\[([^\\W])+\\]"    ② "\\[([\\w])+\\]"
    Pattern p = Pattern.compile("\\[([^]])+\\]");
    String s = "[] [1] [abc123]";
    Matcher m = p.matcher(s);
    while (m.find()){
        //group(0)代表正则表达式匹配到的所有内容
        System.out.println(m.group(0));
    }

 

然后我们看Scala代码怎么提取

    val regex = """\[([^]])+\]""".r
    val s = "[] [1] [abc123]"
    // findAllIn会返回遍历所有匹配项的迭代器。
    println(regex.findAllIn(s))
    for(fa <- regex.findAllIn(s)){
        println(fa)
    }
    

上面运行出来的结果都是: 

[1]
[abc123]

看到这个结果我们会?,但是看的多了也许感觉中括号会很烦人,我们能不能去除它哪?最简单的办法是我们要的内容已经匹配出来了,那就直接replace掉中括号不就行了,这样当然是没问题了,但我们能否更优雅的将我们想要的字符直接匹配出来吗?当然有,这时需要我们用到正则表达式组啦。

 

二、正则表达式组

分组可以让我们方便地获取正则表达式的子表达式。这时只需要我们将正则表达式写到英文括号中,英文括号和英文括号之间的符号由字符串来定,有些是连续的,括号和括号紧挨着就行,有些是用空格隔开的,需要用空格将括号分开。

首先看Java代码如何改造:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

...

    // 用括号包裹着三个正则表达式,其中第二个就是我们需要匹配的字符串
    Pattern p = Pattern.compile("(\\[)(\\w+)(\\])");
    String s = "[] [1] [abc123]";
    Matcher m = p.matcher(s);
    while (m.find()){
        System.out.println(m.group(2));
    }

 

然后再细细分析Scala代码,下面有两种方式:

    // 方法一
    val regex2 = """(\[)(\w+)(\])""".r
    val s = "[] [1] [abc123]"
    for(m <- regex2.findAllMatchIn(s)){
        println(m.group(2))
    }


    println(s"""${"-"*6} ”提取器“模式 ${"-"*6}""")

    // 方法二
    val regex2(start, midddle , end) = "[0]"
    for(regex2(start,midddle,end) <- regex2.findAllIn("[] [1] [abc123]")){
        // middle就是我们需要的那个字符串
        println(midddle)
    }

最后再次查看运行的结果: 

1
abc123

 

三、Scala 正则匹配模式

例如用这则匹配一个时间字符串,获取其中的时间数值和单位。

    val delay = " 10 min "
    val regx = "^(\\d+)([a-zA-Z]+)$".r

    // 方法一
    val regx(d, u) = delay.replaceAll("\\s", "")
    println(s"时间:$d,其单位为:$u")

    // 方法二
    delay.replaceAll("\\s", "") match {
      case regx(d, u) => println(s"时间:$d,其单位为:$u")
      case _ => println(s"字符串`$delay`未匹配到")
    }

 

运行的结果如下:

时间:10,其单位为:min
时间:10,其单位为:min

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Yore Yuen

你的支持认可是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值