UTF-8中文编码的范围: u4e00-u9fa5
过滤中文汉字:
@Test
public void removeChinese() {
String regex = "[\\u4e00-\\u9fa5]";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher("abc#$中文测试");
System.out.println(matcher.replaceAll("").trim());
}
测试结果:

过滤中文所有符号:
@Test
public void removeChineseSymbol() {
String regex = "[~!@#¥%……&*()——+{}:”|?》《、。,;‘、【】]";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher("abc#$中{}【】、。文测试");
System.out.println(matcher.replaceAll("").trim());
}
测试结果:

总之,写好正则后,使用
package java.util.regex;包下的类就可以解决;
本文介绍UTF-8编码中中文字符的范围,并提供使用Java正则表达式去除字符串中的中文字符及特殊符号的方法。通过Pattern和Matcher类实现字符串过滤。
3135

被折叠的 条评论
为什么被折叠?



