Python实战：Python正则表达式基础与re模块

最新推荐文章于 2026-06-14 13:54:21 发布

原创最新推荐文章于 2026-06-14 13:54:21 发布 · 1k 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python #正则表达式 #mysql

正则表达式是处理字符串的强大工具，Python的re模块为正则表达式的使用提供了丰富的支持。本文将详细介绍Python正则表达式的基础知识，包括正则表达式的语法、re模块的基本用法以及一些高级特性。

1. 引言

在文本处理中，正则表达式（Regular Expression）是一种强大的工具，它允许我们以一种简洁、灵活的方式匹配、查找和替换字符串。Python的标准库中提供了一个名为re的模块，它实现了正则表达式的相关功能。

2. 正则表达式基础

2.1 元字符
正则表达式中的元字符是一些具有特殊意义的字符，它们用于定义模式。常见的元字符包括：

.：匹配除换行符以外的任意字符。
[]：匹配括号内的任意一个字符（字符集）。
[^]：匹配不在括号内的任意一个字符（否定字符集）。
*：匹配前面的子表达式零次或多次。
+：匹配前面的子表达式一次或多次。
?：匹配前面的子表达式零次或一次。
{m,n}：匹配前面的子表达式至少m次，至多n次。
^：匹配字符串的开始。
$：匹配字符串的结束。
2.2 字符集
字符集用于匹配一组特定的字符。例如，[abc]可以匹配"a"、"b"或"c"中的任意一个字符。
2.3 分组和引用
使用圆括号()可以创建一个分组，用于匹配子表达式。分组可以用于捕获匹配的文本，并在后续的操作中引用。
2.4 断言
断言用于指定匹配的位置，不消耗字符。常见的断言包括：
(?=)：正向先行断言，匹配后面跟有特定模式的当前位置。
(?!)：负向先行断言，匹配后面不跟有特定模式的当前位置。

3. re模块基础

3.1 编译正则表达式
在Python中，可以使用re模块的compile()函数来编译一个正则表达式，得到一个Pattern对象。

import re
pattern = re.compile(r'\d+')

3.2 搜索匹配
re模块提供了search()函数来搜索字符串中是否存在匹配的模式。

import re
pattern = re.compile(r'\d+')
match = pattern.search('Hello 123 World')
if match:
    print(match.group())

3.3 查找所有匹配
findall()函数用于查找字符串中所有匹配的模式。

import re
pattern = re.compile(r'\d+')
matches = pattern.findall('Hello 123 World 456')
print(matches)

3.4 替换匹配
sub()函数用于替换字符串中匹配的模式。

import re
pattern = re.compile(r'\d+')
replaced = pattern.sub('NUMBER', 'Hello 123 World 456')
print(replaced)

4. 高级特性

4.1 分组捕获
使用分组可以捕获匹配的子字符串。

import re
pattern = re.compile(r'(\d+)')
match = pattern.search('Hello 123 World')
if match:
    print(match.group(1))

4.2 使用命名分组
命名分组允许给分组一个名字，方便后续引用。

import re
pattern = re.compile(r'(?P<numbers>\d+)')
match = pattern.search('Hello 123 World')
if match:
    print(match.group('numbers'))

4.3 使用标志
re模块允许在编译正则表达式时使用标志来修改匹配行为，如忽略大小写、多行模式等。

import re
pattern = re.compile(r'world', re.IGNORECASE)
match = pattern.search('Hello World')
if match:
    print(match.group())

5. 实战案例

5.1 验证邮箱地址

import re
pattern = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b')
email = 'example@gmail.com'
if pattern.match(email):
    print('Valid email')
else:
    print('Invalid email')

5.2 提取URL

import re
pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\$\$,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')
text = "Visit my website at http://www.example.com and my blog at https://blog.example.com."
urls = pattern.findall(text)
print(urls)

5.3 电话号码验证

import re
pattern = re.compile(r'^\+?1?\d{9,15}$')
phone_number = "+1234567890"
if pattern.match(phone_number):
    print("Valid phone number")
else:
    print("Invalid phone number")

5.4 文本格式化

import re
text = "Hello, my name is John. Call me at 123-456-7890."
pattern = re.compile(r'(\w+), (\w+)')
formatted_text = pattern.sub(r'\2 \1', text)
print(formatted_text)

6. 正则表达式进阶技巧

6.1 回溯引用
回溯引用允许正则表达式匹配与之前某个分组相同的内容。

import re
pattern = re.compile(r'(\b\w+)\s+\1')
text = "This is is a test text with with repeated words."
matches = pattern.findall(text)
print(matches)

6.2 前瞻和后瞻
前瞻和后瞻不消耗字符，用于检查匹配位置的前后内容。

import re
pattern = re.compile(r'(?<=\d)(\d{3})')
text = "1234567890"
matches = pattern.findall(text)
print(matches)

7. 总结

本文详细介绍了Python中正则表达式的基础知识，包括正则表达式的语法、re模块的基本用法以及一些高级特性。通过代码示例，我们可以理解正则表达式的核心概念，并能够在实际项目中有效运用re模块进行字符串处理。正则表达式是文本处理的重要工具，掌握正则表达式对于提高编程效率和数据处理能力至关重要。