正则表达式
\d可以匹配一个数字,\w可以匹配一个字母或数字,\s可以匹配一个空格(也包括tab等空白符)
.可以匹配任意字符
匹配变长字符的话,*表示任意字符,包括0个;+表示至少一个字符;?表示0个或者1个字符;{n}表示n个字符;{n,m}表示n-m个字符
要做更精确的匹配可以用[]表示范围:
- [0-9a-zA-Z_]可以匹配一个数字、字母或者下划线
- [a-zA-Z_][0-9a-zA-Z_]{0, 19}更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)
- ^表示行的开头,^\d表示必须以数字开头。$表示行的结尾
Re模块
由于python字符串本身是用\转义的,所以我们通常使用r前缀,就不用考虑转义问题了
import re
re.match(r'^\d{3}\-\d{3,8}$','010-12345')
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
$ match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None $
test = '字符串'
if re.match(r'正则表达式', test):
print('ok')
else:
print('failed')
切分字符串
用正则表达式切分字符串比用固定的字符更灵活
'a b c'.split(' ')
['a', 'b', '', 'c']
re.split(r'\s+', 'a b c')
['a', 'b', 'c']
re.split(r'[\s+\,\;]+', 'a b;; c ,d')
['a', 'b', 'c', 'd']
分组
$ 正则表达式还有提取字符串的功能,用()表示的就是要提取的分组(group) $
^(\d{3})-(\d{3,8})$分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码
m = re.match(r'^(\d{3})-(\d{3,8})', '010-12345')
m.group(0)
'010-12345'
m.group(1)
'010'
m.group(2)
'12345'
贪婪匹配
正则表达式默认是贪婪匹配,即尽可能匹配多的字符
m = re.match(r'^(\d+)(0*)','1023000')
m.groups()
('1023000', '')
必须要让\d+采取非贪婪模式,才能匹配到后面的0,加个?就行了
re.match(r'^(\d+?)(0*)$','1023000').groups()
('1023', '000')
re.match(r'^(\d+?)(0*)','1023000').groups()
('1', '0')
编译
当我们在Python中使用正则表达式时,re模块内部会干两件事情:
1.编译正则表达式,如果正则表达式的字符串本身不合法,会报错;
2.用编译后的正则表达式去匹配字符串。
如果一个正则表达式要重复使用几千次,出于效率的考虑,我们可以预编译该正则表达式,接下来重复使用时就不需要编译这个步骤了,直接匹配
re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
re_telephone.match('010-111111').groups()
('010', '111111')