正则表达式


正则表达式

  • \d可以匹配一个数字,\w可以匹配一个字母或数字,\s可以匹配一个空格(也包括tab等空白符)

  • .可以匹配任意字符

  • 匹配变长字符的话,*表示任意字符,包括0个;+表示至少一个字符;?表示0个或者1个字符;{n}表示n个字符;{n,m}表示n-m个字符

  • 要做更精确的匹配可以用[]表示范围:

    • [0-9a-zA-Z_]可以匹配一个数字、字母或者下划线
    • [a-zA-Z_][0-9a-zA-Z_]{0, 19}更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)
    • ^表示行的开头,^\d表示必须以数字开头。$表示行的结尾

Re模块

由于python字符串本身是用\转义的,所以我们通常使用r前缀,就不用考虑转义问题了

import re
re.match(r'^\d{3}\-\d{3,8}$','010-12345')
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>

$ match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None $

test = '字符串'
if re.match(r'正则表达式', test):
    print('ok')
else:
    print('failed')

切分字符串

用正则表达式切分字符串比用固定的字符更灵活

'a b  c'.split(' ')
['a', 'b', '', 'c']
re.split(r'\s+', 'a b  c')
['a', 'b', 'c']
re.split(r'[\s+\,\;]+', 'a b;; c  ,d')
['a', 'b', 'c', 'd']

分组

$ 正则表达式还有提取字符串的功能,用()表示的就是要提取的分组(group) $

^(\d{3})-(\d{3,8})$分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码

m = re.match(r'^(\d{3})-(\d{3,8})', '010-12345')
m.group(0)
'010-12345'
m.group(1)
'010'
m.group(2)
'12345'

贪婪匹配

正则表达式默认是贪婪匹配,即尽可能匹配多的字符

m = re.match(r'^(\d+)(0*)','1023000')
m.groups()
('1023000', '')

必须要让\d+采取非贪婪模式,才能匹配到后面的0,加个?就行了

re.match(r'^(\d+?)(0*)$','1023000').groups()
('1023', '000')
re.match(r'^(\d+?)(0*)','1023000').groups()
('1', '0')

编译

当我们在Python中使用正则表达式时,re模块内部会干两件事情:

1.编译正则表达式,如果正则表达式的字符串本身不合法,会报错;

2.用编译后的正则表达式去匹配字符串。

如果一个正则表达式要重复使用几千次,出于效率的考虑,我们可以预编译该正则表达式,接下来重复使用时就不需要编译这个步骤了,直接匹配

re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
re_telephone.match('010-111111').groups()
('010', '111111')

文章作者: lovelyfrog
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 lovelyfrog !
 上一篇
图形界面 图形界面
图形界面 $python自带的支持图形界面的库是支持Tk的Tkinter,下面简单介绍如何使用Tkinter进行GUI编程$ from tkinter import * class MyApplication(Frame): #从Fra
2017-09-08
下一篇 
错误处理 错误处理
错误处理 记录错误 python内置的logging模块可以非常容易的记录错误信息程序打印完错误信息后会继续执行,并正常退出 import logging def foo(s): return 10/int(s) def bar
2017-09-08
  目录