伸手党必备之Python正则表达式常用函数
今日介绍Python中常用的正则表达式处理函数。Python的正则表达式主要有两种方法来完成模式匹配:『搜索』和『匹配』
re.match
re.match 试着从字符串的全部或部分匹配一个模式,比如下面的例子来匹配第一个单词。
importre text="PythonTab.comisagoodPythonwebsite" m=re.match(r"(\w+)\s",text) ifm: printm.group(0),'\n',m.group(1) else:
re.match的函数原型如下:re.match(pattern, string, flags)
第一个参数是正则表达式,这里是"(\w+)\s",如果匹配成功,返回Match,否则返回None;
第二个参数表示要匹配的字符串;
第三个参数是标致位,用于控制正则表达式的匹配方法,如是否区分大小写、多行匹配等。
注:匹配的前提是:一开始就必须满足匹配条件
re.search
re.search函数会在字符串中找到匹配模式,只找到第一个匹配,然后返回。如果字符串不匹配,则返回None。
importre text="PythonTab.comisagoodPythonwebsite" m=re.search(r'\Pyt(on)n\s',text) ifm: printm.group(0),m.group(1) else: print'notsearch'
re.search的函数原型如下: re.search(pattern, string, flags)
每个参数的含义和re.和match一样。
re.match和re.search的区别:re.match只匹配字符串的开始。如果字符串不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到匹配。
re.sub
re.sub用于替换字符串中的匹配项。以下是字符串中空格的例子 ' ' 替换成 '-' :
importre text="PythonTab.comisagoodPythonwebsite" printre.sub(r'\s+','-',text)
re.sub的函数原型如下:re.sub(pattern, repl, string, count)
第二个函数是替换后的字符串;本例为'-'
第四个参数是指替换的数量。默认为0,表示每个匹配项都被替换。
re.sub还允许使用函数复杂地替换匹配项。例如:re.sub(r'\s', lambda m: '[' + m.group(0) + ']', text, 0);将字符串中的空格' '替换为'[ ]'。
re.split
可使用re.分割字符串的split,如:re.split(r'\s+', text);按空格将字符串分成单词列表。
re.findall
re.findall可以在字符串中获得所有匹配的字符串。例如:re.findall(r'\w*oo\w*', text);获取字符串包括'oo'所有单词。
re.compile
正则表达式可以编译成正则表达式对象。常用的正则表达式可以编译成正则表达式对象,可以提高一定的效率。以下是正则表达式对象的一个例子:
importre text="PythonTabisagoodPythonwebsite" regex=re.compile(r'\w*on\w*') printregex.findall(text)#所有的搜索都包括'on'的单词 printregex.sub(lambdam:'['+m.group(0)+']',text)#字符串中含有'on'用[]括起单词。