1.组的概念
import re
#这里侧重讲解正则中组的概念
resource ="固定电话1:0518-888888888,固定电话2:0519-99999999"
#获取区号
pattern_nogroup ='[^0-9]{4}\d:\d{4}'
result_nogroup = re.findall(pattern_nogroup,resource)
print(result_nogroup)
print("********************************************************")
pattern_group='[^0-9]{4}\d:(\d{4})'
result_group = re.search(pattern_group,resource)
print("group():"+result_group.group())
print("group(0):"+result_group.group(0))
print("group(1):"+result_group.group(1))
print("********************************************************")
result_group_findall = re.findall(pattern_group,resource)
print(result_group_findall)
运行结果:
['固定电话1:0518', '固定电话2:0519']
********************************************************
group():固定电话1:0518
group(0):固定电话1:0518
group(1):0518
********************************************************
['0518', '0519']
从结果中可以看出当正则表达式中没有()时,结果输出为整段满足的文本。而当正则表达式中有()时,结果只输出()中的部分。同时当不存在()时,默认为group()或group(0),而存在()时,对应的是group(n)。同时还可以看出re.search()和re.findall()方法的区别在于search方法只会输出一个满足正则的结果,而findall方法会输出所有满足正则的结果。
所以可以认为正则中组就是(),当不存在()时,为0组,当存在时组的序号随着()的数量变化。
2.多组情况分析
1.当存在多个平级()时
#分别获得区号和电话号码
import re
resource ="固定电话1:0518-888888888,固定电话2:0519-99999999"
pattern_groups='(\d{4})-(\d{8})'
result_groups_search = re.search(pattern_groups,resource)
print("group(0): "+result_groups_search.group(0))
print("group(1): "+result_groups_search.group(1))
print("group(2): "+result_groups_search.group(2))
result_groups_findall=re.findall(pattern_groups,resource)
print(result_groups_findall)
运行结果:
group(0): 0518-88888888
group(1): 0518
group(2): 88888888
[('0518', '88888888'), ('0519', '99999999')]
从运行结果可以看出当正则表达式中存在多个平级()时,组的序号从左向右依次增加。当使用findall方法时,返回的为元组列表,元组中元素依次为每个组的值。
2.当存在嵌套()时
#分别获得区号和电话号码
import re
resource ="固定电话1:0518-888888888,固定电话2:0519-99999999"
pattern_groups1='((\d{4})-\d{8})'
result_groups_search1 = re.search(pattern_groups1,resource)
print("group(0): "+result_groups_search1.group(0))
print("group(1): "+result_groups_search1.group(1))
print("group(2): "+result_groups_search1.group(2))
result_groups_findall1=re.findall(pattern_groups1,resource)
print(result_groups_findall1)
运行结果:
group(0): 0518-88888888
group(1): 0518-88888888
group(2): 0518
[('0518-88888888', '0518'), ('0519-99999999', '0519')]
从运行结果可以看出当正则表达式中存在嵌套()时,组的序号从外向内依次增加。
3.当既存在平级()又存在嵌套()时
#分别获得区号和电话号码
import re
resource ="固定电话1:0518-888888888,固定电话2:0519-99999999"
pattern_groups2='((\d{4})-(\d{8}))'
result_groups_search2 = re.search(pattern_groups2,resource)
print("group(0): "+result_groups_search2.group(0))
print("group(1): "+result_groups_search2.group(1))
print("group(2): "+result_groups_search2.group(2))
print("group(3): "+result_groups_search2.group(3))
result_groups_findall2=re.findall(pattern_groups2,resource)
print(result_groups_findall2)
运行结果:
group(0): 0518-88888888
group(1): 0518-88888888
group(2): 0518
group(3): 88888888
[('0518-88888888', '0518', '88888888'), ('0519-99999999', '0519', '99999999')]
从运行结果看当存在组合()时,组的序号是根据从左向右的顺序依次增加的。
3总结
正则中组就是正则表达式中的(),其作用是只提取()中满足的内容。当存在复杂()时,根据(从左向右依次数数作为组的序号进行提取。
|