IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> Python:模式匹配与正则表达式(三) -> 正文阅读

[Python知识库]Python:模式匹配与正则表达式(三)

目录

前言

1、项目内容

2、实际步骤

2.1为电话号码创建一个正则表达式

2.2为E-mail地址创建一个正则表达式

2.3在剪贴板文本中找到所有匹配

2.4所有匹配连接成一个字符串,复制到剪贴板

2.5运行这个程序

2.6类似程序的构想

2.7小结



前言

本文内容及代码源自《Python编程快速上手—让繁琐工作自动化》,目的在于记录学习过程及内容,方便后续查看,接着学习模式匹配与正则表达式的内容。

这一部分将通过一个项目实战来巩固之前所学习的正则表达式知识。


1、项目内容

在一篇长的网页或文章中,找出所有电话号码和邮件地址。

希望通过程序,在剪贴板的文本中查找电话号码和E-mail地址,那么只需要Ctrl-A选择所有文本,按下Ctrl-C将它复制到剪贴板,然后运行程序,它就会用找到的电话号码和E-mail地址,替换掉剪切板的文本。

电话号码和E-mail地址提取程序需要完成以下任务:

  • 从剪贴板取得文本。
  • 找出文本中所有的电话号码和E-mail地址。
  • 将它们粘贴到剪贴板。

代码需要完成的工作:

  • 使用pyperclip模块复制和粘贴匹配字符串。
  • 创建两个正则表达式,一个匹配电话号码,另一个匹配E-mail地址。
  • 对两个正则表达式,找出所有的匹配,而不只是第一次匹配。
  • 将匹配的字符串整理好格式,放在一个字符串中,用于粘贴。
  • 如果文本没有找到匹配,显示某种消息。

2、实际步骤

2.1为电话号码创建一个正则表达式

  1. 电话号码从一个“可选的”区号开始,所以区号分组跟着一个问号。因为区号可能只是 3 个数字(即\d{3}),或括号中的 3 个数字(即\(\d{3}\)),所以应该用管道符号连接这两部分。
  2. 电话号码分割字符可以是空格(\s)、短横(-)或句点(.),所以这些部分也应该用管道连接。
  3. 这个正则表达式接下来的几部分很简单:3 个数字,接下来是另一个分割符,接下来是 4 个数字。
  4. 最后的部分是可选的分机号,包括任意数目的空格,接着 ext、x 或 ext.,再接着 2 到 5 位数字。
#为电话号码创建一个正则表达式
phoneRegex = re.compile(r'''(
 (\d{3}|\(\d{3}\))? # 区号
 (\s|-|\.)? # 电话号码分隔符
 (\d{3}) # 前3位数字
 (\s|-|\.) # 分隔符
 (\d{4}) # 后4个数字
 (\s*(ext|x|ext.)\s*(\d{2,5}))? # 可选的分机号
 )''', re.VERBOSE)

2.2为E-mail地址创建一个正则表达式

  1. E-mail 地址的用户名部分是一个或多个字符,字符可以包括:小写和大写字母、数字、句点、下划线、百分号、加号或短横。可以将所有这些放入一个字符分类:[a-zA-Z0-9._%+-]
  2. 域名和用户名用@符号分割,域名允许的字符分类要少一些,只允许字母、数字、句点和短横:[a-zA-Z0-9.-]。
  3. 最后是“dot-com”部分(技术上称为“顶级域名”),它实际上可以是“dot-anything”。它有 2 到 4 个字符。
  4. E-mail 地址的格式有许多奇怪的规则。这个正则表达式不会匹配所有可能的、有效的 E-mail 地址,但它会匹配遇到的大多数典型的电子邮件地址。
#为 E-mail 地址创建一个正则表达式
emailRegex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+ # 用户名
    @ # @ 符号
    [a-zA-Z0-9.-]+ # 域名
    (\.[a-zA-Z]{2,4}) # 顶级域名 
    )''', re.VERBOSE)

2.3在剪贴板文本中找到所有匹配

  • 前文已经指定了电话号码和电子邮件地址的正则表达式,就可以让 Python re 模块做辛苦的工作,查找剪贴板文本中所有的匹配。
  • pyperclip.paste()函数将取得一个字符串,内容是剪贴板上的文本。
  • findall() 正则表达式方法将返回一个元组的列表。
  • 每个匹配对应一个元组,每个元组包含正则表达式中每个分组的字符串。
#在剪贴板文本中找到所有匹配
text = str(pyperclip.paste())
matches = []
#将所有的电话号码匹配保存在matches中
for groups in phoneRegex.findall(text):
    #把电话号码统一成唯一的、标准的格式
    phoneNum = '-'.join([groups[1],groups[3],groups[5]])
    if groups[8] != '':
        phoneNum += ' x'+groups[8]
        matches.append(phoneNum)
#将所有的E-mail地址匹配保存在matches中
for groups in emailRegex.findall(text):
    matches.append(groups[0])

2.4所有匹配连接成一个字符串,复制到剪贴板

  • E-mail 地址和电话号码已经作为字符串列表放在 matches 中,接下来将它们复制到剪贴板。
  • pyperclip.copy() 函数只接收一个字符串值,而不是字符串的列表,所以要在 matches 上调用 join() 方法。
#所有匹配连接成一个字符串,复制到剪贴板
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('Copied to clipboard:')
    print('n'.join(matches))
else:
    print('No phone numbers or email addresses found.')

2.5运行这个程序

选择一个网页,按下 Ctrl-A 选择该页的所有文本,按下 Ctrl-C将它复制到剪贴板,然后运行该程序。
import re
import pyperclip

#为电话号码创建一个正则表达式
phoneRegex = re.compile(r'''(
 (\d{3}|\(\d{3}\))? # 区号
 (\s|-|\.)? # 电话号码分隔符
 (\d{3}) # 前3位数字
 (\s|-|\.) # 分隔符
 (\d{4}) # 后4个数字
 (\s*(ext|x|ext.)\s*(\d{2,5}))? # 可选的分机号
 )''', re.VERBOSE)

#为 E-mail 地址创建一个正则表达式
emailRegex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+ # 用户名
    @ # @ 符号
    [a-zA-Z0-9.-]+ # 域名
    (\.[a-zA-Z]{2,4}) # 顶级域名 
    )''', re.VERBOSE)

#在剪贴板文本中找到所有匹配
text = str(pyperclip.paste())
matches = []
#将所有的电话号码匹配保存在matches中
for groups in phoneRegex.findall(text):
    #把电话号码统一成唯一的、标准的格式
    phoneNum = '-'.join([groups[1],groups[3],groups[5]])
    if groups[8] != '':
        phoneNum += ' x'+groups[8]
        matches.append(phoneNum)
#将所有的E-mail地址匹配保存在matches中
for groups in emailRegex.findall(text):
    matches.append(groups[0])

#所有匹配连接成一个字符串,复制到剪贴板
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('Copied to clipboard:')
    print('n'.join(matches))
else:
    print('No phone numbers or email addresses found.')

2.6类似程序的构想

识别文本的模式(并且可能用 sub() 方法替换它们)有许多不同潜在的应用。
  • 寻找网站的 URL,它们以 http://https://开始。
  • 整理不同日期格式的日期(诸如 3/14/201503-14-2015 2015/3/14),用唯一
    的标准格式替代。
  • 删除敏感的信息,诸如社会保险号或信用卡号。
  • 寻找常见的打字错误,诸如单词间的多个空格、不小心重复的单词,或者句子末尾处多个感叹号。

2.7小结

? 虽然计算机可以很快地查找文本,但我们必须精确地告诉它要找什么。正则表达 式让我们精确地指明要找的文本模式。实际上,某些文字处理和电子表格应用提供了 查找替换功能,让我们使用正则表达式进行查找。
? Python 自带的 re 模块让我们编译 Regex 对象。该对象有几种方法: search() 查找 单词匹配, findall() 查找所有匹配实例, sub() 对文本进行查找和替换。
? 除前面介绍的语法以外,还有一些正则表达式语法。可以在官方 Python 文档 中找到更多内容: http://docs.python.org/3/library/re.html 指南网站 http://www.regular expressions.info/ 也是很有用的资源。


?

  

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-12-28 22:52:51  更:2021-12-28 22:53:42 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 3:22:43-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码