IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发测试 -> 【Python 每日一技】文本查找和替换 -> 正文阅读

[开发测试]【Python 每日一技】文本查找和替换

1 问题

你希望查找并替换一段文本中的模式串。

2. 解决方案

如果以简单的字符串字面量形式给出模式串,那么你通常可以使用基本的字符串方法如 str.replace() ,例如:

>>> text = 'yeah, but no, but yeah, but no, but yeah'
>>> text.replace('yeah', 'yep')
'yep, but no, but yep, but no, but yep'

对于更加复杂的模式串,则需要结合 re 模块的 sub() 函数/方法以及正则表达式。为了演示,假设你希望将形如 11/27/2012 的日期重写为 2012-11-27 形式。例如:

>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
>>> import re
>>> re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)
'Today is 2012-11-27. PyCon starts 2013-3-13.'

re.sub() 函数中,第一个参数用于文本匹配的正则表达式,第二个参数是用于进行替换的文本模式,其中的反斜杠加数字如 \3 指的是第一个参数中的捕捉分组编号。

如果你希望使用某个正则表达式进行多次重复的文本匹配,那么可以考虑提前对其进行编译以提高执行的速度。例如:

>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
>>> import re
>>> date_pattern = re.compile(r'(\d+)/(\d+)/(\d+)')
>>> date_pattern.sub(r'\3-\1-\2', text)
'Today is 2012-11-27. PyCon starts 2013-3-13.'

对于复杂的文本替换,还可以考虑定义一个用于文本替换的回调函数。例如:

>>> from calendar import month_abbr
>>> def change_date(m):
...     mon_name = month_abbr[int(m.group(1))]
...     return '{} {} {}'.format(m.group(2), mon_name, m.group(3))
... 
>>> re.sub(r'(\d+)/(\d+)/(\d+)', change_date, text)
'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.'
>>> date_pattern.sub(change_date, text)
'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.'

如上所述,作为输入,传入替换回调函数的实参是类似 match()find() 以及 search() 等函数返回的匹配对象。在回调函数中通过调用匹配对象的 group() 方法以剥离出想要的部分。

如果你除了想获取替换后的文本之外,还希望知道发生了多少次替换,那么可以使用 re.subn() 函数,例如:

>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
>>> re.subn(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)
('Today is 2012-11-27. PyCon starts 2013-3-13.', 2)
>>> text_with_replacement, num = re.subn(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)
>>> text_with_replacement
'Today is 2012-11-27. PyCon starts 2013-3-13.'
>>> num
2

3. 讨论

对于使用正则表达式进行文本的搜索和替换,基本上都逃不过上述 re.sub() 函数的用法。实际上,最有挑战性是其实是写出正确的正则表达式。

  开发测试 最新文章
pytest系列——allure之生成测试报告(Wind
某大厂软件测试岗一面笔试题+二面问答题面试
iperf 学习笔记
关于Python中使用selenium八大定位方法
【软件测试】为什么提升不了?8年测试总结再
软件测试复习
PHP笔记-Smarty模板引擎的使用
C++Test使用入门
【Java】单元测试
Net core 3.x 获取客户端地址
上一篇文章      下一篇文章      查看所有文章
加:2022-04-22 19:07:17  更:2022-04-22 19:09:22 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 7:32:03-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码