提取文件内容
import docx
def merge_without_format(docx_files: list):
'''
只获取内容进行合并
'''
for docx_file in sorted(docx_files):
another_doc = Document(docx_file)
paras = another_doc.paragraphs
for para in paras:
newpar = doc.add_paragraph('')
newpar.add_run(para.text)
doc.save(Path(word_files_path, 'new.docx'))
merge_without_format(files)
我们 Word 和 Txt 合并之后保存到新的 Word 中,会出现 Txt 里的字体字号和原有文件不统一的问题,我们可以使用 python-docx 扩展库为 Txt 文件中的文字增加格式。如果合并前 Word 文件是仿宋字体,而且有下划线和红色字体,我们将 Txt 合并之后如何进行字体、样式和颜色的统一呢?我们可以使用下面这段代码。
def add_content_mode1(content):
'''
增加内容
'''
para = doc.add_paragraph().add_run(content)
para.font.name = '仿宋'
para.font.underline = True
para.font.color.rgb = RGBColor(255,128,128)
我们经常见到的图片格式就有.jpg、.png、.gif 等,由于这些格式应用范围广,格式没有被商业软件加密,所以 python-docx 库的 add_picture 函数就能实现把图片插入 Word 的功能。代码如下:
from docx import Document
from docx import shared
doc = Document()
doc.add_picture('test.jpg', width=shared.Inches(1))
为了让你更好地理解如何进行 Word 和 Excel 文件的合并,我用一个利用 Excel 和 Word 批量制作邀请函的例子来给你讲解。
def generat_invitation():
'''
生成邀请函文件
'''
doc = Document(invitation)
for para in doc.paragraphs:
for key, value in replace_content.items():
if key in para.text:
para.text = para.text.replace(key, value)
file_name = PurePath(invitation_path).with_name(replace_content['<姓名>']).with_suffix('.docx')
doc.save(file_name)
先将 Excel 中的每一行中的姓名、性别填入 Word 文件中;再将当前日期填入到 Word 文件中;最后再按照姓名另存为一个文件。
|