IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 【办公自动化实例】批量提取ppt文件中的文本和表格信息并存入word文档中。 -> 正文阅读

[Python知识库]【办公自动化实例】批量提取ppt文件中的文本和表格信息并存入word文档中。

一、需求

批量从PPT中提取相关文本内容和表格内容,并保存至word文档中,参考例子如图:

在这里插入图片描述

二、处理方式

1、通过os模块遍历文件,提取pptx格式文件;
2、通过python-pptx模块,进行pptx文件内容的提取;
3、通过python-docx模块,将提取的内容写入word文档中。
注:
	1、图片内容不能使用此方法提取,可通过压缩文件后,提取压缩包中的图片来实现;
	2、信息提取顺序是根据编写ppt时,shape的写入顺序来决定的。
	3、python版本 3.8
		 python-docx版本 0.8.10
		 python-pptx版本 0.6.19

三、代码实现

from pptx import Presentation
from docx import Document
import os

doc = Document()

for file in os.scandir():
    # 先判断文件类型
    if file.name.endswith('.pptx'):
        prs = Presentation(file.name)
        table_ls=[]

        # 读取PPT中各页幻灯片
        for slide in prs.slides:
            # 读取每页幻灯片的形状, 就是文字框、表格块等
            for shape in slide.shapes:
                #判断形状的类型
                if shape.has_text_frame:
                    text_frame = shape.text_frame
                    doc.add_paragraph(text_frame.text)
                    
                elif shape.has_table:
                    table = shape.table
                    table_rows = len(table.rows)
                    table_cols = len(table.columns)
                    
                    # 按行提取表格的内容
                    for row in table.rows:
                        row_ls=[]
                        for cell in row.cells:
                            row_ls.append(cell.text)
                        table_ls.append(row_ls)
                        
                    # 在word文档中创建表格,设置格式,写入内容
                    table = doc.add_table(rows = table_rows,cols = table_cols)
                    table.style = 'Light Grid'
                    for row in range(table_rows):
                        cells = table.rows[row].cells
                        for col in range(table_cols):
                            cells[col].text = str(table_ls[row][col])
doc.save('demo.docx')                        

最终实现如图:
在这里插入图片描述

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-03-21 20:45:38  更:2022-03-21 20:47:59 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 20:03:14-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码