每篇前言
-
🏆🏆作者介绍:Python领域优质创作者、华为云享专家、阿里云专家博主、2021年CSDN博客新星Top6 | - 🔥🔥本文已收录于Python全栈系列专栏:《100天精通Python从入门到就业》
- 📝?📝?此专栏文章是专门针对Python零基础小白所准备的一套完整教学,从0到100的不断进阶深入的学习,各知识点环环相扣
- 🎉🎉订阅专栏后续可以阅读Python从入门到就业100篇文章;还可私聊进两百人Python全栈交流群(手把手教学,问题解答); 进群可领取80GPython全栈教程视频 + 300本计算机书籍:基础、Web、爬虫、数据分析、可视化、机器学习、深度学习、人工智能、算法、面试题等。
- 🚀🚀加入我一起学习进步,一个人可以走的很快,一群人才能走的更远!
一、Python操作PDF 13大库对比
PDF(Portable Document Format)是一种便携文档格式,便于跨操作系统传播文档。PDF文档遵循标准格式,因此存在很多可以操作PDF文档的工具,Python自然也不例外。
Python操作PDF模块对比图如下:
本文主要介绍pdfplumber 专注PDF内容提取,例如文本(位置、字体及颜色等)和形状(矩形、直线、曲线),还有解析表格的功能。
二、pdfplumber模块
其他几个 Python 库帮助用户从 PDF 中提取信息。作为一个广泛的概述,pdfplumber它通过结合以下功能将自己与其他 PDF 处理库区分开来:
- 轻松访问有关每个 PDF 对象的详细信息
- 用于提取文本和表格的更高级别、可自定义的方法
- 紧密集成的可视化调试
- 其他有用的实用功能,例如通过裁剪框过滤对象
1. 安装
cmd控制台输入:
pip install pdfplumber
导包:
import pdfplumber
案例PDF截图(两页未截全):
2. 加载PDF
读取PDF代码:pdfplumber.open("路径/文件名.pdf", password = "test", laparams = { "line_overlap": 0.7 })
参数解读:
password :要加载受密码保护的 PDF,请传递password关键字参数laparams :要将布局分析参数设置为pdfminer.six的布局引擎,请传递laparams关键字参数
案例代码:
import pdfplumber
with pdfplumber.open("./1.pdf") as pdf:
print(pdf)
print(type(pdf))
输出结果:
<pdfplumber.pdf.PDF object at 0x000001A56C323DC0>
<class 'pdfplumber.pdf.PDF'>
3. pdfplumber.PDF类
pdfplumber.PDF 类表示单个 PDF,并具有两个主要属性:
属性 | 说明 |
---|
.metadata | 从PDF的Info中获取元数据键 /值对 字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等。 | .pages | 返回一个包含pdfplumber.Page实例的列表,每一个实例代表PDF每一页的信息 |
1. 读取PDF文档信息(.metadata ):
import pdfplumber
with pdfplumber.open("./1.pdf") as pdf:
print(pdf.metadata)
运行结果:
{'Author': 'wangwangyuqing', 'Comments': '', 'Company': '', 'CreationDate': "D:20220330113508+03'35'", 'Creator': 'WPS 文字', 'Keywords': '', 'ModDate': "D:20220330113508+03'35'", 'Producer': '', 'SourceModified': "D:20220330113508+03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}
2. 输出总页数
import pdfplumber
with pdfplumber.open("./1.pdf") as pdf:
print(len(pdf.pages))
运行结果:
2
4. pdfplumber.Page类
pdfplumber.Page 类是pdfplumber整个的核心,大多数操作都围绕这个类进行操作,它具有以下几个属性:
属性 | 说明 |
---|
.page_number | 顺序页码,从1第一页开始,从第二页开始2,依此类推。 | .width | 页面的宽度。 | .height | 页面的高度。 | .objects/.chars/.lines/.rects/.curves/.figures/.images | 这些属性中的每一个都是一个列表,每个列表包含一个字典,用于嵌入页面上的每个此类对象。有关详细信息,请参阅下面的“对象”。 |
常用方法如下:
方法名 | 说明 |
---|
.extract_text() | 用来提页面中的文本,将页面的所有字符对象整理为的那个字符串 | .extract_words() | 返回的是所有的单词及其相关信息 | .extract_tables() | 提取页面的表格 | .to_image() | 用于可视化调试时,返回PageImage类的一个实例 | .close() | 默认情况下,Page对象缓存其布局和对象信息,以避免重新处理它。但是,在解析大型 PDF 时,这些缓存的属性可能需要大量内存。您可以使用此方法刷新缓存并释放内存。 |
1. 读取第一页宽度、高度等信息
import pdfplumber
with pdfplumber.open("./1.pdf") as pdf:
first_page = pdf.pages[0]
print('页码:', first_page.page_number)
print('页宽:', first_page.width)
print('页高:', first_page.height)
运行结果:
页码: 1
页宽: 595.3
页高: 841.9
2. 读取文本第一页
import pdfplumber
with pdfplumber.open("./1.pdf") as pdf:
first_page = pdf.pages[0]
text = first_page.extract_text()
print(text)
运行结果:
店铺名 价格 销量 地址
小罐茶旗舰店 449 474 安徽
零趣食品旗舰店 6.9 60000 福建
天猫超市 1304 3961 上海
天猫超市 139 25000 上海
天猫超市 930 692 上海
天猫超市 980 495 上海
天猫超市 139 100000 上海
三只松鼠旗舰店 288 25000 安徽
红小厨旗舰店 698 1767 北京
三只松鼠旗舰店 690 15000 安徽
一统领鲜旗舰店 1098 1580 上海
新大猩食品专营
9.8 7000 湖南
.......
舰店
蟹纳旗舰店 498 1905 上海
三只松鼠坚果at茶 188 35000 安徽
嘉禹沪晓旗舰店 598 1517 上海
3. 读取表格第一页
import pdfplumber
import xlwt
with pdfplumber.open("1.pdf") as pdf:
page_one = pdf.pages[0]
table_1 = page_one.extract_table()
workbook = xlwt.Workbook(encoding='utf8')
worksheet = workbook.add_sheet('Sheet1')
col1 = table_1[0]
for i in range(0, len(col1)):
worksheet.write(0, i, col1[i])
for i in range(0, len(table_1[1:])):
data = table_1[1:][i]
for j in range(0, len(col1)):
worksheet.write(i + 1, j, data[j])
workbook.save('test.xls')
运行结果:
三、实战操作
1. 提取单个PDF全部页数
测试代码:
import pdfplumber
import xlwt
with pdfplumber.open("1.pdf") as pdf:
item = []
for page in pdf.pages:
text = page.extract_table()
for i in text:
item.append(i)
workbook = xlwt.Workbook(encoding='utf8')
worksheet = workbook.add_sheet('Sheet1')
col1 = item[0]
for i in range(0, len(col1)):
worksheet.write(0, i, col1[i])
for i in range(0, len(item[1:])):
data = item[1:][i]
for j in range(0, len(col1)):
worksheet.write(i + 1, j, data[j])
workbook.save('test.xls')
运行结果(上面得没截全):
2. 批量提取多个PDF文件
测试代码:
import pdfplumber
import xlwt
import os
file_dir = r'E:\Python学习\pdf文件'
file_list = []
for files in os.walk(file_dir):
for file in files[2]:
if file.split(".")[1] == 'pdf' or file.split(".")[1] == 'PDF':
file_list.append(file_dir + '\\' + file)
item = []
for file_path in file_list:
with pdfplumber.open(file_path) as pdf:
for page in pdf.pages:
text = page.extract_table()
for i in text:
item.append(i)
workbook = xlwt.Workbook(encoding='utf8')
worksheet = workbook.add_sheet('Sheet1')
col1 = item[0]
for i in range(0, len(col1)):
worksheet.write(0, i, col1[i])
for i in range(0, len(item[1:])):
data = item[1:][i]
for j in range(0, len(col1)):
worksheet.write(i + 1, j, data[j])
workbook.save('test.xls')
运行结果(12个文件,一个文件50行总共600行):
四、如何让学习更加高效呢?
嫌博主更新慢的小伙伴牛客网上号自行刷题 1. 编程小白选手 很多刚入门编程的小白学习了基础语法,却不知道语法的用途,不知道如何加深映像,不知道如何提升自己,这个时候每天刷自主刷一道题就非常重要(百炼成神),可以去牛客网上的编程初学者入门训练。该专题为编程入门级别,适合刚学完语法的小白练习,题目涉及编程基础语法,基本结构等,每道题带有练习模式和考试模式,可还原考试模式进行模拟,也可通过练习模式进行练习。 链接地址:牛客网 | 编程初学者入门训练 2. 编程进阶选手 当基础练习完已经逐步掌握了各知识要点后,这个时候去专项练习中学习数据结构、算法基础、计算机基础等。先从简单的入手,感觉上来了再做中等难度,以及较难的题目。这三样是面试中必考的知识点,我们只有坚持每日自己去多加练习,拒绝平躺持续刷题,不断提升自己才能冲击令人满意的公司。 链接地址:牛客网 | 专项练习 速度上号,大家一起冲击大厂,有疑问评论区留言解答!!!
五、参与抽粉丝送书啦
书籍展示:《机器学习数学基础(Python语言实现)》
【抽奖方式】:
关注博主、点赞收藏文章后,评论区留言:人生苦短,我用Python!!!博主会用爬虫代码随机抽取三人送书!
【开奖时间】:截止到周五晚8点,博主会用爬虫代码随机抽取三人送书!
【书籍内容简介】
- 数学知识点经过系统梳理,能让读者快速入门并掌握实际应用。全书分为两部分,第一部分从机器学习数学基础的几大体系入手,系统讲解机器学习的相关数学知识,同时穿插了19个基于Python编程的“小试牛刀”实例,以及20个“专家点拨”的知识;第二部分安排了8个大型的基于Python编程的机器学习应用案例,包括数学建模和工业应用方面的典型案例。
- 第一部分为数学基础知识部分,包含 8个章节,介绍了微积分、线性代数、概率统计、信息论、模糊数学、随机过程、凸优化和图论的系统知识体系及几个数学知识点对应的Python编程实例。通过这些实例,读者能够了解Scikit-learn、Scikit-fuzzy、Theano、SymPy、NetworkX和CVXPY中相应的库函数的应用。
第二部分为案例部分,包含4个章节,介绍了微积分、线性代数和概率统计问题的建模方法、求解流程和编程实现,以及工业生产领域的Python实战,包含了机器学习算法和深度学习PyTorch框架的应用。 在学习本书内容前,建议读者先掌握基本的Python编程知识和数学基础,然后将本书通读一遍,了解本书的大概内容,最后再跟着实例进行操作。 本书既注重数学理论,又偏重编程实践,实用性强,适用于对编程有一定基础,对系统的数学知识非常渴望,想从事人工智能、大数据等方向研究的读者。同时也适合作为广大职业院校相关专业的教材或参考用书。
也有不想靠抽的小伙伴可以参考下面:
|