IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python实现:读取PDF文件中的英文单词,并将前二十个高频词储存到一个docx文档中 -> 正文阅读

[Python知识库]python实现:读取PDF文件中的英文单词,并将前二十个高频词储存到一个docx文档中

总体思路如下:

1.读取PDF文件,将其中的英文单词提取出来

2.获得每个英文单词的词频,通过字典将英文单词及其词频配对

3.将英文单词按照词频由大到小排序

4.创建并写入docx文档

首先打开PDF文件用到了pdfplumber第三方库,具体应用如此下:

with pdfplumber.open(pdf_path) as pdf_file:

    content = ''
        for i in range(len(pdf_file.pages)):
            # print("当前第 %s 页" % i)
            page_text = pdf_file.pages[i]
            page_content = page_text.extract_text()
            if page_content:
                content = content + page_content 
                # print(page_content)

将文本提取出来后,就需要从文本中提取出来每个独立的单词,这里用的是findall方法,用正则表达式:(其中string为原文本字符串)

 str_list = re.findall(r'[A-Za-z]+', string)

进而收集词频:(提前需要新建一个字典)

    for i in str_list:
        if (i in dict.keys()):
            dict[str(i)] += 1
        else:
            dict[str(i)] = 0
            dict[str(i)] += 1

将字典按词频排序,下面语句将字典转换为了列表,当然是排序好的,reverse=False(默认)时为从小到大排序。所以需要再加一句将列表转换为字典再返回字典(如果需要的话)

dic_list = sorted(dict.items(), key=lambda x: x[1], reverse=True)[:n]

我这里还是转换为字典了,最后把字典的键值对写入文档中,用到了docx库。如下:

doc = docx.Document()
doc.add_paragraph('前二十个高频词及其词频为:')
for key, value in dict.items():
    doc.add_paragraph("{} : {}".format(key, value))
doc.save('result.docx')

将以上结合起来:

(本来想用PyPDF2做一个后台观测进程的,但对结果没影响,就注销掉了,)

# coding:utf-8
"""
程序功能:
读取pdf中的文本,将其关键词输出至result。docx文档中。
"""
import re
import docx
# import PyPDF2
import pdfplumber

'''传入pdf文件地址,读取pdf文本,返回读出的文本字符串'''


def extract_content(pdf_path):
    with pdfplumber.open(pdf_path) as pdf_file:
        # pdf_image_reader = PyPDF2.PdfFileReader(open(pdf_path, 'rb'))
        # pdf_image_reader.getNumPages()为页数
        # print(pdf_image_reader.getNumPages())

        content = ''
        for i in range(len(pdf_file.pages)):
            # print("当前第 %s 页" % i)
            page_text = pdf_file.pages[i]
            page_content = page_text.extract_text()
            if page_content:
                content = content + page_content 
                # print(page_content)
    return content


'''将字符串中的单词按词频存入字典中并按词频由高到低排序,返回新的字典'''


def high_frequency_word(string, dict, n):
    # 将没有意义的单词替换为空
    '''
    一开始用这个方法,发现把有些单词里的字母一起删掉了,所以在这里不替换,而是选择在字典那里操作
    p = re.compile('(the|and|is|a|if|but|am|are|of|to|in|on|for|The)')
    str_list = p.sub('', string)
    '''
    # 选出单词
    str_list = re.findall(r'[A-Za-z]+', string)
    # print(str_list)
    for i in str_list:
        if (i in dict.keys()):
            dict[str(i)] += 1
        else:
            dict[str(i)] = 0
            dict[str(i)] += 1
    ## 将没有意义的单词的键值对删除
    wait_del = ['the', 'and', 'a', 'but', 'is', 'to', 'in', 'are', 'The', 'am', 'of', 'for', 'on', 'with', 'by', 'as',
                'from', 'we']
    for i in wait_del:
        if (i in dict.keys()):
            del dict[i]

    # 按词频排序
    # print(dict)
    dic_list = sorted(dict.items(), key=lambda x: x[1], reverse=True)[:n]
    # print(dic_list)
    dict = {}
    for key, value in dic_list:
        dict[key] = value
    # for i in dict.keys():
    #  print(i, dict[i])
    return dict


# 调试部分
content = extract_content('Incremental Generative Occlusion Adversarial Suppression Network for Person ReID.pdf')
dict = {}
dict = high_frequency_word(content, dict, 20)
print(dict)

# 存入result.docx中
doc = docx.Document()
doc.add_paragraph('前二十个高频词及其词频为:')
for key, value in dict.items():
    doc.add_paragraph("{} : {}".format(key, value))
doc.save('result.docx')

只支持英文,,,

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-10-01 16:48:38  更:2021-10-01 16:49:46 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 5:12:15-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计