IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 关键词提取 -> 正文阅读

[人工智能]关键词提取

TF-IDF

TF-IDF(Term Frequency - Inverse Document Frequency)分为两个部分词频(Term Frequency)和逆文档频率(Inverse Document Frequency)。

词频(Term Frequency)

词频= 某 个 词 在 文 章 中 出 现 的 频 数 文 章 总 词 数 \frac{某个词在文章中出现的频数}{文章总词数} ?,表示某个词语在某篇文章中出现的频数。某词语出现频数越高,则重要性越高。除以文章总词数是减少文章长短不同而导致的影响。

逆文档频率(Inverse Document Frequency)

逆文档频率= log ? 语 料 库 文 档 总 数 含 有 该 词 的 文 档 数 + 1 \log_{}{\frac{语料库文档总数}{含有该词的文档数+1}} log?+1?如果含有该词的文档数越多,则说明这个词很常见、不重要,IDF值越小

注意:语料库文档总数≥含有该词的文档数,因此IDF值必然大于0(分母+1是为了避免分母为0,即所有文档都不含该词)

TF-IDF=词频(TF)*逆文档频率(IDF)

TF-IDF值与一个词在文档中的出现次数成正比,与该词在整个语料库中出现次数成反比。

当一个词的TF-IDF值越高,则说明这个词在这篇文章中多次出现,在其他文章中很少见,那么这个词就很可能是关键词。

优缺点

  • 优点:简单快速,而且容易理解

  • 缺点:用词频来衡量文章中的一个词的重要性不够全面;没有考虑语序,“武松打虎”,"虎打武松"是一样的特征表示

代码实现-jieba

from jieba.analyse import *
with open('sample.txt', encoding='utf-8') as f:
    data = f.read()

# 使用TF-idf方式提取关键词和权重,并且依次显示出来。如果你不做特殊指定的话,默认显示数量为20个关键词。
for keyword, weight in extract_tags(data, topK=20, withWeight=True):
    print('%s %s' % (keyword, weight))

基于特定语料库的TF-IDF关键词提取实现 原 - 云+社区 - 腾讯云 (tencent.com)

补充阅读:TF-IDF与余弦相似性的应用(一):自动提取关键词 - 阮一峰的网络日志 (ruanyifeng.com)

Text Rank

  1. 提取词汇,形成节点
  2. 依据词汇的关联,建立链接
  3. 依照连接节点的多少,给每个节点赋予一个初始的权重数值
  4. 开始迭代。根据某个词所连接所有词汇的权重,重新计算该词汇的权重,然后把重新计算的权重传递下去,直到这种变化达到均衡态,权重数值不再发生改变
  5. 根据最后的权重值,取其中排列靠前的词汇,作为关键词提取结果

代码-jieba

from jieba.analyse import *
with open('sample.txt', encoding='utf-8') as f:
    data = f.read()
for keyword, weight in textrank(data, withWeight=True):
    print('%s %s' % (keyword, weight))
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-23 10:50:39  更:2022-04-23 10:52:38 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 9:56:33-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码