IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【综述】面向特定问题的开源算法管理和推荐(一) | 2021SC@SDUSC -> 正文阅读

[人工智能]【综述】面向特定问题的开源算法管理和推荐(一) | 2021SC@SDUSC

2021SC@SDUSC

面向特定问题的开源算法管理和推荐

一、项目背景

很多时候,我们希望能够将一个新版本的代码和开源项目中的代码进行比较。在比较之前,面对行数巨大的源码,寻找特定的代码段变得棘手。这时候如果能高效地在大量的源码中给定关键字检索到相关代码段,就能节省大量工作量。

要实现根据给定关键字,在数据集中检索到相关性较高的代码,就需要在文本段中(比如代码的注释中)提取出与文本主旨相关性较高的关键词语,然后将它放入数据集进行检索。

在这个项目中我们先把侧重点放在“如何从文本中找出关键词”即“信息抽取”这个话题上。

二、项目内容和意义

运用信息抽取、信息检索的相关技术,实现面向特定问题进行算法的管理和推荐。使用一定的评价指标,比较各种模型的性能。

三、问题描述

  • 输入:一个文本库,算法描述(主要是中文)
  • 输出:
    • 1. 对于每个文本x,抽取关键词作为算法的技术特征。
    • 2. (高) 同时在以此关键词在数据集中进行检索时,能够反映本文x的主旨。

四、约束条件

  1. 抽取出的关键词与文本内容的相关性(关键词对于当前文本的代表性)
  2. 给出抽取到的关键词合适的次序
  3. 抽取出的关键词在数据集中的特异性(关键词在当前本文的重要性,相对于数据集中其他文本的显著性)
    意义:信息抽取,信息检索## 新的改变

五、评价指标

1.精准率、召回率、F1

  • 精准率:算法提取的关键词与人工给定关键词相匹配的个数与算法提取的总关键词数量的比值
    P R = n m n a PR=\frac{n_{m}}{n_{a}} PR=na?nm??
  • 召回率:算法提取的关键词与人工给定关键词相匹配的个数与人工给出的关键词数量的比值
    R R = n m n u RR=\frac{n_{m}}{n_{u}} RR=nu?nm??
  • F1表示PR和RR的调和平均数,作为关键词提取评价指标:
    F 1 = 2 × P R × R R P R + R R F_{1}=2\times \frac{PR\times RR}{PR+RR} F1?=2×PR+RRPR×RR?

2.排名倒数

  • 实际的关键词在抽取出关键词集合中的位置越靠前,MRR的值就会越大
    M R R = 1 ∣ Q ∣ ∑ i Q 1 r a n k I MRR=\frac{1}{\left | Q \right |}\sum_{i}^{Q}\frac{1}{rank_{I}} MRR=Q1?iQ?rankI?1?

3.特异性评价指标SN

  • 抽取出的关键词相对于数据集中其他文本的显著性
    S N = 1 ∣ S ∣ ∑ j S l o g ∣ D ∣ j ∈ D SN=\frac{1}{\left | S \right |}\sum_{j}^{S}log\frac{\left | D \right |}{j \in D} SN=S1?jS?logjDD?

六、数据集

baidu学术

文本数据集

为了更好的比较模型之间的差别,我们测试模型所用到的数据集,为百度学术上随机爬取到的中文论文的下面内容:
1. 摘要
2. 标题
3. 关键词
数据的一大特点,是它是大量小段文本的集合。不同于以往文本处理的情形,过去的模型更多研究一整篇文本的关键词提取;而大量小段文本集合要求我们的模型要精确而高效,并尽有可能的提取出较长的短语。

七、课题任务与求解模型的分工

课题的重点在于“如何提取关键词?”基于这样一个重点我们需要完成三方面内容:一是数据的收集;二是构建模型,提取关键词;三是比较模型的性能。

1.数据的收集:我们将共同研究如何使用爬虫定向爬取百度学术上的摘要、标题、关键词等信息。

2.构建模型提取关键词:老师一共给我提供了四个模型:

1)PositionRank:该模型是一个用于从学术文档中提取关键词的无监督模型,论文核心就是在词的权值迭代的时候融入位置信息。
论文:PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents
代码

2)Embedrank:先利用词性标注抽取候选词,然后计算候选词的embedding和文章embedding的相似度,利用相似度将候选词排序,得到关键的词语。
论文:EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings
代码

3)KPE:模型在单个图中表示候选关键词和主题,并利用它们的相互加强关系来提高候选排名,将关键词选择偏好纳入模型。
论文:Unsupervised Keyphrase Extraction with Multipartite Graphs
代码

4)ELSKE: 可以有效地提取一组候选关键词,而无需依赖计算成本更高的技术,例如词性标注。它根据PF-IDF 方案对这些候选关键词进行评分和排名,PF-IDF 方案是流行的 TF-IDF方案的调整版本,适用于分析较大的文档或文档集合。我分配到的模型
论文:ELSKE: Efficient Large-Scale Keyphrase Extraction
代码

3.比较模型性能
使用的比较模型性能的表格

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-01 16:51:20  更:2021-10-01 16:55:26 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 12:49:26-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码