2021SC@SDUSC

面向特定问题的开源算法管理和推荐

一、项目背景

很多时候，我们希望能够将一个新版本的代码和开源项目中的代码进行比较。在比较之前，面对行数巨大的源码，寻找特定的代码段变得棘手。这时候如果能高效地在大量的源码中给定关键字检索到相关代码段，就能节省大量工作量。

要实现根据给定关键字，在数据集中检索到相关性较高的代码，就需要在文本段中（比如代码的注释中）提取出与文本主旨相关性较高的关键词语，然后将它放入数据集进行检索。

在这个项目中我们先把侧重点放在“如何从文本中找出关键词”即“信息抽取”这个话题上。

二、项目内容和意义

运用信息抽取、信息检索的相关技术，实现面向特定问题进行算法的管理和推荐。使用一定的评价指标，比较各种模型的性能。

三、问题描述

输入：一个文本库，算法描述（主要是中文）
输出：
- 1. 对于每个文本x，抽取关键词作为算法的技术特征。
- 2. （高）同时在以此关键词在数据集中进行检索时，能够反映本文x的主旨。

四、约束条件

抽取出的关键词与文本内容的相关性（关键词对于当前文本的代表性）
给出抽取到的关键词合适的次序
抽取出的关键词在数据集中的特异性（关键词在当前本文的重要性，相对于数据集中其他文本的显著性）
意义：信息抽取，信息检索## 新的改变

五、评价指标

1.精准率、召回率、F1

精准率：算法提取的关键词与人工给定关键词相匹配的个数与算法提取的总关键词数量的比值
$PR=\frac{n_{m}}{n_{a}}$
召回率：算法提取的关键词与人工给定关键词相匹配的个数与人工给出的关键词数量的比值
$RR=\frac{n_{m}}{n_{u}}$
F1表示PR和RR的调和平均数,作为关键词提取评价指标：
$F_{1}=2\times \frac{PR\times RR}{PR+RR}$

2.排名倒数

实际的关键词在抽取出关键词集合中的位置越靠前，MRR的值就会越大
$MRR=\frac{1}{\left | Q \right |}\sum_{i}^{Q}\frac{1}{rank_{I}}$

3.特异性评价指标SN

抽取出的关键词相对于数据集中其他文本的显著性
$SN=\frac{1}{\left | S \right |}\sum_{j}^{S}log\frac{\left | D \right |}{j \in D}$

六、数据集

baidu学术

文本数据集

为了更好的比较模型之间的差别，我们测试模型所用到的数据集，为百度学术上随机爬取到的中文论文的下面内容：
1. 摘要
2. 标题
3. 关键词
数据的一大特点，是它是大量小段文本的集合。不同于以往文本处理的情形，过去的模型更多研究一整篇文本的关键词提取；而大量小段文本集合要求我们的模型要精确而高效，并尽有可能的提取出较长的短语。

七、课题任务与求解模型的分工

课题的重点在于“如何提取关键词？”基于这样一个重点我们需要完成三方面内容：一是数据的收集；二是构建模型，提取关键词；三是比较模型的性能。

1.数据的收集：我们将共同研究如何使用爬虫定向爬取百度学术上的摘要、标题、关键词等信息。

2.构建模型提取关键词：老师一共给我提供了四个模型：

1）PositionRank：该模型是一个用于从学术文档中提取关键词的无监督模型，论文核心就是在词的权值迭代的时候融入位置信息。
论文：PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents
代码

2）Embedrank：先利用词性标注抽取候选词，然后计算候选词的embedding和文章embedding的相似度，利用相似度将候选词排序，得到关键的词语。
论文：EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings
代码

3）KPE：模型在单个图中表示候选关键词和主题，并利用它们的相互加强关系来提高候选排名，将关键词选择偏好纳入模型。
论文：Unsupervised Keyphrase Extraction with Multipartite Graphs
代码

4）ELSKE: 可以有效地提取一组候选关键词，而无需依赖计算成本更高的技术，例如词性标注。它根据PF-IDF 方案对这些候选关键词进行评分和排名，PF-IDF 方案是流行的 TF-IDF方案的调整版本，适用于分析较大的文档或文档集合。我分配到的模型
论文：ELSKE: Efficient Large-Scale Keyphrase Extraction
代码

3.比较模型性能
使用的比较模型性能的表格