| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【综述】面向特定问题的开源算法管理和推荐(一) | 2021SC@SDUSC -> 正文阅读 |
|
[人工智能]【综述】面向特定问题的开源算法管理和推荐(一) | 2021SC@SDUSC |
2021SC@SDUSC一、项目背景很多时候,我们希望能够将一个新版本的代码和开源项目中的代码进行比较。在比较之前,面对行数巨大的源码,寻找特定的代码段变得棘手。这时候如果能高效地在大量的源码中给定关键字检索到相关代码段,就能节省大量工作量。 要实现根据给定关键字,在数据集中检索到相关性较高的代码,就需要在文本段中(比如代码的注释中)提取出与文本主旨相关性较高的关键词语,然后将它放入数据集进行检索。 在这个项目中我们先把侧重点放在“如何从文本中找出关键词”即“信息抽取”这个话题上。 二、项目内容和意义运用信息抽取、信息检索的相关技术,实现面向特定问题进行算法的管理和推荐。使用一定的评价指标,比较各种模型的性能。 三、问题描述
四、约束条件
五、评价指标1.精准率、召回率、F1
2.排名倒数
3.特异性评价指标SN
六、数据集为了更好的比较模型之间的差别,我们测试模型所用到的数据集,为百度学术上随机爬取到的中文论文的下面内容: 七、课题任务与求解模型的分工课题的重点在于“如何提取关键词?”基于这样一个重点我们需要完成三方面内容:一是数据的收集;二是构建模型,提取关键词;三是比较模型的性能。 1.数据的收集:我们将共同研究如何使用爬虫定向爬取百度学术上的摘要、标题、关键词等信息。 2.构建模型提取关键词:老师一共给我提供了四个模型: 1)PositionRank:该模型是一个用于从学术文档中提取关键词的无监督模型,论文核心就是在词的权值迭代的时候融入位置信息。 2)Embedrank:先利用词性标注抽取候选词,然后计算候选词的embedding和文章embedding的相似度,利用相似度将候选词排序,得到关键的词语。 3)KPE:模型在单个图中表示候选关键词和主题,并利用它们的相互加强关系来提高候选排名,将关键词选择偏好纳入模型。 4)ELSKE: 可以有效地提取一组候选关键词,而无需依赖计算成本更高的技术,例如词性标注。它根据PF-IDF 方案对这些候选关键词进行评分和排名,PF-IDF 方案是流行的 TF-IDF方案的调整版本,适用于分析较大的文档或文档集合。我分配到的模型 3.比较模型性能 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 15:46:17- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |