| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Kaggle Competition : U.S. Patent Phrase to Phrase Matching -> 正文阅读 |
|
[人工智能]Kaggle Competition : U.S. Patent Phrase to Phrase Matching |
Kaggle Competition : U.S. Patent Phrase to Phrase Matching竞赛入口:U.S. Patent Phrase to Phrase Matching 描述:你想从与专利发明相关的巨量文本数据集中抽取信息吗?现在就有一个机会。 美国专利和商标局提供了一个最大的科学宝库,通过其开放数据门户网站向全世界提供技术和商业信息。专利是一种知识产权授予的形式,以换取公开披露新的和有用的发明。由于专利在授予前要经过严格的审查程序,而且由于美国的创新历史跨越了两个世纪和1100万项专利,美国专利档案是数据量、质量和多样性的罕见组合。 “The USPTO serves an American innovation machine that never sleeps by granting patents, registering trademarks, and promoting intellectual property around the globe. The USPTO shares over 200 years’ worth of human ingenuity with the world, from lightbulbs to quantum computers. Combined with creativity from the data science community, USPTO datasets carry unbounded potential to empower AI and ML models that will benefit the progress of science and society at large.” — USPTO Chief Information Officer Jamie Holcombe “USPTO为美国的创新机器服务,它通过授予专利、注册商标和在全球推广知识产权,永不停歇。从灯泡到量子计算机,美国专利商标局与世界分享了200多年来人类的创造力。与数据科学社区的创造力相结合,USPTO的数据集具有无限的潜力,可以增强人工智能和ML模型,这将有利于科学和整个社会的进步。” - USPTO首席信息官Jamie Holcombe 在这个比赛中,你将训练你的模型在一个新的语义相似度数据集上,通过匹配专利文件中的关键短语来提取相关信息。在专利搜索和审查过程中,确定短语之间的语义相似度对于确定一项发明是否被描述是至关重要的。例如,如果一项发明提出了“电视机”的权利要求,而先前的出版物则描述了“电视机”,那么模型将理想地识别出这些是相同的,并协助专利律师或审查员检索相关文件。这超越了意译识别;如果一项发明声称使用了一种“坚固的材料”,而另一项发明使用了“钢铁”,那也可能是匹配的。所谓的“强材料”根据不同领域而不同(可能在一个领域是钢,在另一个领域是防撕裂织物,但你不会希望你的降落伞是钢做的)。我们已经将合作专利分类作为技术领域上下文作为一个附加特性,以帮助您消除这些情况的歧义。 您能否建立一个模型来匹配短语,以提取上下文信息,从而帮助专利社区连接数百万个专利文档之间的点? 评估提交的作品将根据预测和实际相似度得分之间的皮尔逊相关系数[Pearson correlation coefficient - Wikipedia]进行评估。 提交的文件: 对于测试集中的每个id(表示一对短语),您必须预测相似性分数。该文件应包含一个头文件,格式如下:
时间2022年3月21日——开始日期。 2022年6月13日-报名截止日期。你必须在此日期前接受比赛规则,才能参加比赛。 2022年6月13日——团队合并截止日期。这是参与者可以加入或合并团队的最后一天。 2022年6月20日——最终提交截止日期。 数据描述在这个数据集中,你会看到一对短语(一个锚和一个目标短语),并被要求在0(一点也不相似)到1(意思相同)的范围内评价它们的相似程度。这一挑战与标准语义相似度任务的不同之处在于,相似度是在专利的上下文中打分的,特别是在它的CPC分类(版本2021.05)中,它表明了专利所涉及的主题。例如,虽然“bird”和“Cape Cod”在正常语言中语义相似度较低,但如果在“house”上下文中考虑,它们的语义相似度就更接近。 这是一个代码竞赛,在这个竞赛中,您将提交代码,这些代码将在一个不可见的测试集上运行。这个不可见的测试集包含大约12k对短语。为测试目的提供了一个小型公共测试集,但不用于评分。 关于CPC代码含义的信息可在USPTO网站上找到。CPC2021.05版可以在CPC档案网站上找到。 分数含义分数的取值范围为0 ~ 1,增量为0.25,含义如下: 1.0—非常接近。这通常是一个精确的匹配,除了可能在变化,数量(如单数和复数),以及添加或删除停顿词(如the, and, or)。 0.75—近义词,如mobile phone vs. mobile phone。这也包括缩写,例如:“TCP”→“传输控制协议”。 0.5—没有相同含义(相同的功能,相同的属性)的同义词。这包括broad-narrow(下同义字)和narrow-broad(上同义字)匹配。 0.25—有些相关,例如,这两个短语在同一个高级域中,但不是同义词。这也包括反义词。 0.0—无关。 数据文件
每列的描述
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a7Ejy9wl-1649234318731)(C:\Users\Berlin_matebook\AppData\Roaming\Typora\typora-user-images\image-20220406163647667.png)] |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 11:29:34- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |