IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Kaggle Competition : U.S. Patent Phrase to Phrase Matching -> 正文阅读

[人工智能]Kaggle Competition : U.S. Patent Phrase to Phrase Matching

Kaggle Competition : U.S. Patent Phrase to Phrase Matching

竞赛入口:U.S. Patent Phrase to Phrase Matching

描述:

你想从与专利发明相关的巨量文本数据集中抽取信息吗?现在就有一个机会。

美国专利和商标局提供了一个最大的科学宝库,通过其开放数据门户网站向全世界提供技术和商业信息。专利是一种知识产权授予的形式,以换取公开披露新的和有用的发明。由于专利在授予前要经过严格的审查程序,而且由于美国的创新历史跨越了两个世纪和1100万项专利,美国专利档案是数据量、质量和多样性的罕见组合。


“The USPTO serves an American innovation machine that never sleeps by granting patents, registering trademarks, and promoting intellectual property around the globe. The USPTO shares over 200 years’ worth of human ingenuity with the world, from lightbulbs to quantum computers. Combined with creativity from the data science community, USPTO datasets carry unbounded potential to empower AI and ML models that will benefit the progress of science and society at large.”

— USPTO Chief Information Officer Jamie Holcombe

“USPTO为美国的创新机器服务,它通过授予专利、注册商标和在全球推广知识产权,永不停歇。从灯泡到量子计算机,美国专利商标局与世界分享了200多年来人类的创造力。与数据科学社区的创造力相结合,USPTO的数据集具有无限的潜力,可以增强人工智能和ML模型,这将有利于科学和整个社会的进步。”

- USPTO首席信息官Jamie Holcombe


在这个比赛中,你将训练你的模型在一个新的语义相似度数据集上,通过匹配专利文件中的关键短语来提取相关信息。在专利搜索和审查过程中,确定短语之间的语义相似度对于确定一项发明是否被描述是至关重要的。例如,如果一项发明提出了“电视机”的权利要求,而先前的出版物则描述了“电视机”,那么模型将理想地识别出这些是相同的,并协助专利律师或审查员检索相关文件。这超越了意译识别;如果一项发明声称使用了一种“坚固的材料”,而另一项发明使用了“钢铁”,那也可能是匹配的。所谓的“强材料”根据不同领域而不同(可能在一个领域是钢,在另一个领域是防撕裂织物,但你不会希望你的降落伞是钢做的)。我们已经将合作专利分类作为技术领域上下文作为一个附加特性,以帮助您消除这些情况的歧义。

您能否建立一个模型来匹配短语,以提取上下文信息,从而帮助专利社区连接数百万个专利文档之间的点?

评估

提交的作品将根据预测和实际相似度得分之间的皮尔逊相关系数[Pearson correlation coefficient - Wikipedia]进行评估。

提交的文件:

对于测试集中的每个id(表示一对短语),您必须预测相似性分数。该文件应包含一个头文件,格式如下:

id,score
4112d61851461f60,0
09e418c93a776564,0.25
36baf228038e314b,1
etc.

时间

2022年3月21日——开始日期。

2022年6月13日-报名截止日期。你必须在此日期前接受比赛规则,才能参加比赛。

2022年6月13日——团队合并截止日期。这是参与者可以加入或合并团队的最后一天。

2022年6月20日——最终提交截止日期。

数据描述

在这个数据集中,你会看到一对短语(一个锚和一个目标短语),并被要求在0(一点也不相似)到1(意思相同)的范围内评价它们的相似程度。这一挑战与标准语义相似度任务的不同之处在于,相似度是在专利的上下文中打分的,特别是在它的CPC分类(版本2021.05)中,它表明了专利所涉及的主题。例如,虽然“bird”和“Cape Cod”在正常语言中语义相似度较低,但如果在“house”上下文中考虑,它们的语义相似度就更接近。

这是一个代码竞赛,在这个竞赛中,您将提交代码,这些代码将在一个不可见的测试集上运行。这个不可见的测试集包含大约12k对短语。为测试目的提供了一个小型公共测试集,但不用于评分。

关于CPC代码含义的信息可在USPTO网站上找到。CPC2021.05版可以在CPC档案网站上找到。

分数含义分数的取值范围为0 ~ 1,增量为0.25,含义如下:

1.0—非常接近。这通常是一个精确的匹配,除了可能在变化,数量(如单数和复数),以及添加或删除停顿词(如the, and, or)。

0.75—近义词,如mobile phone vs. mobile phone。这也包括缩写,例如:“TCP”→“传输控制协议”。

0.5—没有相同含义(相同的功能,相同的属性)的同义词。这包括broad-narrow(下同义字)和narrow-broad(上同义字)匹配。

0.25—有些相关,例如,这两个短语在同一个高级域中,但不是同义词。这也包括反义词。

0.0—无关。

数据文件

  • train.csv - the training set, containing phrases, contexts, and their similarity scores
  • test.csv - the test set set, identical in structure to the training set but without the score
  • sample_submission.csv - 提交的正确格式的一个例子

每列的描述

  • id - 每对phrases独一无二的标号
  • anchor - the first phrase
  • target - the second phrase
  • context - the CPC classification (version 2021.05), which indicates the subject within which the similarity is to be scored
  • score - the similarity. This is sourced from a combination of one or more manual expert ratings.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a7Ejy9wl-1649234318731)(C:\Users\Berlin_matebook\AppData\Roaming\Typora\typora-user-images\image-20220406163647667.png)]

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-07 22:41:41  更:2022-04-07 22:44:24 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 11:29:34-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码