IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 2022 CCF BDCI 小样本数据分类任务 baseline -> 正文阅读

[人工智能]2022 CCF BDCI 小样本数据分类任务 baseline

最近,2022 CCF BDCI系列赛正式开始了。本人曾参加过几场NLP赛事,算是比较熟悉NLP赛题的解题流程,所以趁着休闲时间,针对小样本分类任务搭建了个简单的baseline。接下来让我们进入本文的正题。

赛题介绍:

比赛方公开958条专利数据,包括专利权人、专利标题、专利摘要和分类标签,其中分类标签经过脱敏处理,共36类。要求选手设计一套算法,完成测试数据的分类任务。本次赛题公布的训练数据量较小,属于基于小样本训练数据的分类任务。小样本分类任务作为近年来研究的热点问题,学界提出了远程监督、数据增强、预训练模型、PET范式等方案。希望选手充分发挥创造力,将学界的研究成果落地到本赛题中来。详情请见赛题链接:

小样本数据分类任务https://www.datafountain.cn/competitions/582

方案描述:

(1)模型结构:模型采用预训练模型(macbert)提取输入的文本特征,然后经过输出层得到分类结果。
(2)数据处理:将专利名称(title)、专利权人(assignee)和专利摘要(abstract)拼接成长文本,截取最大长度为320(如果GPU显存允许,设置更大长度可能会有更好的效果)。
(3)数据划分:由于训练集数量仅有900多条,一共36类,平均下来每个类别仅有30条数据,所以本文没有随机划分数据集,而是采用StratifiedKFold对每个类别均匀采样划分验证集,StratifiedKFold使用方式如下:

sfolder = StratifiedKFold(n_splits=5, random_state=args.seed, shuffle=True).split(dataset, labels)
for i, j in sfolder:
    train_index, val_index = i, j
    break
 

模型共训练10个epoch,线下0.42,线上0.419(trick:训练更多轮数,效果可能会更好哦)。

接下来可以在以下方面进行尝试:
(1)更换roberta、nezha等预训练模型,选择一个较好的backone。
(2)已有的预训练模型是在公开的数据集上训练得到的参数权重,利用训练集和测试集文本数据进行预训练,使模型能够在本赛题的任务中表现得更好。(3)训练相关的trick:fgm、pgd、ema以及swa等。
(4)在模型达到较高收益的时候,可以利用伪标签,毕竟测试集数据有2w多条。
(5)few shot相关技术。

以上便是我的baseline的实现方案,具体代码实现可参考github:?
https://github.com/wbchief/2022CCF_BDCI_fewshot_data_classification_baseline

欢迎star!

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-15 02:00:48  更:2022-09-15 02:01:08 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 22:46:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码