IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Kaggle_NBME NLP比赛baseline讲解(1) -> 正文阅读

[人工智能]Kaggle_NBME NLP比赛baseline讲解(1)

最新的一个kaggle nlp比赛 和大家分享一下baseline和基本的kaggle操作

?

主要由以下这几个部分构成:

1.赛题分析

2.数据EDA

3.模型选择及训练代码构建

4.成绩提交 # 一篇应该讲不完 后面会继续更新

1.赛题分析

目标:在病人的病例中,找出各个疾病对应的临床表现 简单来说就是QA问题 但是根据实际情况 同一病症会有多个临床表现 所以也可以看成是一个token分类问题? 把和相关病症有关的token标记成1 把无关的标记成0

问题转化: QA问问题 & Token分类问题

模型pipeline: 疾病名称 + 病人病历 再每个token位置上进行0,1分类

可不可以用bert + crf层?只要将dense层(全连接层)的输出的维度换成二维 再加crf就可以

2.数据EDA

这个比赛提供了五份数据 分别是train,test, features, patient_notes, submission 其中test和submission是在提交答案的时候使用的

重点是以下三个文件: train(标记了每个病历中,不同症状的相关描述) ,features(给出了所有病症的名称和id) patient_notes(给出了每份病例的详细描述)

来看一下数据 这是train

patient notes

?features

?

?pn_num -- patient note 病例id 病历号

case_num -- case num用来关联起病人patient note的文本描述和对应症状的文本描述

pn_history --病人的病例

feature_num 每个病症的id

feature_text 疾病文本描述

annotation :patient note中体现相关症状的描述 病例中可能对同一个疾病症状存在多处描述

location: annotation 所在的病例中char级别的位置

看一下数据分布

有大概四千多条的病症是没有标记的 大部分的是一个病症对应一个表现 其余的就是两个表现或者更多表现

简而言之就是

?通过feature_text 和 pn_history之间的关系 找出feature_text 在pn_history中对应的位置

再简单说 之后比赛里只需要用 feature_text 和 pn_history作输入 location做输出


3.模型选择及训练代码构建?

这里只能简单讲一下 后续如果有时间的话再把完整代码贴出来

class NBMEModel(torch.nn.Module):  # 继承nn.Module
    def __init__(self):
        super().__init__()
        self.backbone = AutoModel.from_pretrained(MODEL_NAME)
        self.config = AutoConfig.from_pretrained(MODEL_NAME)
        self.dropout = torch.nn.Dropout(p = 0.2)
        self.classifier = torch.nn.Linear(self.config.hidden_size, 1)
    
    def forward(self, input_ids, attention_mask):
        sequence_outputs = self.backbone(input_ids=input_ids, attention_mask)[0]
        logits = self.classifier(self.dropout(sequence_outputs)).squeeze(-1)
        return logits

self.config.hidden_size 做输入 一般是768维 输出是一维

然后forward 经过bert 得到最后一层的sequence_outputs?

sequence_outputs 的输出维度是(b, sequence_len, hidden_size)

然后sequence_output经过dropout以后 接一个768 * 1的dense层 然后squeeze一下 把最后一维压扁 就是删除shape为1的维度 刚好是最后一维??

AutoModel 就是transformers里的Auto类 就是根据你的model名称 自动构建出你想要的模型(可以是 bert roberta deberta)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-16 22:21:38  更:2022-03-16 22:22:03 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 15:35:22-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码