| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Kaggle_NBME NLP比赛baseline讲解(1) -> 正文阅读 |
|
[人工智能]Kaggle_NBME NLP比赛baseline讲解(1) |
最新的一个kaggle nlp比赛 和大家分享一下baseline和基本的kaggle操作 ? 主要由以下这几个部分构成: 1.赛题分析 2.数据EDA 3.模型选择及训练代码构建 4.成绩提交 # 一篇应该讲不完 后面会继续更新 1.赛题分析目标:在病人的病例中,找出各个疾病对应的临床表现 简单来说就是QA问题 但是根据实际情况 同一病症会有多个临床表现 所以也可以看成是一个token分类问题? 把和相关病症有关的token标记成1 把无关的标记成0 问题转化: QA问问题 & Token分类问题 模型pipeline: 疾病名称 + 病人病历 再每个token位置上进行0,1分类 可不可以用bert + crf层?只要将dense层(全连接层)的输出的维度换成二维 再加crf就可以 2.数据EDA这个比赛提供了五份数据 分别是train,test, features, patient_notes, submission 其中test和submission是在提交答案的时候使用的 重点是以下三个文件: train(标记了每个病历中,不同症状的相关描述) ,features(给出了所有病症的名称和id) patient_notes(给出了每份病例的详细描述) 来看一下数据 这是train patient notes ?features ? ?pn_num -- patient note 病例id 病历号 case_num -- case num用来关联起病人patient note的文本描述和对应症状的文本描述 pn_history --病人的病例 feature_num 每个病症的id feature_text 疾病文本描述 annotation :patient note中体现相关症状的描述 病例中可能对同一个疾病症状存在多处描述 location: annotation 所在的病例中char级别的位置 看一下数据分布 有大概四千多条的病症是没有标记的 大部分的是一个病症对应一个表现 其余的就是两个表现或者更多表现 简而言之就是 ?通过feature_text 和 pn_history之间的关系 找出feature_text 在pn_history中对应的位置 再简单说 之后比赛里只需要用 feature_text 和 pn_history作输入 location做输出 3.模型选择及训练代码构建?这里只能简单讲一下 后续如果有时间的话再把完整代码贴出来
self.config.hidden_size 做输入 一般是768维 输出是一维 然后forward 经过bert 得到最后一层的sequence_outputs? sequence_outputs 的输出维度是(b, sequence_len, hidden_size) 然后sequence_output经过dropout以后 接一个768 * 1的dense层 然后squeeze一下 把最后一维压扁 就是删除shape为1的维度 刚好是最后一维?? AutoModel 就是transformers里的Auto类 就是根据你的model名称 自动构建出你想要的模型(可以是 bert roberta deberta) |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 15:35:22- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |