IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Kaggle平台5个月2块银牌晋级Competition Expert历程 -> 正文阅读

[人工智能]Kaggle平台5个月2块银牌晋级Competition Expert历程

赛前学习经历

参加Kaggle赛从2020年12月开始,在此之前参加了3次百度飞桨的课程。目标检测7日打卡营、图像分割7日打卡营和论文复现第一期。三个课程都是优秀学员。一般前3%是优秀学员。在论文复现营中复现出了2篇论文。其中ECO这篇的论文复现拿了一个建模高手(第三名复现出论文)。有关ECO复现的一些内容可以看另一篇博客。飞桨论文复现之ECO。论文复现营持续了一个半月的时间,收获还是挺大的。大约5000+的学员参加了这期的论文复现营,最后有不到200位同学拿到了优秀学员证书。其他方面有关深度学习的也看过一些书籍和视频。动手操作方面,有训练过目标检测模型,并且把模型部署在jetson-nano上。也有把百度的paddle-lite模型部署在Android手机上用于检测水果。因为之前的工作是嵌入式方向,对于GPU部署模型、推理等并不陌生。
参加kaggle比赛之前用paddlepaddle框架比较多,对于pytorch框架论文复现的时候一般是把pytorch的代码用paddle复现,所以也掌握一些pytorch框架的使用方法。

第一个kaggle赛-CV分类赛

比赛链接:https://www.kaggle.com/c/cassava-leaf-disease-classification

  1. 赛题介绍:对木薯叶病叶分类
  2. 比赛结果:取得银牌 168/3900 进入前5%
  3. 心理历程:第一次参加kaggle,各方面的流程和方法都不太熟悉,比赛过程中排名也不靠前,坚持下来,最后模型集成,同时设置了类别的权重提交比赛结果。
  4. 前排方案:
    VIT 模型集成,tta的5区域推理(中间和四角的5区域推理),多种类模型集成,bi-tempered logistic loss损失函数,TaylorCrossEntropyLoss。外部数据也就是2019年木薯叶比赛的数据。
  5. 比赛总结:
    这个比赛为什么CNN似乎不行了?为什么tta的5区域推理有效了?为什么VIT类的Transformer模型表现比较好?
    1)一个例子,如果是一张图片当中,大部分是健康叶,小部分是病叶。这时候标签肯定是病叶,但是特征提取的结果是健康叶的特征最多。这也是CNN有时会失效的原因。这也是为什么tta的5区域推理能涨分。这方面VIT模型表现要好很多。
    2)训练数据当中有一些噪声,也就是错误标签,损失函数的设计能一定程度上解决错误标签的问题。
    3)对于类别权重的设计,比如健康叶类别的权重设置的低一些,有利于得到正确的分类结果。

第二个kaggle赛-CV分割赛

比赛链接:https://www.kaggle.com/c/hubmap-kidney-segmentation

  1. 赛题介绍:这是一场图像分割赛,任务是从医学图像当中分割出肾小球部分。一般采用Unet等分割模型即可。
  2. 比赛结果:取得银牌 35/1200 进入了前3%
  3. 心理历程:
    本次比赛更新了数据集所以,开始比赛的时间比木薯叶还靠前,在2020年底,结束比赛是在2021年5月初。持续了半年的时间。比较累人,哈哈。2021年2月木薯叶分类赛结束,开始继续这个比赛。在木薯叶赛之前已经进行了一段时间的肾小球分割赛。这是一场持久战,尝试了很多方法,收获颇多。
  4. 前排方案
    大的训练输入图像尺寸,模型集成,外部数据,使用预测结果中间位置的结果
  5. 比赛总结
    该比赛更换了数据集。和之前的数据集相比,新的数据集数据更多,标签更准确。有了新的数据以后大家的分数可以轻松超过0.9。所以想得到更好的结果,最基础的还是数据。首先是外部数据和test数据的伪标签。数据当然是越多越好啦。但是一旦对test数据进行了伪标签处理并加入训练数据当中,线上的LB分数基本失效。这时候构建本地的测试数据尤为重要。所以我们团队用一部分的训练数据和外部数据所为test数据。这个比赛很容易过拟合,尤其是大尺寸训练数据和较深的骨干网络模型。用本地构建的test来判断模型是否过拟合。
    使用预测结果中间位置的结果,可以解决边缘识别错误的问题,是个非常有效的提分方法。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-10 14:32:45  更:2021-07-10 14:34:24 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 9:42:26-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码