| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> NLP竞赛参与打卡记录:汽车领域多语种迁移学习挑战赛 -> 正文阅读 |
|
[人工智能]NLP竞赛参与打卡记录:汽车领域多语种迁移学习挑战赛 |
NLP竞赛参与打卡记录:汽车领域多语种迁移学习挑战赛本博客为Coggle 30 Days of ML(22年7月)竞赛打卡活动记录页面,会记录本人的打卡内容。活动链接为:活动链接 任务1:比赛报名步骤1:报名比赛前往竞赛地址,完成账号注册和比赛的报名。 步骤2:下载比赛数据在竞赛页面点击数据下载: 步骤3:解压比赛数据,并使用pandas进行读取将下载下来的内容进行解压,然后调用pandas进行读取,展示
要展示的话,你可以选择print或者在jupoyter notebook上直接用变量名 步骤4:查看数据类型可以用pandas的info()来查看训练集和测试集的相关字段信息
任务2:文本分析与文本分词步骤1:使用jieba对中文进行分词;jieba是常用的处理中文字符的第三库,关于它的用法可自行搜索。
然后,我们可以利用jieba进行简单的中文分词
步骤2:使用negisa对日语进行分词对于日文的数据,我们可以使用negisa这个库来进行分词操作;具体的用法可见官方文档negisa;直接pip安装需要一定时间(视网络条件而定,这个包20m左右大小;一般还会安装其他依赖)
任务3:TFIDF与文本分类任务3总的来说可以参考Coggle 给的例子。 步骤1:学习TFIDF的使用,提取语料的TFIDF特征;步骤2:使用逻辑回归结合TFIDF进行训练(所有的语言语料),并对测试集的意图进行分类这里,两个步骤是可以合并在一起完成的,因为可以把提取特征和逻辑回归一起构建成一个pipeline,一起进行训练。
第二部分,就是简单划分一下train数据集,然后进行模型的训练;代码如下:
两个acc的结果可见截图: 额外思考其实TfidfVectorizer()和LogisticRegression()是有很多参数提供使用的;但是在简单的测试参数的时候,发现貌似默认的情况会好一点?(当然,没有认真去调参,只是简单加几个参数,看看acc的差别)
只是简单给个例子,因为参数组合比较多,不放全部组合的例子了 步骤3:将步骤2预测的结果文件提交到比赛,截图分数最终输出的不仅需要意图,很多情况还有具体的参数,比如空调调到多少度。但是这里,先完成打卡,先把这个结果提交一下(从学习的角度来看是可以的,但是如果你想要分数高一点,毕竟是竞赛,可以等任务4,再具体得到而外的输出再一起提交) 任务4:正则表达式Todo… 任务5:BERT模型入门Todo… 任务6:BERT文本分类Todo… 任务7:BER实体抽取Todo… |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 1:35:24- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |