| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 文本分类半监督学习问题 -> 正文阅读 |
|
[人工智能]文本分类半监督学习问题 |
目录 2021SC@SDUSC 一、项目综述:
?本项目为山东大学软件学院2021-2022学年秋季学期“软件工程应用与实践”课程项目
网安工学:吴泽昊 、大数据:熊静飞、大数据:张致晏、软工:刘敬炜
与指导老师进行沟通交流,下载相应开放项目源代码进行下载、配置、分析并运行出结果。主要任务是小组成员分工协作分析项目源代码,定期给出项目代码分析报告并在博客上进行发布。学习并计录项目代码分析过程中的难点给出解决方法。
本组项目计划第一篇博客对选题“文本分类半监督学习”进行结构化的介绍,首先进行项目环境的配置安装、学习nlp领域的BERT模型(Google团队新发布的BERT模型,一种对预训练的语言模型的应用),并且学习使用模型1UDA(半监督数据增强)半监督学习方法辅助BERT模型进行半监督文本分类模型的训练,最后学习使用模型2MixText辅助训练。
使用BERT、UDA、MixText等解决半监督文本分类问题的已开源模型,在给定?IMDB、?AG-news、DBpedia、中文专业主观题数据集上进行训练和测试。
刘敬炜:?tf-idf数据增强方法?,kl散度损失函数?,在有标签的数据集上进行训练(防止过拟合)防止过拟合的TSA技术,锐化预测(Confidence-based?masking)。 二、项目简介深度学习时代,研究表明有监督学习表现出极佳的性能,?但是当数据只有有限的少量标签时,监督学习就会出现过拟合,对有标签数据的强烈依赖极大的限制了深度学习项目的落地,?而且打标签的过程会需要大量的时间,金钱和专业的人员,?因此半监督学习受到关注。此半监督文本分类项目是输入少量具有类别标记的文本集合,以及大量无标记文本。训练半监督文本分类模型。预测输出对于无标记文本集合的类别标记。 三、环境的部署配置
Anaconda?常在机器学习中使用,它使用起来比较方便的地方在于它预装了很多第三方库,且增加了conda?install命令。我们可以在Anaconda中配置多个版本的python虚拟环境且多个环境之间版本配置等不同相互独立。(已安装不附图)
首先查看支持CUDA的GPU显卡型号。打开任务管理器: 下载CUDA:? 根据CUDA版本选择下载相对应的cudnn: 将cudnn中文件复制到cuda中完成显卡的配置
进入pytorch官网,按照自己的版本配置需要进行选择 验证是否安装成功: 打开文本分类半监督学习(以UDA为例)进行项目相关包的导入 至此项目代码的环境部署圆满结束。?
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 12:38:40- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |