IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 文本分类半监督学习问题 -> 正文阅读

[人工智能]文本分类半监督学习问题


目录

一、项目综述:

项目背景:

小组成员:

课程目标:

项目计划

任务目标

任务分配

二、项目简介

三、环境的部署配置

安装anaconda

显卡配置

安装pytorch?


2021SC@SDUSC

一、项目综述:

  • 项目背景:

?本项目为山东大学软件学院2021-2022学年秋季学期“软件工程应用与实践”课程项目

  • 小组成员:

网安工学:吴泽昊 、大数据:熊静飞、大数据:张致晏、软工:刘敬炜

  • 课程目标:

与指导老师进行沟通交流,下载相应开放项目源代码进行下载、配置、分析并运行出结果。主要任务是小组成员分工协作分析项目源代码,定期给出项目代码分析报告并在博客上进行发布。学习并计录项目代码分析过程中的难点给出解决方法。

  • 项目计划

本组项目计划第一篇博客对选题“文本分类半监督学习”进行结构化的介绍,首先进行项目环境的配置安装、学习nlp领域的BERT模型(Google团队新发布的BERT模型,一种对预训练的语言模型的应用),并且学习使用模型1UDA(半监督数据增强)半监督学习方法辅助BERT模型进行半监督文本分类模型的训练,最后学习使用模型2MixText辅助训练。

  • 任务目标

使用BERT、UDA、MixText等解决半监督文本分类问题的已开源模型,在给定?IMDB、?AG-news、DBpedia、中文专业主观题数据集上进行训练和测试。
?

  • 任务分配

刘敬炜:?tf-idf数据增强方法?,kl散度损失函数?,在有标签的数据集上进行训练(防止过拟合)防止过拟合的TSA技术,锐化预测(Confidence-based?masking)。
熊静飞:回译数据增强方法?,交叉熵损失函数,使用经过训练的模型来预测无标签数据的标签创造伪标签结合出新的训练数据,锐化预测(Softmax?temperature?controlling)。
张致晏:运用Mixup方法对数据进行增强,熵最小化进行标签预测,监督损失,了解MixText模型,模型的结果分析,移除MixText不同部分。
吴泽昊:使用Bert对文本进行投射,运用文本隐藏插值方法对数据进行增强,加权平均的方法以及锐化技术进行标签预测,插值正则技术,一致性损失,了解TMix?模型,TMix中不同的混合层组测试。

二、项目简介

深度学习时代,研究表明有监督学习表现出极佳的性能,?但是当数据只有有限的少量标签时,监督学习就会出现过拟合,对有标签数据的强烈依赖极大的限制了深度学习项目的落地,?而且打标签的过程会需要大量的时间,金钱和专业的人员,?因此半监督学习受到关注。此半监督文本分类项目是输入少量具有类别标记的文本集合,以及大量无标记文本。训练半监督文本分类模型。预测输出对于无标记文本集合的类别标记。

三、环境的部署配置

  • 安装anaconda

Anaconda?常在机器学习中使用,它使用起来比较方便的地方在于它预装了很多第三方库,且增加了conda?install命令。我们可以在Anaconda中配置多个版本的python虚拟环境且多个环境之间版本配置等不同相互独立。(已安装不附图)

  • 显卡配置

首先查看支持CUDA的GPU显卡型号。打开任务管理器:

下载CUDA:?

根据CUDA版本选择下载相对应的cudnn:

将cudnn中文件复制到cuda中完成显卡的配置

  • 安装pytorch?

进入pytorch官网,按照自己的版本配置需要进行选择

验证是否安装成功:

打开文本分类半监督学习(以UDA为例)进行项目相关包的导入

至此项目代码的环境部署圆满结束。?


?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-01 16:51:20  更:2021-10-01 16:51:59 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 12:38:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码