IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 半监督学习文本分类(一) -> 正文阅读

[人工智能]半监督学习文本分类(一)

???????

2021SC@SDUSC

目录

一、项目综述

项目背景

小组成员

课程目标

项目计划

项目结果

任务分配

二、项目简介

三、环境配置

Anaconda的配置

代码与数据集的下载

机器学习框架的导入

?环境配置完毕


2021SC@SDUSC

一、项目综述

项目背景

本项目是山东大学软件学院2020-2021学年度软件工程应用于实践”课程开放项目。

小组成员

网安工学):吴泽昊软件工程?刘敬炜

数据科学与大数据技术张致晏?数据科学与大数据技术熊静飞

课程目标

与指导老师沟通了解项目详情并且下载项目源代码小组对于难点与主要技术进行了解对于代码进行分析

项目计划

本课程的第一篇博客是对于项目“文本分类半监督学习问题”的难点与技术进行分析组内进行分工了解goole公司开发的BERT基线模型并且对于UDA模型与MixText模型进行实践对比

项目结果

训练出两个合适的模型UDA与MixText),并且在给定?IMDB、?AG-news、DBpedia、中文专业主观题数据集上进行训练和测试。

任务分配

刘敬炜:?tf-idf数据增强方法 ,kl散度损失函数 ,在有标签的数据集上进行训练(防止过拟合)防止过拟合的TSA技术,锐化预测(Confidence-based masking)。

熊静飞:回译数据增强方法?,交叉熵损失函数,使用经过训练的模型来预测无标签数据的标签创造伪标签结合出新的训练数据,锐化预测(Softmax temperature controlling)。

张致晏:运用Mixup方法对数据进行增强,熵最小化进行标签预测,监督损失,了解MixText模型,模型的结果分析,移除MixText不同部分。

吴泽昊:使用Bert对文本进行投射,运用文本隐藏插值方法对数据进行增强,加权平均的方法以及锐化技术进行标签预测,插值正则技术,一致性损失,了解TMix?模型,TMix中不同的混合层组测试

二、项目简介

如今在文本分类中,对于认为标注分类文本的投入过大,并且在训练带标签文本时容易出现过拟合的情况,因此我们需要用带有少量有标签文本以及大量无标签文本的数据集对于模型进行半监督学习训练。由于BERT(语言双向训练)在数据预处理以及参数调整中显现出极强的准确性,因此我们在本项目中主要采的UDA与MixText模型都是以此为基础来对数据进行训练。

通过三篇论文对于本项目基础的模型以及大体的流程了解

Bert模型:

BERT: Pre-training of Deep Bidirectional Transformers for?Language Understanding

UDA模型:Unsupervised Data Augmentation for Consistency Training

MixText模型:

MixText: Linguistically-Informed Interpolation of Hidden Space for?Semi-Supervised Text Classifification

三、环境配置

Anaconda的配置

Anaconda是当今十分方便的安装python虚拟环境的平台,并且numpy、pandas等第三方库的导入十分方便。

代码与数据集的下载

UDA模型:

https://github.com/SanghunYun/UDA_pytorch

MixText模型:

GitHub - GT-SALT/MixText: MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification

机器学习框架的导入

如今机器学习有tensorflow、keras、pytorch等多种框架,由于此项目源代码所采用的是pytorch框架进行实现。因此在pycharm终端中输入pip?install torch即可以导入框架。

?环境配置完毕

?至此项目前期预备工作已完毕。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-01 16:51:20  更:2021-10-01 16:51:47 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/22 7:27:52-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码