IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【Pytorch】NLP|文本数据分析代码实现 -> 正文阅读

[人工智能]【Pytorch】NLP|文本数据分析代码实现

1、文本数据分析方法

  • 常用的几种文本数据分析方法:
    • 标签数量分布
    • 句子长度分布
    • 词频统计与关键词词云

2、标签数量分布

2.1 获取训练集和验证集的标签数量分布

# 导入工具包
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
import jieba
import jieba.posseg as pseg
from itertools import chain
from wordcloud import WordCloud
# 设置显示风格
plt.style.use('fivethirtyeight') 

# 1、分别读取训练tsv和验证tsv
train_data = pd.read_csv("./cn_data/train.tsv", sep="\t")
valid_data = pd.read_csv("./cn_data/dev.tsv", sep="\t")


# 2、获得训练数据标签数量分布
sns.countplot("label", data=train_data)
plt.title("train_data")
plt.show()


# 3、获取验证数据标签数量分布
sns.countplot("label", data=valid_data)
plt.title("valid_data")
plt.show()
  • 训练集标签数量分布:
    在这里插入图片描述

  • 验证集标签数量分布:
    在这里插入图片描述

  • 分析:
    ??在深度学习模型评估中, 我们一般使用ACC作为评估指标, 若想将ACC的基线定义在50%左右, 则需要我们的正负样本比例维持在1:1左右, 否则就要进行必要的数据增强或数据删减. 上图中训练和验证集正负样本都稍有不均衡, 可以进行一些数据增强.

2.2 获取训练集和验证集的句子长度分布

# 1、在训练数据中添加新的句子长度列, 每个元素的值都是对应的句子列的长度
train_data["sentence_length"] = list(map(lambda x: len(x), train_data["sentence"]))

# 2、绘制句子长度列的数量分布图
sns.countplot("sentence_length", data=train_data)
# 主要关注count长度分布的纵坐标, 不需要绘制横坐标, 横坐标范围通过dist图进行查看
plt.xticks([])
plt.show()

# 3、绘制dist长度分布图
sns.distplot(train_data["sentence_length"])
# 主要关注dist长度分布横坐标, 不需要绘制纵坐标
plt.yticks([])
plt.show()


# 4、在验证数据中添加新的句子长度列, 每个元素的值都是对应的句子列的长度
valid_data["sentence_length"] = list(map(lambda x: len(x), valid_data["sentence"]))

# 5、绘制句子长度列的数量分布图
sns.countplot("sentence_length", data=valid_data)
# 主要关注count长度分布的纵坐标, 不需要绘制横坐标, 横坐标范围通过dist图进行查看
plt.xticks([])
plt.show()

# 6、绘制dist长度分布图
sns.distplot(valid_data["sentence_length"])
# 主要关注dist长度分布横坐标, 不需要绘制纵坐标
plt.yticks([])
plt.show()
  • 训练集句子长度分布:
    在这里插入图片描述
    在这里插入图片描述
  • 验证集句子长度分布:
    在这里插入图片描述
    在这里插入图片描述
  • 分析:
    ??通过绘制句子长度分布图, 可以得知我们的语料中大部分句子长度的分布范围, 因为模型的输入要求为固定尺寸的张量,合理的长度范围对之后进行句子截断补齐(规范长度)起到关键的指导作用. 上图中大部分句子长度的范围大致为20-250之间.

2.3 获取训练集和验证集的正负样本长度散点分布

# 1、绘制训练集长度分布的散点图
plt.figure(figsize=(20, 8), dpi=100)
sns.stripplot(y='sentence_length', x = 'label', data = train_data)
plt.show()

# 2、绘制测试集长度分股的散点图
plt.figure(figsize=(20, 8), dpi=100)
sns.stripplot(y='sentence_length', x = 'label', data = valid_data)
plt.show()
  • 训练集上正负样本的长度散点分布:
    在这里插入图片描述
  • 验证集上正负样本的长度散点分布:
    在这里插入图片描述
  • 分析:
    ??通过查看正负样本长度散点图, 可以有效定位异常点的出现位置, 帮助我们更准确进行人工语料审查. 上图中在训练集正样本中出现了异常点, 它的句子长度近3500左右, 需要我们人工审查.

2.4 获取训练集和验证集不同词汇总数统计

# 对训练集的句子进行分词,并统计出不同词汇的总数
train_vocab = set(chain(*map(lambda x: jieba.lcut(x), train_data['sentence'])))
print("训练集词汇总数:", len(train_vocab))
valid_vocab = set(chain(*map(lambda x: jieba.lcut(x), valid_data['sentence'])))
print("验证集词汇总数:", len(valid_vocab))

输出结果:

训练集词汇总数: 12162
验证集词汇总数: 6857

2.5 获得训练集上正负的样本的高频形容词词云

# 1、获取形容词列表
def get_a_list(text):
    # 使用jieba的词性标注方法切分文本,获得具有词性属性的flag词汇属性word的对象
    # 判断flag是否是形容词,返回对应的词汇
    r = []
    for g in pseg.lcut(text):
        if g.flag == 'a':
            r.append(g.word)
    return r


# 2、创建词云函数
def get_word_cloud(keywords_list):
    """
    实例化绘制词云的类,其中参数font_path是字体路径,显示中文
    max_words指词云图像最多显示多少个词,background_color为背景颜色
    """
    wordcloud = WordCloud(font_path='./SimHei.ttf', max_words=100, background_color='white')
    # 将传入的列表转化成词云生成器需要的字符串形式
    keywords_string = ''.join(keywords_list)
    # 生成词云
    wordcloud.generate(keywords_string)

    # 绘制图像
    plt.figure()
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()


# 3、获得训练集上正样本
p_train_data = train_data[train_data['label'] == 1]['sentence']
# 3.1 提取正样本中每个句子的形容词
p_a_train_vocab = chain(*map(lambda x: get_a_list(x), p_train_data))

# 4、获取训练集上负样本
n_train_data = train_data[train_data['label'] == 0]['sentence']
# 4.1 提取负样本中每个句子的形容词
n_a_train_vocab = chain(*map(lambda x: get_a_list(x), n_train_data))

# 5、调用get_word_cloud函数
get_word_cloud(p_a_train_vocab)
get_word_cloud(n_a_train_vocab)
  • 训练集正样本形容词词云:
  • 在这里插入图片描述
  • 训练集负样本形容词词云:
  • 在这里插入图片描述

2.6 获得验证集上正负的样本的形容词词云

# 1、获取验证集上的正样本
p_valid_data = valid_data[valid_data['label' == 1]]['sentence']
# 提取张样本中每个句子的形容词
p_a_valid_vocab = chain(*map(lambda x: get_a_list(x), p_valid_data))

# 2、获取验证集上的负样本
n_valid_data = valid_data[valid_data['label' == 0]]['sentence']
# 提取负样本中每个句子的形容词
n_a_valid_vocab = chain(*map(lambda x: get_a_list(x), n_valid_data))

# 3、调用get_word_cloud函数
get_word_cloud(p_a_valid_vocab)
get_word_cloud(n_a_valid_vocab)
  • 验证集正样本形容词词云:
    在这里插入图片描述
  • 验证集负样本形容词词云:
  • 在这里插入图片描述
  • 分析:
    ??根据高频形容词词云显示, 我们可以对当前语料质量进行简单评估, 同时对违反语料标签含义的词汇进行人工审查和修正, 来保证绝大多数语料符合训练标准。上图中的正样本大多数是褒义词, 而负样本大多数是贬义词, 基本符合要求, 但是负样本词云中也存在"便利"这样的褒义词, 因此可以人工进行审查。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-21 15:22:26  更:2021-08-21 15:29:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 23:56:17-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码