自然语言处理入门
- 内容大纲:
- 文本预处理
- 经典序列模型
- RNN及其变体
- Transformer
- 迁移学习
文本预处理
认识文本预处理
文本处理的基本方法
import jieba
content = '工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
jieba.cut(content, cut_all = False)
print(jieba.lcut(content, cut_all = False))
['工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']
- 精确切割模式就是将语句切割成我们最习惯的词。全模式分词将句子中所有的可以成词的词语都扫描出来,速度非常快但不能消除歧义。搜索引擎模式分词是在精确模式的基础上对长词再次切分,提高召回率,适合用于搜索引擎分词。
jieba.cut(content, cut_all = True)
print(jieba.lcut(content, cut_all = True))
jieba.cut_for_search(content)
print(jieba.lcut_for_search(content))
['工信处', '干事', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换', '换机', '交换机', '等', '技术', '技术性', '器件', '的', '安装', '工作']
- 使用用户自定义词典:
- jieba会准确识别词典中的词汇,提高整体识别准确度。
- 词典格式:每一行三部分,词语、词频(可省)、词性(可省),用空格隔开。
- 将下面词典存为userdict.txt,并加载使用:
print(jieba.lcut('八一双鹿更名为八一南昌篮球队!'))
jieba.load_userdict('./userdict.txt')
print(jieba.lcut('八一双鹿更名为八一南昌篮球队!'))
['八', '一双', '鹿', '更名', '为', '八一', '南昌', '篮球队', '!']
['八一双鹿', '更名', '为', '八一', '南昌', '篮球队', '!']
流行中英文分词工具hanlp
- 中英文NLP处理工具包,基于tensorflow2.0
词性标注
import jieba.posseg as pseg
print(pseg.lcut('我爱北京天安门'))
[pair('我', 'r'), pair('爱', 'v'), pair('北京', 'ns'), pair('天安门', 'ns')]
文本张量表示方法
- 文本张量表示方法:
- one-hot编码
- Word2vec
- Word Embedding
one-hot编码
- 又称独热编码,将每个词表示成具有n个元素的向量。这个词向量中只有一个元素是1,其他元素都是0,不同词汇元素0的位置不同,其中n的大小是整个语料中不同词汇的总数。
import joblib
from tensorflow.keras.preprocessing.text import Tokenizer
vocab = {'李克勤', '李荣浩', '廖昌永', '汪峰'}
t = Tokenizer(num_words=None, char_level=False)
t.fit_on_texts(vocab)
for token in vocab:
zero_list = [0] * len(vocab)
token_index = t.texts_to_sequences([token])[0][0] - 1
zero_list[token_index] = 1
print(token, "的one-hot编码为:", zero_list)
tokenizer_path = './Tokenizer'
joblib.dump(t, tokenizer_path)
廖昌永 的one-hot编码为: [1, 0, 0, 0]
李克勤 的one-hot编码为: [0, 1, 0, 0]
汪峰 的one-hot编码为: [0, 0, 1, 0]
李荣浩 的one-hot编码为: [0, 0, 0, 1]
t = joblib.load(tokenizer_path)
token = '李克勤'
token_index = t.texts_to_sequences([token])[0][0] - 1
zero_list = [0] * 4
zero_list[token_index] = 1
print(token, '的one-hot编码为:', zero_list)
李克勤 的one-hot编码为: [0, 1, 0, 0]
- 使用one-hot编码的优劣势:
- 优势:操作简单、容易理解
- 劣势:完全割裂了词与词之间的联系,且在大语料集情况下,每个向量长度过大,占据大量内存。
word2vec编码
-
是一种流行的将词汇表示成向量的无监督训练方法,该过程将构建神经网络模型,将网络参数作为词汇的向量表示,它包含CBOW和skipgram两种训练模式 -
CBOW(Continuous bag of words)模式:给定一段用于训练的文本预料,再选定某段长度(窗口)为研究对象,使用上下文词汇预测目标词汇。通俗来讲就是周围的词预测中间的词。 -
skipgram模式:给定一段用于训练的文本语料,再选定某段长度(窗口)作为研究对象,使用目标词汇预测上下文词汇。skipgram模式和CBOW模式刚好反过来。 -
使用fasttext包中的无监督训练方法train_unsupervised('data\enwik9data') :
import fasttext
model = fasttext.train_unsupervised('data\enwik9data')
Read 124M words
Number of words: 218316
Number of labels: 0
Progress: 1.8% words/sec/thread: 11116 lr: 0.049106 loss: 1.586364 ETA: 2h10m
print(model.get_nearest_neighbors('music'))
print(model.get_nearest_neighbors('sports'))
print(model.get_nearest_neighbors('dog'))
model.save_model('fil9.bin')
model = fasttext.load_model('fil9.bin')
model.get_word_vector('the')
word embedding
-
通过一定方式将词汇映射到指定维度(一般是更高维度)的空间 -
广义的word embedding包括所有密集词汇向量的表示方法,如之前学习的word2vec,即可以认为是word embedding的一种 -
狭义的word embedding是指在神经网络中加入的embedding层,对整个网络进行训练的同时产生的embedding矩阵(embedding层的参数),这个embedding矩阵就是训练过程中所有输入词汇向量表示的矩阵。 -
通过使用tensorboard可视化嵌入的词向量
import torch
import fileinput
from torch.utils.tensorboard import SummaryWriter
writer = SummaryWriter()
embedded = torch.randn(100, 50)
meta = list(map(lambda x: x.strip(), fileinput.input('./vocab100.csv')))
writer.add_embedding(embedded, metadata = meta)
writer.close()
文本数据分析
- 文本数据分析能够有效帮助我们理解数据语料,快速检查出预料可能存在的问题,并指导之后模型训练过程中一些超参数的选择。
- 常用文本数据分析方法
- 利用真实的二分类中文情感分析语料:某酒店的客户评价。1代表积极评价,0代表消极评价。
- 获取标签数量分布:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
train_data = pd.read_csv('./cn_data/train.tsv', sep='\t')
valid_data = pd.read_csv('./cn_data/dev.tsv', sep='\t')
sns.countplot('label', data=train_data)
plt.title('train_data')
plt.show()
sns.countplot('label', data=valid_data)
plt.title('valid_data')
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Vr4Oxwb1-1634973828830)(C:\Users\Lancibe\Desktop\train_data.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jmQ3nTa4-1634973828835)(C:\Users\Lancibe\Desktop\valid_data.png)]
train_data['sentence_length'] = list(map(lambda x:len(x), train_data['sentence']))
sns.countplot('sentence_length', data=train_data)
plt.xticks([])
plt.show()
sns.distplot(train_data['sentence_length'])
plt.yticks([])
plt.show()
valid_data['sentence_length'] = list(map(lambda x:len(x), valid_data['sentence']))
sns.countplot('sentence_length', data=valid_data)
plt.xticks([])
plt.show()
sns.distplot(valid_data['sentence_length'])
plt.yticks([])
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JHrrHPS1-1634973828839)(C:\Users\Lancibe\Desktop\train.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UkCGKQ2S-1634973828842)(C:\Users\Lancibe\Desktop\train_density.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NbsO6eoz-1634973828844)(C:\Users\Lancibe\Desktop\valid.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fbl7NNvF-1634973828846)(C:\Users\Lancibe\Desktop\valid_density.png)]
sns.stripplot(y = 'sentence_length', x='label', data=train_data)
plt.show()
sns.stripplot(y = 'sentence_length', x='label', data=valid_data)
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FklF7g1l-1634973828847)(C:\Users\Lancibe\Desktop\train_strip.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-03uYTKJT-1634973828848)(C:\Users\Lancibe\Desktop\valid_strip.png)]
import jieba
from itertools import chain
train_vocab = set(chain(*map(lambda x:jieba.lcut(x), train_data['sentence'])))
print('训练集共包含不同词汇总数为:', len(train_vocab))
valid_vocab = set(chain(*map(lambda x:jieba.lcut(x), valid_data['sentence'])))
print('验证集共包含不同词汇总数为:', len(valid_vocab))
训练集共包含不同词汇总数为: 12162
验证集共包含不同词汇总数为: 6857
import jieba.posseg as pseg
from itertools import chain
def get_a_list(text):
r = []
for g in pseg.lcut(text):
if g.flag =='a':
r.append(g.word)
return r
from wordcloud import WordCloud
def get_word_cloud(keywords_list):
wordcloud = WordCloud(font_path='SimHei.ttf', max_words = 100, background_color='white')
keywords_string = ' '.join(keywords_list)
wordcloud.generate(keywords_string)
plt.figure()
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()
p_train_data = train_data[train_data['label'] == 1]['sentence']
train_p_a_vocab = chain(*map(lambda x: get_a_list(x), p_train_data))
n_train_data = train_data[train_data['label'] == 0]['sentence']
train_n_a_vocab = chain(*map(lambda x: get_a_list(x), n_train_data))
get_word_cloud(train_p_a_vocab)
get_word_cloud(train_n_a_vocab)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8oNgj0I9-1634973828849)(C:\Users\Lancibe\Desktop\wordcloud1.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8algVkay-1634973828851)(C:\Users\Lancibe\Desktop\wordcloud0.png)]
文本特征处理
- 文本特征处理包括为语料添加具有普适性的文本特征,如n-gram特征,以及对加入特征之后的文本语料进行必要的处理,如:长度规范。这些特征处理工作能够有效的将重要的文本特征加入模型训练中,增强模型评估指标。
- 常见的文本特征处理方法:
添加n-gram特征
- 给定一段文本序列,其中n个词或字的相邻共现特征既n-gram特征,常用n-gram特征是bi-gram特征和tri-gram特征,分别对应n为2和3。
ngram_range = 2
def create_ngram_set(input_list):
return set(zip(*[input_list[i:] for i in range(ngram_range)]))
input_list = [1, 3, 2, 1, 5, 3]
res = create_ngram_set(input_list=input_list)
print(res)
{(3, 2), (1, 3), (2, 1), (1, 5), (5, 3)}
文本长度规范及其作用
- 一般模型的输入需要等尺寸大小的矩阵,因此进入模型前需要对每条文本数值映射后的长度进行规范,此时将根据句子长度分布分析出覆盖绝大多数文本的合理长度,对超长文本进行截断,对不足文本进行补齐(一般使用数字0)。
from tensorflow.keras.preprocessing import sequence
cutlen = 10
def padding(x_train):
return sequence.pad_sequences(x_train, cutlen)
x_train = [[1, 23, 5, 32, 55, 63, 2, 21, 78, 32, 23, 1],
[2, 32, 1, 23, 1]]
print(padding(x_train))
[[ 5 32 55 63 2 21 78 32 23 1]
[ 0 0 0 0 0 2 32 1 23 1]]
文本数据增强
- 常用文本数据增强方法:回译数据增强法。是目前文本数据增强方面效果较好的增强方法,一般基于google翻译接口,将文本数据翻译成另一种语言(一般选择小语种)再翻译回源语言,即可认为得到与原语料同标签的新语料,新语料的加入到原数据集中即可认为是对原数据集数据增强。
- 优势:操作简便,获得新语料质量高
- 劣势:短文本回译过程中新语料和原语料可能存在很高重复率,并不能有效增大样本特征空间。
- 高重复率解决办法:进行连续的多语言翻译,例如中-韩-日-英-中,最多只采用3次连续翻译,否则将导致效率低下,语义失真等问题。
p1 = '这家酒店设施非常不错'
p2 = '这家价格很便宜'
n1 = '拖鞋都发霉了,太差了'
n2 = '电视不好用,没有看到足球'
from google_trans_new import google_translator
translator = google_translator()
translations = translator.translate([p1, p2, n1, n2], lang_tgt='th')
print('中间翻译结果: ')
print(translations)
translations = translator.translate(translations, lang_tgt='zh-cn')
print('回译得到的增强数据: ')
print(translations)
中间翻译结果:
['??????????? ?????? ????????', '?????????????????', '????????????????????????????????', '????????????????????????????????? ']
回译得到的增强数据:
[这家酒店有一个非常好的公司','这个价格很便宜','拖鞋太糟糕了', '电视不容易,看不到足球']
tor()
进行一次批量翻译,目标是泰语
translations = translator.translate([p1, p2, n1, n2], lang_tgt=‘th’)
打进结果
print('中间翻译结果: ') print(translations)
再翻译成中文
translations = translator.translate(translations, lang_tgt=‘zh-cn’) print('回译得到的增强数据: ') print(translations)
中间翻译结果: [‘??????????? ?????? ????????’, ‘?????????????????’, ‘????????????????????????????????’, '????????????????????????????????? ‘] 回译得到的增强数据: [这家酒店有一个非常好的公司’,‘这个价格很便宜’,‘拖鞋太糟糕了’, ‘电视不容易,看不到足球’]
|