开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> 情感处理python代码相关 -> 正文阅读

[Python知识库]情感处理python代码相关

keras

model.fit()

fit( x, y, batch_size=32, epochs=10, verbose=1, callbacks=None,
validation_split=0.0, validation_data=None, shuffle=True, 
class_weight=None, sample_weight=None, initial_epoch=0)

x:输入数据，如果模型只有一个输入，那么x的类型是numpy array，如果模型有多个输入，那么x的类型应当为list，list的元素对应于各个输入的numpy array

y：标签，numpy array

batch_size: 整数，指定进行梯度下降时每个batch 包含的样本数，训练时一个batch的样本会被计算一次梯度下降，使目标函数优化一步

epochs:整数，训练终止时的epoch值，训练将在达到该epoch值时停止，当没有设置initial_epoch时，就是训练的总轮数，否则训练的总轮数为epochs -inital_epoch

verbose:日志显示，0为不在标准输出流输出日志信息，1为输出进度条记录，2为每个epoch输出一行记录。

callbacks: list，其中的元素是keras.callbacks.Callback的对象。这个list中的回调函数将会在训练过程中的适当时机被调用，参考回调函数。

validation_split: 0-1之间的浮点数，用来指定训练集的一定比例数据作为验证集。验证集将不参与训练，并在epoch结束后测试的模型的指标，如损失函数、精确度等。注意，validation_split的划分在shuffle之前，因此如果你的数据本身是有序的，需要先手工打乱再指定validation_split，否则可能会出现验证集样本不均匀。

validation_data：形式为（X，y）的tuple，是指定的验证集。此参数将覆盖validation_spilt。

shuffle：布尔值或字符串，一般为布尔值，表示是否在训练过程中随机打乱输入样本的顺序。若为字符串“batch”，则是用来处理HDF5数据的特殊情况，它将在batch内部将数据打乱。

class_weight：字典，将不同的类别映射为不同的权值，该参数用来在训练过程中调整损失函数（只能用于训练）

sample_weight：权值的numpy
array，用于在训练时调整损失函数（仅用于训练）。可以传递一个1D的与样本等长的向量用于对样本进行1对1的加权，或者在面对时序数据时，传递一个的形式为（samples，sequence_length）的矩阵来为每个时间步上的样本赋不同的权。这种情况下请确定在编译模型时添加了sample_weight_mode=’temporal’。

initial_epoch: 从该参数指定的epoch开始训练，在继续之前的训练时有用。

fit函数返回一个history的对象，其history.history属性记录了损失函数和其他指标的数值随epoch变化的情况，如果有验证集的话，包含了验证集的这些指标变化情况。

分词器Tokenizer

Tokenizer是一个用于向量化文本，或将文本转换为序列的类，是用来文本预处理的第一步：分词

Tokenizer核心是把一个词转化为一个正整数，让文本变成一个序列。

keras.preprocessing.text.Tokenizer(num_words=None,
                                   filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n',
                                   lower=True,
                                   split=' ',
                                   char_level=False, 
                                   oov_token=None, 
                                   document_count=0)

num_words?：保留的最大词数，根据词频计算。默认为None是处理所有字词。如果设置成一个整数，那么最后返回的是最常见的、出现频率最高的 num_words 个字词。
filters?：过滤掉常用的特殊符号，默认上文的写法就可以了。
lower?：是否转化为小写。
split?：词的分隔符，如空格。
char_level?：是否将每个字符都认为是词，默认是否。在处理中文时如果每个字都作为是词，这个参数改为True.
oov_token?：如果给出，会添加到词索引中，用来替换超出词表的字符。
document_count?：文档个数，这个参数一般会根据喂入文本自动计算，无需给出

例如，num_words为100，则

from keras.preprocessing.text import Tokenizer

sentences = ["I love dog",
             "I love cat"]

tokenizer = Tokenizer(num_words=100)

fit_on_texts(texts)?：

参数 texts：要用以训练的文本列表。
返回值：无。

texts_to_sequences(texts)?：

参数 texts：待转为序列的文本列表。
返回值：序列的列表，列表中每个序列对应于一段输入文本。

texts_to_sequences_generator(texts)?：

本函数是texts_to_sequences的生成器函数版。
参数 texts：待转为序列的文本列表。
返回值：每次调用返回对应于一段输入文本的序列。

texts_to_matrix(texts, mode)?：

参数 texts：待向量化的文本列表。
参数 mode：'binary'，'count'，'tfidf'，'freq' 之一，默认为 'binary'。
返回值：形如(len(texts), num_words)?的numpy array。

fit_on_sequences(sequences)?：

参数 sequences：要用以训练的序列列表。
返回值：无

sequences_to_matrix(sequences)?：

参数 sequences：待向量化的序列列表。
参数 mode：'binary'，'count'，'tfidf'，'freq' 之一，默认为 'binary'。
返回值：形如(len(sequences), num_words)?的 numpy array。

word_counts?：字典，将单词（字符串）映射为它们在训练期间出现的次数。仅在调用fit_on_texts之后设置。

word_docs?：字典，将单词（字符串）映射为它们在训练期间所出现的文档或文本的数量。仅在调用fit_on_texts之后设置。

word_index?：字典，将单词（字符串）映射为它们的排名或者索引。仅在调用fit_on_texts之后设置。

document_count?：整数。分词器被训练的文档（文本或者序列）数量。仅在调用fit_on_texts或fit_on_sequences之后设置

序列预处理pad_sequences()序列填充

keras 只接受长度相同的序列输入，如果序列长度参差不齐，需要使用pad_sequences()。

pad_sequences()

keras.preprocessing.sequence.pad_sequences(sequences, 
	maxlen=None,
	dtype='int32',
	padding='pre',
	truncating='pre', 
	value=0.)

sequences：浮点数或整数构成的两层嵌套列表
maxlen：None或整数，为序列的最大长度。大于此长度的序列将被截短，小于此长度的序列将在后部填0.
dtype：返回的numpy array的数据类型
padding：‘pre’或‘post’，确定当需要补0时，在序列的起始还是结尾补`
truncating：‘pre’或‘post’，确定当需要截断序列时，从起始还是结尾截断
value：浮点数，此值将在填充时代替默认的填充值0
?

***文件读尽量用codecs.open方法，一般不会出现编码问题。?

codecs.open(filepath,method,encoding)

filepath--文件路径

method--打开方式，r为读，w为写，rw为读写

encoding--文件的编码，中文文件使用utf-8

'r'：只读（缺省。如果文件不存在，则抛出错误）
'w'：只写（如果文件不存在，则自动创建文件）
'a'：附加到文件末尾
'r+'：读写

enumerate()

enumerate()函数用于将一个可遍历的车数据对象，组合为一个索引序列，同时列出数据和数据下表，一般用在for循环当中。

i=0
seq=['one','two','three']
for i,element in enumerate(seq):
    print(i,element)

----->>>>>>
0 one
1 two
2 three

i=0
seq=['one','two','three']
for i,element in enumerate(seq,1):
    print(i,element)

------>>>>>>>
1 one
2 two
3 three

re

1、match re.match(pattern, string[, flags])

从首字母开始开始匹配，string如果包含pattern子串，则匹配成功，返回Match对象，失败则返回None，若要完全匹配，pattern要以$结尾。

2、search re.search(pattern, string[, flags])

若string中包含pattern子串，则返回Match对象，否则返回None，注意，如果string中存在多个pattern子串，只返回第一个。

3、findall re.findall(pattern, string[, flags])

返回string中所有与pattern相匹配的全部字串，返回形式为数组。

4、finditer re.finditer(pattern, string[, flags])

返回string中所有与pattern相匹配的全部字串，返回形式为迭代器。 若匹配成功，match()/search()返回的是Match对象，finditer()返回的也是Match对象的迭代器。

综上所述

group()：母串中与模式pattern匹配的子串；

group(0)：结果与group()一样；

group(1) 列出第一个括号匹配部分，group(2) 列出第二个括号匹配部分，group(3) 列出第三个括号匹配部分。

groups()：所有group组成的一个元组，group(1)是与patttern中第一个group匹配成功的子串，group(2)是第二个，依次类推，如果index超了边界，抛出IndexError；

findall()：返回的就是所有groups的数组，就是group组成的元组的数组，母串中的这一撮组成一个元组，那一措组成一个元组，这些元组共同构成一个list，就是findall()的返回结果。另，如果groups是只有一个元素的元组，findall的返回结果是子串的list，而不是元组的list了。

tf.Print()

调试程序时，需要检查中间参数，这些参数一般是定义在model或是别的函数中的局部参数，由于tensorflow要求先构建计算图再运算的机制，也不能定义后直接print出来，tensorflow有一个函数tf.Print(input,?data,?message=None,?first_n=None,?summarize=None,?name=None)

最低要求两个输入，input和data，input是需要打印变量的名字，data要求是一个list，里面包含要打印的内容。

message是需要输出的错误信息。

first_n指只记录前n次。

summarize是对每个tensor只打印的条目数量，如果是None，对于每个输入tensor只打印3个元素。

name是op的名字。

注意：tf.Print()只是构建一个op，需要run之后才会打印。