一 问答机器人介绍
1. 问答机器人
问答机器人是在分类之后,对特定问题进行回答的一种机器人。至于回答的问题的类型,取决于语料。
当前需要实现的问答机器人是一个回答编程语言(比如python是什么 ,python难么 等)相关问题的机器人
2. 问答机器人的实现逻辑
主要实现逻辑:从现有的问答对中,选择出和问题最相似的问题,并且获取其相似度(一个数值),如果相似度大于阈值,则返回这个最相似的问题对应的答案
问答机器人的实现可以大致分为三步步骤:
- 对问题的处理
- 对答案进行的机器学习召回
- 对召回的结果进行排序
2.1 对问题的处理
对问题的处理过程中,可以考虑以下问题:
- 对问题进行基础的清洗,去除特殊符号等
- 问题主语的识别,判断问题中是否包含特定的主语,比如
python 等,提取出来之后,方便后续对问题进行过滤。
- 可以看出,不仅需要对用户输入的问题进行处理,获取主语,还需要对现有问答对进行处理
- 获取问题的词向量,可以考虑使用词频,tdidf等值,方便召回的时候使用
2.2 问题的召回
召回:可以理解为是一个海选的操作,就是从现有的问答对中选择可能相似的前K个问题。
为什么要进行召回?
主要目的是为了后续进行排序的时候,减少需要计算的数据量,比如有10万个问答对,直接通过深度学习肯定是可以获取所有的相似度,但是速度慢。
所以考虑使用机器学习的方法进行一次海选
那么,如何实现召回呢?
召回就是选择前K个最相似的问题,所以召回的实现就是想办法通过机器学习的手段计算相似度。
可以思考的方法:
- 使用词袋模型,获取词频矩阵,计算相似度
- 使用tfidf,获取tdidf的矩阵,计算相似度
上述的方法理论上都可行,只是当候选计算的词语数量太多的时候,需要逐一计算相似度,非常耗时。
所以可以考虑以下两点:
- 通过前面获取的主语,对问题进行过滤
- 使用聚类的方法,对数据先聚类,再计算某几个类别中的相似度,而不用去计算全部。
但是还有一个问题
不管是词频,还是tfidf,获取的结果肯定是没有考虑文字顺序的,效果不一定是最好的,那么此时,应该如何让最后召回的效果更好呢?
2.3 问题的排序
排序过程,使用了召回的结果作为输入,同时输出的是最相似的那一个。
整个过程使用深度学习实现。深度学习虽然训练的速度慢,但是整体效果肯定比机器学习好(机器学习受限于特征工程,数据量等因素,没有办法深入的学会不同问题之间的内在相似度),所以通过自建的模型,获取最后的相似度。
使用深度学习的模型这样一个黑匣子,在训练数据足够多的时候,能够学习到用户的各种不同输入的问题,当把目标值(相似的问题)给定的情况下,让模型自己去找到这些训练数据目标值和特征值之间相似的表示方法。
那么此时,有以下两个问题:
-
使用什么数据来训练模型,最后返回模型的相似度
训练数据的来源:可以考虑根据现有的问答对去手动构造,但是构造的数据不一定能够覆盖后续用户提问的全部问题。所以可以考虑通过程序去采集网站上相似的问题,比如百度知道的搜索结果。
-
模型该如何构建
模型可以有两个输入,输出为一个数值,两个输入的处理方法肯定是一样的。这种网络结构经常把它称作孪生神经网络。
很明显,输入的数据需要进行编码的操作,比如word embedding + LSTM/GRU/BIGRU等 两个编码之后的结果,可以进行组合,然后通过一个多层的神经网络,输出一个数字,把这个数值定义为相似度。 当然深层的神经网络在最开始的时候也并不是计算的相似度,但是训练数据的目标值是相似度,在N多次的训练之后,确定了输入和输出的表示方法之后,那么最后的模型输出就是相似度了。
二 问答机器人的召回
1. 召回的流程
流程如下:
- 准备数据,问答对的数据等
- 问题转化为向量
- 计算相似度
2. 对现有问答对的准备
这里说的问答对,是带有标准答案的问题,后续命中问答对中的问题后,会返回该问题对应的答案
为了后续使用方便,可以把现有问答对处理成如下格式,可以考虑存入数据库或者本地文件:
{
"问题1":{
"主体":["主体1","主2","主体3"..],
"问题1分词后的句子":["word1","word2","word3"...],
"答案":"答案"
},
"问题2":{
...
}
}
代码如下:
def get_qa_dict():
chuanzhi_q_path = "./问答对/Q.txt"
chuanzhi_a_path = "./问答对/A.txt"
QA_dict = {}
for q,a in zip(open(chuanzhi_q_path).readlines(),open(chuanzhi_a_path).readlines()):
QA_dict[q.strip()] = {}
QA_dict[q.strip()]["ans"] = a.strip()
QA_dict[q.strip()]["entity"] = sentence_entity(q.strip())[-1]
python_duan_path = "./data/Python短问答-11月汇总.xlsx"
ret = pd.read_excel(python_duan_path)
column_list = ret.columns
assert '问题' in column_list and "答案" in column_list, "excel 中必须包含问题和答案"
for q, a in zip(ret["问题"], ret["答案"]):
q = re.sub("\s+", " ", q)
QA_dict[q.strip()] = {}
QA_dict[q.strip()]["ans"] = a
cuted,entiry = sentence_entity(q.strip())[-1]
QA_dict[q.strip()]["entity"] = entiry
QA_dict[q.strip()]["q_cuted"] = cuted
return QA_dict
QA_dict = get_qa_dict()
3. 把问题转化为向量
把问答对中的问题,和用户输出的问题,转化为向量,为后续计算相似度做准备。
这里使用tfidf对问答对中的问题进行处理,转化为向量矩阵。
TODO,使用单字,使用n-garm,使用BM25,使用word2vec等,让其结果更加准确
from sklearn.feature_extraction.text import TfidfVectorizer
from lib import QA_dict
def build_q_vectors():
"""对问题建立索引"""
lines_cuted= [q["q_cuted"] for q in QA_dict]
tfidf_vectorizer = TfidfVectorizer()
features_vec = tfidf_vectorizer.fit_transform(lines_cuted)
return tfidf_vectorizer,features_vec,lines_cuted
4. 计算相似度
思路很简单。对用户输入的问题使用tfidf_vectorizer 进行处理,然后和features_vec 中的每一个结果进行计算,获取相似度。
但是由于耗时可能会很久,所以考虑使用其他方法来实现
4.1 pysparnn 的介绍
官方地址:https://github.com/facebookresearch/pysparnn
pysparnn 是一个对sparse数据进行相似邻近搜索的python库,这个库可以用来实现:高维空间中寻找最相似的数据的。
4.2 pysparnn 的使用方法
pysparnn的使用非常简单,仅仅需要以下步骤,就能够完成从高维空间中寻找相似数据的结果
- 准备源数据和待搜索数据
- 对源数据进行向量化,把向量结果和源数据构造搜索的索引
- 对待搜索的数据向量化,传入索引,获取结果
import pysparnn.cluster_index as ci
from sklearn.feature_extraction.text import TfidfVectorizer
data = [
'hello world',
'oh hello there',
'Play it',
'Play it again Sam',
]
tv = TfidfVectorizer()
tv.fit(data)
features_vec = tv.transform(data)
cp = ci.MultiClusterIndex(features_vec, data)
search_data = [
'oh there',
'Play it again Frank'
]
search_features_vec = tv.transform(search_data)
cp.search(search_features_vec, k=1, k_clusters=2, return_distance=False)
>> [['oh hello there'], ['Play it again Sam']]
使用注意点:
- 构造索引是需要传入向量和原数据,最终的结果会返回源数据
- 传入待搜索的数据时,需要传入一下几个参数:
search_features_vec :搜索句子的向量k :最大的几个结果,k=1,返回最大的一个k_clusters :对数据分为多少类进行搜索return_distance :是否返回距离
4.3 使用pysparnn完成召回的过程
cp = ci.MultiClusterIndex(features_vec, lines_cuted)
search_vec = tfidf_vec.transform(ret)
cp_search_list = cp.search(search_vec, k=8, k_clusters=10, return_distance=True)
exist_same_entiry = False
search_lsit = []
for _temp_call_line in cp_search_list[0]:
cur_entity = QA_dict[_temp_call_line[1]]["main_entity"]
if len(set(main_entity) & set(cur_entity))>0:
exist_same_entiry = True
search_lsit.append(_temp_call_line[1])
if exist_same_entiry:
return search_lsit
else:
return [i[1] for i in cp_search_list[0]]
在这个过程中,需要注意,提前把cp,tfidf_vec 等内容提前准备好,而不应该在每次接收到用户的问题之后重新生成一遍,否则效率会很低
4.4 pysparnn 的原理介绍
参考地址:https://nlp.stanford.edu/IR-book/html/htmledition/cluster-pruning-1.html
pysparnn 使用的是一种cluster pruning(簇修剪) 的技术,即,开始的时候对数据进行聚类,后续再有限个类别中进行数据的搜索,根据计算的余弦相似度返回结果。
数据预处理过程如下:
- 随机选择
N
\sqrt{N}
N
?个样本作为leader
- 选择非leader的数据(follower),使用余弦相似度计算找到最近的leader
当获取到一个问题q的时候,查询过程:
- 计算每个leader和q的相似度,找到最相似的leader
- 然后计算问题q和leader所在簇的相似度,找到最相似的k个,作为最终的返回结果
在上述的过程中,可以设置两个大于0的数字b1和b2
- b1表示在
数据预处理 阶段,每个follower选择b1个最相似的leader,而不是选择单独一个lader,这样不同的簇是有数据交叉的; - b2表示在查询阶段,找到最相似的b2个leader,然后再计算不同的leader中下的topk的结果
前面的描述就是b1=b2=1的情况,通过增加b1和b2 的值,能够有更大的机会找到更好的结果,但是这样会需要更加大量的计算。
在pysparnn中实例化索引的过程中
即:ci.MultiClusterIndex(features, records_data, num_indexes) 中,num_indexes 能够设置b1的值,默认为2。
在搜索的过程中,cp.search(search_vec, k=8, k_clusters=10, return_distance=True,num_indexes) ,num_Indexes 可以设置b2的值,默认等于b1的值。
|