开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【深度学习】QA机器人的实现 -> 正文阅读

[人工智能]【深度学习】QA机器人的实现

一问答机器人介绍

1. 问答机器人

问答机器人是在分类之后，对特定问题进行回答的一种机器人。至于回答的问题的类型，取决于语料。

当前需要实现的问答机器人是一个回答编程语言（比如python是什么，python难么等）相关问题的机器人

2. 问答机器人的实现逻辑

主要实现逻辑：从现有的问答对中，选择出和问题最相似的问题，并且获取其相似度（一个数值），如果相似度大于阈值，则返回这个最相似的问题对应的答案

问答机器人的实现可以大致分为三步步骤：

对问题的处理
对答案进行的机器学习召回
对召回的结果进行排序

2.1 对问题的处理

对问题的处理过程中，可以考虑以下问题：

对问题进行基础的清洗，去除特殊符号等
问题主语的识别，判断问题中是否包含特定的主语，比如python等，提取出来之后，方便后续对问题进行过滤。
- 可以看出，不仅需要对用户输入的问题进行处理，获取主语，还需要对现有问答对进行处理
获取问题的词向量，可以考虑使用词频，tdidf等值，方便召回的时候使用

2.2 问题的召回

召回：可以理解为是一个海选的操作，就是从现有的问答对中选择可能相似的前K个问题。

为什么要进行召回?

主要目的是为了后续进行排序的时候，减少需要计算的数据量，比如有10万个问答对，直接通过深度学习肯定是可以获取所有的相似度，但是速度慢。

所以考虑使用机器学习的方法进行一次海选

那么，如何实现召回呢？

召回就是选择前K个最相似的问题，所以召回的实现就是想办法通过机器学习的手段计算相似度。

可以思考的方法：

使用词袋模型，获取词频矩阵，计算相似度
使用tfidf，获取tdidf的矩阵，计算相似度

上述的方法理论上都可行，只是当候选计算的词语数量太多的时候，需要逐一计算相似度，非常耗时。

所以可以考虑以下两点：

通过前面获取的主语，对问题进行过滤
使用聚类的方法，对数据先聚类，再计算某几个类别中的相似度，而不用去计算全部。

但是还有一个问题

不管是词频，还是tfidf，获取的结果肯定是没有考虑文字顺序的，效果不一定是最好的，那么此时，应该如何让最后召回的效果更好呢？

2.3 问题的排序

排序过程，使用了召回的结果作为输入，同时输出的是最相似的那一个。

整个过程使用深度学习实现。深度学习虽然训练的速度慢，但是整体效果肯定比机器学习好（机器学习受限于特征工程，数据量等因素，没有办法深入的学会不同问题之间的内在相似度），所以通过自建的模型，获取最后的相似度。

使用深度学习的模型这样一个黑匣子，在训练数据足够多的时候，能够学习到用户的各种不同输入的问题，当把目标值（相似的问题）给定的情况下，让模型自己去找到这些训练数据目标值和特征值之间相似的表示方法。

那么此时，有以下两个问题：

使用什么数据来训练模型，最后返回模型的相似度

训练数据的来源：可以考虑根据现有的问答对去手动构造，但是构造的数据不一定能够覆盖后续用户提问的全部问题。所以可以考虑通过程序去采集网站上相似的问题，比如百度知道的搜索结果。
模型该如何构建

模型可以有两个输入，输出为一个数值，两个输入的处理方法肯定是一样的。这种网络结构经常把它称作孪生神经网络。

很明显，输入的数据需要进行编码的操作，比如word embedding + LSTM/GRU/BIGRU等

两个编码之后的结果，可以进行组合，然后通过一个多层的神经网络，输出一个数字，把这个数值定义为相似度。

当然深层的神经网络在最开始的时候也并不是计算的相似度，但是训练数据的目标值是相似度，在N多次的训练之后，确定了输入和输出的表示方法之后，那么最后的模型输出就是相似度了。

二问答机器人的召回

1. 召回的流程

流程如下：

准备数据，问答对的数据等
问题转化为向量
计算相似度

2. 对现有问答对的准备

这里说的问答对，是带有标准答案的问题，后续命中问答对中的问题后，会返回该问题对应的答案

为了后续使用方便，可以把现有问答对处理成如下格式，可以考虑存入数据库或者本地文件：

{
    "问题1":{
        "主体":["主体1","主2","主体3"..],
        "问题1分词后的句子":["word1","word2","word3"...],
        "答案":"答案"
    },
    "问题2":{
        ...
    }
}

代码如下：

# lib/get_qa_dcit.py
def get_qa_dict():
    chuanzhi_q_path = "./问答对/Q.txt"
    chuanzhi_a_path = "./问答对/A.txt"
    QA_dict = {}
    for q,a in zip(open(chuanzhi_q_path).readlines(),open(chuanzhi_a_path).readlines()):
        QA_dict[q.strip()] = {}
        QA_dict[q.strip()]["ans"] = a.strip()
        QA_dict[q.strip()]["entity"] = sentence_entity(q.strip())[-1]

    #准备短问答的问题
    python_duan_path = "./data/Python短问答-11月汇总.xlsx"

    ret = pd.read_excel(python_duan_path)
    column_list = ret.columns
    assert '问题' in column_list and "答案" in column_list, "excel 中必须包含问题和答案"
    for q, a in zip(ret["问题"], ret["答案"]):
        q = re.sub("\s+", " ", q)
        QA_dict[q.strip()] = {}
        QA_dict[q.strip()]["ans"] = a
        cuted,entiry = sentence_entity(q.strip())[-1]
        QA_dict[q.strip()]["entity"] = entiry
        QA_dict[q.strip()]["q_cuted"] = cuted

    return QA_dict

QA_dict = get_qa_dict()

3. 把问题转化为向量

把问答对中的问题，和用户输出的问题，转化为向量，为后续计算相似度做准备。

这里使用tfidf对问答对中的问题进行处理，转化为向量矩阵。

TODO，使用单字，使用n-garm，使用BM25，使用word2vec等，让其结果更加准确

from sklearn.feature_extraction.text import TfidfVectorizer
from lib import QA_dict

def build_q_vectors():
    """对问题建立索引"""
    lines_cuted= [q["q_cuted"] for q in QA_dict]
    tfidf_vectorizer = TfidfVectorizer()
    features_vec = tfidf_vectorizer.fit_transform(lines_cuted)
    #返回tfidf_vectorizer，后续还需要对用户输入的问题进行同样的处理
	return tfidf_vectorizer,features_vec，lines_cuted

4. 计算相似度

思路很简单。对用户输入的问题使用tfidf_vectorizer进行处理，然后和features_vec中的每一个结果进行计算，获取相似度。

但是由于耗时可能会很久，所以考虑使用其他方法来实现

4.1 `pysparnn`的介绍

官方地址：https://github.com/facebookresearch/pysparnn

pysparnn是一个对sparse数据进行相似邻近搜索的python库，这个库可以用来实现：高维空间中寻找最相似的数据的。

4.2 `pysparnn`的使用方法

pysparnn的使用非常简单，仅仅需要以下步骤，就能够完成从高维空间中寻找相似数据的结果

准备源数据和待搜索数据
对源数据进行向量化，把向量结果和源数据构造搜索的索引
对待搜索的数据向量化，传入索引，获取结果

import pysparnn.cluster_index as ci

from sklearn.feature_extraction.text import TfidfVectorizer

#1. 原始数据
data = [
    'hello world',
    'oh hello there',
    'Play it',
    'Play it again Sam',
]  

#2. 原始数据向量化

tv = TfidfVectorizer()
tv.fit(data)

features_vec = tv.transform(data)

# 原始数据构造索引
cp = ci.MultiClusterIndex(features_vec, data)

# 待搜索的数据向量化
search_data = [
    'oh there',
    'Play it again Frank'
]

search_features_vec = tv.transform(search_data)

#3. 索引中传入带搜索数据，返回结果
cp.search(search_features_vec, k=1, k_clusters=2, return_distance=False)
>> [['oh hello there'], ['Play it again Sam']]

使用注意点：

构造索引是需要传入向量和原数据，最终的结果会返回源数据
传入待搜索的数据时，需要传入一下几个参数：
1. search_features_vec：搜索句子的向量
2. k:最大的几个结果，k=1，返回最大的一个
3. k_clusters:对数据分为多少类进行搜索
4. return_distance:是否返回距离

4.3 使用pysparnn完成召回的过程

#构造索引
cp = ci.MultiClusterIndex(features_vec, lines_cuted)

#对用户输入的句子进行向量化
search_vec = tfidf_vec.transform(ret)
#搜索获取结果，返回最大的8个数据，之后根据`main_entiry`进行过滤结果
cp_search_list = cp.search(search_vec, k=8, k_clusters=10, return_distance=True)

exist_same_entiry = False
search_lsit = []
for _temp_call_line in cp_search_list[0]:
    cur_entity = QA_dict[_temp_call_line[1]]["main_entity"]
    if len(set(main_entity) & set(cur_entity))>0:  #命名体的集合存在交集的时候返回
        exist_same_entiry  = True
        search_lsit.append(_temp_call_line[1])

if exist_same_entiry: #存在相同的主体的时候
    return search_lsit
else:
    # print(cp_search_list)
    return [i[1] for i in cp_search_list[0]]