[人工智能] ChatterBot+第三方中文语料库实现在线聊天机器人

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> ChatterBot+第三方中文语料库实现在线聊天机器人 -> 正文阅读

[人工智能]ChatterBot+第三方中文语料库实现在线聊天机器人

设计并实现一个在线聊天机器人案例

1、ChatterBot

ChatterBot是Python自带的基于机器学习的语音对话引擎，可以基于已知的对话库来产生回应。ChatterBot独特的语言设计可以使它可以通过训练来用任何一种语言进行对话。该项目的开源代码链接：https://github.com/gunthercox/ChatterBot

2、应用案例描述

ChatterBot包含的工具有助于简化训练聊天机器人实例的过程。ChatterBot的训练过程涉及将示例对话框加载到聊天机器人的数据库中。这可以创建或构建代表已知语句和响应集的图数据结构。当一个聊天机器人训练师被提供一个数据集时，它会在聊天机器人的知识图中创建必要的条目，以便正确表示语句输入和响应。

2.1 通过列表数据进行训练

chatterbot.trainers.ListTrainer(storage, **kwargs)

允许使用对话字符串列表来训练ChatBot。

对于训练过程，需要传递一个语句列表，其中每个语句的顺序基于其在给定对话中的位置。

例如，如果你使用如下语言进行训练，则当你输入Hi there!或者Greetings!的时候机器人会回复你Hello。

from chatterbot import ChatBot
from chatterbot.trainers import ListTrainer

chatterbot = ChatBot("Training Example")
chatterbot.set_trainer(ListTrainer)

chatterbot.train([
    "Hi there!",
    "Hello",
])

chatterbot.train([
    "Greetings!",
    "Hello",
])

还可以提供更长的训练对话清单。这将在列表中建立每个项目作为响应。

chatterbot.train([
    "How are you?",
    "I am good.",
    "That is good to hear.",
    "Thank you",
    "You are welcome.",
])

3、使用第三方中文语料库进行训练

大佬整理的语料库地址：https://github.com/codemayq/chinese_chatbot_corpuszheng

在这里插入图片描述

chatterbot自带的语料库可以通过以下代码来实现，不需要额外下载：

from chatterbot.trainers import ChatterBotCorpusTrainer

chatterbot = ChatBot("Training Example")
chatterbot.set_trainer(ChatterBotCorpusTrainer)

chatterbot.train(
    "chatterbot.corpus.english"
)

我选择了语料数量较少的xiaohuangji语料库：https://github.com/candlewill/Dialog_Corpus

首先下载未分词的语料库

在这里插入图片描述

下载解压后将后缀改为.txt

在这里插入图片描述

打开后是这样的：

在这里插入图片描述

接下来就是把txt文件按行读取并存入列表中，注意要跳过’E’那一行，并且把每句话开头的’M\n’去掉

具体代码为：

#导入语料库
file = open("./corpus/xiaohuangji50w_nofenci.txt",'r',encoding='utf-8')
corpus = []
print('开始加载语料！')
while 1:
    try:
        line = file.readline()
        if not line:
         break
        if line == 'E\n':
            continue
        corpus.append(line.split('M ')[1].strip('\n'))
    except:
        pass
file.close()
print('语料加载完毕')

处理后效果：

在这里插入图片描述

如果出现下面的报错，在将line.split('M ')[1].strip('\n')存入corpus列表前print(line.split('M ')[1].strip('\n'))就好了

在这里插入图片描述

4、应用案例实现

4.1 开始训练

我们取前10000条语料进行训练my_bot.train(corpus[:10000])

my_bot = ChatBot("xiaohuangji")
my_bot.set_trainer(ListTrainer)
print('开始训练！')
my_bot.train(corpus[:10000])
print('训练完毕！')
while True:
    print(my_bot.get_response(input("user:")))