chatterbot是一个python的第三方库,可以构建一个任何语言的问答机器人。
pip install chatterbot
pip install chatterbot-corpus
chatterbot是以搜索匹配的方式来找寻训练库中最接近的回答;
它不会进行分词,因此支持任何语言的训练;
由于它会全库扫描一遍以寻求最佳答案,训练库越多他的效率就越慢,只适合单一领域的简单应答;
训练库会保留每一次的输入和回答记录,因此可以在使用的过程中进行学习。
ChatterBot包含一些工具,可以帮助简化训练聊天机器人实例的过程。
ChatterBot的训练过程包括将示例对话框加载到聊天机器人的数据库中。
这将创建或构建表示已知语句和响应集的图形数据结构。
当向聊天机器人训练器提供数据集时,它将在聊天机器人的知识图中创建必要的条目,以便正确表示语句输入和响应。
通过列表数据进行训练
from chatbot import chatbot
from chatterbot.trainers import ListTrainer
chatbot = ChatBot('Training Example')
trainer = ListTrainer(chatbot)
trainer.train([
"Hi there!",
"Hello",
])
trainer.train([
"Greetings!",
"Hello",
])
通过语料库进行训练
from chatbot import chatbot
from chatterbot.trainers import ChatterBotCorpusTrainer
chatbot = ChatBot('Training Example')
trainer = ChatterBotCorpusTrainer(chatbot)
trainer.train(
"chatterbot.corpus.english"
)
通过文件进行训练
from chatbot import chatbot
from chatterbot.trainers import ChatterBotCorpusTrainer
chatbot = ChatBot('Training Example')
trainer = ChatterBotCorpusTrainer(chatbot)
trainer.train(
"./data/greetings_corpus/custom.corpus.json",
"./data/my_corpus/"
)
删除任何连续的空白字符。
chatterbot.preprocessors.clean_whitespace(statement)
去除html标签
chatterbot.preprocessors.unescape_html(statement)
将unicode字符转换为的ASCII
chatterbot.preprocessors.convert_to_ascii(statement)
Best Match Adapter--最佳匹配适配器:
最佳匹配适配器使用一个函数来将输入语句与已知语句进行比较。一旦找到与输入语句最接近的匹配,它就使用另一个函数来选择对该语句的已知响应之一。
chatbot = ChatBot(
"My ChatterBot",
logic_adapters=[
{
"import_path": "chatterbot.logic.BestMatch",
"statement_comparison_function": chatterbot.comparisons.levenshtein_distance,
"response_selection_method": chatterbot.response_selection.get_first_response
}
]
)
Time Logic Adapter--时间逻辑适配器:
没啥用,就只能返回当前时间
User: What time is it?
Bot: The current time is 4:45PM.
Mathematical Evaluation Adapter--数学评价适配器:
解析输入,以确定用户是否在提出需要进行数学运算的问题。如果是,则从输入中提取方程并返回计算结果。简单来说,就是实现计算器的功能。
User: What is four plus four?
Bot: (4 + 4) = 8
Specific Response Adapter--特定响应适配器:
如果聊天机器人接收到的输入与为该适配器指定的输入文本匹配,则将返回指定的响应。
from chatterbot import ChatBot
# Create a new instance of a ChatBot
bot = ChatBot(
'Exact Response Example Bot',
storage_adapter='chatterbot.storage.SQLStorageAdapter',
logic_adapters=[
{
'import_path': 'chatterbot.logic.BestMatch'
},
{
'import_path': 'chatterbot.logic.SpecificResponseAdapter',
'input_text': 'Help me!',
'output_text': 'Ok, here is a link: http://chatterbot.rtfd.org'
}
]
)
# Get a response given the specific input
response = bot.get_response('Help me!')
print(response)
SQL Storage Adapter--SQL存储适配器:
支持的任何数据库中存储会话数据。
所有参数都是可选的,默认使用sqlite数据库。
它将检查是否有表,如果没有,它将尝试创建所需的表。
from chatterbot import ChatBot
# Uncomment the following lines to enable verbose logging
# import logging
# logging.basicConfig(level=logging.INFO)
# Create a new instance of a ChatBot
bot = ChatBot(
'SQLMemoryTerminal',
storage_adapter='chatterbot.storage.SQLStorageAdapter',
database_uri=None,
logic_adapters=[
'chatterbot.logic.MathematicalEvaluation',
'chatterbot.logic.TimeLogicAdapter',
'chatterbot.logic.BestMatch'
]
)
# Get a few responses from the bot
bot.get_response('What time is it?')
bot.get_response('What is 7 plus 7?')
MongoDB Storage Adapter--MongoDB存储适配器:
允许ChatterBot在MongoDB数据库中存储语句的接口。
from chatterbot import ChatBot
# Uncomment the following lines to enable verbose logging
# import logging
# logging.basicConfig(level=logging.INFO)
# Create a new ChatBot instance
bot = ChatBot(
'Terminal',
storage_adapter='chatterbot.storage.MongoDatabaseAdapter',
logic_adapters=[
'chatterbot.logic.BestMatch'
],
database_uri='mongodb://localhost:27017/chatterbot-database'
)
print('Type something to begin...')
while True:
try:
user_input = input()
bot_response = bot.get_response(user_input)
print(bot_response)
# Press ctrl-c or ctrl-d on the keyboard to exit
except (KeyboardInterrupt, EOFError, SystemExit):
break
过滤器是创建可以传递到ChatterBot的存储适配器的查询的有效方法。过滤器将减少聊天机器人在选择响应时必须处理的语句数量。
chatbot = ChatBot(
"My ChatterBot",
filters=[filters.get_recent_repeated_responses]
)
read_only=True:禁用学习它收到的每个新输入语句,默认会自动学习。
get_default_response():当逻辑适配器无法生成任何其他有意义的响应时,将调用此方法。
maximum_similarity_threshold:可以设置最大置信度,达到该置信度将不再匹配其他内容,默认0.95