聊天机器人——chatBot知识框架

Generative-Based:IT语料库加电影对白语料库,通过简单的案例,把IT所有知识,强AI形式,目前还没有被攻克,不错的paper:ACL会议,主题是使用了一堆词条,假设可以涵盖了社会的方方面面的知识,维基百科,词条的形式进行分析,你问题都以维基百科的知识回答;

Retrieval-Based:闭合的场景,所有的问题基本都能想得到,Rules-Based,工业界很感兴趣,加入知识图谱中的动作,机制还是Rules-Based.


二、机器人永远回答是或否

short-yes or no

long-回溯到很久前聊到的话题;能否阐述足够长的回复解决问题。

两个机器人本来是想互相学习:通过强化学习,互相对话,互相学习,结果两个机器人之间是问题都是封闭的。

不管是端对端,ML会倾向学习正确率较高,错误率较低的点回复。the在文章中出现的概率较高,这样出错的概率较小;

三、

1、语境问题的处理:

语言语境:这句话在说什么内容?(涉及到对语言的embed,比如word vector)

物理语境:这句话在哪里说的?(涉及到物理环境,比如在哪里,现在几点

推荐paper:

Building End-To-End Dialogue SystemsUsing Generative Hierarchical Neural Network Models(Lulian etal., 2015)https://arxiv.org/abs/1507.04808

Attention with Intention for a NeuralNetwork Conversation Model 

(Yao, 2015) https://arxiv.org/abs/1510.08565

2、统一的语言个性

御姐就是御姐,不能是小萝莉

相关paper

A Persona-Based Neural Conversation Model(Li et al., 2016) https://arxiv.org/abs/1603.06155

只把符合这个人设的回复回复出来

3、模型验证

a、对模型的判断需要人类智慧判断;

b、不存在完美主义方案:完成task与否

相关paper

How NOT To Evaluate Your Dialogue System:An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation(Liu,2016)https://arxiv.org/abs/1603.08023

4、多样性问题

打分,配合准确性回答,左边是多样性分数,右边是准确性分数,得出混合性分数;集多样性又准确性回答;

总而言之,先通过自己学习,再通过用户的强化升级学习,online-training,知道主人睡觉的时候,要把灯关掉。

5、工业上的一些坑

查找——发现:建立知识图谱库;10条网页结果中提取出能够回答你的话,不需要把知识图谱都表达出来,我通过搜索,把百度的小短炒回复给你。

基于知识库——基于检索;基于规则——基于数据;基于APP——基于硬件

从数据中发现规则,不是从规则中发现规则。

现在想作为一个硬件单独存在,这是一种潮流,其实是两个方向的探索,产生小冰很有趣,但是对人有意义的是会产生意义的。只要靠近火车站,会自动回复,视图建立一个生态,通过自动化,是现在主流的方向。

下一节用代码实现最简单的聊天机器人。

你可能感兴趣的:(深度学习,机器学习,大数据云计算)