训练机器人

为什么需要训练机器人

前面说过,机器人就像小孩,经过“教育”后才能达到比较好的效果,知识库运营就是对机器人的“教育”。第一步中的知识库搭建是将知识传授给机器人,第二步的机器人训练就是对正确的知识不断地进行强化,让机器人学习不同场景下分别应该如何应答。

关键词识别和语义识别的区别

有人或许会问,为什么不采用关键词的添加方式,不需要训练就可以直接使用。
原因是关键词可以识别简单的问题,但关键词无法包含所有问法,当遇到没设置过的问法就不能识别,而且关键词也无法识别复杂的业务问题。
以下两种情况,只有语义识别的方式机器人才能准确回复:
图片
相似表达不同含义
图片
图片
相似含义不同表达


一、准备样本

样本是指与问题表达同一个语义的问法,如“机器人适用于什么平台”的样本是“网站能接入机器人?”“机器人支持微信个人号吗”。在这里,看字面意思问题和样本并不相似,但熟悉业务后就能知道问的都是同一件事,故作为样本。
所以机器人训练师对业务的理解非常重要,只有深度理解业务后才能获取高质量的样本,让机器人的效果达到最佳。
图片
图片
在提取或编写样本时,需遵循以下原则:

1、不能凭空想象

建议从聊天记录中提取样本,这样能真实还原客户的提问方式,保证机器人的效果。
如果没有聊天记录,机器人训练师可编写一部分样本,但注意要结合客户的提问习惯,尽量贴近真实场景,不能凭空想象。

2、样本保持多样性

样本要保持高质量,多样性表达,如果仅是语气词不同、句子中词语顺序变化,不需要重复添加到样本中,对机器人的训练无好处。如果样本不满足多样性,训练效果就不好。
主要分为两类:问题对应多个问法,语义对应多个问法。

问题 样本 是否满足多样性
是否有优惠 样本1:老板,能便宜点吗?
样本2:现在有没有优惠?
样本3:你这太贵了,有没有少?
样本4:亲,可以打个折吗?
电影什么时候上映? 样本1:电影上线时间定了吗?
样本2:电影上线时间定了没有? ×(与样本1很类似)
样本3:电影上映是什么时候 ×(与问题很类似)
样本4:电影的上映时间是今天吗?
3、样本和问题的描述保持一致

即样本和问题都要准确地描述同一个语义,否则机器人会识别错误。

4、样本意思明确,不能只是关键字

样本不能只是关键词,需要完整表达出一个语义。
如“快递”这个关键词无法表达任何含义,完整的语义是“发什么快递”“快递到哪儿了”这样的完整句子。

问题 样本 是否为正确样本
是否有优惠 样本1:发啥快递
样本2:快递 ×(无法确定客户是问快递到哪儿了还是发什么快递)
样本3:你们家都发哪些快递?

二、训练机器人

机器人的训练是一个正向持续循环的过程,不断给机器人正向学习,它就能衍生和泛化出更多、更广的自动回复内容。
图片
如图中所示步骤,你也来试试训练自己的机器人吧!

在训练完成后,需要对机器人的效果进行测试。建议采用客户的真实问法,同时变换不同问法进行测试。
如测试过程中发现有误则进行修改,如全部正确即可正式开始使用机器人。


以上就是训练机器人的全部内容,但要想达到最佳效果,需要不断补充新样本和删除无用样本。

图片