前面说过,机器人就像小孩,经过“教育”后才能达到比较好的效果,知识库运营就是对机器人的“教育”。第一步中的知识库搭建是将知识传授给机器人,第二步的机器人训练就是对正确的知识不断地进行强化,让机器人学习不同场景下分别应该如何应答。
有人或许会问,为什么不采用关键词的添加方式,不需要训练就可以直接使用。
原因是关键词可以识别简单的问题,但关键词无法包含所有问法,当遇到没设置过的问法就不能识别,而且关键词也无法识别复杂的业务问题。
以下两种情况,只有语义识别的方式机器人才能准确回复:
相似表达不同含义
相似含义不同表达
样本是指与问题表达同一个语义的问法,如“机器人适用于什么平台”的样本是“网站能接入机器人?”“机器人支持微信个人号吗”。在这里,看字面意思问题和样本并不相似,但熟悉业务后就能知道问的都是同一件事,故作为样本。
所以机器人训练师对业务的理解非常重要,只有深度理解业务后才能获取高质量的样本,让机器人的效果达到最佳。
在提取或编写样本时,需遵循以下原则:
建议从聊天记录中提取样本,这样能真实还原客户的提问方式,保证机器人的效果。
如果没有聊天记录,机器人训练师可编写一部分样本,但注意要结合客户的提问习惯,尽量贴近真实场景,不能凭空想象。
样本要保持高质量,多样性表达,如果仅是语气词不同、句子中词语顺序变化,不需要重复添加到样本中,对机器人的训练无好处。如果样本不满足多样性,训练效果就不好。
主要分为两类:问题对应多个问法,语义对应多个问法。
问题 | 样本 | 是否满足多样性 |
---|---|---|
是否有优惠 | 样本1:老板,能便宜点吗? | √ |
样本2:现在有没有优惠? | √ | |
样本3:你这太贵了,有没有少? | √ | |
样本4:亲,可以打个折吗? | √ | |
电影什么时候上映? | 样本1:电影上线时间定了吗? | √ |
样本2:电影上线时间定了没有? | ×(与样本1很类似) | |
样本3:电影上映是什么时候 | ×(与问题很类似) | |
样本4:电影的上映时间是今天吗? | √ |
即样本和问题都要准确地描述同一个语义,否则机器人会识别错误。
样本不能只是关键词,需要完整表达出一个语义。
如“快递”这个关键词无法表达任何含义,完整的语义是“发什么快递”“快递到哪儿了”这样的完整句子。
问题 | 样本 | 是否为正确样本 |
---|---|---|
是否有优惠 | 样本1:发啥快递 | √ |
样本2:快递 | ×(无法确定客户是问快递到哪儿了还是发什么快递) | |
样本3:你们家都发哪些快递? | √ |
机器人的训练是一个正向持续循环的过程,不断给机器人正向学习,它就能衍生和泛化出更多、更广的自动回复内容。
如图中所示步骤,你也来试试训练自己的机器人吧!
在训练完成后,需要对机器人的效果进行测试。建议采用客户的真实问法,同时变换不同问法进行测试。
如测试过程中发现有误则进行修改,如全部正确即可正式开始使用机器人。