训练机器人

为什么需要训练机器人

前面说过，机器人就像小孩，经过“教育”后才能达到比较好的效果，知识库运营就是对机器人的“教育”。第一步中的知识库搭建是将知识传授给机器人，第二步的机器人训练就是对正确的知识不断地进行强化，让机器人学习不同场景下分别应该如何应答。

关键词识别和语义识别的区别

有人或许会问，为什么不采用关键词的添加方式，不需要训练就可以直接使用。
原因是关键词可以识别简单的问题，但关键词无法包含所有问法，当遇到没设置过的问法就不能识别，而且关键词也无法识别复杂的业务问题。
以下两种情况，只有语义识别的方式机器人才能准确回复：

相似表达不同含义

相似含义不同表达

一、准备样本

样本是指与问题表达同一个语义的问法，如“机器人适用于什么平台”的样本是“网站能接入机器人？”“机器人支持微信个人号吗”。在这里，看字面意思问题和样本并不相似，但熟悉业务后就能知道问的都是同一件事，故作为样本。
所以机器人训练师对业务的理解非常重要，只有深度理解业务后才能获取高质量的样本，让机器人的效果达到最佳。

在提取或编写样本时，需遵循以下原则：

1、不能凭空想象

建议从聊天记录中提取样本，这样能真实还原客户的提问方式，保证机器人的效果。
如果没有聊天记录，机器人训练师可编写一部分样本，但注意要结合客户的提问习惯，尽量贴近真实场景，不能凭空想象。

2、样本保持多样性

样本要保持高质量，多样性表达，如果仅是语气词不同、句子中词语顺序变化，不需要重复添加到样本中，对机器人的训练无好处。如果样本不满足多样性，训练效果就不好。
主要分为两类：问题对应多个问法，语义对应多个问法。

问题	样本	是否满足多样性
是否有优惠	样本1：老板，能便宜点吗？	√
	样本2：现在有没有优惠？	√
	样本3：你这太贵了，有没有少？	√
	样本4：亲，可以打个折吗？	√
电影什么时候上映？	样本1：电影上线时间定了吗？	√
	样本2：电影上线时间定了没有？	×（与样本1很类似）
	样本3：电影上映是什么时候	×（与问题很类似）
	样本4：电影的上映时间是今天吗？	√

3、样本和问题的描述保持一致

即样本和问题都要准确地描述同一个语义，否则机器人会识别错误。

4、样本意思明确，不能只是关键字

样本不能只是关键词，需要完整表达出一个语义。
如“快递”这个关键词无法表达任何含义，完整的语义是“发什么快递”“快递到哪儿了”这样的完整句子。

问题	样本	是否为正确样本
是否有优惠	样本1：发啥快递	√
	样本2：快递	×（无法确定客户是问快递到哪儿了还是发什么快递）
	样本3：你们家都发哪些快递？	√

二、训练机器人

机器人的训练是一个正向持续循环的过程，不断给机器人正向学习，它就能衍生和泛化出更多、更广的自动回复内容。

如图中所示步骤，你也来试试训练自己的机器人吧！

在训练完成后，需要对机器人的效果进行测试。建议采用客户的真实问法，同时变换不同问法进行测试。
如测试过程中发现有误则进行修改，如全部正确即可正式开始使用机器人。