如何评估一个智能客服系统的好坏? - 问答

评价体系中有基于人工标注的评价和基于用户反馈的评价两种方式：

基于人工标注的评价

系统的回答能力受限于知识库的丰富程度，因此并非能回答用户的所有问题，系统最佳的状态是将能回答的全部回答准确，不能回答的全部拒识，即拒绝回答。因此这里的评价指标包括有结果率、拒识率、召回率和准确率等，我们的目标是让系统的有结果率无限接近数据的真实有结果率，召回率和准确率尽量高。这里是通过标注标准评测集来计算系统的各项指标，从每日的全量数据集中抽样出一个小数据集，保证小数据集的数据分布尽量符合全量数据集，然后由标注团队对数据集做标注，标注出每个问题的实际答案，一般标注完成后还有质检的环节，以保证标注结果尽量准确，这样便生成了每日数据的标准评测集。基于该标准评测集去评价系统的好坏，并且每次做新模型迭代时都会使用标准评测集去评价新模型，只有新模型的效果好了才允许上线。
基于用户反馈的评价

人工评价能够评价智能客服系统的准确率，但是答案是否合理，能否为用户解决问题，需要用户去反馈评价，整个智能客服系统的最终目标是帮助用户解决问题。在产品上设计智能客服和在线客服的评价功能，例如会让用户评价智能客服的每个答案或者某次会话，在和人工客服聊天完毕会发送评价卡片给用户去评价满意度。最终统计参评比例、满意度等指标，这些指标能够真正反应智能客服系统的好坏。实际中往往用户参评比例低，这就需要使用各种方法去刺激用户评价。

2021-06-04 22:28 更新

酒量大的路灯 • 29

理工酷

首页

圈子

资源下载

邀请回答

推荐问题

推荐资源

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

邀请回答 换一组

推荐问题

推荐资源

加入组织

邀请回答