KPI 指标体系
设计目标
外卖商家做 AI 客服时,最容易犯的错误是只看「AI 回了多少句话」或「自动回复占比」。这两个数字看起来漂亮,但不等于客户问题被解决。真实客服运营关注的是客户是否少等待、商家是否少被打断、风险问题有没有被及时升级、知识库是否持续变好,以及成本是否在可接受范围内。
系统把指标体系拆成三层:北极星指标、过程健康指标、风险与成本指标。三类指标服务三类读者:
- 店主:知道 AI 到底有没有省事、哪些问题还需要人工处理
- 运营或客服主管:知道知识库、Prompt 和转人工规则该怎么改
- 产品负责人:用指标判断功能优先级,而不是凭主观感觉堆功能
北极星指标:有效 AI 解决率
系统的北极星指标不是「自动回复率」,而是「有效 AI 解决率」。定义为:在不触发必须转人工规则的会话中,AI 通过知识库、订单工具或明确说明完成客户诉求,且后续 7 天窗口内没有出现同类重复追问、强负面情绪升级或人工纠错。
定义有两个关键点:第一,只统计适合 AI 自动处理的问题;第二,必须排除假解决。
正例:客户问「今天几点营业」,AI 引用知识库回答营业时间,客户没有继续追问——算有效解决。客户问「订单 MT-001 到哪了」,AI 调用订单工具给出预计送达时间——算有效解决。
反例:客户说「虾不新鲜我要赔偿」,AI 即使回复了很多安抚话,也不能算自动解决——赔偿属于人工确认边界。
参考实施店铺基线下,有效 AI 解决率目标约 72%。这个数字不是为了证明系统完美,而是表达合理目标:高频 FAQ 和订单查询可以自动化,大额退款、食品安全、严重投诉必须升级。72% 比 95% 更可信,因为它承认了客服场景里的风险边界。
五个过程健康指标
| 指标 | 目标 | 含义 |
|---|---|---|
| 首响时间 | < 2 秒 | 客户消息到 AI 首字节的中位时间 |
| 知识命中率 | > 60% | 会话中 AI 找到并引用相关知识条目的比例 |
| 转人工准确率 | — | 该转的转了、不该转的没过度转 |
| 重复追问率 | < 15% | 客户在 AI 回复后继续问同一问题的会话比例 |
| 单位会话成本 | ¥0.003 | LLM token、数据库、缓存、服务器分摊 |
首响时间影响客户焦虑,尤其是午晚高峰。即使最终需要转人工,也应先有明确响应。
知识命中率低说明知识库结构、标题、同义词或检索策略有问题。命中率不能单独追求高,因为乱引用也会造成错误,要和有用率一起看。
转人工准确率是 AI 客服的安全阀指标。过低带来越权和投诉,过高让自动化价值下降。系统用 7 条规则定义转人工边界,并把质检低分样本回流到规则优化。
重复追问率能发现「看似回答了,实际没回答」的问题。AI 说「请您耐心等待」,客户继续问「到底多久」——说明订单工具调用或话术不够具体。
单位会话成本包括 LLM token、数据库、缓存和服务器分摊。成本不是越低越好,关键是在回答质量和风险边界不受损的情况下控制。
健康度指标
除了核心指标,系统还有一组日常运营健康指标:
- 意图分布:客户主要问题是否变化。配送咨询突然升高,可能是高峰排班或骑手协同出现问题。
- 工单创建率:售后压力。连续升高需要复盘菜品包装、出餐准确率或平台履约。
- 满意度均值:整体体验趋势。但不能作为唯一目标,样本可能有偏。
- LLM 质检均分:准确、共情、简洁、合规、解决度五个维度的质量变化。
- 知识库过期条目数:提醒商家维护活动、营业时间、价格和配送规则。
健康度指标做成运营看板,而不是藏在后台日志里。店主每天只需要看三个问题:昨天 AI 帮我解决了多少问题、哪些问题需要我改知识库、哪些高风险会话需要回访。
反作弊原则
客服指标最怕被「漂亮数字」误导。自动回复率可以通过让 AI 什么都回提高,解决率可以通过错误标记提高,满意度可以因为低样本失真。系统设置六条反作弊规则:
- 客户主动找人工的会话不算 AI 解决
- 触发食品安全、退款赔付、严重投诉的会话不算 AI 解决
- 同一问题连续追问两次以上要降低解决判定
- 人工接管后纠错的会话回写失败原因
- 质检合规低分的会话不能进入正向样本
- 工具调用失败但 AI 给确定答案标记为越权风险
这些规则让指标更保守,但更可信。指标体系如果没有反作弊,就会鼓励错误行为;有了反作弊,团队才会围绕真实客户价值迭代。
数据流与归因
一次会话结束后,系统记录消息、意图、工具调用、知识引用、是否转人工、是否创建工单、满意度和成本。每日任务聚合这些数据生成看板趋势,LLM 质检对抽样会话打分并给出原因。
归因时不只看结果,还要看失败发生在哪一层:意图识别错、知识没命中、工具失败、Prompt 越权、转人工太晚,还是客户情绪没有被识别。退款咨询升高不能马上归因给 AI 表现差——可能是菜品漏装、平台配送延迟,或者知识库没写清楚退单流程。指标的价值在于帮助运营提出下一步动作,而不是给系统贴一个好坏标签。