Product Docs

KPI 指标体系

返回作品总览

KPI 指标体系

设计目标

外卖商家做 AI 客服时,最容易犯的错误是只看「AI 回了多少句话」或「自动回复占比」。这两个数字看起来漂亮,但不等于客户问题被解决。真实客服运营关注的是客户是否少等待、商家是否少被打断、风险问题有没有被及时升级、知识库是否持续变好,以及成本是否在可接受范围内。

系统把指标体系拆成三层:北极星指标、过程健康指标、风险与成本指标。三类指标服务三类读者:

  • 店主:知道 AI 到底有没有省事、哪些问题还需要人工处理
  • 运营或客服主管:知道知识库、Prompt 和转人工规则该怎么改
  • 产品负责人:用指标判断功能优先级,而不是凭主观感觉堆功能

北极星指标:有效 AI 解决率

系统的北极星指标不是「自动回复率」,而是「有效 AI 解决率」。定义为:在不触发必须转人工规则的会话中,AI 通过知识库、订单工具或明确说明完成客户诉求,且后续 7 天窗口内没有出现同类重复追问、强负面情绪升级或人工纠错。

定义有两个关键点:第一,只统计适合 AI 自动处理的问题;第二,必须排除假解决。

正例:客户问「今天几点营业」,AI 引用知识库回答营业时间,客户没有继续追问——算有效解决。客户问「订单 MT-001 到哪了」,AI 调用订单工具给出预计送达时间——算有效解决。

反例:客户说「虾不新鲜我要赔偿」,AI 即使回复了很多安抚话,也不能算自动解决——赔偿属于人工确认边界。

参考实施店铺基线下,有效 AI 解决率目标约 72%。这个数字不是为了证明系统完美,而是表达合理目标:高频 FAQ 和订单查询可以自动化,大额退款、食品安全、严重投诉必须升级。72% 比 95% 更可信,因为它承认了客服场景里的风险边界。

五个过程健康指标

指标目标含义
首响时间< 2 秒客户消息到 AI 首字节的中位时间
知识命中率> 60%会话中 AI 找到并引用相关知识条目的比例
转人工准确率该转的转了、不该转的没过度转
重复追问率< 15%客户在 AI 回复后继续问同一问题的会话比例
单位会话成本¥0.003LLM token、数据库、缓存、服务器分摊

首响时间影响客户焦虑,尤其是午晚高峰。即使最终需要转人工,也应先有明确响应。

知识命中率低说明知识库结构、标题、同义词或检索策略有问题。命中率不能单独追求高,因为乱引用也会造成错误,要和有用率一起看。

转人工准确率是 AI 客服的安全阀指标。过低带来越权和投诉,过高让自动化价值下降。系统用 7 条规则定义转人工边界,并把质检低分样本回流到规则优化。

重复追问率能发现「看似回答了,实际没回答」的问题。AI 说「请您耐心等待」,客户继续问「到底多久」——说明订单工具调用或话术不够具体。

单位会话成本包括 LLM token、数据库、缓存和服务器分摊。成本不是越低越好,关键是在回答质量和风险边界不受损的情况下控制。

健康度指标

除了核心指标,系统还有一组日常运营健康指标:

  • 意图分布:客户主要问题是否变化。配送咨询突然升高,可能是高峰排班或骑手协同出现问题。
  • 工单创建率:售后压力。连续升高需要复盘菜品包装、出餐准确率或平台履约。
  • 满意度均值:整体体验趋势。但不能作为唯一目标,样本可能有偏。
  • LLM 质检均分:准确、共情、简洁、合规、解决度五个维度的质量变化。
  • 知识库过期条目数:提醒商家维护活动、营业时间、价格和配送规则。

健康度指标做成运营看板,而不是藏在后台日志里。店主每天只需要看三个问题:昨天 AI 帮我解决了多少问题、哪些问题需要我改知识库、哪些高风险会话需要回访。

反作弊原则

客服指标最怕被「漂亮数字」误导。自动回复率可以通过让 AI 什么都回提高,解决率可以通过错误标记提高,满意度可以因为低样本失真。系统设置六条反作弊规则:

  1. 客户主动找人工的会话不算 AI 解决
  2. 触发食品安全、退款赔付、严重投诉的会话不算 AI 解决
  3. 同一问题连续追问两次以上要降低解决判定
  4. 人工接管后纠错的会话回写失败原因
  5. 质检合规低分的会话不能进入正向样本
  6. 工具调用失败但 AI 给确定答案标记为越权风险

这些规则让指标更保守,但更可信。指标体系如果没有反作弊,就会鼓励错误行为;有了反作弊,团队才会围绕真实客户价值迭代。

数据流与归因

一次会话结束后,系统记录消息、意图、工具调用、知识引用、是否转人工、是否创建工单、满意度和成本。每日任务聚合这些数据生成看板趋势,LLM 质检对抽样会话打分并给出原因。

归因时不只看结果,还要看失败发生在哪一层:意图识别错、知识没命中、工具失败、Prompt 越权、转人工太晚,还是客户情绪没有被识别。退款咨询升高不能马上归因给 AI 表现差——可能是菜品漏装、平台配送延迟,或者知识库没写清楚退单流程。指标的价值在于帮助运营提出下一步动作,而不是给系统贴一个好坏标签。