KPI 指标体系

设计目标

外卖商家做 AI 客服时，最容易犯的错误是只看「AI 回了多少句话」或「自动回复占比」。这两个数字看起来漂亮，但不等于客户问题被解决。真实客服运营关注的是客户是否少等待、商家是否少被打断、风险问题有没有被及时升级、知识库是否持续变好，以及成本是否在可接受范围内。

系统把指标体系拆成三层：北极星指标、过程健康指标、风险与成本指标。三类指标服务三类读者：

店主：知道 AI 到底有没有省事、哪些问题还需要人工处理
运营或客服主管：知道知识库、Prompt 和转人工规则该怎么改
产品负责人：用指标判断功能优先级，而不是凭主观感觉堆功能

北极星指标：有效 AI 解决率

系统的北极星指标不是「自动回复率」，而是「有效 AI 解决率」。定义为：在不触发必须转人工规则的会话中，AI 通过知识库、订单工具或明确说明完成客户诉求，且后续 7 天窗口内没有出现同类重复追问、强负面情绪升级或人工纠错。

定义有两个关键点：第一，只统计适合 AI 自动处理的问题；第二，必须排除假解决。

正例：客户问「今天几点营业」，AI 引用知识库回答营业时间，客户没有继续追问——算有效解决。客户问「订单 MT-001 到哪了」，AI 调用订单工具给出预计送达时间——算有效解决。

反例：客户说「虾不新鲜我要赔偿」，AI 即使回复了很多安抚话，也不能算自动解决——赔偿属于人工确认边界。

参考实施店铺基线下，有效 AI 解决率目标约 72%。这个数字不是为了证明系统完美，而是表达合理目标：高频 FAQ 和订单查询可以自动化，大额退款、食品安全、严重投诉必须升级。72% 比 95% 更可信，因为它承认了客服场景里的风险边界。

五个过程健康指标

指标	目标	含义
首响时间	< 2 秒	客户消息到 AI 首字节的中位时间
知识命中率	> 60%	会话中 AI 找到并引用相关知识条目的比例
转人工准确率	—	该转的转了、不该转的没过度转
重复追问率	< 15%	客户在 AI 回复后继续问同一问题的会话比例
单位会话成本	¥0.003	LLM token、数据库、缓存、服务器分摊

首响时间影响客户焦虑，尤其是午晚高峰。即使最终需要转人工，也应先有明确响应。

知识命中率低说明知识库结构、标题、同义词或检索策略有问题。命中率不能单独追求高，因为乱引用也会造成错误，要和有用率一起看。

转人工准确率是 AI 客服的安全阀指标。过低带来越权和投诉，过高让自动化价值下降。系统用 7 条规则定义转人工边界，并把质检低分样本回流到规则优化。

重复追问率能发现「看似回答了，实际没回答」的问题。AI 说「请您耐心等待」，客户继续问「到底多久」——说明订单工具调用或话术不够具体。

单位会话成本包括 LLM token、数据库、缓存和服务器分摊。成本不是越低越好，关键是在回答质量和风险边界不受损的情况下控制。

健康度指标

除了核心指标，系统还有一组日常运营健康指标：

意图分布：客户主要问题是否变化。配送咨询突然升高，可能是高峰排班或骑手协同出现问题。
工单创建率：售后压力。连续升高需要复盘菜品包装、出餐准确率或平台履约。
满意度均值：整体体验趋势。但不能作为唯一目标，样本可能有偏。
LLM 质检均分：准确、共情、简洁、合规、解决度五个维度的质量变化。
知识库过期条目数：提醒商家维护活动、营业时间、价格和配送规则。

健康度指标做成运营看板，而不是藏在后台日志里。店主每天只需要看三个问题：昨天 AI 帮我解决了多少问题、哪些问题需要我改知识库、哪些高风险会话需要回访。

反作弊原则

客服指标最怕被「漂亮数字」误导。自动回复率可以通过让 AI 什么都回提高，解决率可以通过错误标记提高，满意度可以因为低样本失真。系统设置六条反作弊规则：

客户主动找人工的会话不算 AI 解决
触发食品安全、退款赔付、严重投诉的会话不算 AI 解决
同一问题连续追问两次以上要降低解决判定
人工接管后纠错的会话回写失败原因
质检合规低分的会话不能进入正向样本
工具调用失败但 AI 给确定答案标记为越权风险

这些规则让指标更保守，但更可信。指标体系如果没有反作弊，就会鼓励错误行为；有了反作弊，团队才会围绕真实客户价值迭代。

数据流与归因

一次会话结束后，系统记录消息、意图、工具调用、知识引用、是否转人工、是否创建工单、满意度和成本。每日任务聚合这些数据生成看板趋势，LLM 质检对抽样会话打分并给出原因。

归因时不只看结果，还要看失败发生在哪一层：意图识别错、知识没命中、工具失败、Prompt 越权、转人工太晚，还是客户情绪没有被识别。退款咨询升高不能马上归因给 AI 表现差——可能是菜品漏装、平台配送延迟，或者知识库没写清楚退单流程。指标的价值在于帮助运营提出下一步动作，而不是给系统贴一个好坏标签。