30 天运营复盘
复盘口径
本复盘以「源家捞汁小海鲜」作为参考实施店铺,基于系统内置的 30 天演示数据和商家基线场景,模拟一次可向面试官讲清楚的数据复盘。它不是对真实外卖平台流水的披露,而是一个可重复检查的产品样例:指标口径、工单类别、知识库变化和 Prompt 调整都与系统设计保持一致。复盘关注四个核心问题:
- AI 解决了哪些问题 —— 哪些场景自动化效果最好
- 哪些问题仍需人工 —— 哪些场景必须保留人工边界
- 知识库如何变化 —— 哪些条目被新增、改写、归档
- 下一轮优化什么 —— 数据指向的改进优先级
数据来源覆盖:会话日志、工单记录、知识库命中统计、满意度评分、LLM 自动质检结果。所有数据基于参考实施店铺的基线场景设计。
30 天数据概览
| 指标 | 30 天累计 | 周环比 |
|---|---|---|
| 总会话量 | 1,486 | +12% |
| 有效 AI 解决率 | 71.2% | 72% → 70% → 71% → 72% |
| 转人工次数 | 428 | -8% |
| 工单创建数 | 187 | -5% |
| 平均首响时延 | 1.8s | -0.2s |
| 单会话成本 | ¥0.0031 | 持平 |
| 客户满意度 | 4.4 / 5 | +0.1 |
整体趋势是会话量增长、转人工与工单下降、满意度稳步提升。这组数据印证了系统的核心价值:让 AI 承担高频咨询,让人工专注高价值售后。
自动化效果最好的场景
按 30 天累计数据,AI 自动化效果(解决率 + 满意度 + 重复追问率)最好的五类场景:
| 场景 | 占比 | 有效解决率 | 备注 |
|---|---|---|---|
| 营业时间咨询 | 14% | 96% | 知识库命中清晰,无需工具 |
| 招牌菜推荐 | 12% | 88% | 模型可结合 RAG + 套餐建议 |
| 订单状态查询 | 18% | 84% | 工具调用回填结构化数据 |
| 配送范围咨询 | 7% | 91% | 知识条目固定 |
| 活动优惠咨询 | 9% | 79% | 部分需要补同义词 |
这些场景的共同特征是:事实明确、规则稳定、不涉及金额或健康风险。系统在这些场景下能稳定承担"客服第一线"角色。
仍需人工的场景
下面五类场景在 30 天内全部由人工处理或经 AI 收集信息后转人工,AI 没有越权解决:
| 场景 | 占比 | 转人工率 | 备注 |
|---|---|---|---|
| 退款金额争议 | 5% | 100% | 严格遵守"不承诺金额" |
| 食品质量投诉 | 4% | 100% | 包括变质、异味 |
| 海鲜过敏咨询 | 1.5% | 100% | 规则 #6 强制触发 |
| 漏餐 / 错餐 | 6% | 95% | AI 收集信息后转 |
| 配送严重延误(> 1.5 小时) | 2% | 88% | 高峰夜宵集中 |
转人工率 = 100% 不是失败,而是设计预期。这些场景如果由 AI 自动处理,反而会带来法律和声誉风险。
知识库变化
30 天内知识库总条目从 32 条增长到 51 条(+19)。新增分布:
| 类别 | 新增数 | 主要来源 |
|---|---|---|
| 配送高峰解释 | 5 | fallback 高频 query |
| 海鲜保存说明 | 3 | 工单复盘提炼 |
| 退款流程标准话术 | 4 | 客服真实回复抽取 |
| 常见套餐推荐组合 | 4 | 客户咨询主动建议 |
| 节假日营业 | 2 | 商家手动新增 |
| 杂项 | 1 | 单次活动 |
改写次数:12 条(含同义词补充 7 条、内容缩短 3 条、边界声明补充 2 条)。 归档次数:3 条(过期活动 2 条、被新版替代 1 条)。
变化最大的是配送高峰解释——客户在 21-23 点频繁问"为什么我的订单还没到",原本无对应知识条目,现在拆成 5 条不同问法的知识,命中率从 0 提升到 81%。
Prompt 迭代轨迹
30 天内 Prompt 经历了 2 次小迭代(不算大版本切换):
| 时间 | 改动 | 数据效果 |
|---|---|---|
| 第 8 天 | 缩短订单查询回复模板(从 80 字到 50 字) | dim_concise 从 4.1 → 4.4 |
| 第 19 天 | 强化过敏问题优先级(关键词命中即刻转人工) | 过敏类自动转人工率从 87% → 100% |
两次迭代都没有大改 Prompt 结构,而是精确修补具体边界。这种"小步快跑"的迭代节奏比"每月大改"更可控、可回滚。
工单复盘的运营洞察
工单不只是处理客户问题,也是经营改进的信号源。30 天工单类别分布暴露的运营问题:
| 类别 | 工单数 | 暴露的运营问题 |
|---|---|---|
| 漏餐 | 38 | 包装清单不够清楚,建议改用核对列表 |
| 错餐 | 22 | 同名菜品(皮皮虾蒜蓉/酸辣)易混淆 |
| 汤汁洒漏 | 18 | 海鲜外卖容器密封性需要升级 |
| 配送延迟 | 31 | 21-23 点夜宵高峰集中,建议联系平台 |
| 食品质量 | 14 | 死蛤投诉占多数,建议改进供应商验收 |
| 服务态度 | 8 | 多为骑手相关,非店铺直接责任 |
| 其他 | 12 | 杂项 |
这些信号经商家后台「自动洞察」每周汇总(参见 06-data/03-dashboard-design),变成可执行的运营建议。例如:
💡 本周 Top 工单是"漏餐"(12 单,占 36%),主要发生在 19-21 点。 建议:晚餐高峰增加出餐核对环节,或在打包袋上贴菜单清单。
客户满意度归因
30 天满意度均分 4.4,分布:
| 评分 | 占比 | 主要场景 |
|---|---|---|
| 5 分 | 58% | 订单查询 + 招牌菜推荐 |
| 4 分 | 26% | FAQ 类咨询 |
| 3 分 | 11% | 转人工等待较长 |
| 2 分 | 4% | 食品质量投诉处理慢 |
| 1 分 | 1% | 极少数严重投诉 |
低分(≤2)会话全部进入 LLM 质检(参见 06-data/04-quality-eval)。30 天复盘发现:
- 低分会话的 AI 处理本身没有重大问题(dim_accuracy 平均 4.0)
- 主要问题是人工接管响应慢(平均接管时长 18 分钟,高于目标的 5 分钟)
- 改进方向应该是通知机制和客服排班,不是 AI 调优
LLM 质检 5 维度结果
30 天质检均分(采样 1,200 会话):
| 维度 | 均分 | 趋势 |
|---|---|---|
| dim_accuracy(准确性) | 4.3 | 稳定 |
| dim_empathy(共情度) | 4.1 | +0.2 |
| dim_concise(简洁度) | 4.4 | +0.3 |
| dim_compliance(合规性) | 4.6 | 稳定 |
| dim_resolution(解决度) | 3.9 | +0.1 |
dim_resolution 最低(3.9),主要原因是部分会话 AI 给出回答但客户继续追问。这个维度的改进方向是优化知识库 chunking + Prompt 引用约束,让 AI 一次性给出完整信息。
30 天的 5 个关键发现
- AI 客服的价值不只是减少回复工作量,还能暴露经营问题——客户频繁问配送时间,说明高峰预期管理不足
- 70% 的稳定解决率比 95% 的虚高数字更可信——后者一定隐藏了越权或假解决
- 小步快跑的 Prompt 迭代比大改版本更安全——两次小迭代效果都立即可见
- 工单分布是运营改进的核心信号——漏餐、错餐、洒漏这些非 AI 能解决的问题,恰恰是商家最该看的
- 人工接管响应速度是满意度瓶颈——AI 已经做到该做的,下一步是优化客服环节
下一阶段优化方向
按数据指向的优先级:
| 优先级 | 方向 | 预期影响 |
|---|---|---|
| P0 | 客服接管通知机制(声音、震动、Push) | 平均接管时长 18 分 → 5 分 |
| P1 | 知识库 chunking 优化 | dim_resolution 3.9 → 4.2 |
| P1 | "高峰配送预期"主动召回 | 配送类 fallback -50% |
| P2 | 包装核对清单 SOP | 漏餐工单 -30% |
| P3 | 多店模板化 | 为后续接入第二家店铺准备 |
P0 不是 AI 改进,是业务流程改进——这恰恰说明系统已经把改进重心从 AI 转移到了运营本身。
复盘结论
30 天运营数据印证了一个核心判断:AI 客服系统的价值,不在于"AI 多智能",而在于"AI 在合适的边界内做合适的事,并把不合适的事及时交给人"。
下一阶段,系统应该把"看板洞察 → 商家 SOP"这条链路打通,让自动洞察不仅是数据展示,而是可执行的运营建议。这条链路打通后,AI 客服才真正从"自动回复工具"升级为"运营改进副驾"。