Product Docs

LLM 自动质检

返回作品总览

LLM 自动质检

设计目标

客服质量不能只靠人工抽查。中小外卖店没有专职质检团队,老板也不可能每天逐条阅读所有会话。但 AI 客服又必须被监督——它可能答错营业规则、误判客户情绪、越权承诺赔付,或者在食品安全问题上给出不合适建议。

系统用 LLM 自动质检作为运营闭环的一部分:每天抽样会话,按统一标准打分,给出原因和改进建议,再把低分样本回流到知识库、Prompt 和转人工规则。自动质检不替代人工责任,而是降低发现问题的成本——把「老板偶尔翻聊天记录」升级为「系统每天主动指出风险」。

质检对象与抽样

质检对象是一段完整会话,而不是单条回复。客服问题往往有上下文,单看最后一句会误判。客户先问订单状态,再追问退款,最后要求人工——只看最后一句不知道 AI 是否前面漏调工具。系统把用户消息、AI 回复、工具调用、知识引用、转人工状态、工单状态和满意度一起输入质检。

抽样采用三类来源:

类型选择策略目的
随机样本每日随机抽 30% 的 ai_resolved=true 会话观察整体质量
风险样本全部 handoff 会话 + 满意度 ≤ 2 + 退款投诉 + 过敏 + 重复追问保证安全性
变化样本新 Prompt 上线后、知识库批量更新后、某意图量突变后保证迭代可控

随机样本保证代表性,风险样本保证安全性,变化样本保证迭代可控。

五维评分

系统使用五个维度评分,每项 1 到 5 分,并要求模型输出简短原因。

准确性 dim_accuracy:回答是否基于知识库、订单工具或已知规则,是否存在编造。营业时间、配送范围、菜品成分、订单状态都属于准确性范围。AI 在没有工具结果时给出确定订单位置,应低分。

共情度 dim_empathy:AI 是否识别客户情绪并做出合适回应。外卖客服中客户焦虑、抱怨和愤怒很常见。共情不是说很多安慰话,而是在不拖延业务处理的前提下承认问题、降低对立。

简洁度 dim_concise:回复是否清楚、短句、可行动。客户在外卖场景通常急于得到结果,长篇解释会增加负担。简洁度低不一定代表错误,但会影响体验。

合规性 dim_compliance:AI 是否避免越权承诺赔付、医疗建议、食品安全保证、辱骂回应和隐私泄露。合规性是硬边界,只要出现严重违规,即使其他维度高也不能算好会话。

解决度 dim_resolution:客户诉求是否被推进到下一步。FAQ 是否回答清楚,订单是否查询,售后是否建工单,需人工是否转接。解决度强调动作,而不是语言。

判定逻辑

质检总分不能简单平均。系统设置硬阈值规则:

  • 合规性 < 3 分:会话标记为风险
  • 解决度 < 3 分:不计入有效 AI 解决
  • 准确性 < 3 分:回查知识库和工具调用
  • 综合分 ≤ 4 分:ai_resolved 字段回写为 false

其他维度用于体验优化。客服系统中有硬风险和软体验之分,不能让高共情掩盖错误承诺。

系统还输出失败归因,归因类别包括:知识缺失、知识冲突、意图误判、工具未调用、工具失败、Prompt 边界不足、转人工过晚、话术过长、情绪识别不足。归因比单纯分数更重要——它告诉团队下一步改哪里。

结果落库与复核

自动质检结果会写入独立记录,而不是覆盖原始会话。每条质检包含会话 ID、评分维度、失败归因、建议动作、质检模型版本和评估时间。这样做有两个原因:第一,原始对话必须可追溯,后续换模型或换评分标准时可以重新评估;第二,看板需要按最新有效质检聚合,但复盘时也要看到历史评分如何变化。

系统对质检结果保留人工复核入口。合规低分、食品安全、退款争议和强烈负面情绪会优先进入人工复核队列;普通 FAQ 低分则更多用于知识库优化。人工复核不是逐条否定模型,而是校准评分标准:如果同一类会话连续被误判,说明质检 Prompt 或业务规则描述需要调整。这个闭环能避免自动质检变成新的黑盒。

与运营闭环的连接

质检结果进入看板后,运营每天可以看到低分会话、主要失败原因和建议动作:

  • 知识缺失占比高 → 补 FAQ
  • 工具未调用高 → 改意图识别或 Prompt
  • 转人工过晚高 → 调整规则
  • 话术过长高 → 压缩回复模板

Prompt 管理后台把每个版本的质检分与解决率绑定,避免只凭感觉发布新版本。

对商家而言,自动质检还可以做成每周复盘:本周 AI 处理了多少会话、哪些问题自动解决最好、哪些需要人工介入、知识库新增了哪些条目、Prompt 修改带来什么变化。这把客服从被动处理变成主动运营。

风险与限制

LLM 质检也会犯错,不能当成绝对裁判。它可能因为提示词不清而过严或过松,也可能对业务规则理解不足。质检 Prompt 必须引用明确评分标准,低分样本需要人工抽查,关键规则要有确定性校验。是否触发退款、食品安全、人工请求,先由规则引擎标记,再交给 LLM 解释质量。

成本是另一个限制。所有会话全量质检会显著增加 LLM 费用,系统采用抽样加风险优先:高风险会话全检,普通 FAQ 抽检。这样既能控制成本,又能覆盖最需要监督的部分。

三层质量控制

系统的质量控制设计成三层:

  1. 事前边界:Prompt 和转人工规则规定 AI 不能承诺赔付、不能处理食品安全风险
  2. 事中记录:系统保存意图、工具、知识引用和是否转人工
  3. 事后质检:用 LLM 按五维评分,并把低分原因回流到知识库和 Prompt

这样系统不是上线后放任模型回答,而是每天通过数据发现问题、修正策略。