LLM 自动质检

设计目标

客服质量不能只靠人工抽查。中小外卖店没有专职质检团队，老板也不可能每天逐条阅读所有会话。但 AI 客服又必须被监督——它可能答错营业规则、误判客户情绪、越权承诺赔付，或者在食品安全问题上给出不合适建议。

系统用 LLM 自动质检作为运营闭环的一部分：每天抽样会话，按统一标准打分，给出原因和改进建议，再把低分样本回流到知识库、Prompt 和转人工规则。自动质检不替代人工责任，而是降低发现问题的成本——把「老板偶尔翻聊天记录」升级为「系统每天主动指出风险」。

质检对象是一段完整会话，而不是单条回复。客服问题往往有上下文，单看最后一句会误判。客户先问订单状态，再追问退款，最后要求人工——只看最后一句不知道 AI 是否前面漏调工具。系统把用户消息、AI 回复、工具调用、知识引用、转人工状态、工单状态和满意度一起输入质检。

抽样采用三类来源：

类型	选择策略	目的
随机样本	每日随机抽 30% 的 `ai_resolved=true` 会话	观察整体质量
风险样本	全部 handoff 会话 + 满意度 ≤ 2 + 退款投诉 + 过敏 + 重复追问	保证安全性
变化样本	新 Prompt 上线后、知识库批量更新后、某意图量突变后	保证迭代可控

随机样本保证代表性，风险样本保证安全性，变化样本保证迭代可控。

系统使用五个维度评分，每项 1 到 5 分，并要求模型输出简短原因。

准确性 dim_accuracy：回答是否基于知识库、订单工具或已知规则，是否存在编造。营业时间、配送范围、菜品成分、订单状态都属于准确性范围。AI 在没有工具结果时给出确定订单位置，应低分。

共情度 dim_empathy：AI 是否识别客户情绪并做出合适回应。外卖客服中客户焦虑、抱怨和愤怒很常见。共情不是说很多安慰话，而是在不拖延业务处理的前提下承认问题、降低对立。

简洁度 dim_concise：回复是否清楚、短句、可行动。客户在外卖场景通常急于得到结果，长篇解释会增加负担。简洁度低不一定代表错误，但会影响体验。

合规性 dim_compliance：AI 是否避免越权承诺赔付、医疗建议、食品安全保证、辱骂回应和隐私泄露。合规性是硬边界，只要出现严重违规，即使其他维度高也不能算好会话。

解决度 dim_resolution：客户诉求是否被推进到下一步。FAQ 是否回答清楚，订单是否查询，售后是否建工单，需人工是否转接。解决度强调动作，而不是语言。

质检总分不能简单平均。系统设置硬阈值规则：

其他维度用于体验优化。客服系统中有硬风险和软体验之分，不能让高共情掩盖错误承诺。

系统还输出失败归因，归因类别包括：知识缺失、知识冲突、意图误判、工具未调用、工具失败、Prompt 边界不足、转人工过晚、话术过长、情绪识别不足。归因比单纯分数更重要——它告诉团队下一步改哪里。

自动质检结果会写入独立记录，而不是覆盖原始会话。每条质检包含会话 ID、评分维度、失败归因、建议动作、质检模型版本和评估时间。这样做有两个原因：第一，原始对话必须可追溯，后续换模型或换评分标准时可以重新评估；第二，看板需要按最新有效质检聚合，但复盘时也要看到历史评分如何变化。

系统对质检结果保留人工复核入口。合规低分、食品安全、退款争议和强烈负面情绪会优先进入人工复核队列；普通 FAQ 低分则更多用于知识库优化。人工复核不是逐条否定模型，而是校准评分标准：如果同一类会话连续被误判，说明质检 Prompt 或业务规则描述需要调整。这个闭环能避免自动质检变成新的黑盒。

质检结果进入看板后，运营每天可以看到低分会话、主要失败原因和建议动作：

Prompt 管理后台把每个版本的质检分与解决率绑定，避免只凭感觉发布新版本。

对商家而言，自动质检还可以做成每周复盘：本周 AI 处理了多少会话、哪些问题自动解决最好、哪些需要人工介入、知识库新增了哪些条目、Prompt 修改带来什么变化。这把客服从被动处理变成主动运营。

LLM 质检也会犯错，不能当成绝对裁判。它可能因为提示词不清而过严或过松，也可能对业务规则理解不足。质检 Prompt 必须引用明确评分标准，低分样本需要人工抽查，关键规则要有确定性校验。是否触发退款、食品安全、人工请求，先由规则引擎标记，再交给 LLM 解释质量。

成本是另一个限制。所有会话全量质检会显著增加 LLM 费用，系统采用抽样加风险优先：高风险会话全检，普通 FAQ 抽检。这样既能控制成本，又能覆盖最需要监督的部分。

系统的质量控制设计成三层：

这样系统不是上线后放任模型回答，而是每天通过数据发现问题、修正策略。