Prompt 版本日志
版本管理原则
系统 Prompt 是运营资产,按版本管理。每个版本保留 version 编号、name 描述、完整 content 内容、change_log 变更说明、status(draft / active / archived)、metrics_json(resolution_rate / avg_score / sample_size)。商家在 /admin/prompts 后台可对比版本 diff、查看指标、一键激活、新建版本。
激活操作在数据库 transaction 内完成:先把所有版本归档,再把目标版本设为 active,最后更新 merchants.active_prompt_id。激活后只对新会话生效,不影响进行中的会话。
v1.0 — 身份设定版
核心内容:「你是源家捞汁小海鲜的 AI 客服小源,语气友好,回答客户问题。」
能解决:基础营业时间、招牌菜推荐、普通 FAQ。
问题:
- 模型凭常识补充不存在的信息
- 回答缺少知识库引用
- 遇到退款和投诉时继续解释而不是转人工
- 遇到订单状态时回复「请耐心等待」而不调用工具
典型失败场景:
| 客户输入 | v1.0 回复 | 实际应该 |
|---|---|---|
| 「订单 MT-20260503-001 到哪了」 | 「骑手正在配送,请耐心等待」 | 调用订单查询工具,给出 ETA 与骑手信息 |
| 「虾不新鲜我要退款」 | 「可以为您办理退款」 | 共情 + 收集信息 + 转人工,不承诺金额 |
基线指标:解决率约 45%,主要解决 FAQ 类问题,售后和订单类表现不稳定。
v1.5 — 知识引用与基础转人工版
主要变更:
- 要求回答优先使用知识库内容,能引用时展示来源
- 增加 3 条基础转人工规则:客户主动要求人工、退款投诉、AI 不确定
改善效果:
- FAQ 回答更稳定,客户能看到答案来源
- 售后风险有所降低
- 模型开始知道「订单状态要查工具」「退款不要直接承诺」
遗留问题:
- 情绪识别粒度不够,客户强烈不满时仍继续解释规则
- 健康风险没有单独提升优先级,过敏问题被当成普通食材咨询
经验:Prompt 不是孤立文本,它和知识库结构耦合。知识库条目标题清楚、同义词充分时,「优先引用知识库」才有效;否则模型即使被要求引用也找不到合适内容。
基线指标:解决率约 62%,主要提升来自 FAQ 准确率和订单类工具意识。
v2.0 — 情绪、风险与输出边界版(当前 active)
主要变更:
- 加入三档情绪识别(中性 / 不满 / 愤怒)
- 转人工规则扩展到 7 条(详见
/docs/04-handoff/01-rules) - 工具调用条件细化:订单类必须调工具或追问订单号
- 禁止承诺清单:退款金额、医疗建议、过敏安全保证
- 输出格式要求:单段不超过 80 字、必要时用列表、适度 emoji
关键规则:
- 食品安全和海鲜过敏优先级最高
- 退款金额、赔付、医疗建议不能由 AI 承诺
- 客户主动找人工必须立即转
- 同类重复追问要降低置信度
- 订单状态必须调用工具或追问订单号
典型成功场景:
| 客户输入 | v2.0 回复 |
|---|---|
| 「海鲜过敏的小孩能吃吗」 | 不推荐「少量尝试」,明确建议过敏人群不下单,并转人工确认 |
| 「送错餐我要投诉」 | 先道歉确认问题,创建工单并提示人工跟进,不承诺赔付 |
基线指标:解决率约 72%,质检合规性和解决度明显改善。更重要的是,解决率更可信——高风险问题不再被错误计入自动解决。
评估方法
Prompt 迭代不能只看主观感觉。系统用四类指标评估:
| 指标 | 用途 |
|---|---|
| 有效 AI 解决率 | 看自动处理效果 |
| 转人工准确性 | 看风险边界 |
| LLM 质检五维分 | 看回答质量 |
| 重复追问率 | 看客户是否真的获得答案 |
辅助指标包括成本和延迟,避免为了更复杂 Prompt 牺牲体验。
样本设计要覆盖营业时间、招牌菜、订单查询、漏餐、错餐、退款、过敏、找人工、骚扰和多意图等场景。只覆盖简单 FAQ 的测试集说服力不够。
副作用与回滚
Prompt 加规则会带来副作用:
- 规则太多 → 回答可能变长,体验下降
- 转人工条件太宽 → 自动解决率下降
- 情绪识别太敏感 → 普通抱怨被升级
- 禁止承诺写得过保守 → AI 连简单补充说明都不敢说
v2.0 后的优化方向不是无限加规则,而是把规则与工具、知识库、质检数据结合,持续缩小模糊地带。
具体副作用案例:加入「退款不要承诺」后,模型在普通退单咨询里回答过于谨慎。解决方法不是删除规则,而是在 Prompt 中区分「解释平台退款流程」(可自动)和「承诺具体赔付」(必须人工确认)。
回滚机制:Prompt 版本不直接全量切换。商家先用 Demo 或少量会话测试 draft 版本,再切换 active;每个版本保留 change_log 和 metrics_json,方便回滚。新版本导致转人工过多或回答变长时,可回到上一版,同时保留失败样本继续分析。
面试展示口径
这个日志的重点不是证明「写了一段更长的 Prompt」,而是展示产品如何把客服经验沉淀成可审计的运营策略。v1.0 代表最常见的起点:只给身份和语气,能回答简单 FAQ,但会在订单、赔付、健康风险上暴露边界问题。v1.5 说明知识库和转人工规则开始介入,系统从纯聊天变成受控客服。v2.0 则把情绪、工具、禁止承诺和输出格式放进同一套策略里,让解决率提升的同时不牺牲安全边界。
演示后台时,可以沿着「失败样本 → Prompt 改动 → 指标变化 → 可回滚」这条线讲。比如订单查询失败不是单纯要求模型更聪明,而是明确「订单类必须调工具或追问订单号」;过敏问题不是靠模型自由发挥,而是提升到最高优先级并强制转人工。这样的版本日志能回答面试中常见的追问:为什么不是一次写好 Prompt、如何判断改动有效、如果新版本变差怎么恢复。
后续规划
- 质检低分自动归因:低分会话自动归因到知识缺失、语气问题、规则漏写或工具失败;系统生成候选 Prompt 改动,人工确认后激活。
- 意图分子 Prompt:FAQ、订单、售后、骚扰分别使用不同 Prompt 模板,减少单个系统 Prompt 过长。
- 策略配置化:长期看,Prompt 应从静态文本升级为策略配置(条件 + 行动),但当前阶段保留可读文本更便于商家维护。