Product Docs

Prompt 版本日志

返回作品总览

Prompt 版本日志

版本管理原则

系统 Prompt 是运营资产,按版本管理。每个版本保留 version 编号、name 描述、完整 content 内容、change_log 变更说明、status(draft / active / archived)、metrics_json(resolution_rate / avg_score / sample_size)。商家在 /admin/prompts 后台可对比版本 diff、查看指标、一键激活、新建版本。

激活操作在数据库 transaction 内完成:先把所有版本归档,再把目标版本设为 active,最后更新 merchants.active_prompt_id。激活后只对新会话生效,不影响进行中的会话。

v1.0 — 身份设定版

核心内容:「你是源家捞汁小海鲜的 AI 客服小源,语气友好,回答客户问题。」

能解决:基础营业时间、招牌菜推荐、普通 FAQ。

问题

  • 模型凭常识补充不存在的信息
  • 回答缺少知识库引用
  • 遇到退款和投诉时继续解释而不是转人工
  • 遇到订单状态时回复「请耐心等待」而不调用工具

典型失败场景

客户输入v1.0 回复实际应该
「订单 MT-20260503-001 到哪了」「骑手正在配送,请耐心等待」调用订单查询工具,给出 ETA 与骑手信息
「虾不新鲜我要退款」「可以为您办理退款」共情 + 收集信息 + 转人工,不承诺金额

基线指标:解决率约 45%,主要解决 FAQ 类问题,售后和订单类表现不稳定。

v1.5 — 知识引用与基础转人工版

主要变更

  • 要求回答优先使用知识库内容,能引用时展示来源
  • 增加 3 条基础转人工规则:客户主动要求人工、退款投诉、AI 不确定

改善效果

  • FAQ 回答更稳定,客户能看到答案来源
  • 售后风险有所降低
  • 模型开始知道「订单状态要查工具」「退款不要直接承诺」

遗留问题

  • 情绪识别粒度不够,客户强烈不满时仍继续解释规则
  • 健康风险没有单独提升优先级,过敏问题被当成普通食材咨询

经验:Prompt 不是孤立文本,它和知识库结构耦合。知识库条目标题清楚、同义词充分时,「优先引用知识库」才有效;否则模型即使被要求引用也找不到合适内容。

基线指标:解决率约 62%,主要提升来自 FAQ 准确率和订单类工具意识。

v2.0 — 情绪、风险与输出边界版(当前 active)

主要变更

  • 加入三档情绪识别(中性 / 不满 / 愤怒)
  • 转人工规则扩展到 7 条(详见 /docs/04-handoff/01-rules
  • 工具调用条件细化:订单类必须调工具或追问订单号
  • 禁止承诺清单:退款金额、医疗建议、过敏安全保证
  • 输出格式要求:单段不超过 80 字、必要时用列表、适度 emoji

关键规则

  • 食品安全和海鲜过敏优先级最高
  • 退款金额、赔付、医疗建议不能由 AI 承诺
  • 客户主动找人工必须立即转
  • 同类重复追问要降低置信度
  • 订单状态必须调用工具或追问订单号

典型成功场景

客户输入v2.0 回复
「海鲜过敏的小孩能吃吗」不推荐「少量尝试」,明确建议过敏人群不下单,并转人工确认
「送错餐我要投诉」先道歉确认问题,创建工单并提示人工跟进,不承诺赔付

基线指标:解决率约 72%,质检合规性和解决度明显改善。更重要的是,解决率更可信——高风险问题不再被错误计入自动解决。

评估方法

Prompt 迭代不能只看主观感觉。系统用四类指标评估:

指标用途
有效 AI 解决率看自动处理效果
转人工准确性看风险边界
LLM 质检五维分看回答质量
重复追问率看客户是否真的获得答案

辅助指标包括成本和延迟,避免为了更复杂 Prompt 牺牲体验。

样本设计要覆盖营业时间、招牌菜、订单查询、漏餐、错餐、退款、过敏、找人工、骚扰和多意图等场景。只覆盖简单 FAQ 的测试集说服力不够。

副作用与回滚

Prompt 加规则会带来副作用:

  • 规则太多 → 回答可能变长,体验下降
  • 转人工条件太宽 → 自动解决率下降
  • 情绪识别太敏感 → 普通抱怨被升级
  • 禁止承诺写得过保守 → AI 连简单补充说明都不敢说

v2.0 后的优化方向不是无限加规则,而是把规则与工具、知识库、质检数据结合,持续缩小模糊地带。

具体副作用案例:加入「退款不要承诺」后,模型在普通退单咨询里回答过于谨慎。解决方法不是删除规则,而是在 Prompt 中区分「解释平台退款流程」(可自动)和「承诺具体赔付」(必须人工确认)。

回滚机制:Prompt 版本不直接全量切换。商家先用 Demo 或少量会话测试 draft 版本,再切换 active;每个版本保留 change_log 和 metrics_json,方便回滚。新版本导致转人工过多或回答变长时,可回到上一版,同时保留失败样本继续分析。

面试展示口径

这个日志的重点不是证明「写了一段更长的 Prompt」,而是展示产品如何把客服经验沉淀成可审计的运营策略。v1.0 代表最常见的起点:只给身份和语气,能回答简单 FAQ,但会在订单、赔付、健康风险上暴露边界问题。v1.5 说明知识库和转人工规则开始介入,系统从纯聊天变成受控客服。v2.0 则把情绪、工具、禁止承诺和输出格式放进同一套策略里,让解决率提升的同时不牺牲安全边界。

演示后台时,可以沿着「失败样本 → Prompt 改动 → 指标变化 → 可回滚」这条线讲。比如订单查询失败不是单纯要求模型更聪明,而是明确「订单类必须调工具或追问订单号」;过敏问题不是靠模型自由发挥,而是提升到最高优先级并强制转人工。这样的版本日志能回答面试中常见的追问:为什么不是一次写好 Prompt、如何判断改动有效、如果新版本变差怎么恢复。

后续规划

  • 质检低分自动归因:低分会话自动归因到知识缺失、语气问题、规则漏写或工具失败;系统生成候选 Prompt 改动,人工确认后激活。
  • 意图分子 Prompt:FAQ、订单、售后、骚扰分别使用不同 Prompt 模板,减少单个系统 Prompt 过长。
  • 策略配置化:长期看,Prompt 应从静态文本升级为策略配置(条件 + 行动),但当前阶段保留可读文本更便于商家维护。