第二课教了分块处理——把20篇稿子切成小块,每块产出结构化结果,最后汇总。
现在问题来了:假设你产出了100张「知识卡片」,每张包含概念、解释、例子、常见误解。你扫了一眼前5张,质量不错。但第37张呢?第82张呢?
你不可能全部人工检查。而AI的毛病你是知道的:
跑到后面,AI开始省略步骤。第80张卡片的解释只有一句话,而第1张有三段。
你问「有没有问题?」,AI说「没有问题。」但实际上第42张卡片把两个概念搞混了。
第67张卡片引用了一个不存在的「来源」,写得有模有样。
第55张开始,JSON格式悄悄变了——多了一个字段、少了一个逗号,汇总脚本直接报错。
脉络原话:「AI都会犯的问题——会偷懒、会过度自信、会目标漂移。」
这就是工程治理的第二道防线:质量保障。
这是一个死结:
| 如果…… | 问题 |
|---|---|
| 人工检查100张卡片 | 耗时巨大,违背了用AI提效的初衷 |
| 不检查,直接发布 | 错误内容会误导用户,信任崩塌 |
| 让AI自己检查自己 | 它说「没问题」的时候往往最有问题 |
工程治理给出的解法不是「更努力地检查」,而是改变检查的方法论。下面四个策略,从基础到进阶。
核心思路:不依赖AI的「自觉」。用格式强制逼它每次都产出同等质量的结果。
对比一下两种Prompt:
❌ 坏的Prompt(给AI偷懒空间)
「帮我总结这个概念,包括解释、例子、注意事项。」
AI可以写三段也可以写一句——没有约束。
✅ 好的Prompt(结构化约束)
「输出以下JSON格式,每个字段不少于指定字数:
{ "concept": "概念名", "what": "一句话定义(≤30字)", "why": "为什么重要(100-150字,≥1个例子)", "misconception": "常见误解(50-80字)", "source": "引用原文段落(必须存在)" }」
关键技巧:
source 字段要求引用原文——杜绝幻觉核心思路:不要让同一个AI既当选手又当裁判。用一个独立的「检查Agent」来验证结果。
具体做法:
Agent B的Prompt关键:
不是「检查一下这张卡片有没有问题」
而是「这张卡片引用的原文段落是XXX,请逐条核对:①概念是否准确对应原文?②例子是否来自原文而非编造?③误解部分是否在原文中有依据?三个问题必须分别回答是/否,任何一个为否则退回。」
核心理念:验证比生成更需要精确指令。笼统的「检查一下」等于没检查。
核心思路:不查全部,查有代表性的样本。如果样本的错误率超过阈值,整批作废重来。
操作流程:
为什么这比「全部让AI检查」靠谱?因为你亲手验证了样本。样本不欺骗你,而AI的「自我检查」会欺骗你。
这个方法在企业里叫质量审计(Quality Audit),工厂抽查产品用的就是这个逻辑。
核心思路:接受「AI一定会出错」的事实。工程治理不是追求零错误,而是错误发生时能快速定位、回滚、重跑。
具体设计:
| 机制 | 做法 |
|---|---|
| 幂等性 | 每条知识卡片有唯一ID。重跑同一块不会产生重复数据——旧结果被覆盖而非叠加 |
| 回滚点 | 每处理完10张卡片,打包存一个快照。发现第11-20张出错 → 从第10张的快照恢复,只重跑11-20 |
| 错误日志 | 每次失败记录:哪个块、哪个Agent、什么错误、时间戳。能快速定位「哪一步经常崩」 |
| 防线 | 防什么 | 一句话原则 |
|---|---|---|
| ① 结构化约束 | 偷懒、格式漂移 | 用格式强制替代自觉 |
| ② 交叉验证 | 幻觉、过度自信 | 不让同一个AI当选手又当裁判 |
| ③ 抽样审计 | 批量质量问题 | 抽查10%,不合格→全批重来 |
| ④ 回滚重试 | 不可恢复的错误 | 允许失败,但必须能回滚 |
你想做「AI小白理解复杂知识」的系统。把这四层防线嵌进去:
脉络说的「AI自主跑几十个小时达到99%目标」,关键不是AI不出错,而是出错了能被逮住、能被修好。四层防线就是干这个的。
实操作业:拿第二课的「分块处理」结果,挑一张知识卡片,用策略二(交叉验证)让另一个Agent检查它。记录:检查Agent发现了原Agent没发现的什么问题?
推荐搜索:「LLM evaluation」「AI output validation」「prompt engineering structured output」