第五课:工程治理全景

2025-07-02 · 工程治理系列 · 术语表 · ← 第四课

先看全景:一个三层框架

四节课讲完,工程治理不是一堆零散技巧。它是一个三层架构

LAYER 3

错误恢复

退避 → 熔断 → 降级 → 死信。崩了能自动站起来。

↑ 依赖 ↑
LAYER 2

质量保障

结构化约束 → 交叉验证 → 抽样审计 → 回滚。每一块输出都可用。

↑ 依赖 ↑
LAYER 1

上下文管理

分块处理 → 外部存储 → 交接协议。信息不丢、目标不偏。

每一层是上一层的基础。上下文管不住,质量无从谈起;质量没保障,恢复什么都是错的。

逻辑编排在哪?

还记得第一课讲的吗:

逻辑编排工程治理
过程:任务怎么分解、步骤怎么连接规模:任务多了怎么不乱、跑久了怎么不偏

两者不是平行的——逻辑编排在工程治理的里面跑。工程治理提供的是「跑道」和「护栏」,逻辑编排在上面跑的是「赛车」。跑道不歪、护栏不塌,赛车才能跑出速度。

映射到你的项目

项目:帮AI小白系统性理解复杂知识的系统(处理多篇课程内容 → 拆分知识点 → 生成知识卡片 → 交叉关联 → 最终产出知识库)

把三层架构套进去:

你的项目步骤用到的工程治理层具体做法
把N篇课程稿子喂给系统 上下文管理 分块:每篇稿子一个块。每块用同一个Prompt,输出固定JSON格式。块间互不污染
每块生成知识卡片 质量保障 JSON Schema强制字段+字数约束;验证Agent逐条对照原文核查;每批抽查10%
卡片之间交叉关联 上下文管理 + 质量保障 交接协议传递关联指针(不传全文);关联结果经验证Agent核查
某一步崩了 错误恢复 API超时→指数退避重试;连续崩→断路器隔离;不影响其他卡片;失败任务进死信队列
最终产出知识库 全层 每一张卡片都有唯一ID(幂等);每一批有快照(回滚点);失败有清单(死信队列)

脉络的标准:你的项目差多远?

脉络设了两个标杆:

标准1:30万字扔进去,总结不遗漏
标准2:AI自主跑几十个小时,达到99%目标

用工程治理的框架来看,这两个标准对应的是:

标准卡在哪一层解法
30万字不遗漏上下文管理分块+结构化输出+外部存储。不是让AI「记住」30万字,是让它每次只处理一块,结果全存文件
跑几十小时不偏全部三层检查点防偏(L1)+ 交叉验证防幻觉(L2)+ 断路器防崩(L3)
达到99%目标质量保障 + 错误恢复抽样审计验证准确率 + 死信队列兜底。99%不是「几乎不出错」,是「出了错能被发现和修好」

一个可操作的启动路径

不需要一次性搭完整三层。从最小可行开始:

第1天:验证Layer 1

2篇直播稿(不是20篇)。写一个固定Prompt,让AI每篇输出固定格式JSON。手动拼接对比两篇结果。如果信息不遗漏 → Layer 1 验证通过。

第2天:加上Layer 2

在Prompt里加字数约束。跑完后用另一个Agent检查——逐条对照原文回答是/否。记录检查Agent发现了几个原Agent的问题。

第3天:加上Layer 3

扩大规模到10篇稿子。观察哪些步骤容易超时或失败。手动实现指数退避和死信日志。

三天之后,你手里有一个可运转的工程治理原型。它不是「概念理解」,是跑过的代码和文件。


🧠 最终检验
第1题 · 四节课讲完,工程治理用一句话概括是什么?
第2题 · 「上下文管理」和「质量保障」的分工是什么?
第3题 · 你的知识卡片项目,第一步应该做什么?

系列完结。五课从「工程治理是什么」走到「怎么把它用到你的项目里」。脉络说的是对的——工程治理不需要单独学,你做着做着项目就遇到了。但知道了三层框架,你就知道遇到的问题是哪一层的、该用什么模式解决。

下一步:不再有新的HTML课程了。接下来是动手时间——按三天启动路径跑一遍。跑的时候遇到任何问题,随时回来问我。这是工程治理最核心的信条:在做的过程中学,在崩的时候修。

← 返回首页