4006-998-758
3000+课程任你选择
AI 赋能技术全链路:构建高可靠、可治理的生产级智能体
研发学院 AI 赋能技术全链路
Tyler

Ø  阿里任职期间后负责阿里云多部门算法工作,操盘过多项国家级产业项目算法工作。曾在多家世界500强企业承担人工智能技术负责人工作,具备深厚的数据智能系统研究和架构经验,实战经验覆盖包括C端B端的用户和商业化产品;

Ø  负责团队内部的技术招聘和面试工作,累计面试千人。作为阿里云内部“布道师”参与多场内部培训

Ø  全国信息学联赛一等奖保送并毕业于哈尔滨工业大学(C9),已发表多篇国际顶会和期刊发表学术论文;申请并已公开的国家发明专利 18 项,国际专利1项;

Ø  中国计算机学会技术前线委员会数据科学特邀讲者;

Ø  中国计算机学会(CCF)技术前线委员会(TF)委员人工智能与模式识别会员会委员

Ø  中国信通院标准化技术专家编委,作为主要作者参与“生成式人工智能”以及“人工智能应用安全”相关行业标准制定,致力于持续提高所负责团队以及行业的工程伦理素养。

查看老师详情
课程内容


课程大纲


第一部分:知识工程与上下文运行时(构建高可靠认知中枢)

目标:实现“认知准、证据全、执行稳、权限清”。将大模型从“概率生成器”升级为“可约束的决策系统”:先治理知识,再构建语义,再设计运行时,最终形成可审计的 OAG 决策链路。

课时:6天。授课和指导

 

模块一:高精度语料治理与索引策略

1.1 语料分层治理(按稳定性与风险分级)

  • 准静态语料:制度、SOP、监管条款、产品手册(更新慢、权威高)。

  • 动态语料:工单、日志、公告、交易流水(更新快、半衰期短)。

  • 灰度语料:会议纪要、专家经验、外部资讯(需要可信度标注)。

  • 为每类语料定义优先级、保鲜周期、失效规则,避免“旧知识误导新决策”。

1.2 语料质量评分体系(入库即治理)

  • 准确性:是否与源系统一致,是否来自权威来源。

  • 时效性:生效时间、失效时间、更新间隔是否满足业务要求。

  • 一致性:是否与既有口径冲突,是否存在互斥条款。

  • 合规性:是否包含敏感信息,访问授权是否完整。

  • 低分语料不进入主检索路径,仅在人工复核模式下可见。

1.3 进阶切分与索引(减少断章取义)

  • Semantic      Chunking:按语义边界切分,保持段落逻辑完整。

  • Agentic      Chunking:面向任务预判切分,优先保留“条件-结论-例外”。

  • 多分辨率索引:摘要层、段落层、证据层三级索引,兼顾召回与解释。

  • 索引携带版本标签,确保“检索内容”与“当时有效内容”一致。

1.4 血缘追踪与版本绑定(可回放)

  • 每条证据绑定:文档哈希、来源系统、Schema版本、Embedding版本。

  • 增量更新与全量重建双策略:小改动增量更新,大改动全量重建。

  • 支持线上争议回放:复现当时检索快照与答案生成路径。

 

模块二:Ontology 建模与 Schema-as-Code(语义孪生)

2.1 OP-LAP 语义模型(统一业务世界观)

  • Object:业务实体(账户、客户、合同、交易、策略)。

  • Property:实体属性(类型、单位、取值范围、时效)。

  • Link:实体关系(归属、触发、依赖、约束)。

  • Action:可执行动作(冻结、审批、派单、调拨)。

  • Policy:动作边界(权限、额度、时窗、合规红线)。

2.2 强类型与口径治理(抑制语义漂移)

  • 属性必须定义强类型:Decimal、Enum、Datetime、ID Pattern。

  • 统一口径:同义字段映射、冲突仲裁、跨系统命名标准。

  • 时态治理:同一属性在不同有效期可有不同解释。

2.3 Schema-as-Code(把语义模型工程化)

  • 使用      YAML/Pydantic 定义本体,纳入 Git 版本管理。

  • 语义变更必须评审:新增实体、属性语义变动、策略边界调整。

  • 每个版本绑定迁移与回滚方案,避免“语义升级不可逆”。

2.4 物理映射与影响分析(语义层不脱离现实)

  • SQL 表、API      字段、文档结构映射到本体属性。

  • 物理层变更自动提示受影响实体、关系、动作与策略。

  • 实现“语义可解释 + 物理可追溯”的双向可达。

 

模块三:OAG 决策链路(从概率检索到逻辑引导)

3.1 语义路由(按问题类型分流)

  • 文本事实类优先 Text-RAG,统计分析类优先 NL2SQL,关系推理类优先 GraphRAG。

  • 复杂问题采用多路并行召回,再做一致性融合。

  • 路由策略可配置可审计,避免黑箱路径选择。

3.2 回答-证据强绑定(Grounded by Design)

  • 每个结论必须绑定来源、版本、生效时窗。

  • 输出结构统一为:答案 + 证据摘要 + 置信说明      + 约束条件。

  • 高风险场景强制“先证据后结论”,禁止无依据推断。

3.3 证据不足处理(安全优先)

  • 证据冲突:触发冲突仲裁或转人工。

  • 证据缺失:拒答并返回补证建议,不进行猜测性生成。

  • 证据过期:提示时效风险并建议刷新数据。

3.4 从回答到执行(受控动作)

  • Action 执行前进行 Policy 校验:权限、额度、审批链、幂等性。

  • 执行后沉淀“动作日志 + 证据链 + 回滚点”。

  • 支持补偿事务,防止半成功状态污染业务系统。

 

模块四:MPFA 与上下文工程运行时(Agent Runtime)

4.1 MPFA(元数据渐进式折叠)

  • 将离散字段折叠为实体,再折叠为事件,最终投影到场景。

  • 让模型优先看到与任务相关信息,降低上下文噪声。

  • 在可解释前提下提升复杂任务推理稳定性。

4.2 Metadata Gating(四重门控)

  • 版本门控:仅使用兼容语义版本。

  • 时效门控:仅使用有效时间窗证据。

  • 权限门控:按角色过滤不可见对象与属性。

  • 一致性门控:冲突证据先仲裁,后进入模型上下文。

4.3 上下文资源化调度(成本-时延-准确性)

  • 上下文窗口资源池化,高优先级任务优先分配。

  • 动态压缩策略:先证据后背景,先结构后叙述。

  • 长链任务采用分步上下文,降低一次性注入的失真风险。

4.4 故障诊断与恢复(RCA + Runbook)

  • 常见故障:上下文污染、工具超时、路由误选、证据冲突。

  • 诊断链路:请求ID → 路由记录 → 检索记录 → 执行动作 → 输出差异。

  • 恢复机制:降级路径、重试策略、人工接管、自动回滚。

  

第二部分:规范驱动开发与智能化基座(从效率工具到工程控制面)

目标:解决“开发过程随机性、需求一致性差、产出不可验证”的核心痛点,建立 AI 参与下的标准化研发流水线。重点是把“会用模型”升级为“可控交付”:有规范、有证据、有门禁、有复盘。

课时:6天。授课和指导

 

模块一:AI 研发提效与 SOP 资产化体系

1.1 从对话到协议(Protocol-first)

  • 建立统一输入协议:目标(Goal)—约束(Constraint)—上下文(Context)—完成定义(DoD)。

  • 将一次性 Prompt 固化为可复用模板:需求澄清模板、代码改造模板、测试补齐模板、复盘模板。

  • 形成“任务协议卡”:包含输入假设、输出边界、验收口径、风险提示,避免口头约定导致返工。

1.2 高频场景提效(工程化落地)

  • 文档类:PRD 初稿、技术方案、接口说明、变更记录自动生成与人工校对分工。

  • 研发类:样板代码生成、遗留代码重构建议、接口适配、批量脚手架生成。

  • 质量类:单测补齐、边界用例扩展、异常路径覆盖、回归清单自动生成。

  • 运维类:故障摘要、根因候选、影响面梳理、修复与回滚建议产出。

1.3 输出质量门禁(四层校验)

  • 语法层:可编译、可执行、格式与规范一致(lint/format/type check)。

  • 语义层:字段含义正确、逻辑分支完整、错误处理可达。

  • 业务层:符合业务口径、规则边界、审批链约束。

  • NFR 层:性能、稳定性、安全、可观测性满足最低上线标准。

1.4 团队资产沉淀(可持续复用)

  • 建立      Prompt Registry:按场景、角色、风险等级分类管理。

  • 建立      TPM/QCL:任务协议模板(TPM)+ 质量检查清单(QCL)协同使用。

  • 建立“案例—模板—指标”闭环:优秀案例反哺模板,模板效果进入月度指标看板。

 

模块二:Agentic 工作流与智能化开发插件(ClaudeCode/Copilot)

2.1 仓库级感知与变更影响分析

  • 基于代码索引理解模块边界、调用链和依赖关系。

  • 改动前先做影响面评估:识别高风险文件、共享组件、关键路径。

  • 引入“变更风险分级”:低风险自动提案,中高风险强制人工审阅。

2.2 Agentic CLI 闭环(Analyze → Apply → Test → Evidence)

  • Analyze:读取任务协议与代码上下文,先给出可执行方案与风险点。

  • Apply:小步修改、可回滚提交,避免大范围一次性改动。

  • Test:自动执行单测/契约测试/静态检查,失败即阻断。

  • Evidence:输出证据包(变更说明、测试结果、影响面、回滚点)。

2.3 安全与权限控制(工程底线)

  • 插件执行采用最小权限原则(PoLP),限制文件、命令、网络访问范围。

  • 密钥与敏感信息防泄漏:环境变量白名单、日志脱敏、提交前扫描。

  • 高风险操作(删除、批量重写、生产指令)设置双重确认与审计。

2.4 CI/CD 集成与发布联动

  • 将      AI 产出纳入现有门禁:lint、test、SAST、依赖漏洞扫描。

  • PR 模板标准化:必须包含目标、变更点、风险说明、验证证据。

  • 发布策略:灰度放量、自动回滚阈值、故障告警与责任归属链路。

 

模块三:AI 应用价值评估与需求规格化

3.1 四维价值模型(立项前先算账)

  • 业务价值:效率提升、质量提升、风险下降是否可量化。

  • 技术复杂度:数据可得性、系统耦合度、改造成本。

  • 合规风险:数据权限、审计要求、模型可解释性要求。

  • 成本收益:推理成本、运维成本、组织推广成本与回报周期。

3.2 场景分层与优先级机制

  • P0:高价值+低风险,优先试点快速验证。

  • P1:高价值+中风险,分阶段推进并设置里程碑门槛。

  • P2:探索性场景,限定预算与周期,明确退出条件。

  • 形成      Go/No-Go 机制:不满足阈值不进入开发。

3.3 需求规格化(从模糊诉求到可验证需求)

  • 将自然语言诉求拆分为:输入条件、处理规则、输出格式、异常路径。

  • 定义可验证验收项:准确率、时延、失败率、可解释性、人工接管率。

  • 建立“反例驱动”清单:列出最易出错场景并前置测试。

 

模块四:Spec-Kit SDD 规范驱动开发

4.1 SDD 第一性原理(Spec 是控制面)

  • 先有规格再有实现:规格定义边界,代码只是实现路径。

  • 通过规格抑制随机生成:任何 AI 产出必须可映射到 Spec 条款。

  • 防止“看起来能用”的伪完成,强调“可验证完成”。

4.2 标准规格结构(统一语言)

  • 目标与非目标(Goals / Non-goals)。

  • 业务规则与边界条件(含异常与冲突处理)。

  • 验收标准(DoD)与 NFR 指标(性能/安全/稳定性/审计)。

  • 风险与回滚策略(触发条件、执行步骤、责任人)。

4.3 Spec-to-Code 一致性与防漂移

  • 建立规格条款到任务卡、测试用例、代码提交的映射关系。

  • 用自动化检查“实现是否偏离规格”:偏离即阻断合并。

  • 每次需求变更必须先更新 Spec,再触发下游任务与测试更新。

 

第三部分:AIP-like Agent、多智能体协作与企业级治理(实现规模化落地)

目标:将智能体从“会回答”升级为“可执行、可观测、可审计、可放量”的企业能力。以AIP-like Agent为中枢,打通多智能体协作、端到端评估与组织化治理闭环,确保系统在高约束环境下长期稳定运行。

课时:6天。授课和指导

 

模块一:AIP-like架构与服务化落地

1.1 API-First 智能体契约设计

  • 以      OpenAPI/AsyncAPI 定义能力边界:输入语义、动作意图、输出证据、错误码语义。

  • 统一请求模型:context_id / policy_scope / intent / constraints /      timeout_budget。

  • 统一响应模型:decision / evidence_refs / confidence / risk_flags /      next_actions。

  • 区分同步决策接口与异步任务接口,避免长链任务阻塞上游系统。

1.2 事件驱动执行编排(Event-Driven)

  • 支持      Webhook、消息总线(Kafka/Pulsar)与工作流引擎触发。

  • 设计标准事件主题:异常交易预警、风控阈值触发、工单超时、库存告急等。

  • 实现事件幂等:去重键、重放保护、顺序保障与死信队列回收。

  • 引入超时预算与熔断策略,避免局部故障扩散为系统级雪崩。

1.3 执行动作的受控机制(Action Guardrails)

  • 所有动作需通过 Policy 校验:权限、额度、时窗、审批链、合规。

  • 高风险动作采用“双通道确认”:规则引擎 + 人工闸门。

  • 支持补偿事务(SAGA)与回滚编排,保障跨系统一致性。

  • 建立动作级审计日志:谁触发、依据什么证据、执行了什么、影响了哪些对象。

1.4 生产集成模式(微服务共存)

  • 与现有微服务体系共存:网关鉴权、服务发现、熔断降级、灰度发布。

  • 通过      BFF/Orchestrator 隔离前台渠道差异,不把业务策略耦合到 UI。

  • 通过“能力网关”统一管理模型、工具、策略版本,降低系统耦合度。

  • 明确故障域边界:模型故障不直接冲击交易主链,优先降级到规则路径。

 

模块二:多智能体协作与运行时调度

2.1 协作模式选型与职责切分

  • Manager-Worker:集中编排,适合高可控、强审计场景。

  • Mesh/Debate:分布式协商,适合复杂分析与方案对比场景。

  • Pipeline:串行流水线,适合固定流程(采集→分析→生成→校验)。

  • 角色最小化原则:检索Agent、推理Agent、执行Agent、审计Agent,职责清晰可替换。

2.2 协作协议与状态机治理

  • 采用状态机定义节点状态、转移条件、失败分支。

  • 明确      Agent 间协议:消息格式、证据格式、重试语义、终止条件。

  • 引入冲突仲裁节点:结果不一致时触发规则仲裁或人工复核。

  • 对关键节点设置“不可跳过门禁”:证据缺失不得进入执行态。

2.3 资源调度与成本治理(Runtime FinOps)

  • 对      Token、工具调用、数据库查询、图检索设置预算上限。

  • 任务优先级驱动资源分配:高风险任务优先保障低时延链路。

  • 对长链推理启用分段执行与中间态缓存,降低重复计算成本。

  • 建立成本归因:按技能、团队、业务线统计单位决策成本。

2.4 可靠性工程(SRE for Agents)

  • SLO 设计:决策时延、成功率、证据完整率、动作失败率。

  • 失败处理标准化:可重试错误、不可重试错误、人工接管错误分类。

  • 演练机制:工具不可用、索引漂移、权限误配、事件风暴等故障注入。

  • 形成运行手册:告警分级、处置流程、回滚脚本、复盘模板。

 

模块三:端到端评估与 Sim2Real 迁移验证

3.1 E2E 评估框架(从技术指标到业务指标)

  • 技术指标:准确率、召回率、引用完整率、推理一致性、时延分位数。

  • 业务指标:任务完成率、人工接管率、风险触发率、错误代价。

  • 合规指标:越权访问率、敏感信息暴露率、审计缺失率。

  • 统一评分函数:在 Success / Reliability / Risk / Cost 间建立可调权重。

3.2 Customer Twin 仿真体系

  • 构建多类型仿真用户:标准用户、激进用户、异常用户、对抗用户。

  • 注入真实约束:审批时窗、权限层级、历史行为偏好、异常轨迹。

  • 场景库分层:常规场景、边界场景、极端场景、黑天鹅场景。

  • 输出可对比基线:规则系统、人工流程、旧模型路径三方对照。

3.3 Sim2Real 映射与灰度放量

  • 监测仿真与线上分布偏移:输入分布、工具稳定性、策略命中率。

  • 建立放量闸门:达到阈值才扩流,触发阈值自动降级或回滚。

  • 采用分层放量:低风险业务先行,高风险业务后置。

  • 每次放量都沉淀“可复现实验报告”,防止经验化决策。

3.4 评测闭环与持续优化

  • 线上失败样本自动回灌评测集与训练集,形成持续学习闭环。

  • 对高频失败模式建立专项修复:路由误选、证据冲突、动作越权。

  • 引入“回放评测”:新版本必须通过历史事故集回归。

  • 保持“版本可比较”:同题同集评估,防止指标口径漂移。

 

模块四:可观测性、AI-BOM 与组织化治理

4.1 全链路可观测性(Trace-Metric-Log-Event)

  • 统一      Trace ID 串联:请求→路由→检索→推理→动作→回执。

  • 指标看板分层:系统健康、任务质量、风险态势、成本效率。

  • 输出可解释证据视图:展示关键证据路径与策略命中记录。

  • 支持“单次决策重建”:秒级定位问题节点与责任边界。

4.2 AI-BOM 审计资产体系

  • 记录决策快照:模型版本、Prompt版本、Skill版本、Ontology版本、Policy版本。

  • 记录外部依赖:工具版本、数据源快照、Schema版本、执行环境。

  • 记录审批与发布轨迹:谁批准、何时发布、何时回滚。

  • 满足审计要求:可回放、可追责、可验证“当时为何这样决策”。

4.3 生命周期治理(DevSecOps + LLMOps)

  • 版本流程:开发→评测→审批→灰度→全量→复盘。

  • 变更分类:语义变更、策略变更、模型变更、工具变更分级治理。

  • 安全机制:密钥治理、最小权限、敏感数据最小暴露。

  • 设立“治理闸门”:未通过评测与审计,不得进入生产。

4.4 组织化推广与能力认证

  • 建立共享资产库:Spec库、Skill库、评测库、事故复盘库。

  • 建立角色能力模型:架构师、平台工程师、评测工程师、治理负责人。

  • 建立认证机制:理论考核 + 实操验收 + 线上值班演练。


返回上一级