课程介绍
![]()
本课程将带领学员完成一条从“业务快速赋能”到“架构自主优化”的进阶路径,精准覆盖企业落地AI的五大核心挑战:
1.业务价值与生产力: 我们将从大模型对业务人员的价值 出发,掌握如何利用 零代码/低代码工具 快速验证业务假说。
2.核心应用架构: 深入架构设计,系统性掌握上下文工程中的数据流与控制流核心设计模式。
3.高性能数据底座: 为支撑复杂的上下文工程,我们将构建全流程的“在线-近线-离线”三层数据架构,确保知识的实时性与一致性。
4.成本与服务治理: 聚焦于生产环境的经济性,我们将探讨类GPT-5的端到端成本感知架构,并实现动态服务调控(如PID/RL)。
5.模型与数据主权: 最后,我们将掌握数据蒸馏与领域大模型 的高级策略,实现极致的成本优化与企业数据私有化。
课程大纲
模块一:战略层:AI 赋能的价值主张与技术选型
核心目标: 建立一个评估 AI 项目价值与可行性的框架,并掌握从零/低代码原型验证到专业开发的迁移路径。
企业认知智能的价值矩阵
1.1. 重新定义“生产力”:从“流程自动化 (RPA)”到“认知自动化 (C-RPA)”
1.2. 用例评估:高频、高价值、高复杂度的“三高”场景识别
1.3. 战略权衡:RAG vs. Fine-tuning vs. 领域模型的核心决策框架
从快速原型到专业开发的鸿沟
2.1. 零/低代码 (NCLC) 平台:作为“业务假说验证 (PoC)”的高效工具
2.2. NCLC 的“天花板”:为什么90%的原型无法在生产中存活?(性能、成本、可控性、数据安全)
2.3. 范式转移:从“工具使用者”到“系统设计者”的思维转变
模块二:应用层:上下文工程的控制流与数据流设计
核心目标: 掌握构建“可控、可知”智能体的两大核心设计模式:RAG(数据流)与 Agent(控制流)。
上下文工程(Contextual Engineering)的系统边界
1.1. 为什么“上下文”是 LLM 应用的“灵魂”?
1.2. 解耦:将“世界知识(模型)”与“私域知识(上下文)”分离
RAG (数据流):构建可信知识注入的管道
2.1. Advanced RAG 架构模式:
检索前优化: 查询重写(Query Rewriting)、查询扩展(Expansion)、HyDE
检索中策略: 混合搜索(Hybrid Search)、多路路由(Multi-path Routing)
检索后处理: 精排(Re-ranking)、上下文压缩(Contextual Compression)
2.2. 评估体系:RAG 的“三性”—— 忠实性 (Faithfulness)、答案相关性 (Answer Relevance)、上下文相关性 (Context Relevance)
Agent (控制流):构建具备“规划-执行”能力的智能体
3.1. Agentic 架构的核心:ReAct (Reason + Act) 循环
3.2. 工具调用(Tool-Use):Function Calling 与 API 的系统性集成
3.3. 规划与记忆:长短期记忆(Memory)设计与(CoT/ToT/GoT)规划模式
3.4. 多智能体系统(Multi-Agent Systems):从“个体”到“协同”的架构演进
模块三:数据层:支撑上下文工程的“在线-近线-离线”数据架构
核心目标: 设计一个高性能、高时效性的数据平台,为 RAG 和 Agent 提供实时的上下文与特征。
LLM 应用的数据架构挑战
1.1. “上下文”的两种形态:静态知识(文档) vs. 动态特征(用户行为)
1.2. 延迟与时效性的冲突:如何平衡“实时性”与“一致性”
离线层 (Offline Layer):知识的批量处理与向量 ETL
2.1. 非结构化数据处理:Chunking 策略的深度权衡
2.2. 向量 ETL 管道:构建可重跑、可版本化的记忆生成系统
2.3. 知识图谱(KG)的融合:KG-RAG 解决深度关系检索
近线层 (Nearline Layer):事件驱动的上下文更新
3.1. 架构核心:基于 CDC (Change Data Capture) 或消息队列的流式处理 (Flink/Spark Streaming)
3.2. 应用:分钟级热点知识注入、用户画像的准实时更新
在线层 (Online Layer):低延迟的上下文服务
4.1. 实时特征存储 (Real-time Feature Store):为 Agent 提供即时决策依据
4.2. 向量数据库(VectorDB)选型与性能调优 (HNSW, IVFPQ)
4.3. 混合存储:关系型数据、文档数据与向量数据的统一服务接口
模块四:运维层:端到端成本感知与动态服务治理 (LLMOps)
核心目标: 解决 LLM 应用的“Day 2 Problem”—— 即规模化部署后的成本、性能和可观测性挑战,实现从“被动响应”到“主动调控”的转变。
LLM 系统的经济性(Unit Economics)
1.1. 成本的诅咒:Token 成本、推理延迟与 GPU 资源的“三重门”
1.2. ROI 建模:如何量化 LLM 应用的“每秒查询成本”与“业务价值”
成本感知架构(Cost-Aware Architecture)
2.1. 级联系统 (Cascading System): 用规则和小模型过滤 80% 的简单请求
2.2. 动态模型路由 (Dynamic Model Routing): 根据“任务难度”智能调度
2.3. 提示词工程的成本优化:Token 压缩与上下文管理
LLMOps 核心:在线成本与质量的动态调控
3.1. 调控的基础:全链路可观测性 (Observability)
定义“传感器”:实时追踪 Token 成本、P99 延迟、质量信号(用户反馈、答案相关性)
构建“驾驶舱”:为动态调控系统提供实时的决策输入(Process Variables)
3.2. 经典控制策略:使用 PID 调节器实现系统稳定
引入经典控制理论:将 LLM 服务视为一个可控系统
设定“目标值 (Setpoint)”:如“小时 Token 预算”、“P99 延迟 < 2s”
应用 PID (Proportional-Integral-Derivative) 控制器,根据“误差 (Error)”动态调整模型路由的流量分配比例,实现系统稳定
3.3. 智能控制策略:基于强化学习 (RL) 的多目标优化
框架定义:将路由决策建模为 RL 问题
目标:训练一个 Agent,使其学会在“预算约束”下最大化“综合质量”的路由策略
3.4. 策略评估与迭代:A/B 测试与评估基准
灰度部署:安全上线新调控策略(如 RL 策略 vs. PID 策略)
建立评估“黄金标准” (Golden Set),确保新策略在优化成本的同时,不损害关键任务的质量
模块五:模型层:数据蒸馏与领域模型的定制策略
核心目标: 掌握“小模型”实现“大模型”效果的核心技术,实现数据主权与极致成本优化。
模型定制的决策树:何时需要自己的模型?
1.1. 数据隐私与合规性(Data Sovereignty)
1.2. 垂直领域的专业术语(Domain Jargon)
1.3. 极端成本与延迟敏感型(Low-Latency)应用
数据引擎(Data Engine):构建高质量微调数据集的飞轮
2.1. 合成数据(Synthetic Data)的生成与陷阱
2.2. 从人类反馈中学习 (RLHF/DPO)
模型定制技术光谱
3.1. PEFT (Parameter-Efficient Fine-Tuning):LoRA/QLoRA 的原理与实战
3.2. 持续预训练 (Continued Pre-training):让模型“学会”行业语言
3.3. 全量微调 (Full Fine-tuning):高风险与高回报
数据蒸馏(Data Distillation):终极成本优化
4.1. 核心思想:用“教师模型 (GPT-4)”训练“学生模型 (Local LLM)”
4.2. 蒸馏策略:响应蒸馏 vs. 特征蒸馏
4.3. 如何构建一个性能逼近 OpenAI、成本降低 95% 的垂直领域模型


