大模型系统前沿实践

大模型系统前沿实践v

研发学院大模型系统前沿实践

Tyler

Ø 阿里任职期间，先后负责阿里云多部门算法工作，操盘过多项国家级产业项目算法工作。曾在多家世界500强企业承担人工智能技术负责人工作，具备深厚的数据智能系统研究和架构经验，实战经验覆盖包括C端B端的用户和商业化产品；

Ø 负责团队内部的技术招聘和面试工作，累计面试千人。作为阿里云的内部“布道师”参与多场内部培训。

Ø 全国信息学联赛一等奖保送并毕业于哈尔滨工业大学（C9），已发表多篇国际顶会和期刊发表学术论文；申请并已公开的国家发明专利 18 项，国际专利1项；

Ø 中国计算机学会技术前线委员会数据科学特邀讲者；

Ø 中国计算机学会（CCF）技术前线委员会（TF）委员，人工智能与模式识别会员会委员；

Ø 中国信通院标准化技术专家编委，作为主要作者参与“生成式人工智能”以及“人工智能应用安全”相关行业标准制定，致力于持续提高所负责团队以及行业的工程伦理素养。

查看老师详情

课程内容

课程介绍

本课程将带领学员完成一条从“业务快速赋能”到“架构自主优化”的进阶路径，精准覆盖企业落地AI的五大核心挑战：

1.业务价值与生产力：我们将从大模型对业务人员的价值出发，掌握如何利用零代码/低代码工具快速验证业务假说。

2.核心应用架构：深入架构设计，系统性掌握上下文工程中的数据流与控制流核心设计模式。

3.高性能数据底座：为支撑复杂的上下文工程，我们将构建全流程的“在线-近线-离线”三层数据架构，确保知识的实时性与一致性。

4.成本与服务治理：聚焦于生产环境的经济性，我们将探讨类GPT-5的端到端成本感知架构，并实现动态服务调控（如PID/RL）。

5.模型与数据主权：最后，我们将掌握数据蒸馏与领域大模型的高级策略，实现极致的成本优化与企业数据私有化。

课程大纲

模块一：战略层：AI 赋能的价值主张与技术选型

核心目标：建立一个评估 AI 项目价值与可行性的框架，并掌握从零/低代码原型验证到专业开发的迁移路径。

企业认知智能的价值矩阵

1.1. 重新定义“生产力”：从“流程自动化 (RPA)”到“认知自动化 (C-RPA)”

1.2. 用例评估：高频、高价值、高复杂度的“三高”场景识别

1.3. 战略权衡：RAG vs. Fine-tuning vs. 领域模型的核心决策框架

从快速原型到专业开发的鸿沟

2.1. 零/低代码 (NCLC) 平台：作为“业务假说验证 (PoC)”的高效工具

2.2. NCLC 的“天花板”：为什么90%的原型无法在生产中存活？（性能、成本、可控性、数据安全）

2.3. 范式转移：从“工具使用者”到“系统设计者”的思维转变

模块二：应用层：上下文工程的控制流与数据流设计

核心目标：掌握构建“可控、可知”智能体的两大核心设计模式：RAG（数据流）与 Agent（控制流）。

上下文工程（Contextual Engineering）的系统边界

1.1. 为什么“上下文”是 LLM 应用的“灵魂”？

1.2. 解耦：将“世界知识（模型）”与“私域知识（上下文）”分离

RAG (数据流)：构建可信知识注入的管道

2.1. Advanced RAG 架构模式：

检索前优化：查询重写（Query Rewriting）、查询扩展（Expansion）、HyDE

检索中策略：混合搜索（Hybrid Search）、多路路由（Multi-path Routing）

检索后处理：精排（Re-ranking）、上下文压缩（Contextual Compression）

2.2. 评估体系：RAG 的“三性”—— 忠实性 (Faithfulness)、答案相关性 (Answer Relevance)、上下文相关性 (Context Relevance)

Agent (控制流)：构建具备“规划-执行”能力的智能体

3.1. Agentic 架构的核心：ReAct (Reason + Act) 循环

3.2. 工具调用（Tool-Use）：Function Calling 与 API 的系统性集成

3.3. 规划与记忆：长短期记忆（Memory）设计与（CoT/ToT/GoT）规划模式

3.4. 多智能体系统（Multi-Agent Systems）：从“个体”到“协同”的架构演进

模块三：数据层：支撑上下文工程的“在线-近线-离线”数据架构

核心目标：设计一个高性能、高时效性的数据平台，为 RAG 和 Agent 提供实时的上下文与特征。

LLM 应用的数据架构挑战

1.1. “上下文”的两种形态：静态知识（文档） vs. 动态特征（用户行为）

1.2. 延迟与时效性的冲突：如何平衡“实时性”与“一致性”

离线层 (Offline Layer)：知识的批量处理与向量 ETL

2.1. 非结构化数据处理：Chunking 策略的深度权衡

2.2. 向量 ETL 管道：构建可重跑、可版本化的记忆生成系统

2.3. 知识图谱（KG）的融合：KG-RAG 解决深度关系检索

近线层 (Nearline Layer)：事件驱动的上下文更新

3.1. 架构核心：基于 CDC (Change Data Capture) 或消息队列的流式处理 (Flink/Spark Streaming)

3.2. 应用：分钟级热点知识注入、用户画像的准实时更新

在线层 (Online Layer)：低延迟的上下文服务

4.1. 实时特征存储 (Real-time Feature Store)：为 Agent 提供即时决策依据

4.2. 向量数据库（VectorDB）选型与性能调优 (HNSW, IVFPQ)

4.3. 混合存储：关系型数据、文档数据与向量数据的统一服务接口

模块四：运维层：端到端成本感知与动态服务治理 (LLMOps)

核心目标：解决 LLM 应用的“Day 2 Problem”—— 即规模化部署后的成本、性能和可观测性挑战，实现从“被动响应”到“主动调控”的转变。

LLM 系统的经济性（Unit Economics）

1.1. 成本的诅咒：Token 成本、推理延迟与 GPU 资源的“三重门”

1.2. ROI 建模：如何量化 LLM 应用的“每秒查询成本”与“业务价值”

成本感知架构（Cost-Aware Architecture）

2.1. 级联系统 (Cascading System)：用规则和小模型过滤 80% 的简单请求

2.2. 动态模型路由 (Dynamic Model Routing)：根据“任务难度”智能调度

2.3. 提示词工程的成本优化：Token 压缩与上下文管理

LLMOps 核心：在线成本与质量的动态调控

3.1. 调控的基础：全链路可观测性 (Observability)

定义“传感器”：实时追踪 Token 成本、P99 延迟、质量信号（用户反馈、答案相关性）

构建“驾驶舱”：为动态调控系统提供实时的决策输入（Process Variables）

3.2. 经典控制策略：使用 PID 调节器实现系统稳定

引入经典控制理论：将 LLM 服务视为一个可控系统

设定“目标值 (Setpoint)”：如“小时 Token 预算”、“P99 延迟 < 2s”

应用 PID (Proportional-Integral-Derivative) 控制器，根据“误差 (Error)”动态调整模型路由的流量分配比例，实现系统稳定

3.3. 智能控制策略：基于强化学习 (RL) 的多目标优化

框架定义：将路由决策建模为 RL 问题

目标：训练一个 Agent，使其学会在“预算约束”下最大化“综合质量”的路由策略

3.4. 策略评估与迭代：A/B 测试与评估基准

灰度部署：安全上线新调控策略（如 RL 策略 vs. PID 策略）

建立评估“黄金标准” (Golden Set)，确保新策略在优化成本的同时，不损害关键任务的质量

模块五：模型层：数据蒸馏与领域模型的定制策略

核心目标：掌握“小模型”实现“大模型”效果的核心技术，实现数据主权与极致成本优化。

模型定制的决策树：何时需要自己的模型？

1.1. 数据隐私与合规性（Data Sovereignty）

1.2. 垂直领域的专业术语（Domain Jargon）

1.3. 极端成本与延迟敏感型（Low-Latency）应用

数据引擎（Data Engine）：构建高质量微调数据集的飞轮

2.1. 合成数据（Synthetic Data）的生成与陷阱

2.2. 从人类反馈中学习 (RLHF/DPO)

模型定制技术光谱

3.1. PEFT (Parameter-Efficient Fine-Tuning)：LoRA/QLoRA 的原理与实战

3.2. 持续预训练 (Continued Pre-training)：让模型“学会”行业语言

3.3. 全量微调 (Full Fine-tuning)：高风险与高回报

数据蒸馏（Data Distillation）：终极成本优化

4.1. 核心思想：用“教师模型 (GPT-4)”训练“学生模型 (Local LLM)”

4.2. 蒸馏策略：响应蒸馏 vs. 特征蒸馏

4.3. 如何构建一个性能逼近 OpenAI、成本降低 95% 的垂直领域模型

返回上一级

课程时长

2天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级