课程大纲
一、生成式AI和大模型基础
1. 生成式AI概述
- 介绍生成式AI(AIGC)和大语言模型的基本概念,从最初的GPT提出到最新的DeepSeek-R1产品的发展历程。
- 大规模预训练模型的原理:讲解大模型构建的整体流程和架构原理。
2. 大语言模型的核心原理
- 基本构件解析:深入剖析Transformer架构、注意力机制、前馈网络、残差连接与归一化技术。
- 预训练策略与训练资源:分析预训练过程中大规模数据采集、训练策略、成本与算力要求,并讨论国产产品(如DeepSeek系列)在低成本高效率方面的优化策略。
3. 增量预训练与全量预训练
- 阐释全量预训练与增量预训练的原理、方式方法及各自适用场景,为后续微调与应用奠定基础。
二、大模型行业落地与应用开发
1. 典型应用案例分析
- 展示大模型在数据质量提升、财报及市场动态分析、智能客服等行业场景中的实际应用案例。
2. API开发与提示词工程(Prompt Engineering)
- API应用开发:介绍如何基于GPT和DeepSeek等大模型的API构建智能应用和机器人。
- 提示词工程核心技术:详细讲解提示词(Prompt)的构建原则、技巧以及优化方法,结合金融政策问答、智能客服等实际案例说明其作用和优化方法。
3. 企业知识库与向量检索增强技术(RAG)
- 知识库/向量检索增强技术原理:解析RAG中向量空间模型、相似度计算原理;结合实际案例讲解文本切割的原则和技巧,应用于上市公司财报分析、售前/售后技术支持等场景。
4. 让大模型获取外部信息与智能Agent实现
- 外部信息对接:介绍如何将大模型(如GPT/DeepSeek)与搜索引擎对接,利用大语言模型筛选和处理网络信息(如智能版“朝闻天下”、市场情绪分析等案例)。
- 智能Agent与复杂任务自动化:讲解如何借助高级API(例如function calling、assistant API)构建AI Agent,实现代码审查、任务规划等复杂任务,案例详解:Code-Chat-Reviewer。
5. 微调与蒸馏
- 微调原理与应用:澄清关于微调的常见误解,介绍微调的原理、技术方案以及实际应用流程。
- 蒸馏原理与应用:讲解AI模型蒸馏的原理,大模型蒸馏的常用方法及实际应用场景。
三、GPT及大模型在软件开发全生命周期中的应用
1. 软件需求分析与领域建模
- 利用大模型辅助需求分析、领域建模及相关文档生成,提高项目初期的信息提炼效率。
2. 架构设计与系统规划
- 使用大模型辅助架构决策、设计模式选择以及生成与评估架构设计文档,提升软件系统设计效率。
3. 程序开发、代码生成与重构
- 展示大模型在代码生成、代码审核和重构中的实际应用,促进软件开发自动化与效率提升。
4. 测试与缺陷修复
- 利用大模型生成测试用例,辅助进行缺陷分析与修复,保障软件质量。
5. 综合开发案例
- 分享通过大模型赋能实现软件开发全生命周期的典型案例,展示实战效果。
四、国产与开源大模型、技术综合比较及安全合规
1. 国产与开源大模型简介
- 介绍国产大模型(如DeepSeek、千问)与开源大模型(如Llama等)的发展现状、生态体系及关键技术特点。
2. 开源大模型部署实践
- 讲解如何运行开源大模型、部署为HTTP服务并对外提供访问,分享具体部署经验和操作指南。
3. 开源大模型微调实践
- 结合案例介绍如何对开源大模型进行微调,解析LoRA等技术的底层原理及实际操作中的技术细节。
4. 基于国产与开源大模型构建行业应用
- 展示如何利用国产与开源大模型构建行业应用,与GPT系列进行对比,分析各自优势与局限。
5. 安全与合规问题
- 探讨国产及开源大模型在数据隐私、网络安全、政府合规等方面的问题,分享合法合规使用大模型的策略和注意事项。
五、总结与未来展望
1. 重点回顾
- 总结全课程涉及的核心技术、案例及实践经验,回顾生成式AI与大模型在各环节中的关键作用。
2. 未来发展展望
- 分析大模型技术未来发展趋势(如“推理时算力扩展”、“多模态协同”等新方向),探讨国产大模型(如DeepSeek系列)的未来应用前景及其对企业与岗位的潜在影响。