4006-998-758
3000+课程任你选择
全方位的剖析大模型原理
研发学院 全方位剖析大模型原理
Tyler

Ø  阿里任职期间后负责阿里云多部门算法工作,操盘过多项国家级产业项目算法工作。曾在多家世界500强企业承担人工智能技术负责人工作,具备深厚的数据智能系统研究和架构经验,实战经验覆盖包括C端B端的用户和商业化产品;

Ø  负责团队内部的技术招聘和面试工作,累计面试千人。作为阿里云内部“布道师”参与多场内部培训

Ø  全国信息学联赛一等奖保送并毕业于哈尔滨工业大学(C9),已发表多篇国际顶会和期刊发表学术论文;申请并已公开的国家发明专利 18 项,国际专利1项;

Ø  中国计算机学会技术前线委员会数据科学特邀讲者;

Ø  中国计算机学会(CCF)技术前线委员会(TF)委员人工智能与模式识别会员会委员

Ø  中国信通院标准化技术专家编委,作为主要作者参与“生成式人工智能”以及“人工智能应用安全”相关行业标准制定,致力于持续提高所负责团队以及行业的工程伦理素养。

查看老师详情
课程内容

课程时长

2天(6小时/天)

 

总体目标


全面把握 AIGC 大模型的核心原理与关键技术:覆盖国际与国内多种大模型系列(GPT、Llama、Falcon、Qwen、DeepSeek 等)。

深入理解大模型的能力输出,掌握提示词工程、检索增强、微调、预训练等核心技术:探讨各类大模型如何在业务场景中发挥优势,并对不同系列模型在成本、性能、适用场景等方面进行对比分析。

结合典型案例,对比不同大模型路线的优劣势:通过实际案例与动手实践,助力团队快速上手、评估与落地大模型方案。

 

课程大纲


模块一:生成式AI大模型基础(第一天)

  1.    热身暖场:自我介绍与学员互动

  1. 大模型诞生背景与最新趋势:国际与国内大模型格局(GPT系列、Llama系列、Falcon系列、Qwen系列、DeepSeek系列、Baichuan系列等)以及 AIGC 在文本、图像、视频、多模态等领域的应用案例与典型场景。

  2. 大模型核心原理与主流架构:Transformer 架构原理(自注意力、多头注意力、位置编码等),预训练范式(自回归与自编码),不同大模型系列在设计理念、规模参数、适用场景方面的对比。

  3. 大模型构建流程概览:数据准备(采集、标注、清洗)、训练管线(分布式训练、混合精度、微调)及部署运维(本地化或云端、硬件加速方案)整体流程梳理。

  4. 优劣势与应用成本分析:大厂 API 与开源本地部署的差异(数据安全、扩展性、团队技术门槛)、不同模型规模对性能与硬件需求的影响,以及在企业业务场景中的成本考量。

 

 

模块二:提示语工程技术(第一天)

  1. 提示词工程的基础概念:上下文学习(Few-shot、Zero-shot)原理,思维链(Chain of Thought)、自洽推理(Self-consistency)等高级提示方法,以及函数调用等扩展大模型能力的手段。

  2. 多轮对话与提示优化:对话式结构对上下文的积累与管理,国内大模型(Qwen系列、DeepSeek系列等)在多轮对话中的应用特性,提示词的复杂度与推理消耗平衡。

  3. 多提示策略优劣势及场景适配:信息抽取、问答、创意写作、代码生成等典型场景下,不同提示策略的效果对比;中文语境下提示词工程的关键技巧与注意事项。

  4. 提示词工程实践与测试:利用模板设计与 A/B 测试对比不同提示策略在准确率、连贯性、推理深度上的差异;示例展示如何在商业大模型与开源大模型之间进行选择。

模块三:知识库 / 检索增强(RAG)与企业应用(第二天)

  1. 向量检索与知识库构建:倒排索引(BM25)与语义向量检索(Faiss、Milvus、ElasticSearch)工作原理,Embedding 技术(文本、图像、多模态)的关键要点。

  2. 检索增强(RAG)框架:“检索 + 生成”双模块的核心机制,如何在大模型推理流程中灵活调用外部知识库;各大模型系列与 RAG 的集成思路。

  3. RAG 适用场景与成本分析:开源或自建 vs. SaaS 或云端托管服务,从安全性、数据敏感度、硬件成本等多维度比较;多路召回与重排技术在检索准确度提升中的作用。

  4. 典型企业应用案例:问答机器人、知识管理平台、企业客服场景,通过实际项目分析 RAG 在提升回答准确性与覆盖面的表现,以及国内大模型在中文场景下的实际效果。

模块四:模型微调与预训练深入剖析(第二天)

  1. 预训练与微调核心原理:自监督学习(Next Token Prediction、Masked Language      Model 等)、全参数微调与轻量化微调(LoRA、Prefix      Tuning、低比特量化)等方法的区别与优势。

  2. 指令对齐      (Instruct Tuning) 与 RLHF:Instruct      Tuning、Self-Instruct、RLHF(人类反馈强化学习)在各大模型系列中的应用和案例;不同指令对齐方法的关键流程和难点。

  3. 微调技术成本与适用场景:全量微调 vs. 增量微调 vs. LoRA 对训练时长、硬件资源需求的影响;行业数据的收集、标注与对齐方式,如何避免模型遗忘通用能力。

  4. 垂直行业大模型案例:金融、医疗、教育、零售等业务领域的大模型微调实践经验,结合国内外大模型在中文领域的微调效果,对比在准确率、泛化能力和成本上的差异。

模块五:多模态与多智能体(第二天)

  1. 多模态大模型与应用趋势:图文、语音、视频等多模态融合思路,多模态在搜索、推荐、生成等方面的潜力,国内外多模态研究进展。

  2. 多智能体系统与自动化工作流:多 Agent 框架(Auto-GPT、BabyAGI 等)原理,LangChain Agents、LangFlow 等工具如何编排复杂任务与外部资源调用。

  3. 前沿研究与社区动态:开源社区(Hugging Face、GitHub Trending)、学术会议等信息来源,跨模态检索与生成、RPA、决策支持等最新落地案例。

返回上一级