DeepSeek,大模型

DeepSeek大模型专题

研发学院 DeepSeek 大模型

Tyler

Ø 阿里任职期间，先后负责阿里云多部门算法工作，操盘过多项国家级产业项目算法工作。曾在多家世界500强企业承担人工智能技术负责人工作，具备深厚的数据智能系统研究和架构经验，实战经验覆盖包括C端B端的用户和商业化产品；

Ø 负责团队内部的技术招聘和面试工作，累计面试千人。作为阿里云的内部“布道师”参与多场内部培训。

Ø 全国信息学联赛一等奖保送并毕业于哈尔滨工业大学（C9），已发表多篇国际顶会和期刊发表学术论文；申请并已公开的国家发明专利 18 项，国际专利1项；

Ø 中国计算机学会技术前线委员会数据科学特邀讲者；

Ø 中国计算机学会（CCF）技术前线委员会（TF）委员，人工智能与模式识别会员会委员；

Ø 中国信通院标准化技术专家编委，作为主要作者参与“生成式人工智能”以及“人工智能应用安全”相关行业标准制定，致力于持续提高所负责团队以及行业的工程伦理素养。

课程内容

课程大纲

第一部分：Deepseek Shock 的经过、背景和总览

Deepseek Shock 事件的爆发引发了业界的广泛关注，展现了其背后的技术积累和战略布局。作为一个新兴但极具影响力的大模型，Deepseek 在短时间内引发讨论，不仅源于其技术突破，更涉及市场策略的考量。

1. 事件背景：Deepseek Shock 事件的起因源于其技术突破和战略发布，随后迅速在业界引起广泛讨论。相较于其他大模型，Deepseek 选择了一条不同的发展路径，专注于计算资源效率最大化，使其在有限资源条件下仍能实现高性能模型的训练。

2. 影响分析：该事件对大模型竞争格局产生了深远影响，引发资本市场的积极关注，并促使行业重新审视 AI 计算资源的优化方向。Deepseek 通过差异化战略赢得了市场认可，同时也引发了关于计算成本、推理能力和可持续发展路径的深入讨论。

第二部分：Deepseek 论文与核心技术解读

Deepseek 论文展示了其关键技术优势，并提供了深入的理论支持。其核心技术决定了模型的计算效率、推理能力及适应性。

1. 论文概述：论文的主要研究方向涉及高效计算框架、模型架构优化以及推理能力提升，并在 AI 领域引发了广泛的研究和讨论。Deepseek 通过深度优化 Transformer 结构，使其在训练效率和推理能力上超越同类大模型。

2. 核心技术分析：Deepseek 采用 MoE 架构优化计算效率，结合 MLA 机制提升注意力计算精度，同时利用 RL 进行强化训练，并通过 SFT 进一步微调，使其在多种任务上均表现优异。相比传统 Transformer 结构，Deepseek 在计算开销与任务泛化能力之间找到了更优平衡点。

第三部分：Deepseek 低成本推断与训练优化

Deepseek 通过高效的并行计算架构和推理优化策略，实现了低成本、高性能的训练和推断能力。

1. 训练优化：介绍 DP、TP、PP 和 EP 并行策略，理解Deepseek 如何在保证模型训练质量的同时，提高了计算效率，降低了计算资源消耗。此外，Deepseek 采用 DualPipe 训练流水线，大幅降低大模型训练的时延和能耗。

2. 推理优化：MTP 在推理过程中优化多轮交互，提高模型响应能力，同时结合硬件优化策略，实现低成本推理方案。相较于 OpenAI 方案，Deepseek 通过更轻量级的模型压缩和计算优化，在性能损失可控的前提下，实现了显著的推理加速。

第四部分：Deepseek v3/r1 对标 OpenAI GPT-o1

Deepseek v3/r1 在多个维度上与 OpenAI GPT-o1 进行对标，以明确其技术优势和市场竞争力。

1. 主要对比维度：在对话质量、生成能力、逻辑推理、知识应用以及计算成本等方面，Deepseek v3/r1 体现出不同于 OpenAI GPT-o1 的技术特点。其在多任务处理上的适应性、推理效率以及低成本部署等方面展现了独特优势。

2. 业界评价与事实澄清：业界对 Deepseek 的表现有不同看法，主流 AI 研究者基于实验数据进行了评价，同时针对市场上存在的误解进行了澄清。

第五部分：Deepseek 运行推断实例与典型案例展示

通过实际运行和案例分析，展示 Deepseek 在不同应用场景中的表现。

1. 运行环境与部署：介绍 Deepseek 推理环境的搭建方法、部署流程及常见问题，以帮助开发者高效使用模型。其推理框架兼容主流 AI 硬件，并可适配各种分布式计算环境。

2. 典型应用案例：展示 Deepseek 在文本理解、知识推理、代码生成等任务中的实际表现，并与 OpenAI、Meta Llama 进行对比。实际应用表明，Deepseek 在代码生成领域表现突出，能够生成更结构化的代码片段，提升开发效率。

3. 行业应用场景：在搜索增强、企业知识库、AI 助理等多个行业应用中，Deepseek 通过高效推理与低成本方案，展现了其在实际场景中的适应性和价值。例如，在金融领域，Deepseek 通过知识图谱增强，显著提升了自动化决策的精准度。

返回上一级

课程时长

2天

课程排期

待定

课程推荐