4006-998-758
3000+课程任你选择
DeepSeek大模型专题
研发学院 DeepSeek 大模型
Tyler

Ø  阿里任职期间后负责阿里云多部门算法工作,操盘过多项国家级产业项目算法工作。曾在多家世界500强企业承担人工智能技术负责人工作,具备深厚的数据智能系统研究和架构经验,实战经验覆盖包括C端B端的用户和商业化产品;

Ø  负责团队内部的技术招聘和面试工作,累计面试千人。作为阿里云内部“布道师”参与多场内部培训

Ø  全国信息学联赛一等奖保送并毕业于哈尔滨工业大学(C9),已发表多篇国际顶会和期刊发表学术论文;申请并已公开的国家发明专利 18 项,国际专利1项;

Ø  中国计算机学会技术前线委员会数据科学特邀讲者;

Ø  中国计算机学会(CCF)技术前线委员会(TF)委员人工智能与模式识别会员会委员

Ø  中国信通院标准化技术专家编委,作为主要作者参与“生成式人工智能”以及“人工智能应用安全”相关行业标准制定,致力于持续提高所负责团队以及行业的工程伦理素养。

查看老师详情
课程内容


课程大纲


第一部分:Deepseek Shock 的经过、背景和总览

Deepseek Shock 事件的爆发引发了业界的广泛关注,展现了其背后的技术积累和战略布局。作为一个新兴但极具影响力的大模型,Deepseek 在短时间内引发讨论,不仅源于其技术突破,更涉及市场策略的考量。

1. 事件背景:Deepseek Shock 事件的起因源于其技术突破和战略发布,随后迅速在业界引起广泛讨论。相较于其他大模型,Deepseek 选择了一条不同的发展路径,专注于计算资源效率最大化,使其在有限资源条件下仍能实现高性能模型的训练。

2. 影响分析:该事件对大模型竞争格局产生了深远影响,引发资本市场的积极关注,并促使行业重新审视 AI 计算资源的优化方向。Deepseek 通过差异化战略赢得了市场认可,同时也引发了关于计算成本、推理能力和可持续发展路径的深入讨论。

第二部分:Deepseek 论文与核心技术解读

Deepseek 论文展示了其关键技术优势,并提供了深入的理论支持。其核心技术决定了模型的计算效率、推理能力及适应性。

1. 论文概述:论文的主要研究方向涉及高效计算框架、模型架构优化以及推理能力提升,并在 AI 领域引发了广泛的研究和讨论。Deepseek 通过深度优化 Transformer 结构,使其在训练效率和推理能力上超越同类大模型。

2. 核心技术分析:Deepseek 采用 MoE 架构优化计算效率,结合 MLA 机制提升注意力计算精度,同时利用 RL 进行强化训练,并通过 SFT 进一步微调,使其在多种任务上均表现优异。相比传统 Transformer 结构,Deepseek 在计算开销与任务泛化能力之间找到了更优平衡点。

第三部分:Deepseek 低成本推断与训练优化

Deepseek 通过高效的并行计算架构和推理优化策略,实现了低成本、高性能的训练和推断能力。

1. 训练优化:介绍 DP、TP、PP 和 EP 并行策略,理解Deepseek 如何在保证模型训练质量的同时,提高了计算效率,降低了计算资源消耗。此外,Deepseek 采用 DualPipe 训练流水线,大幅降低大模型训练的时延和能耗。

2. 推理优化:MTP 在推理过程中优化多轮交互,提高模型响应能力,同时结合硬件优化策略,实现低成本推理方案。相较于 OpenAI 方案,Deepseek 通过更轻量级的模型压缩和计算优化,在性能损失可控的前提下,实现了显著的推理加速。

第四部分:Deepseek v3/r1 对标 OpenAI GPT-o1

Deepseek v3/r1 在多个维度上与 OpenAI GPT-o1 进行对标,以明确其技术优势和市场竞争力。

1. 主要对比维度:在对话质量、生成能力、逻辑推理、知识应用以及计算成本等方面,Deepseek v3/r1 体现出不同于 OpenAI GPT-o1 的技术特点。其在多任务处理上的适应性、推理效率以及低成本部署等方面展现了独特优势。

2. 业界评价与事实澄清:业界对 Deepseek 的表现有不同看法,主流 AI 研究者基于实验数据进行了评价,同时针对市场上存在的误解进行了澄清。

第五部分:Deepseek 运行推断实例与典型案例展示

通过实际运行和案例分析,展示 Deepseek 在不同应用场景中的表现。

1. 运行环境与部署:介绍 Deepseek 推理环境的搭建方法、部署流程及常见问题,以帮助开发者高效使用模型。其推理框架兼容主流 AI 硬件,并可适配各种分布式计算环境。

2. 典型应用案例:展示 Deepseek 在文本理解、知识推理、代码生成等任务中的实际表现,并与 OpenAI、Meta Llama 进行对比。实际应用表明,Deepseek 在代码生成领域表现突出,能够生成更结构化的代码片段,提升开发效率。

3. 行业应用场景:在搜索增强、企业知识库、AI 助理等多个行业应用中,Deepseek 通过高效推理与低成本方案,展现了其在实际场景中的适应性和价值。例如,在金融领域,Deepseek 通过知识图谱增强,显著提升了自动化决策的精准度。


返回上一级