大模型基础，AIGC

AI培训

研发学院大模型基础 AIGC

Richard

曾任百度资深算法专家，先后负责百度商业知识图谱、凤巢广告转化率算法等工作，多年搜索、大数据工作经验，专注自然语言处理与人工智能方向；

现任腾讯系某子公司AIGC负责人，负责大模型、多模态、产研落地与知识管理与评估等多个团队工作，带领团队发布并落地内容行业垂类模型，并通过网信办备案；

在多模态内容理解、角色对话、视频生成等多个方向有实际场景落地，有大量一线实操经验，搭建千卡规模集群，AIGC业务单日服务用户超百万，并走通商业化模式；

曾获CCKS中文知识图谱大赛第一名，就职期间申请并有权的国家发明专利15+；中国计算机学会（CCF）上海自然语言处理专委（TF）委员； CCF-BDCI-2023第十一届大数据与计算智能大赛特等奖；

查看老师详情

课程内容

课程大纲

模块一：大模型基础（第一天）

理论向（上午）：大模型技术背景与应用介绍

1.热身暖场：自我介绍&引子（chatGPT的前世今生）

2.大模型的能力演进与现实边界：探讨大模型的技术能力和前沿进化方向。

a. 闭源模型概览（chatGPT、Claude、Gemini、kimi等）

b. 国外开源大模型概览（llama、Grok、Mistral、Gemma等）

c. 国内开源大模型概览（通义千问、百川、智谱、deepseek等）

d. 生活中的大模型：以搜索应用为例（秘塔猫、Kimi、Perplexity等）

e. 前沿能力与展望

3.大模型业界前沿产品与公司

a. 大模型应用行业地图（工具向 & 娱乐向）

b. 基础类大模型应用（chatGPT、豆包等）

c. 办公泛工具类（AI-PPT、效率、创意）

d. 垂直场景类2B应用（客服、营销、培训等）

e. 情感陪伴类C端应用（星野、talkie、筑梦岛等）

f. 金融大模型场景实践（咨询问答、售前客服、安全风控）

4.互动：自由问答

实践向（下午）：大模型在公司的应用路径

1.大模型应用开发实践范式（整体开发流程介绍，包括安全、备案需求）

a. 技术路线选型

b. 落地实践路径

c. 团队构成与资源准备

d. 模型安全、模型备案、算法备案

2.大模型落地失败的一百种可能性（介绍当下哪些能力具备，而哪些能力不具备）

3.提示词工程的最佳实践【实践-prompt】

a. 基于结构化prompt

b. 基于CoT的prompt优化

c. 基于RAG的领域能力提升

d. 基于functionCall的专业能力提升

e. 基于ReAct框架协同推理与行动

f. 实例演示：短信编写、SQL生成、角色扮演

4.互动：自由问答，帮助听众结合自身场景，通过修改Prompt构造方法，基于RAG技术，产出对应领域问答Bot

模块二：多模态基础（第二天）

理论向（上午）：多模态技术背景与应用介绍

1.热身暖场：自我介绍&引子（Sora/LumaAI/多模态效果展示）

2.生成式AI与多模态技术背景：探讨生成模型类型、工作原理及应用场景，包括文本、图像、视频生成等。

a. 多模态大模型技术（性能、价格、速度）

b. 图片可控生产技术（填充、涂抹、增强）

c. Sora类视频化技术（运动、实体一致性、3D化）

d. ASR、有声、音乐技术（情感、旋律、音质）

e. 虚拟人、具身智能与基础算力服务

3.多模态业界前沿产品介绍。

a. 多模态应用行业地图（工具向 & 娱乐向）

b. 基础类视觉图片应用（美图、稿定、MJ等）

c. 基础类视频应用（Runway、Pika、Pixelverse & 快手可灵、LumaAI）

d. 营销类产品应用（妙思、轻舸、来画）

e. AI+行业（教育/医疗/硬件等）

4.互动：自由问答

实践向（下午）：多模态在内容型公司的应用路径

1.多模态应用开发实践范式（整体开发流程介绍）

2.落地技术选型（提示词工程、开源模型微调与私有化部署）

3.开发资源与团队构成（人员配置、开发工具、业务场景发现）

4.当前内部应用示例（垂类模型、可控生图、规模化成本）

5.图像实践展开：

a. 文生图：Lora概念与常用推荐、提示词书写规则等；

b. 图生图：关键词反推、局部重绘、画风转化等；

c. ControlNet：插件原理、字体设计、AI模特服装等；

6.SD-WebUI与ComfyUI实践展示

模块二：AIGC生产环境落地（第三天）

理论（上午）：AIGC技术原理概览

1.世界模型的起源？

a. AI视频模型技术演进（VDM/MAV/AnimateDiff/SVD/DIT/Sora）

b. 大模型发展：多模态输入、多模态输出

2.生产环境下AIGC落地

a. 文字：故事/互动游戏/信息抽取

b. 图片：IP衍生品/社区配图/多格漫

c. 有声：多播、音乐、情感、模仿

d. 虚拟人：数字分身、互动唱歌、直播

3.成本与收益（GPU选型、推理加速框架、极限成本、市场价格）

4.互动：自由问答

实践（下午）：多模态在影视漫游类的应用

1.拆解高质量“AI我中华”视频生产用到了哪些多模态工具

a. 创意文案部分：剧本与创意模板提示词；

b. 图片部分：可控重绘、高质超分、插帧渲染等；

c. 视频部分：SVD、Dreamina、Runway等；

d. 音乐部分：Suno、韵律模型、声音克隆等；

e. 整体合成：市场成本、实际成本；

2.自我实践高质量素材：

a. 打造自有工作流

b. 创意：如何基于ChatGPT输出创意

c. 图片：如何基于ComfyUI输出图片

d. 视频：如何基于Dremina输出视频

e. 声音：如何基于chatTTS输出音频

f. 音乐：如何基于Suno输出背景音乐

3.互动：

a. 自由问答

b. 分组练习：结合自己工作的业务特点进行效果输出AIGC效果。

模块四：Agent平台与实践落地（第四天）

理论（上午）：Agent原理与概要

1.从GPTs 到 AI Agent

2.AI Agent工具概览

3.AI Agent在外部公司落地效果

a. Agent for 金融（资讯总结、文档生成、合规审查等）

b. Agent for 营销（图像加工、视频创意、风格转换等）

c. Aegnt for 客服（多轮问询、音频控制、服务提供等）

4.核心功能介绍

a. 插件系统

b. 知识库与数据库

c. 工作流与图像流

5.业务场景讨论与QA

实践（下午）：Agent平台实践指导

1.实践Dify/Coze 类Agent平台（以Coze为例）：

a. 简介：Workflow工作流与调试介绍；

b. 初试：快速创建与标准创建；

c. 验证：打造带Function Call能力的Agent（创建Bot与使用插件）；

d. 多模态：Coze 图像流操作手册；

e. 场景实践（英语陪练、知识库问答、毛胚房装修、电商广告图像流等）；

2.互动：

a. 自由问答

b. 分组练习：结合自己工作的业务特点进行智能体建模。

模块五：AIGC认证与AI落地工作坊（第五天）

理论（上午）：AI应用工作坊

1.需求挖掘：自有行业痛点、其他行业智能化爆点

2.能力准备：创意、思想实验、用户视角、智能化专家+行业专家

3.计划书交付：背景+联接+创意+探索＋突破→结果展望

4.业务场景讨论与QA：行业洞察+AI最佳实践

a. 列举企业或行业三个痛点或待解决的问题点；

b. 初步定位近似行业或企业AI价值点；

c. 引导讨论组团队构思解决办法；

5.落地路线规划：尝试拆解刚刚构思的场景该如何落地

a. 解读：业务与数字化战略、场景解读；

b. 关键要素分析：数据、算力、成本、用户体验；

c. 技术整体蓝图：

i. AI应用模式（提示词、RAG、微调等差异）

ii. 能力获取模式（开源/闭源；公网/私有化）

iii. 成本收益、价值、风险点、实施建议

d. 落地路径：

iv. 落地项目时间规划、资源投入、风险验证

v. 最小POC尝试并展示

实践（下午）：AIGC认证

1.AIGC提示工程师认证项目：

a. 评价单位：工业和信息部教育与考试中心；

b. 考试内容：

i. 大语言模型基础知识

ii. AI模型优化与设计

iii. 场景赋能工作场景

iv. 应用创新与评估管理

c. 考试方式：在线考试

d. 认证方式：

v. 通过后颁发工信部考试中心敲章证书；

vi. 可以于工信部学习中心官网在线查询；

2.互动：

a. 尝试模拟考试。

返回上一级

课程时长

5天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级