课程大纲
模块一:大模型基础(第一天)
理论向(上午):大模型技术背景与应用介绍
1.热身暖场:自我介绍&引子(chatGPT的前世今生)
2. 大模型的能力演进与现实边界:探讨大模型的技术能力和前沿进化方向。
a. 闭源模型概览(chatGPT、Claude、Gemini、kimi等)
b. 国外开源大模型概览(llama、Grok、Mistral、Gemma等)
c. 国内开源大模型概览(通义千问、百川、智谱、deepseek等)
d. 生活中的大模型:以搜索应用为例(秘塔猫、Kimi、Perplexity 等)
e. 前沿能力与展望
3. 大模型业界前沿产品与公司
a. 大模型应用行业地图(工具向 & 娱乐向)
b. 基础类大模型应用(chatGPT、豆包 等)
c. 办公泛工具类(AI-PPT、效率、创意)
d. 垂直场景类2B应用(客服、营销、培训等)
e. 情感陪伴类C端应用(星野、talkie、筑梦岛等)
f. 金融大模型场景实践(咨询问答、售前客服、安全风控)
4. 互动:自由问答
实践向(下午):大模型在公司的应用路径
1. 大模型应用开发实践范式(整体开发流程介绍,包括安全、备案需求)
a. 技术路线选型
b. 落地实践路径
c. 团队构成与资源准备
d. 模型安全、模型备案、算法备案
2. 大模型落地失败的一百种可能性(介绍当下哪些能力具备,而哪些能力不具备)
3. 提示词工程的最佳实践【实践-prompt】
a. 基于结构化prompt
b. 基于CoT的prompt优化
c. 基于RAG的领域能力提升
d. 基于functionCall的专业能力提升
e. 基于ReAct框架协同推理与行动
f. 实例演示:短信编写、SQL生成、角色扮演
4. 互动:自由问答,帮助听众结合自身场景,通过修改Prompt构造方法,基于RAG技术,产出对应领域问答Bot
模块二:多模态基础(第二天)
理论向(上午):多模态技术背景与应用介绍
1.热身暖场:自我介绍&引子(Sora/LumaAI/多模态效果展示)
2. 生成式AI与多模态技术背景:探讨生成模型类型、工作原理及应用场景,包括文本、图像、视频生成等。
a. 多模态大模型技术(性能、价格、速度)
b. 图片可控生产技术(填充、涂抹、增强)
c. Sora类视频化技术(运动、实体一致性、3D化)
d. ASR、有声、音乐技术(情感、旋律、音质)
e. 虚拟人、具身智能与基础算力服务
3. 多模态业界前沿产品介绍。
a. 多模态应用行业地图(工具向 & 娱乐向)
b. 基础类视觉图片应用(美图、稿定、MJ等)
c. 基础类视频应用(Runway、Pika、Pixelverse & 快手可灵、LumaAI)
d. 营销类产品应用(妙思、轻舸、来画 )
e. AI+行业(教育/医疗/硬件 等)
4. 互动:自由问答
实践向(下午):多模态在内容型公司的应用路径
1. 多模态应用开发实践范式(整体开发流程介绍)
2. 落地技术选型(提示词工程、开源模型微调与私有化部署)
3. 开发资源与团队构成(人员配置、开发工具、业务场景发现)
4. 当前内部应用示例(垂类模型、可控生图、规模化成本)
5. 图像实践展开:
a. 文生图:Lora概念与常用推荐、提示词书写规则 等;
b. 图生图:关键词反推、局部重绘、画风转化 等;
c. ControlNet:插件原理、字体设计、AI模特服装 等;
6. SD-WebUI与ComfyUI实践展示
模块二:AIGC生产环境落地(第三天)
理论(上午):AIGC技术原理概览
1. 世界模型的起源?
a. AI视频模型技术演进(VDM/MAV/AnimateDiff/SVD/DIT/Sora)
b. 大模型发展:多模态输入、多模态输出
2. 生产环境下AIGC落地
a. 文字:故事/互动游戏/信息抽取
b. 图片:IP衍生品/社区配图/多格漫
c. 有声:多播、音乐、情感、模仿
d. 虚拟人:数字分身、互动唱歌、直播
3. 成本与收益(GPU选型、推理加速框架、极限成本、市场价格)
4. 互动:自由问答
实践(下午):多模态在影视漫游类的应用
1. 拆解高质量“AI我中华”视频生产用到了哪些多模态工具
a. 创意文案部分:剧本与创意模板提示词;
b. 图片部分:可控重绘、高质超分、插帧渲染 等;
c. 视频部分:SVD、Dreamina、Runway等;
d. 音乐部分:Suno、韵律模型、声音克隆 等;
e. 整体合成:市场成本、实际成本;
2. 自我实践高质量素材:
a. 打造自有工作流
b. 创意:如何基于ChatGPT输出创意
c. 图片:如何基于ComfyUI输出图片
d. 视频:如何基于Dremina输出视频
e. 声音:如何基于chatTTS输出音频
f. 音乐:如何基于Suno输出背景音乐
3. 互动:
a. 自由问答
b. 分组练习:结合自己工作的业务特点进行效果输出AIGC效果。
模块四:Agent平台与实践落地(第四天)
理论(上午):Agent原理与概要
1. 从GPTs 到 AI Agent
2. AI Agent工具概览
3. AI Agent在外部公司落地效果
a. Agent for 金融(资讯总结、文档生成、合规审查等)
b. Agent for 营销(图像加工、视频创意、风格转换等)
c. Aegnt for 客服(多轮问询、音频控制、服务提供等)
4. 核心功能介绍
a. 插件系统
b. 知识库与数据库
c. 工作流与图像流
5. 业务场景讨论与QA
实践(下午):Agent平台实践指导
1. 实践Dify/Coze 类Agent平台(以Coze为例):
a. 简介:Workflow工作流与调试 介绍;
b. 初试:快速创建与标准创建;
c. 验证:打造带Function Call能力的Agent(创建Bot与使用插件);
d. 多模态:Coze 图像流 操作手册;
e. 场景实践(英语陪练、知识库问答、毛胚房装修、电商广告图像流 等);
2. 互动:
a. 自由问答
b. 分组练习:结合自己工作的业务特点进行智能体建模。
模块五:AIGC比赛与AI落地工作坊(第五天)
理论(上午):AI应用工作坊
1. 需求挖掘:自有行业痛点、其他行业智能化爆点
2. 能力准备:创意、思想实验、用户视角、智能化专家+行业专家
3. 计划书交付:背景+联接+创意+探索+突破→结果展望
4. 业务场景讨论与QA:行业洞察+AI最佳实践
a. 列举企业或行业三个痛点或待解决的问题点;
b. 初步定位近似行业或企业AI价值点;
c. 引导讨论组团队构思解决办法;
5. 落地路线规划:尝试拆解刚刚构思的场景该如何落地
a. 解读:业务与数字化战略、场景解读;
b. 关键要素分析:数据、算力、成本、用户体验;
c. 技术整体蓝图:
i. AI应用模式(提示词、RAG、微调 等差异)
ii. 能力获取模式(开源/闭源;公网/私有化)
iii. 成本收益、价值、风险点、实施建议
d. 落地路径:
i. 落地项目时间规划、资源投入、风险验证
ii. 最小POC尝试并展示
实践(下午):AIGC-hackthon(黑客马拉松)
1. AIGC工坊落地项目:
a. 参加方法:
i. 参赛选手需要基于Coze或者Dify创建一个图文创作类 AI Bot,如 AI 文案优化,AI 视觉设计,AI 版式布局、AI 生图工具,AI海报设计等。
ii. 优雅的设计感及具备创意的展示形式会让使用者眼前一亮,能提高图文创作效率和质量会为你的作品加分!
iii. 希望你的作品带有专属你的独特创意想法,在业务落地领域有实现长期价值的潜力;
b. 参考内容:
i. 大语言模型基础知识
ii. AI模型优化与设计
iii. 场景赋能工作场景
iv. 应用创新与评估管理
c. 比赛方式:组队完成搭建
d. 认证方式:按一二三等奖来进行发布
2. 互动:
a. 试模拟组队。
b. 尝试内容参考:(需结合业务场景)
¡ 内容生成:例如,AI可以自动编写文章,然后为文章选择或生成相应的图片。
¡ 图文理解:为给定的图片找到最合适的文字描述,或为给定的文字找到最相匹配的图片。
¡ 数据可视化:将复杂的数据进行可视化展示,用图表、信息图等方式进行显示,使数据解读更直观、简洁。
¡ 设计辅助:例如生成LOGO,海报设计等。
¡ 自动化排版:根据文本内容与结构,自动进行页面布局与美观的排版。
¡ 图文识别:在借助OCR技术进行图文抓取内容后,AI能够理解并处理这些信息。
¡ 资讯总结: AI可以对大量新闻和社交媒体信息进行自动编辑和汇总,生成有趣的图文摘要。
¡ 艺术创作:辅助绘画、音乐创作、文学创作等艺术领域,鼓励参赛者探索AI与艺术和业务结合的新模式。
¡ 营销设计:例如素材设计与趋势预测。