行业大模型的构建

打造你的行业大模型 —微调与应用实战

研发学院行业大模型的构建开课时间：2024-12-20

陈旸

阿里云MVP（最有价值专家）

CCF数据库专委

1. 清华大学计算机博士，九三学社成员，清华企业家协会YoungTEEC成员

2. 多次数据分析，算法比赛获奖经历，2次NOI一等奖，2次ACM亚洲铜奖

3. 在数据分析，人工智能，云计算领域较有影响力，阿里云MVP（授予AI领域），腾讯云TVP（授予AI、云计算领域），百度AI比赛教练，百度PPDE

4. 著有《数据分析》《SQL必知必会》，累计付费订阅人员超11.5万人，国内数据分析领域线上知识付费Top1

课程内容

课程大纲

l 行业大模型的构建

Ø GPT模型是如何训练的

预训练 =>监督微调 =>奖励模型 =>强化学习

Ø 预训练数据集的选择

Ø 大模型训练常见问题

Ø 开源模型如何选择

u 技术架构对比：Encoder-only, Encoder-Decoder, Decoder-Only

u 开源大模型榜单分析

u 不同场景下的开源大模型选择

Chat Model：ChatGLM4-6B, Qwen-7B/14B/72B

Code Model：CodeGeeX2, WizardCoder-7B/13B/34B

l 大模型微调实战

Ø 行业数据集的准备

Ø 全量微调 VS高效微调

Ø 主流高效微调方法：Freeze方法、P-Tuning方法、Lora方法

Ø PEFT工具使用：LORA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning

Ø 训练效果与速度对比分析

Ø CASE：行业垂直大模型训练

l 大模型RAG实战

Ø 基于RAG的大模型应用框架

Ø Text Embedding的选择

Ø 向量数据库的选择

Ø 内部知识如何清洗、切分提升RAG推理有效性

l Case：搭建本地私有知识智能客服

返回上一级

课程时长

2天

课程排期

待定

课程推荐