课程大纲
时间安排 | 课程内容 | 实践环节 |
Day1 上午 | Data + AI 概述 l 定义、目标、优势 l 发展历程与行业趋势 ¢ 演进路径:从传统数据分析 → 机器学习 → 深度学习 → 生成式 AI 的技术迭代 ¢ 行业应用现状:金融(风控 / 反欺诈)、医疗(影像诊断)、零售(智能推荐)、制造业(预测性维护)等领域的典型落地案例 l 技术融合趋势: ¢ 多模态 AI:结合图像、文本、语音等多种数据类型的分析 ¢ 边缘 AI:在终端设备上运行轻量级 AI 模型(如智能摄像头实时识别) ¢ 联邦学习:隐私保护下的分布式数据协作建模 l 应用场景:智能推荐、预测分析、自然语言处理、图像识别 l 业务价值与 ROI 分析 l 架构与核心组件:数据源、数据平台、AI引擎、应用服务,大模型服务 | 无 |
l 定义与目标 ¢ 构建可靠的数据管道:保障数据传输的稳定性(减少中断)、准确性(数据不丢失 / 不篡改) ¢ 构建高效的数据管道:提升数据处理速度(降低延迟)、优化资源成本(存储 / 计算效率) ¢ 支撑上层应用:为数据分析、AI 建模、业务决策提供 “随时可用” 的高质量数据 l 核心任务 ¢ 数据采集,数据清洗,数据转换,数据存储 l ETL 工具 ¢ 开源工具:Apache NiFi(可视化流程设计)、DataX(多源数据同步)、Apache Flink(实时 ETL) ¢ 商业工具:Informatica、Talend、AWS Glue(云原生 ETL) l 数据仓库 ¢ 传统数据仓库:Teradata、IBM Netezza(适用于结构化数据、高并发查询) ¢ 云数据仓库:Snowflake、Amazon Redshift、阿里云 AnalyticDB(弹性扩展、按需付费) l 数据湖 ¢ 存储引擎:HDFS(本地部署)、Amazon S3、阿里云 OSS(对象存储,适合非结构化数据) ¢ 管理工具:Apache Hudi(数据湖事务管理)、Delta Lake(ACID 特性支持) l 数据治理工具 ¢ 元数据管理:Apache Atlas、Alation(数据血缘追踪、数据资产目录) ¢ 数据质量监控:Great Expectations(定义数据校验规则)、Talend Data Quality(自动化质量检测) | 构建数据管道,从多个数据源采集数据 | |
Day1 下午 | l 数据湖与数据仓库 ¢ 对比:结构化、半结构化、非结构化数据存储差异 ¢ 数据湖架构与特点:灵活存储、Schema-on-Read、低成本 ¢ 数据仓库架构与特点:结构化存储、Schema-on-Write、高性能查询 ¢ 湖仓一体(Lakehouse),hudi,iceberg,paimon ¢ 批流一体(Flink) | 在云平台上搭建数据湖或数据仓库 |
l 数据治理 ¢ 定义与目标:确保数据质量、安全、合规 ¢ 核心任务:元数据管理、数据质量管理、数据安全管理 ¢ 技术选型:数据目录、数据血缘、数据脱敏、访问控制 | 实施数据治理策略,保障数据质量和安全 | |
Day2 上午 | l 机器学习基础 ¢ 定义与类型:监督学习、非监督学习、强化学习 ¢ 常用算法:线性回归、逻辑回归、决策树、SVM、K均值聚类 ¢ 模型评估指标:准确率、召回率、F1值、AUC - Python和Scikit-learn基础 | 使用Scikit-learn构建简单的分类模型 |
l 深度学习基础 ¢ 定义与特点:多层神经网络、自动特征提取 ¢ 常用算法:CNN、RNN、Transformer ¢ 应用场景:图像识别、自然语言处理、语音识别 ¢ TensorFlow或PyTorch基础 | 调用 API 实现 NL2SQL、搭建 RAG 系统处理私有文档、微调开源模型适配垂直领域 | |
l LLM大模型 ¢ 定义与特点 n 基于 Transformer 架构,参数量级从数十亿到数万亿,具备强大的文本理解与生成能力,支持超长上下文与多场景适配 ¢ 技术架构 n 预训练 - 微调范式(海量文本预训练 + 领域数据微调),依赖自注意力机制实现并行处理与长距离语义理解 ¢ 核心能力 n 文本生成、逻辑推理、多轮对话、跨模态交互(部分模型)、代码生成等 ¢ Data + AI 场景应用: n 数据分析辅助:自动生成 SQL/Python 代码、数据质量规则、解析元数据 n 业务流程优化:智能报告生成、自然语言查询(NL2SQL)、非结构化文档结构化转换 n AI 开发支持:生成训练数据、解释模型决策、辅助代码开发与调试 ¢ 技术栈与工具: n 模型选型:闭源模型(GPT 系列、文心一言 API)、开源模型(LLaMA 2、Qwen) n 开发框架:LangChain(流程编排)、LlamaIndex(私有数据增强)、PEFT(参数高效微调) n 部署优化:推理加速(vLLM)、量化压缩(INT4/INT8)、容器化部署 ¢ 挑战与应对: n 核心挑战:幻觉问题、算力成本高、伦理合规风险 n 解决策略:RAG 检索增强(缓解幻觉)、模型量化(降本)、数据脱敏与内容过滤(合规) | ||
Day2 下午 | l 定义与目标:个性化推荐、提升用户体验 l 常用算法:协同过滤、基于内容的推荐、深度学习推荐模型 l TensorFlow或PyTorch基础 | 构建基于协同过滤的推荐系统 |
Data + AI 应用案例学习与分析 l 案例:智能推荐系统、NLP智能客服、图像识别质检、时间序列预测风控、智能运维 l 案例分析:技术架构、实现步骤、挑战与解决方案 | 将现有程序进行Data + AI能力强化改造 | |
LLM 在 Data + AI 中的应用 l LLM在数据分析领域的应用场景 l 数据清洗、转换、增强;生成优化SQL代码;辅助数据可视化与洞察 l OpenAI API和Langchain使用 | 使用OpenAI API和Langchain自动生成数据质量检测规则,进行数据探索 | |
高级Data + AI主题(三选一) - 选项A:强化学习应用(Q-learning、SARSA、DQN、PPO;环境建模与智能体训练) - 选项B:图神经网络在Data + AI中的应用(补充图数据处理、模型构建等内容) | 对应主题的实践训练(如强化学习智能体训练、图神经网络建模等) |