Data + AI ：构建智能驱动的数据应用

研发学院 Data + AI ：构建智能驱动的数据应用

张利兵

第四范式数据中台架构师

Apache Flink 的贡献者

《Flink 原理、实战与性能优化》作者

张老师在大数据领域深耕了7年之久，曾主导某国企银行实时风控平台的产品研发和部署，带领团队进行某轨道行业实时运维智能平台的架构与研发工作。在大数据领域拥有非常丰富的工作经验，对 Hadoop、Spark、Flink、机器学习等大数据技术有着深入的了解。张利兵老师同是也获得了Cloudera CCAH 认证，Cloudera SEBC认证以及Cloudera 认证讲师，拥有非常丰富的授课经验。

查看老师详情

课程内容

课程大纲

时间安排	课程内容	实践环节
Day1 上午	Data + AI 概述 l 定义、目标、优势 l 发展历程与行业趋势 ¢ 演进路径：从传统数据分析 → 机器学习 → 深度学习 → 生成式 AI 的技术迭代 ¢ 行业应用现状：金融（风控 / 反欺诈）、医疗（影像诊断）、零售（智能推荐）、制造业（预测性维护）等领域的典型落地案例 l 技术融合趋势： ¢ 多模态 AI：结合图像、文本、语音等多种数据类型的分析 ¢ 边缘 AI：在终端设备上运行轻量级 AI 模型（如智能摄像头实时识别） ¢ 联邦学习：隐私保护下的分布式数据协作建模 l 应用场景：智能推荐、预测分析、自然语言处理、图像识别 l 业务价值与 ROI 分析 l 架构与核心组件：数据源、数据平台、AI引擎、应用服务，大模型服务	无
Day1 上午	l 定义与目标 ¢ 构建可靠的数据管道：保障数据传输的稳定性（减少中断）、准确性（数据不丢失 / 不篡改） ¢ 构建高效的数据管道：提升数据处理速度（降低延迟）、优化资源成本（存储 / 计算效率） ¢ 支撑上层应用：为数据分析、AI 建模、业务决策提供 “随时可用” 的高质量数据 l 核心任务 ¢ 数据采集，数据清洗，数据转换，数据存储 l ETL 工具 ¢ 开源工具：Apache NiFi（可视化流程设计）、DataX（多源数据同步）、Apache Flink（实时 ETL） ¢ 商业工具：Informatica、Talend、AWS Glue（云原生 ETL） l 数据仓库 ¢ 传统数据仓库：Teradata、IBM Netezza（适用于结构化数据、高并发查询） ¢ 云数据仓库：Snowflake、Amazon Redshift、阿里云 AnalyticDB（弹性扩展、按需付费） l 数据湖 ¢ 存储引擎：HDFS（本地部署）、Amazon S3、阿里云 OSS（对象存储，适合非结构化数据） ¢ 管理工具：Apache Hudi（数据湖事务管理）、Delta Lake（ACID 特性支持） l 数据治理工具 ¢ 元数据管理：Apache Atlas、Alation（数据血缘追踪、数据资产目录） ¢ 数据质量监控：Great Expectations（定义数据校验规则）、Talend Data Quality（自动化质量检测）	构建数据管道，从多个数据源采集数据
Day1 下午	l 数据湖与数据仓库 ¢ 对比：结构化、半结构化、非结构化数据存储差异 ¢ 数据湖架构与特点：灵活存储、Schema-on-Read、低成本 ¢ 数据仓库架构与特点：结构化存储、Schema-on-Write、高性能查询 ¢ 湖仓一体（Lakehouse），hudi，iceberg，paimon ¢ 批流一体（Flink）	在云平台上搭建数据湖或数据仓库
Day1 下午	l 数据治理 ¢ 定义与目标：确保数据质量、安全、合规 ¢ 核心任务：元数据管理、数据质量管理、数据安全管理 ¢ 技术选型：数据目录、数据血缘、数据脱敏、访问控制	实施数据治理策略，保障数据质量和安全
Day2 上午	l 机器学习基础 ¢ 定义与类型：监督学习、非监督学习、强化学习 ¢ 常用算法：线性回归、逻辑回归、决策树、SVM、K均值聚类 ¢ 模型评估指标：准确率、召回率、F1值、AUC - Python和Scikit-learn基础	使用Scikit-learn构建简单的分类模型
	l 深度学习基础 ¢ 定义与特点：多层神经网络、自动特征提取 ¢ 常用算法：CNN、RNN、Transformer ¢ 应用场景：图像识别、自然语言处理、语音识别 ¢ TensorFlow或PyTorch基础	调用 API 实现 NL2SQL、搭建 RAG 系统处理私有文档、微调开源模型适配垂直领域
	l LLM大模型 ¢ 定义与特点 n 基于 Transformer 架构，参数量级从数十亿到数万亿，具备强大的文本理解与生成能力，支持超长上下文与多场景适配 ¢ 技术架构 n 预训练 - 微调范式（海量文本预训练 + 领域数据微调），依赖自注意力机制实现并行处理与长距离语义理解 ¢ 核心能力 n 文本生成、逻辑推理、多轮对话、跨模态交互（部分模型）、代码生成等 ¢ Data + AI 场景应用： n 数据分析辅助：自动生成 SQL/Python 代码、数据质量规则、解析元数据 n 业务流程优化：智能报告生成、自然语言查询（NL2SQL）、非结构化文档结构化转换 n AI 开发支持：生成训练数据、解释模型决策、辅助代码开发与调试 ¢ 技术栈与工具： n 模型选型：闭源模型（GPT 系列、文心一言 API）、开源模型（LLaMA 2、Qwen） n 开发框架：LangChain（流程编排）、LlamaIndex（私有数据增强）、PEFT（参数高效微调） n 部署优化：推理加速（vLLM）、量化压缩（INT4/INT8）、容器化部署 ¢ 挑战与应对： n 核心挑战：幻觉问题、算力成本高、伦理合规风险 n 解决策略：RAG 检索增强（缓解幻觉）、模型量化（降本）、数据脱敏与内容过滤（合规）
Day2 下午	推荐系统 l 定义与目标：个性化推荐、提升用户体验 l 常用算法：协同过滤、基于内容的推荐、深度学习推荐模型 l TensorFlow或PyTorch基础	构建基于协同过滤的推荐系统
	Data + AI 应用案例学习与分析 l 案例：智能推荐系统、NLP智能客服、图像识别质检、时间序列预测风控、智能运维 l 案例分析：技术架构、实现步骤、挑战与解决方案	将现有程序进行Data + AI能力强化改造
	LLM 在 Data + AI 中的应用 l LLM在数据分析领域的应用场景 l 数据清洗、转换、增强；生成优化SQL代码；辅助数据可视化与洞察 l OpenAI API和Langchain使用	使用OpenAI API和Langchain自动生成数据质量检测规则，进行数据探索
	高级Data + AI主题（三选一） - 选项A：强化学习应用（Q-learning、SARSA、DQN、PPO；环境建模与智能体训练） - 选项B：图神经网络在Data + AI中的应用（补充图数据处理、模型构建等内容）	对应主题的实践训练（如强化学习智能体训练、图神经网络建模等）

返回上一级

课程时长

一天天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级