4006-998-758
3000+课程任你选择
Data + AI :构建智能驱动的数据应用
研发学院 Data + AI :构建智能驱动的数据应用
张利兵


讲师介绍

张老师

第四范式数据中台架构师

Apache Flink 的贡献者

《Flink 原理、实战与性能优化》作者

张老师在大数据领域深耕了7年之久,曾主导某国企银行实时风控平台的产品研发和部署,带领团队进行某轨道行业实时运维智能平台的架构与研发工作。在大数据领域拥有非常丰富的工作经验,对 Hadoop、Spark、Flink、机器学习等大数据技术有着深入的了解。张利兵老师同是也获得了Cloudera CCAH 认证,Cloudera SEBC认证以及Cloudera 认证讲师,拥有非常丰富的授课经验。


查看老师详情
课程内容

课程大纲

时间安排

课程内容

实践环节

Day1 上午

Data + AI   概述

l  定义、目标、优势

l  发展历程与行业趋势

¢  演进路径:从传统数据分析 → 机器学习 → 深度学习 → 生成式 AI 的技术迭代

¢  行业应用现状:金融(风控 / 反欺诈)、医疗(影像诊断)、零售(智能推荐)、制造业(预测性维护)等领域的典型落地案例

l  技术融合趋势

¢  多模态   AI:结合图像、文本、语音等多种数据类型的分析

¢  边缘   AI:在终端设备上运行轻量级 AI 模型(如智能摄像头实时识别)

¢  联邦学习:隐私保护下的分布式数据协作建模

l  应用场景:智能推荐、预测分析、自然语言处理、图像识别

l  业务价值与 ROI 分析

l  架构与核心组件:数据源、数据平台、AI引擎、应用服务,大模型服务

l  定义与目标

¢  构建可靠的数据管道:保障数据传输的稳定性(减少中断)、准确性(数据不丢失 / 不篡改)

¢  构建高效的数据管道:提升数据处理速度(降低延迟)、优化资源成本(存储 / 计算效率)

¢  支撑上层应用:为数据分析、AI 建模、业务决策提供 “随时可用”   的高质量数据

l  核心任务

¢  数据采集,数据清洗,数据转换,数据存储

l  ETL 工具

¢  开源工具:Apache NiFi(可视化流程设计)、DataX(多源数据同步)、Apache Flink(实时 ETL)

¢  商业工具:Informatica、Talend、AWS Glue(云原生 ETL)

l  数据仓库

¢  传统数据仓库:Teradata、IBM Netezza(适用于结构化数据、高并发查询)

¢  云数据仓库:Snowflake、Amazon Redshift、阿里云 AnalyticDB(弹性扩展、按需付费)

l  数据湖

¢  存储引擎:HDFS(本地部署)、Amazon S3、阿里云 OSS(对象存储,适合非结构化数据)

¢  管理工具:Apache Hudi(数据湖事务管理)、Delta Lake(ACID 特性支持)

l  数据治理工具

¢  元数据管理:Apache Atlas、Alation(数据血缘追踪、数据资产目录)

¢  数据质量监控:Great Expectations(定义数据校验规则)、Talend Data   Quality(自动化质量检测)

构建数据管道,从多个数据源采集数据

Day1 下午

l  数据湖与数据仓库

¢  对比:结构化、半结构化、非结构化数据存储差异

¢  数据湖架构与特点:灵活存储、Schema-on-Read、低成本

¢  数据仓库架构与特点:结构化存储、Schema-on-Write、高性能查询

¢  湖仓一体(Lakehouse),hudi,iceberg,paimon

¢  批流一体(Flink)

在云平台上搭建数据湖或数据仓库

l  数据治理

¢  定义与目标:确保数据质量、安全、合规

¢  核心任务:元数据管理、数据质量管理、数据安全管理

¢  技术选型:数据目录、数据血缘、数据脱敏、访问控制

实施数据治理策略,保障数据质量和安全

Day2 上午

l  机器学习基础

¢  定义与类型:监督学习、非监督学习、强化学习

¢  常用算法:线性回归、逻辑回归、决策树、SVM、K均值聚类

¢  模型评估指标:准确率、召回率、F1值、AUC - Python和Scikit-learn基础

使用Scikit-learn构建简单的分类模型

l  深度学习基础

¢  定义与特点:多层神经网络、自动特征提取

¢  常用算法:CNN、RNN、Transformer  

¢  应用场景:图像识别、自然语言处理、语音识别

¢  TensorFlow或PyTorch基础

调用   API 实现 NL2SQL、搭建 RAG 系统处理私有文档、微调开源模型适配垂直领域

l  LLM大模型

¢  定义与特点

n  基于   Transformer 架构,参数量级从数十亿到数万亿,具备强大的文本理解与生成能力,支持超长上下文与多场景适配

¢  技术架构

n  预训练   - 微调范式(海量文本预训练 + 领域数据微调),依赖自注意力机制实现并行处理与长距离语义理解

¢  核心能力

n  文本生成、逻辑推理、多轮对话、跨模态交互(部分模型)、代码生成等

¢  Data + AI   场景应用:

n  数据分析辅助:自动生成 SQL/Python 代码、数据质量规则、解析元数据

n  业务流程优化:智能报告生成、自然语言查询(NL2SQL)、非结构化文档结构化转换

n  AI 开发支持:生成训练数据、解释模型决策、辅助代码开发与调试

¢  技术栈与工具:

n  模型选型:闭源模型(GPT 系列、文心一言 API)、开源模型(LLaMA 2、Qwen)

n  开发框架:LangChain(流程编排)、LlamaIndex(私有数据增强)、PEFT(参数高效微调)

n  部署优化:推理加速(vLLM)、量化压缩(INT4/INT8)、容器化部署

¢  挑战与应对:

n  核心挑战:幻觉问题、算力成本高、伦理合规风险

n  解决策略:RAG 检索增强(缓解幻觉)、模型量化(降本)、数据脱敏与内容过滤(合规)


Day2 下午

推荐系统

l  定义与目标:个性化推荐、提升用户体验

l  常用算法:协同过滤、基于内容的推荐、深度学习推荐模型

l  TensorFlow或PyTorch基础

构建基于协同过滤的推荐系统

Data + AI   应用案例学习与分析

l  案例:智能推荐系统、NLP智能客服、图像识别质检、时间序列预测风控、智能运维

l  案例分析:技术架构、实现步骤、挑战与解决方案

将现有程序进行Data + AI能力强化改造

LLM 在   Data + AI 中的应用

l  LLM在数据分析领域的应用场景

l  数据清洗、转换、增强;生成优化SQL代码;辅助数据可视化与洞察

l  OpenAI   API和Langchain使用

使用OpenAI   API和Langchain自动生成数据质量检测规则,进行数据探索

高级Data   + AI主题(三选一)

- 选项A:强化学习应用(Q-learning、SARSA、DQN、PPO;环境建模与智能体训练)

- 选项B:图神经网络在Data + AI中的应用(补充图数据处理、模型构建等内容)

对应主题的实践训练(如强化学习智能体训练、图神经网络建模等)


返回上一级