4006-998-758
3000+课程任你选择
联邦学习与强化学习
研发学院 联邦学习 代码 开课时间:2023-02-15
邹伟

睿客邦创始人

中国软件行业协会专家委员

华东建筑设计研究总院研究员

山东交通学院客座教授

南昌航空大学校外硕士生导师

东北石油大学硕士生导师

天津大学创业导师

领导睿客邦与全国多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域,擅长利用AI技术解决工业、工程中的复杂问题。


查看老师详情
课程内容

第一章 联邦学习

FATE中的联邦学习算法

联邦学习算法分类

横向联邦学习

纵向联邦学习

迁移联邦学习

平台的安装和使用:Linux或Mac 

Native部署: 单机部署和集群部署

KubeFATE

JDK、Virtualenv、MySQL、Redis的使用

Docker

手动编译单机版本

从单机部署迁移到集群部署

配置文件

开发或者测试场景docker-compose

生产环境:Kubernetes

综合运行与测试


第二章 隐私计算

多方安全计算 MPC

秘密共享

不经意传输

混淆电路

同态加密

零知识证明

数据不充分的通路建立

加密样本对齐

加密模型训练

公钥私钥密码体系

差分隐私

交互式差分隐私保护框架

非交互式差分隐私保护框架

局部差分隐私


第三章 联邦学习代码和案例实践

联邦学习解决传统机器学习的问题

保险定价的策略指定

小微企业信贷风险管理

联邦学习在深度学习视觉领域的应用

在线模型的更新和反馈


第四章 蒙特卡罗算法

蒙特卡罗核心思想

蒙特卡罗评估

增量式方法 

蒙特卡罗控制 

在线策略/离线策略

在线策略蒙特卡罗算法 

重要性采样离线策略蒙特卡罗算法 

加权重要性采样离线策略蒙特卡罗算法 


第五章 SARSA和Q-Learning

时序差分简介、TD目标值 / TD 误差

DP/MC/TD对比

在线策略TD:Sarsa算法

离线策略TD:Q-learning算法 


第六章 深度强化学习

表格型强化学习/函数近似型强化学习

线性逼近/非线性逼近


增量法

值函数逼近-Sarsa算法 

批量法

值函数逼近-Q-learning算法 

人工神经网络(卷积、池化、全连接)

DQN方法 

Double DQN方法 

Dueling DQN方法 


第七章 博弈强化学习(第七天,后半段)

博弈及博弈树 

极大极小搜索 

Alpha-Beta 搜 索 

蒙特卡罗树搜索 

AlphaGo基本原理

AlphaGo神经网络

AlphaGo蒙特卡罗树搜索 

AlphaGo的整体思路 

AlphaGo Zero下棋原理

AlphaGo Zero的网络结构 

AlphaGo Zero的蒙特卡罗树搜索 

AlphaGo Zero总结

AlphaZero 


强化学习代码和案例实践: 

环境描述

Sarsa算法运行流程

Q-learning算法运行流程 

核心代码演示

游戏简介及环境描述

MCTS+神经网络算法

算法小结


返回上一级