课程信息
此课程是长期工作在一线Hadoop架构师精心设计的课程,7年左右的大数据平台深度开发和运维的宝贵经验。
课程特色
随着大数据平台使用的深入,会出现横多问题,《大数据平台管理员课程》专门为您定制化一套大数据平台管理的课程,让您使用大数据平台能够游刃有余,高效、快乐的运维您的大数据平台。
课程收益
您的大数据平台是否遇到如下一些问题:
1.大数据平台的硬件平台如何优化和选型?
2.出现问题不知道如何入手?
3.随着节点、数据量、任务数的增多集群不稳定?
4.集群的计算资源还有很多,但是运行任务特别慢?
5.想把不同的节点计算资源定向的分配给某些任务(如:30节点搭建的集群,10个节点分配给MapReduce、Hive离线计算;10各节点分配给Hbase任务;10个节点分配给Spark任务?)
6.集群的安全不知道如何控制?
7.Hbase随着数据量的增加新能快速的下降?
8.不同用户、部门如何高效、安全的接入大数据平台?
这门课程帮助您解决上面所有常见的问题。
课程对象
1.大数据运维工程师
2.大数据开发工程师
3.对大数据运维、优化感兴趣的同学
学员基础
1.从事大数据平台的开发和运维人员
2.熟悉linux系统和Shell
3.有一定的大数据开发或者运维的基础
4.未来从事Hadoop管理员的工作者
课程大纲
主题 | 内容 |
大数据的整体技术架构 | ● 开源大数据技术架构 ● 开源大数据常用组件之间的依赖关系 ● 离线计算框架介绍 Mapreduce、Hive、Tez、Presto、Kylin ● 实时查询框架介绍 NoSQL、Hbase ● 实时计算框架介绍 Kafka、Strom、Spark Streaming ● 内存计算框架介绍 Spark、SparkSQL、SparkMllib、SparkR ● 前沿大数据技术介绍 ● Flink、Drill、Druid、KUDU等 ● 海量日志快速检索架构 ELK(Elasticsearch、Logstash、Kibana)等 |
Hadoop平台优化点 | ● Linux系统的优化 ● 最佳硬件的选择和建议 ● HDFS架构和原理 ● HDFS的优化、维护和经常出现的问题 ● MapReduce架构和原理 ● MapReduce的优化、维护和经常出现的问题 ● Yarn的内存、CPU和IO的优化 ● Hbase的优化和生产环境常见的问题 ● Hive的优化和Hive的改进工具介绍 ● Impala、Kylin、Presto工具介绍 ● RCFile、ORC和parquet格式介绍 |
Hadoop核心组件的运维 | ● HDFS的元数据管理 ● FSimage和Edit文件解析 ● 手动修改FSimage和Edit文件 ● HDFS HA的架构运维解析 ● Yarn服务运维详解 ● Yarn核心配置参数的详解 ● Hbase服务运维详解 ● 手动设置Split和Compaction操作 ● RS宕机的运维处理 ● Hbase 超大表的优化实践 |
Yarn资源管理 | ● Yarn的原理和架构 ● Yarn资源调度策略 ● CPU、内存和IO三种资源调度优化 ● Yarn资源调度Capacity详解 ● JobHistory的功能介绍 ● Yarn动态资源的设置 ● 动态分配特定节点给每个应用(MR、Strom、Spark、Hbase等) ● 基于Yarn平台任务的监控实现 一统计每个任务运行的时间、在哪个队列、哪个用户、平均执行时间等等 |
| ● Hbase重要参数优化 ● Hbase读性能优化 ● Hbase写性能优化 ● Hbase表优化 ● Hbase split优化 ● Hbase compaction优化 ● RS Group多租户原理 ● RS失败的无痛恢复机制 |
大数据平台安全设置 | ● Kerberos原理介绍 ● Hadoop与Kerberos集成 ● Sentry、Ranger工具介绍 ● 大数据平台资源安全控制 ● HDFS安全控制实践 ● Hive安全控制实践 ● Hbase安全控制实践 |
300个节点大数据运维实战 | ● 300节点的Hadoop平台介绍 ● 平台的优化介绍 ● 平台的动态资源分配 ● 平台的安全控制介绍 ● 客户端连接Hadoop平台介绍 ● 集群的安全控制介绍 |