Hadoop开发、运维和调优实战

研发学院 Hadoop开发、运维和调优实战

刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验，实施过基于Hadoop平台PageRank算法的实现，在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验，了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情

课程内容

课程信息

此课程是长期工作在一线Hadoop架构师精心设计的课程，7年左右的大数据平台深度开发和运维的宝贵经验。

课程特色

随着大数据平台使用的深入，会出现横多问题，《大数据平台管理员课程》专门为您定制化一套大数据平台管理的课程，让您使用大数据平台能够游刃有余，高效、快乐的运维您的大数据平台。

课程收益

您的大数据平台是否遇到如下一些问题：

1.大数据平台的硬件平台如何优化和选型？

2.出现问题不知道如何入手？

3.随着节点、数据量、任务数的增多集群不稳定？

4.集群的计算资源还有很多，但是运行任务特别慢？

5.想把不同的节点计算资源定向的分配给某些任务（如：30节点搭建的集群，10个节点分配给MapReduce、Hive离线计算；10各节点分配给Hbase任务；10个节点分配给Spark任务？）

6.集群的安全不知道如何控制？

7.Hbase随着数据量的增加新能快速的下降？

8.不同用户、部门如何高效、安全的接入大数据平台？

这门课程帮助您解决上面所有常见的问题。

课程对象

1.大数据运维工程师

2.大数据开发工程师

3.对大数据运维、优化感兴趣的同学

学员基础

1.从事大数据平台的开发和运维人员

2.熟悉linux系统和Shell

3.有一定的大数据开发或者运维的基础

4.未来从事Hadoop管理员的工作者

课程大纲

主题	内容
大数据的整体技术架构	● 开源大数据技术架构 ● 开源大数据常用组件之间的依赖关系 ● 离线计算框架介绍 Mapreduce、Hive、Tez、Presto、Kylin ● 实时查询框架介绍 NoSQL、Hbase ● 实时计算框架介绍 Kafka、Strom、Spark Streaming ● 内存计算框架介绍 Spark、SparkSQL、SparkMllib、SparkR ● 前沿大数据技术介绍 ● Flink、Drill、Druid、KUDU等 ● 海量日志快速检索架构 ELK（Elasticsearch、Logstash、Kibana）等
Hadoop平台优化点	● Linux系统的优化 ● 最佳硬件的选择和建议 ● HDFS架构和原理 ● HDFS的优化、维护和经常出现的问题 ● MapReduce架构和原理 ● MapReduce的优化、维护和经常出现的问题 ● Yarn的内存、CPU和IO的优化 ● Hbase的优化和生产环境常见的问题 ● Hive的优化和Hive的改进工具介绍 ● Impala、Kylin、Presto工具介绍 ● RCFile、ORC和parquet格式介绍
Hadoop核心组件的运维	● HDFS的元数据管理 ● FSimage和Edit文件解析 ● 手动修改FSimage和Edit文件 ● HDFS HA的架构运维解析 ● Yarn服务运维详解 ● Yarn核心配置参数的详解 ● Hbase服务运维详解 ● 手动设置Split和Compaction操作 ● RS宕机的运维处理 ● Hbase 超大表的优化实践
Yarn资源管理	● Yarn的原理和架构 ● Yarn资源调度策略 ● CPU、内存和IO三种资源调度优化 ● Yarn资源调度Capacity详解 ● JobHistory的功能介绍 ● Yarn动态资源的设置 ● 动态分配特定节点给每个应用（MR、Strom、Spark、Hbase等） ● 基于Yarn平台任务的监控实现一统计每个任务运行的时间、在哪个队列、哪个用户、平均执行时间等等
Hbase运维和优化	● Hbase重要参数优化 ● Hbase读性能优化 ● Hbase写性能优化 ● Hbase表优化 ● Hbase split优化 ● Hbase compaction优化 ● RS Group多租户原理 ● RS失败的无痛恢复机制
大数据平台安全设置	● Kerberos原理介绍 ● Hadoop与Kerberos集成 ● Sentry、Ranger工具介绍 ● 大数据平台资源安全控制 ● HDFS安全控制实践 ● Hive安全控制实践 ● Hbase安全控制实践
300个节点大数据运维实战	● 300节点的Hadoop平台介绍 ● 平台的优化介绍 ● 平台的动态资源分配 ● 平台的安全控制介绍 ● 客户端连接Hadoop平台介绍 ● 集群的安全控制介绍

返回上一级

课程时长

3天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级