大数据平台集群性能调优
随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark、Flink、Storm、Impala等技术,其中Hadoop、Hive、Spark已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。Hadoop、Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围广泛、前景非常广阔。采用Hadoop、Spark的目的,主要是为了使大数据处理任务速度更快,效率更高。Hadoop、Spark运行在大量的x86服务器集群中,在使用过程中不可避免的遇到性能瓶颈,这些性能问题可能是用法不对,可能是算法不是分布式算法,或者可能是数据倾斜导致等,因此需要进行一系列的性能优化,本培训尹老师总结和归纳多年工作经验,就Hadoop、Spark、Hive、SparkSQL、Shark、Imapla等大数据技术的性能调优进行深入剖析,使学员从实操层面提升到大数据技术核心原理层面进行调优,并通过生动的案例展示优化过程与效果,调优的范围包括规划调优、部署调优、硬件调优、网络调优、参数调优、开发调优、算法调优、运行调优、作业调优、数据调优和资源调优等。
尹立庆
资深软件架构师
移动云计算专家
数学博士