查看: 65|回复: 2

[转载] Hadoop性能调优全面总结

[复制链接]
论坛徽章:
26
perl徽章
日期:2015-09-25 17:35:49nosql徽章
日期:2017-06-15 17:32:54机器学习徽章
日期:2017-09-19 11:01:51Excel徽章
日期:2018-01-04 17:13:02Java徽章
日期:2018-01-04 17:15:14Excel徽章
日期:2018-03-01 16:43:21Oracle研习者高级
日期:2018-08-24 10:52:12技术内幕徽章
日期:2018-08-30 15:34:06机器学习徽章
日期:2018-11-16 14:11:57python徽章
日期:2018-11-29 14:52:29Java徽章
日期:2018-12-13 15:57:02python徽章
日期:2018-12-20 15:14:57
发表于 2019-6-2 23:46 | 显示全部楼层 |阅读模式

tm HTML Hadoop

回复

使用道具 举报

论坛徽章:
26
perl徽章
日期:2015-09-25 17:35:49nosql徽章
日期:2017-06-15 17:32:54机器学习徽章
日期:2017-09-19 11:01:51Excel徽章
日期:2018-01-04 17:13:02Java徽章
日期:2018-01-04 17:15:14Excel徽章
日期:2018-03-01 16:43:21Oracle研习者高级
日期:2018-08-24 10:52:12技术内幕徽章
日期:2018-08-30 15:34:06机器学习徽章
日期:2018-11-16 14:11:57python徽章
日期:2018-11-29 14:52:29Java徽章
日期:2018-12-13 15:57:02python徽章
日期:2018-12-20 15:14:57
 楼主| 发表于 2019-6-2 23:46 | 显示全部楼层
随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
回复 支持 反对

使用道具 举报

论坛徽章:
10
Oracle研习者初级
日期:2014-09-19 14:07:42redis徽章
日期:2018-06-21 17:16:11mysql徽章
日期:2017-12-22 16:01:10python徽章
日期:2017-08-17 17:09:36mysql徽章
日期:2017-05-25 16:50:35Mycat徽章
日期:2017-02-23 15:56:04大型分布式徽章
日期:2017-02-16 16:49:55mysql徽章
日期:2016-07-14 11:09:49Oracle研习者中级
日期:2016-06-02 10:27:16python徽章
日期:2018-12-20 15:14:57
发表于 2019-6-6 16:14 | 显示全部楼层
总结
本文档介绍Hadoop现有的优化点,总体来说,对于Hadoop平台,现在主要有三种优化思路,分别为:从应用程序角度角度进行优化;从参数配置角度进行优化;从系统实现角度进行优化。对于第一种思路,需要根据具体应用需求而定,同时也需要在长期实践中积累和总结;对于第二种思路,大部分采用的方法是根据自己集群硬件和具体应用调整参数,找到一个最优的。对于第三种思路,难度较大,但效果往往非常明显,总结这方面的优化思路,主要有以下几个:

(1) 对namenode进行优化,包括增加其吞吐率和解决其单点故障问题。当前主要解决方案有3种:分布式namenode,namenode热备和zookeeper。

(2)HDFS小文件问题。当Hadoop中存储大量小文件时,namenode扩展性和性能受到极大制约。现在Hadoop中已有的解决方案包括:Hadoop Archive,Sequence file和CombineFileInputFormat。

(3)调度框架优化。在Hadoop中,每当出现一个空闲slot后,tasktracker都需要通过HEARBEAT向jobtracker所要task,这个过程的延迟比较大。可以用task预调度的策略解决该问题。

(4)共享环境下的文件并发存取。在共享环境下,HDFS的随机寻道次数增加,这大大降低了文件存取效率。可以通过优化磁盘调度策略的方法改进。

(5) 索引。索引可以大大提高数据读取效率,如果能根据实际应用需求,为HDFS上的数据添加索引,将大大提高效率。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2019-6-17 11:15 , Processed in 0.136776 second(s), 34 queries .

关闭

扫一扫加入
本版微信群