查看: 171|回复: 0

Hadoop的优势

[复制链接]
新浪微博达人勋 xenron  实名认证
论坛徽章:
251
股票徽章
日期:2019-09-12 14:42:59spark徽章
日期:2019-09-19 15:44:06人工智能徽章
日期:2019-09-19 15:47:00区块链徽章
日期:2019-09-19 15:47:29python徽章
日期:2019-09-19 15:47:56
发表于 2019-6-3 06:42 | 显示全部楼层 |阅读模式

算法 存储 Hadoop 机器学习 集群

Benchmark:
  Hadoop现在保持了很多漂亮的记录:
  存储:现在世界上较大的Hadoop集群目前在Facebook,可以存储30PB的数据
  计算:Hadoop是目前Terasort记录的保持者,Terasort是给出1TB的随机数据,看谁能够在最短的时间内完成排序,Hadoop使用了1400多个节点,在2分钟内完成1T的数据排序。
  这里顺便说一下,之前给出网站里面有很多的benchmark,可以看到Hadoop的集群是较大的,使用的机器最多的,像是TritonSort这样的集群,使用了区区50多个节点,最终的结果并不比Hadoop差太多,但是这里得注意一下。TritonSort是专门用来做排序的,里面加入了相当多的优化,但是Hadoop是一个通用的集群,并没有为了一种任务进行如此多的优化。从用户的角度上来说,愿意花钱去买一个只会排序的电脑是意义不那么大的。

  注:左右两边属于两种不同的terasort,hadoop是其中一种的记录保持者
  能做什么?
  前面说的基本的存储和计算Hadoop是一定能胜任的,下面谈谈一些“高级”的功能。
  常见的数据库操作,比如orderby、select这样的操作都可以的,Hive就是支持这样的SQL模型,能够将SQL语句最终转化到Map-Reduce程序中去。其性能和可用性已经得到了证明,Facebook就用它做了不少的数据分析的工作
  常见的机器学习、矩阵分析算法,目前Mahout作为一个发展迅速的项目,在逐渐填补Hadoop在机器学习领域的空白,现在常见的分类、聚类、推荐、主成分分析算法(比如SVD)都已经有相应的Map-Reduce实现了。虽然目前从用户群和效率上来说是不够的,但是从它的发展来说应该会很快的达到工业界的标准
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2019-9-20 15:24 , Processed in 0.131610 second(s), 29 queries .

关闭

扫一扫加入
本版微信群