查看: 409|回复: 6

所有人都在谈spark,那么hadoop过时了么?

[复制链接]
论坛徽章:
10
JVM徽章
日期:2014-12-24 15:14:33架构徽章
日期:2018-05-03 15:48:06Kafka徽章
日期:2018-03-23 10:45:46R研习者高级
日期:2018-01-18 18:00:50Java徽章
日期:2018-01-04 17:15:14spark徽章
日期:2017-11-23 16:58:47机器学习徽章
日期:2017-05-18 16:19:25python徽章
日期:2017-03-02 16:34:48python徽章
日期:2017-01-06 10:51:34spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-8 11:03 | 显示全部楼层 |阅读模式

Hadoop Spark

所有人都在谈spark,那么Hadoop过时了么?
至少,CDH,HDP和MapR都是以hadoop为核心,来扩展spark的。
回复

使用道具 举报

论坛徽章:
10
JVM徽章
日期:2014-12-24 15:14:33架构徽章
日期:2018-05-03 15:48:06Kafka徽章
日期:2018-03-23 10:45:46R研习者高级
日期:2018-01-18 18:00:50Java徽章
日期:2018-01-04 17:15:14spark徽章
日期:2017-11-23 16:58:47机器学习徽章
日期:2017-05-18 16:19:25python徽章
日期:2017-03-02 16:34:48python徽章
日期:2017-01-06 10:51:34spark徽章
日期:2018-08-24 10:52:51
 楼主| 发表于 2018-6-8 11:04 | 显示全部楼层
 Hadoop 这个单词如今铺天盖地,几乎成了大数据的代名词。仅仅数年时间,Hadoop 从边缘技术迅速成长为一个事实标准。如今想玩转大数据,搞企业分析或者商业智能,没有 Hadoop 还真不行。但 Hadoop 狂热的背后却酝酿着一场技术变革,Hadoop 的核心技术在 Google 那里已经过时,因为 Hadoop 并不擅长处理“快数据”。
回复 支持 反对

使用道具 举报

论坛徽章:
10
JVM徽章
日期:2014-12-24 15:14:33架构徽章
日期:2018-05-03 15:48:06Kafka徽章
日期:2018-03-23 10:45:46R研习者高级
日期:2018-01-18 18:00:50Java徽章
日期:2018-01-04 17:15:14spark徽章
日期:2017-11-23 16:58:47机器学习徽章
日期:2017-05-18 16:19:25python徽章
日期:2017-03-02 16:34:48python徽章
日期:2017-01-06 10:51:34spark徽章
日期:2018-08-24 10:52:51
 楼主| 发表于 2018-6-8 11:04 | 显示全部楼层
Hadoop 生态系统

  我们再回头看看 Apache Hadoop 的两大组成部分:Hadoop 分布式文件系统和 Hadoop,确实就是 GFS 和 GMR 的翻版。虽然 Hadoop 正在发展成为一个无所不包的数据管理和处理生态系统,但是在这个生态系统的核心,依然是 MapReduce 系统。所有的数据和应用最终都将降解为 Map 和 Reduce 的工作。
回复 支持 反对

使用道具 举报

论坛徽章:
10
JVM徽章
日期:2014-12-24 15:14:33架构徽章
日期:2018-05-03 15:48:06Kafka徽章
日期:2018-03-23 10:45:46R研习者高级
日期:2018-01-18 18:00:50Java徽章
日期:2018-01-04 17:15:14spark徽章
日期:2017-11-23 16:58:47机器学习徽章
日期:2017-05-18 16:19:25python徽章
日期:2017-03-02 16:34:48python徽章
日期:2017-01-06 10:51:34spark徽章
日期:2018-08-24 10:52:51
 楼主| 发表于 2018-6-8 11:07 | 显示全部楼层
别老扯什么Hadoop了,你的数据根本不够大!
回复 支持 反对

使用道具 举报

论坛徽章:
1
spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-10 20:40 | 显示全部楼层
首先,Hadoop中的HDFS和YARN是很多框架的基础,例如Spark、HBase、Hive
其次,虽然Spark的速度是Hadoop的十倍以上,但是Spark的数据往往来自于Hive,而Hive的底层存储位于HDFS,而且现在工厂环境下的Spark一般是Yarn Cluster模式,依赖于Hadoop的YARN资源调度框架
因此,Hadoop依然是整个大数据体系的核心
回复 支持 反对

使用道具 举报

论坛徽章:
2
spark徽章
日期:2018-08-24 10:52:51Kaggle徽章
日期:2018-09-13 15:33:11
发表于 2018-6-10 21:42 | 显示全部楼层
我知道的,也都是基于hadoop为核心,来扩展spark的。都说spark好,但是应该还需要一些时间来时间上大规模扩展吧
回复 支持 反对

使用道具 举报

论坛徽章:
3
mahout徽章
日期:2014-11-06 14:57:37Excel徽章
日期:2016-03-10 10:21:15机器学习徽章
日期:2017-04-20 17:20:56
发表于 2018-8-20 21:05 | 显示全部楼层
我的理解是没有过时的,还有很多地方用到
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-9-21 15:22 , Processed in 0.789919 second(s), 48 queries .