查看: 97|回复: 3

spark在海量数据处理上,比hadoop的优势在哪里?

[复制链接]
论坛徽章:
0
发表于 2018-6-10 21:39 | 显示全部楼层 |阅读模式

Hadoop Spark 数据处理

Hadoop因为hive的稳定性和易操作性,在处理海量数据时候,虽然有时候慢点,但是一直都很方便解决问题。但是现在大家都在谈spark,它的优势在哪里呢?
回复

使用道具 举报

论坛徽章:
0
 楼主| 发表于 2018-6-10 21:40 | 显示全部楼层
我就知道大家都说spark基于内存的,处理速度快,可是实际工作中,可没有那么多的内存供我们进行海量数据处理啊,那为什么还用spark,优势是什么呢?
回复 支持 反对

使用道具 举报

论坛徽章:
35
R研习者中级
日期:2016-10-20 16:44:19R研习者中级
日期:2017-10-26 15:08:38matlab徽章
日期:2017-11-30 15:58:00Kaggle徽章
日期:2017-12-25 17:28:27Kaggle徽章
日期:2017-12-25 17:28:34NLP徽章
日期:2017-12-25 17:31:02Julia徽章
日期:2017-12-25 17:39:24时间序列分析徽章
日期:2018-02-08 16:18:26金融徽章
日期:2018-03-01 16:43:15Tensorflow徽章
日期:2018-03-01 16:44:34计算徽章
日期:2018-03-19 15:04:31python徽章
日期:2018-03-23 10:45:53
发表于 2018-6-10 23:06 | 显示全部楼层
基于内存的方式,Rdd  dataframe dataset方式,比Hadoop 的MapReduce好不少的地方;还有钨丝计划等等。
回复 支持 反对

使用道具 举报

论坛徽章:
6
Hadoop研习者初级
日期:2014-09-19 14:12:21比特币徽章
日期:2014-11-06 14:54:26scala徽章
日期:2014-11-06 14:55:58scala徽章
日期:2014-11-27 15:51:52搜索引擎徽章
日期:2016-08-18 11:36:51计算徽章
日期:2018-07-17 16:42:49
发表于 2018-6-10 23:47 | 显示全部楼层
数据量在一定规模的时候,用spark更快,hadoop的mapreduce多用于离线计算
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-7-22 20:52 , Processed in 0.113544 second(s), 38 queries .