查看: 197|回复: 6

spark在海量数据处理上,比hadoop的优势在哪里?

[复制链接]
论坛徽章:
2
spark徽章
日期:2018-08-24 10:52:51Kaggle徽章
日期:2018-09-13 15:33:11
发表于 2018-6-10 21:39 | 显示全部楼层 |阅读模式

Hadoop Spark 数据处理

Hadoop因为hive的稳定性和易操作性,在处理海量数据时候,虽然有时候慢点,但是一直都很方便解决问题。但是现在大家都在谈spark,它的优势在哪里呢?
回复

使用道具 举报

论坛徽章:
2
spark徽章
日期:2018-08-24 10:52:51Kaggle徽章
日期:2018-09-13 15:33:11
 楼主| 发表于 2018-6-10 21:40 | 显示全部楼层
我就知道大家都说spark基于内存的,处理速度快,可是实际工作中,可没有那么多的内存供我们进行海量数据处理啊,那为什么还用spark,优势是什么呢?
回复 支持 反对

使用道具 举报

论坛徽章:
37
R研习者中级
日期:2016-10-20 16:44:19matlab徽章
日期:2017-11-30 15:58:00Kaggle徽章
日期:2017-12-25 17:28:27Kaggle徽章
日期:2017-12-25 17:28:34NLP徽章
日期:2017-12-25 17:31:02Julia徽章
日期:2017-12-25 17:39:24时间序列分析徽章
日期:2018-02-08 16:18:26金融徽章
日期:2018-03-01 16:43:15Tensorflow徽章
日期:2018-03-01 16:44:34计算徽章
日期:2018-03-19 15:04:31python徽章
日期:2018-03-23 10:45:53Hadoop研习者中级
日期:2018-04-02 15:22:57
发表于 2018-6-10 23:06 | 显示全部楼层
基于内存的方式,Rdd  dataframe dataset方式,比Hadoop 的MapReduce好不少的地方;还有钨丝计划等等。
回复 支持 反对

使用道具 举报

论坛徽章:
8
Hadoop研习者初级
日期:2014-09-19 14:12:21比特币徽章
日期:2014-11-06 14:54:26scala徽章
日期:2014-11-06 14:55:58scala徽章
日期:2014-11-27 15:51:52搜索引擎徽章
日期:2016-08-18 11:36:51计算徽章
日期:2018-07-17 16:42:49spark徽章
日期:2018-08-24 10:52:07spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-10 23:47 | 显示全部楼层
数据量在一定规模的时候,用spark更快,hadoop的mapreduce多用于离线计算
回复 支持 反对

使用道具 举报

论坛徽章:
5
R研习者中级
日期:2016-09-01 09:57:02数据陷阱解读徽章
日期:2016-09-22 11:18:45抽样调查徽章
日期:2016-09-22 11:20:26统计徽章
日期:2016-11-24 11:28:37bash徽章
日期:2017-06-01 17:10:16
发表于 2018-8-26 14:29 | 显示全部楼层
讲真,如果不是实时要求,我才不想用spark,纯提数据hive就很好。当然spark更灵活
回复 支持 反对

使用道具 举报

新浪微博达人勋 ckk 实名认证
论坛徽章:
0
发表于 2018-8-26 20:18 | 显示全部楼层
Hadoop一般用于离线数据处理
Spark,Storm一般用于实时数据处理
回复 支持 反对

使用道具 举报

论坛徽章:
3
金融徽章
日期:2018-03-01 16:44:04金融徽章
日期:2018-06-14 15:37:05Kaggle徽章
日期:2018-09-13 15:33:11
发表于 2018-8-27 07:59 | 显示全部楼层
spark基于内存的,处理速度快
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-9-21 04:55 , Processed in 0.126827 second(s), 52 queries .