查看: 280|回复: 7

spark在海量数据处理上,比hadoop的优势在哪里?

[复制链接]
论坛徽章:
2
spark徽章
日期:2018-08-24 10:52:51Kaggle徽章
日期:2018-09-13 15:33:11
发表于 2018-6-10 21:39 | 显示全部楼层 |阅读模式

Hadoop Spark 数据处理

Hadoop因为hive的稳定性和易操作性,在处理海量数据时候,虽然有时候慢点,但是一直都很方便解决问题。但是现在大家都在谈spark,它的优势在哪里呢?
回复

使用道具 举报

论坛徽章:
2
spark徽章
日期:2018-08-24 10:52:51Kaggle徽章
日期:2018-09-13 15:33:11
 楼主| 发表于 2018-6-10 21:40 | 显示全部楼层
我就知道大家都说spark基于内存的,处理速度快,可是实际工作中,可没有那么多的内存供我们进行海量数据处理啊,那为什么还用spark,优势是什么呢?
回复 支持 反对

使用道具 举报

论坛徽章:
40
R研习者中级
日期:2016-10-20 16:44:19计算徽章
日期:2018-03-19 15:04:31Tensorflow徽章
日期:2018-03-01 16:44:34金融徽章
日期:2018-03-01 16:43:15时间序列分析徽章
日期:2018-02-08 16:18:26Julia徽章
日期:2017-12-25 17:39:24NLP徽章
日期:2017-12-25 17:31:02Kaggle徽章
日期:2017-12-25 17:28:34Kaggle徽章
日期:2017-12-25 17:28:27python徽章
日期:2018-03-23 10:45:53Hadoop研习者中级
日期:2018-04-02 15:22:57Tensorflow徽章
日期:2018-10-18 15:27:37
发表于 2018-6-10 23:06 | 显示全部楼层
基于内存的方式,Rdd  dataframe dataset方式,比Hadoop 的MapReduce好不少的地方;还有钨丝计划等等。
回复 支持 反对

使用道具 举报

论坛徽章:
8
Hadoop研习者初级
日期:2014-09-19 14:12:21比特币徽章
日期:2014-11-06 14:54:26scala徽章
日期:2014-11-06 14:55:58scala徽章
日期:2014-11-27 15:51:52搜索引擎徽章
日期:2016-08-18 11:36:51计算徽章
日期:2018-07-17 16:42:49spark徽章
日期:2018-08-24 10:52:07spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-10 23:47 | 显示全部楼层
数据量在一定规模的时候,用spark更快,hadoop的mapreduce多用于离线计算
回复 支持 反对

使用道具 举报

论坛徽章:
6
R研习者中级
日期:2016-09-01 09:57:02数据陷阱解读徽章
日期:2016-09-22 11:18:45抽样调查徽章
日期:2016-09-22 11:20:26统计徽章
日期:2016-11-24 11:28:37bash徽章
日期:2017-06-01 17:10:16spark徽章
日期:2018-11-16 14:09:41
发表于 2018-8-26 14:29 | 显示全部楼层
讲真,如果不是实时要求,我才不想用spark,纯提数据hive就很好。当然spark更灵活
回复 支持 反对

使用道具 举报

新浪微博达人勋 ckk 实名认证
论坛徽章:
2
股票徽章
日期:2018-11-01 14:04:25spark徽章
日期:2018-11-16 14:09:41
发表于 2018-8-26 20:18 | 显示全部楼层
Hadoop一般用于离线数据处理
Spark,Storm一般用于实时数据处理
回复 支持 反对

使用道具 举报

论坛徽章:
5
金融徽章
日期:2018-03-01 16:44:04金融徽章
日期:2018-06-14 15:37:05Kaggle徽章
日期:2018-09-13 15:33:11pyspark徽章
日期:2018-11-16 14:09:24spark徽章
日期:2018-11-16 14:09:41
发表于 2018-8-27 07:59 | 显示全部楼层
spark基于内存的,处理速度快
回复 支持 反对

使用道具 举报

新浪微博达人勋 tjxjj  实名认证
论坛徽章:
33
数据陷阱解读徽章
日期:2016-11-03 17:26:52统计徽章
日期:2016-11-24 11:28:37bash徽章
日期:2017-12-15 16:07:12Agile徽章
日期:2017-12-25 17:26:41Julia徽章
日期:2017-12-25 17:39:24Java徽章
日期:2018-01-04 17:15:14架构徽章
日期:2018-01-11 17:24:29Oracle研习者初级
日期:2018-02-08 16:18:43Hadoop研习者初级
日期:2018-03-08 10:56:59nosql徽章
日期:2018-04-02 15:21:49spark徽章
日期:2018-04-20 15:29:14架构徽章
日期:2018-05-03 15:48:06
发表于 2018-10-30 13:12 | 显示全部楼层
一个提供存储方案,一个提供计算方案,计算模型不一样而已
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-11-16 22:33 , Processed in 0.148365 second(s), 58 queries .