查看: 104|回复: 3

Spark性能比MapReduce高100倍???

[复制链接]
论坛徽章:
9
JVM徽章
日期:2014-12-24 15:14:33python徽章
日期:2017-01-06 10:51:34python徽章
日期:2017-03-02 16:34:48机器学习徽章
日期:2017-05-18 16:19:25spark徽章
日期:2017-11-23 16:58:47Java徽章
日期:2018-01-04 17:15:14R研习者高级
日期:2018-01-18 18:00:50Kafka徽章
日期:2018-03-23 10:45:46架构徽章
日期:2018-05-03 15:48:06
发表于 2018-6-8 11:01 | 显示全部楼层 |阅读模式

测试 Spark 硬件

Spark性能比MapReduce高100倍???我的疑问是:
1. 这个测试是如此得出来的?
2. 我想测试是需要环境的。请问硬件配置如何?多少U,多少内存?硬盘是SSD还是HHD?
脱离了环境谈性能,不是耍流氓么?
回复

使用道具 举报

论坛徽章:
9
JVM徽章
日期:2014-12-24 15:14:33python徽章
日期:2017-01-06 10:51:34python徽章
日期:2017-03-02 16:34:48机器学习徽章
日期:2017-05-18 16:19:25spark徽章
日期:2017-11-23 16:58:47Java徽章
日期:2018-01-04 17:15:14R研习者高级
日期:2018-01-18 18:00:50Kafka徽章
日期:2018-03-23 10:45:46架构徽章
日期:2018-05-03 15:48:06
 楼主| 发表于 2018-6-8 11:02 | 显示全部楼层
发现Spark在内存中运行速度快100倍,在磁盘上运行速度快10倍。在十分之一的机器上,它也被用于对100 TB数据进行排序,比Hadoop MapReduce快3倍。特别发现Spark在机器学习应用中更快,例如朴素贝叶斯和k-means。
由处理速度衡量的Spark性能已经发现比Hadoop更优,原因如下:
每次运行MapReduce任务的选定部分时,Spark都不会受到输入输出问题的束缚。事实证明,应用程序的速度要快得多
Spark的DAG可以在步骤之间进行优化。 Hadoop在MapReduce步骤之间没有任何周期性连接,这意味着在该级别不会发生性能调整。
但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的用例,Hadoop被认为是更高效的系统。


我找到的资料是这样描述的。看来大家在宣传spark时,都断章取义了,只谈优点不谈局限。
回复 支持 反对

使用道具 举报

论坛徽章:
1
矩阵计算徽章
日期:2018-07-19 15:02:10
发表于 2018-6-8 11:21 | 显示全部楼层
当你分别用spark跟MapReduce计算同一份文件的word count的时候,对比的伤害就出来了, 什么东西都有风险,看如何使用
回复 支持 反对

使用道具 举报

新浪微博达人勋 ojsl 实名认证
论坛徽章:
7
比特币徽章
日期:2017-09-28 17:18:05Oracle研习者初级
日期:2017-10-26 15:09:26spark徽章
日期:2017-11-23 16:58:48机器学习徽章
日期:2017-11-30 15:59:35算法导论徽章
日期:2017-12-28 17:08:38智慧眼徽章
日期:2018-03-19 15:05:00spark徽章
日期:2018-06-14 15:36:26
发表于 2018-6-10 17:15 | 显示全部楼层
这样的对比是在特殊场景的下的,具体的时间还是根据应用和计算能力决定。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-7-22 20:49 , Processed in 0.155561 second(s), 39 queries .