查看: 250|回复: 2

spark 中如何避免使用 Shuffle?

[复制链接]
论坛徽章:
9
Hadoop研习者初级
日期:2017-12-28 17:09:25Java徽章
日期:2018-01-04 17:15:14数据陷阱解读徽章
日期:2018-03-01 16:41:57计算徽章
日期:2018-03-19 15:04:30Kafka徽章
日期:2018-03-23 10:45:46大型分布式徽章
日期:2018-03-29 16:06:23spark徽章
日期:2018-04-20 15:29:14spark徽章
日期:2018-04-26 15:29:14spark徽章
日期:2018-05-03 15:46:21
发表于 2018-1-28 23:57 | 显示全部楼层 |阅读模式

Spark 案例

spark 中如何避免使用 Shuffle?有没有实际案例?

回复

使用道具 举报

论坛徽章:
27
R研习者中级
日期:2014-09-19 14:21:40机器学习徽章
日期:2015-12-15 10:38:29投资理财徽章
日期:2015-12-24 15:51:21R研习者高级
日期:2015-12-30 11:50:24Hadoop研习者初级
日期:2016-02-01 16:30:07算法导论徽章
日期:2016-03-16 10:46:20mysql徽章
日期:2016-05-12 12:12:09spark徽章
日期:2016-05-12 12:21:31spark徽章
日期:2016-09-08 10:42:04机器学习徽章
日期:2016-12-08 15:50:25搜索引擎徽章
日期:2017-10-20 16:35:52Kafka徽章
日期:2017-11-03 16:10:43
发表于 2018-6-1 15:10 | 显示全部楼层
有用spark ml 做推荐系统么,可以做么,求指导(广告系统的 推荐业务)
回复 支持 反对

使用道具 举报

论坛徽章:
1
spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-10 20:45 | 显示全部楼层
Spark的shuffle是数据倾斜的源头,可以通过map端聚合、map端join等方式避免shuffle
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-9-21 15:58 , Processed in 0.114254 second(s), 36 queries .