查看: 272|回复: 4

spark python和scala

[复制链接]
论坛徽章:
2
机器学习徽章
日期:2017-01-18 16:15:42spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-8 10:20 | 显示全部楼层 |阅读模式

Python 机器学习 Spark Scala

使用spark操作机器学习,用惯了python,陡然使用Scala好不适应啊,不过python在处理机器学习方面确实优于scala,不知道大家是如何使用的
回复

使用道具 举报

论坛徽章:
4
矩阵计算徽章
日期:2018-07-19 15:02:10统计徽章
日期:2018-08-16 14:58:18机器学习徽章
日期:2018-08-24 10:51:47spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-8 10:52 | 显示全部楼层
可以用pyspark的, spark的python api
回复 支持 反对

使用道具 举报

论坛徽章:
2
机器学习徽章
日期:2017-01-18 16:15:42spark徽章
日期:2018-08-24 10:52:51
 楼主| 发表于 2018-6-8 15:15 | 显示全部楼层
目前仅支持Scala、Java API,尚未提供Python的API(所以一定要学习Scala)  相比DataFrame,Dataset提供了编译时类型检查,对于分布式程序来讲,提交一次作业太费劲了(要编译、打包、上传、运行),到提交到集群运行时才发现错误,实在是想骂人,这也是引入Dataset的一个重要原因。  
回复 支持 反对

使用道具 举报

论坛徽章:
2
机器学习徽章
日期:2017-01-18 16:15:42spark徽章
日期:2018-08-24 10:52:51
 楼主| 发表于 2018-6-8 15:21 | 显示全部楼层
flymoon 发表于 2018-6-8 10:52
可以用pyspark的, spark的python api

我当然知道,以前用的pyspark,使用dataFrame编译不报错,运行才报错挺不方便的
回复 支持 反对

使用道具 举报

论坛徽章:
40
R研习者中级
日期:2016-10-20 16:44:19计算徽章
日期:2018-03-19 15:04:31Tensorflow徽章
日期:2018-03-01 16:44:34金融徽章
日期:2018-03-01 16:43:15时间序列分析徽章
日期:2018-02-08 16:18:26Julia徽章
日期:2017-12-25 17:39:24NLP徽章
日期:2017-12-25 17:31:02Kaggle徽章
日期:2017-12-25 17:28:34Kaggle徽章
日期:2017-12-25 17:28:27python徽章
日期:2018-03-23 10:45:53Hadoop研习者中级
日期:2018-04-02 15:22:57Tensorflow徽章
日期:2018-10-18 15:27:37
发表于 2018-6-9 20:12 | 显示全部楼层
pyspark,用spark2.x系列的。当然较好是Scala也能用起来,有些环境可能有局限;还有外部库引用可能有问题。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-11-15 08:35 , Processed in 0.129590 second(s), 40 queries .