专家坐堂:R语言下的机器学习与数据分析

[复制链接]
新浪微博达人勋 xycheng  未实名认证
论坛徽章:
7
R研习者中级
日期:2016-03-17 11:34:12R研习者初级
日期:2016-04-28 10:51:05数据展示徽章
日期:2016-06-23 11:26:38R研习者中级
日期:2016-06-30 11:14:02R研习者高级
日期:2016-09-22 11:37:45Excel徽章
日期:2016-10-13 17:38:14R研习者中级
日期:2018-03-01 16:41:49
发表于 2016-7-20 12:30 | 显示全部楼层
问题在哪,我要回答                             
回复 支持 反对

使用道具 举报

论坛徽章:
0
发表于 2016-7-20 12:42 | 显示全部楼层
david2588 发表于 2016-7-20 07:50
左老师请教: R语言是否有比较全的介绍,感觉学的时候一会来一个包,感觉没法遍历的感觉,如要用R做金融量 ...

正如我之前帖中所说的,R中的包确实特别特别多。但是显然你并不需要把它们都过一遍,所以数量多少并无太大问题。你需要的只是把R本身系统的学一学。语言和包本来就是可以分开对待你的。金融量化投资这个框太大,计量经济学的方法可以做一些,数据挖掘和机器学习的方法也可以解决其中一些问题,甚至像一些智能优化方法(例如遗传、模拟退火、蚁群、鱼群)都可以来做,所以比较难全面覆盖到。我建议一方面还是打牢基础,另一方面还是以问题为导向来学习,具体问题具体分析吧。
回复 支持 反对

使用道具 举报

论坛徽章:
0
发表于 2016-7-20 12:44 | 显示全部楼层
guojichang 发表于 2016-7-20 09:27
你好,如何在R里边查询一些算法呢?比如我想知道哪些包可以做随机森林,主要是这种查询的技巧和方法能不能 ...

因为R中的包确实太多。一般的查询方法其实就是google,输入 R+你想用的方法(例如 random forest),但是注意要用英文查询,因为中文资源其实非常有限。
回复 支持 反对

使用道具 举报

论坛徽章:
5
R研习者中级
日期:2014-09-19 14:18:07R研习者中级
日期:2014-09-19 14:19:25R研习者中级
日期:2014-09-19 14:20:23R研习者中级
日期:2014-09-19 14:21:24SAS研习者初级
日期:2014-09-19 14:24:08
发表于 2016-7-20 13:26 | 显示全部楼层
左老师,你好!学习R也有一段时间了,也觉得R的学习不能一味的看书,要理论跟实践结合在一起来学习。现在的困惑有几个:
1,在R与SPARK结合的过程中,是否可以实现对不同数据结构信息的调用。也即在分布式中,有的存的是EXCEL,有的是TXT,还有其他的类型,只是读取我们所要的信息。
2,在可视化方向,能否讲一下Echats,D3,R这三者的区别,是否R的扩展包都已经可以包含前两个开源软件的展示内容?
3,在用R学习算法的过程中,有没有什么好的建议?或者您那边有好的模版,让我可以对各个算法的逻辑有一个认识?
回复 支持 反对

使用道具 举报

论坛徽章:
0
发表于 2016-7-20 13:38 | 显示全部楼层
realure 发表于 2016-7-20 09:54
老师好,现在很多数据分析都是千万级以上,但网上有很多文章说R语言做数据分析有瓶颈,超过某个数量级(例 ...

这种说法当然是错误的。In fact and in practice, R经常被用来处理海量数据。R可以布置在超算上,也可以用来布设在超级计算集群上,很多科学家用R来分析 基因组,你应该可以想象随便一种生物的基因组都是 上亿 的数据。另外,Aloysius Lim和William Tjhi还专门写过一本名叫《R高性能编程》的书,专门介绍在工业中应用R进行高效分析和处理大规模数据方面的实践。
回复 支持 反对

使用道具 举报

论坛徽章:
0
发表于 2016-7-20 13:43 | 显示全部楼层
everxjj 发表于 2016-7-20 09:40
我也想问左老师关于随机森林的R包的用法,感觉有太多参数需要调整。如果用随机森林,是不是大部分的预测 ...

首先,随机森林属于是传统方法,并非什么很新颖的东西。依次,在数据分析中,所有算法都是任务导向的,没有办法证明哪一个方法明显优于另外一个,只是它们适用的任务不同。调参数是实际数据分析中起到重要作用的环节,算法能否发挥其应有的power,很大程度依赖于调参。如果说你觉得参数很多,无从下手,只是说明你对算法本身并不太了解。虽然很多东西在R中可能只是一行命令,但是要想用好这行命令,前提就是你必须对算法本身有很深刻的认识。这样才能让你少走弯路,一步到位地知道(就具体任务而言)哪些参数才是致命的。
回复 支持 反对

使用道具 举报

论坛徽章:
0
发表于 2016-7-20 13:47 | 显示全部楼层
李尚灵 发表于 2016-7-20 10:35
夜半三根哟,盼天明~寒冬腊月哟,盼春风~若要盼得哟,红军来~岭上开遍哟,映山红~
一看有大师坐堂,忍不住 ...

相关性计算可以跳脱具体数据结构来谈,事实上这并不能成为一个问题,至少结构之间也是可以相互转换的,你还是应该把R的基础语法学好才能事半功倍。第二个问题我不太理解,你是在说做回归分析吗,如果是其他数据挖掘算法不一定涉及到什么直线斜率问题吧?滞后的问题确实有很多方法可以做评估,AIC和SIC显然都可以用来干这个,可以参考一下计算经济学方法的内容。
回复 支持 反对

使用道具 举报

论坛徽章:
0
发表于 2016-7-20 13:49 | 显示全部楼层
千里伤歌 发表于 2016-7-20 12:23
关于R和hadoop结合的问题请问左老师:

目前有一些包(RHadoop、RHive、RSpark),使得用R在Hadoop平台 ...

有没有就业前景,一是要看有没有公司做这个东西,而更重要的要看你学到什么水平。再冷门技术,学到极致,也是抢手的人才,再火热的技术,学得很渣,也没有前景。
回复 支持 反对

使用道具 举报

论坛徽章:
1
R研习者中级
日期:2016-03-17 11:32:22
发表于 2016-7-20 14:42 | 显示全部楼层
白马负金羁 发表于 2016-7-20 13:47
相关性计算可以跳脱具体数据结构来谈,事实上这并不能成为一个问题,至少结构之间也是可以相互转换的,你 ...

嗯,第二个问题就是回归分析的问题,之前一个商户做一个模型没有问题,比如现在有一千个商户,有没有批量处理的办法?AIC和SIC的知识我下来补充一下,多谢!
回复 支持 反对

使用道具 举报

论坛徽章:
0
发表于 2016-7-22 18:23 | 显示全部楼层
留名。。matlab粉路过,顶一下群主
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-12-10 21:01 , Processed in 0.177694 second(s), 52 queries .