查看: 2366|回复: 5

大数据分析所需要的十大技术

[复制链接]
论坛徽章:
0
发表于 2014-8-11 00:05 | 显示全部楼层 |阅读模式
大数据分析所需要的十大技术 【本文内容与本人所在的公司无关,完全是休闲聊天,敬请随意转发】
赵锴 KaiZhao

如果你要成为大数据分析中的佼佼者,那么你怎么也得清楚地知道下面的大数据分析的十大技术。

1: 数据仓库技术

全球数据仓库的领导者是Teradata。

Teradata收购的Aster Data( Teradata Aster) 拥有强大的SQL/MR技术。

Greenplum和Aster Data都是基于PostgreSQL的MPP并行数据仓库,不同的是Aster Data是MR是基于PostgreSQL的,而Greenplum是基于商业Hadoop版本的。

开源的MPP系统也有一些,请google自查之。

2: 数据库技术

数据库除了老牌的Oracle, SqlServer,还有开源的MySQL和PostgreSQL。Inside SQL Server这本老书可以多翻得的看看。

建议多多关注PostgreSQL,因为那是一个至今为止你还可以读的懂内核的数据库系统,代码优美,值得信赖。

3: Hadoop等衍生系统技术

这个就不多说了,从Hadoop到Spark,不知道现在有多少家公司要头痛的选择到底是选用新的Spark还是已有的Hadoop。

头痛的原因还有就是,公司好不容易培养好了Hadoop的人员,现在又要培养Spark。这个显然给商业MPP公司带来了销售上的说辞。。。

4: 数据挖掘技术

分类,聚类, 平凡项集挖掘,协同过滤,回归预测这些概念怎么也得弄懂了。

各种距离也得略知一二。

Weka,R, Mahout, Spark怎么也得会几个。

5: 自然语言处理技术

英文的不说。

中文的你得知道 分词,词性标注POS,语法树,指代消歧,关键词抽取,实体抽取,情感分析。

6: 社交网路分析技术(图分析)

图的基本理论

图上操作SSSP, PageRank等等请google之。

知道怎么找到社区和社区中的关键人物。

7: 信息检索技术

知道Ngram, 停用词,倒排索引,会用lucene。

8: 云计算技术

知道如何管理和分配主机、存储、网络、操作系统。

熟悉OpenNebula , OpenStack, CloudStack, 至少一种。

9: No-SQL技术

众多No-SQL技术。希望能至少了解一种技术。

10: 数据可视化技术

如果你看懂了Tableau是怎么做的,那么数据可视化你就是没有问题了。



回复

使用道具 举报

论坛徽章:
29
Oracle研习者高级
日期:2013-10-21 22:32:52Oracle研习者高级
日期:2013-08-25 14:24:26Oracle研习者高级
日期:2013-08-25 14:24:54Oracle研习者中级
日期:2013-08-25 14:25:49Oracle研习者初级
日期:2012-12-06 14:23:48Oracle研习者初级
日期:2012-12-06 14:23:22Oracle研习者初级
日期:2012-11-26 11:09:47R研习者初级
日期:2014-01-28 12:17:02Hadoop研习者初级
日期:2012-09-28 23:48:40DB2徽章
日期:2014-11-06 15:09:28mysql徽章
日期:2014-11-06 15:13:52Openstack徽章
日期:2014-12-25 16:03:43
发表于 2014-8-12 22:14 | 显示全部楼层
皓首穷经啊
回复 支持 反对

使用道具 举报

论坛徽章:
0
发表于 2014-8-13 08:54 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

论坛徽章:
25
Hadoop研习者初级
日期:2014-09-19 14:12:00spark徽章
日期:2015-03-19 10:35:27Oracle研习者初级
日期:2015-04-30 14:37:00LATEX徽章
日期:2015-05-07 11:34:18Excel徽章
日期:2015-05-14 10:37:05抽样调查徽章
日期:2015-06-09 14:18:25机器学习徽章
日期:2015-06-25 11:48:55kettle徽章
日期:2015-08-06 17:02:17数据陷阱解读徽章
日期:2015-08-13 15:21:46R研习者中级
日期:2015-08-20 14:51:11Hadoop研习者初级
日期:2016-02-01 16:30:08投资理财徽章
日期:2015-01-07 11:29:11
发表于 2014-8-14 12:05 | 显示全部楼层

10: 数据可视化技术

如果你看懂了Tableau是怎么做的,那么数据可视化你就是没有问题了。

回复 支持 反对

使用道具 举报

新浪微博达人勋 QT4CN  未实名认证
论坛徽章:
20
python徽章
日期:2013-05-09 13:21:43数据陷阱解读徽章
日期:2015-08-13 15:21:45R研习者中级
日期:2015-08-20 14:51:11Hadoop研习者中级
日期:2015-08-27 11:53:16Hadoop研习者初级
日期:2016-09-22 11:23:54spark徽章
日期:2016-10-27 10:48:50比特币徽章
日期:2017-09-28 17:18:05机器学习徽章
日期:2018-05-17 15:59:36计算徽章
日期:2018-05-24 16:11:20抽样调查徽章
日期:2015-08-13 10:58:43Oracle研习者初级
日期:2015-07-16 10:46:51nosql徽章
日期:2013-05-09 17:05:06
发表于 2014-11-24 08:51 | 显示全部楼层
看来要学的还很多啊。。。。。。老了啊,从头来过
回复 支持 反对

使用道具 举报

论坛徽章:
0
发表于 2016-6-18 23:15 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-7-22 03:00 , Processed in 0.128710 second(s), 48 queries .