查看: 812|回复: 8

值得mark的11个开源机器学习项目

[复制链接]
论坛徽章:
3
Tensorflow徽章
日期:2017-09-04 17:18:43CUDA徽章
日期:2017-12-25 17:37:41人工智能徽章
日期:2018-03-23 10:45:38
发表于 2017-9-14 00:30 | 显示全部楼层 |阅读模式

Python 算法 Hadoop 机器学习 MLlib github

垃圾邮件过滤、人脸识别、推荐引擎——当你有一个大数据集并且希望利用它们执行预测分析和模式识别,机器学习是必经之路。这门科学,计算机可以在没有事先规划的前提下自主学习、分析和操作数据,现在越来越多的开发人员关注机器学习。
机器学习技术的兴起不仅是因为硬件成本越来越便宜以及性能越来越强大,促使机器学习在单机或大规模集群上轻松部署的免费软件激增也是重要因素。机器学习库的多样性意味着无论你喜欢什么语言或环境,都有可能是获得你喜欢的。

1. Scikit-learn

Python由于其易用性以及丰富的函数库,已经成为数学、自然科学和统计学的推荐编程语言。Scikit-learn通过在现有Python包上构建——NumPy SciPy和matplotlib——服务于数学和自然科学。生成的库要么可以使用交互式“工作台”应用程序,要么被嵌入到其他软件和重用。工具箱可以在BSD许可下获取,所以它是完全开放和可重用的。
2. Shogun

在最古老、最值得尊敬的机器学习库中,Shogun创建于1999年,用C++编写,但并不限于在C++工作。由于SWIG库,Shogun可以轻松在Java、Python、C#、Ruby、R、Lua、Octave、Matlab语言和环境下使用。
虽然德高望重,Shogun也有其他的竞争者。另一个基于C++的机器学习库Mlpack在2011年出现,它宣称比其他竞争者速度更快并且更容易使用(一个更完整的API集)。
3. Accord Framework/AForge.net

Accord,一个.Net的机器学习和信号处理框架,是早前类似一个项目AForge.net的扩展。顺便说一下,“信号处理”这里是指一系列对图像和音频的机器学习算法,如图片无缝缝合或执行人脸检测。包含一组视觉处理算法;它作用于图像流(如视频),并且可用于实现移动对象的跟踪等功能。Accord还提供一个从神经网络到决策树系统的机器学习常见库。
4. Mahout

Mahout框架一直与Hadoop相关联,但旗下很多算法还可以脱离Hadoop运行。他们对那些可能最终迁移到Hadoop上的应用程序或从Hadoop上剥离成为独立应用程序的项目非常有用。
Mahout缺点之一:目前几乎没有算法支持高性能的Spark框架,反而使用日益过时的MapReduce框架。该项目目前不接受基于MapReduce的算法,那些想要获得更高性能的开发者转而用MLlib 替代。
Project: Mahout
5. MLlib

Apache自己的Spark和Hadoop机器学习库,旨在为大规模和高速度而设计的MLlib自称拥有所有常见的算法和有用数据类型。与任何Hadoop项目一样,Java是MLlib上的基本语言,但是Python用户可以用MLlib NumPy库连接(也用于scikit-learn),并且Scala用户可以针对MLlib编写代码。如果不能设置一个Hadoop集群,MLlib可以在没有Hadoop的情况下部署在Spark上——以及在EC2或Mesos上。
6. H2O

0xdata H2O的算法是面向业务流程——欺诈或趋势预测。Hadoop专家可以使用Java与H2O相互作用,但框架还提供了对Python、R以及Scala的捆绑。
7. Cloudera Oryx

另一个为Hadoop设计的机器学习项目Oryx由 Cloudera Hadoop distribution创造者提供。Oryx是为了允许机器学习模型部署在实时流数据上而设计的,如实时垃圾邮件过滤器或推荐引擎。
该项目的全新版本暂时定名为Oryx 2,目前正在准备阶段。它使用Apache项目如Spark 和 Kafka实现更高性能,其组件构建走松散耦合路线以便能经得住时间考验。
Project:Cloudera Oryx
GitHub:
https://github.com/cloudera/oryx
8. GoLearn

谷歌的Go语言已经开始被广泛使用,随着库越来越多,据其开发者Stephen Witworth介绍,GoLearn被构建为Go语言的一体化的机器学习库,目标是“简单可定制”。简单主要是由于数据在库内被加载和处理,因为它是仿照SciPy 和R;可定制性在于库的开放源码特性以及一些数据结构可以很容易地在一个应用程序中扩展。Witworth也为Vowpal Wabbit库创建了一个包装器,其中一个库存放在Shogun工具箱中。
9. Weka

Weka是新西兰Waikato大学开发的,收集一组专门为数据挖掘设计的Java机器学习算法。这组GNU得到 GPLv3许可的集有一个包系统扩展其功能,有官方和非官方包两种。Weka甚至还有专门一本书解释其软件和实战技术,所以那些想要在概念和软件上取得优势的开发者可以关注下。
虽然Weka并不是专门针对Hadoop用户,但是Weka的版本的一组封装器可以用于Hadoop。请注意,它还不能支持Spark,只有MapReduc。Clojure用户还可以通过 Clj-ml 库利用Weka。
Project: Weka
10. CUDA-Convnet

现在大多数人都知道GPU在处理某些问题上的速度比CPU快。但应用程序不会自动利用GPU的加速功能;他们必须明确通过程序写入。CUDA-Convne是一个神经网络应用程序机器学习库,用C++编写来开发Nvidia的CUDA GPU处理技术。对于那些使用Python而不是C++用户,由此产生的神经网络可以保存为Python pickle对象,因此可以从Python存取。
注意,原始版本的项目不再被开发,但是已经被重组为CUDA-Convnet2,支持多个GPU和Kepler-generation GPU。与之类似的项目Vulpes,已经用F#编写,并且通常和.Net框架一起使用。
Project: CUDA-Convnet
11. ConvNetJS

顾名思义,ConvNetJS 是一个基于 js 的深度学习 library,可以让你在浏览器中训练深度网络。NPM版本也可用于那些使用Node.js的用户,并且这个库也是为合理使用JavaScript的异步性而设计,例如,一旦他们完成训练操作可以给出一个回调函数来执行。里面还包含大量的演示案例。

回复

使用道具 举报

论坛徽章:
13
机器学习徽章
日期:2017-07-06 17:11:55Tensorflow徽章
日期:2018-10-18 15:27:38算法导论徽章
日期:2018-03-23 10:47:27OpenCV徽章
日期:2018-02-01 17:44:05CUDA徽章
日期:2017-12-25 17:37:35Hadoop研习者中级
日期:2017-11-09 17:09:09Hadoop研习者初级
日期:2017-11-09 17:07:34R研习者中级
日期:2017-09-28 17:18:49比特币徽章
日期:2017-09-28 17:18:05caffe徽章
日期:2017-08-17 17:12:02Hadoop研习者初级
日期:2017-07-06 17:16:09OpenCV徽章
日期:2017-07-06 17:12:48
发表于 2017-9-16 10:31 | 显示全部楼层
学习了,谢谢楼主分享
回复 支持 反对

使用道具 举报

论坛徽章:
10
大型分布式徽章
日期:2016-09-01 10:06:48Oracle研习者初级
日期:2017-12-28 17:04:46CUDA徽章
日期:2017-12-25 17:37:49神经网络徽章
日期:2017-10-20 16:36:58spring徽章
日期:2017-07-11 14:27:59Java徽章
日期:2017-01-06 10:54:24Mycat徽章
日期:2016-10-13 17:46:45电商分布式系统徽章
日期:2016-10-13 17:33:17架构徽章
日期:2016-10-13 17:30:29Java徽章
日期:2018-01-04 17:15:14
发表于 2017-9-16 21:59 | 显示全部楼层

学习了,谢谢楼主分享
回复 支持 反对

使用道具 举报

论坛徽章:
5
spark徽章
日期:2018-04-26 15:29:14spark徽章
日期:2018-05-03 15:46:21机器学习徽章
日期:2018-05-03 15:46:42机器学习徽章
日期:2018-05-17 15:59:37机器学习徽章
日期:2018-08-24 10:51:47
发表于 2018-1-28 16:23 | 显示全部楼层
学习了,谢谢楼主分享
回复 支持 反对

使用道具 举报

新浪微博达人勋 bai  未实名认证
论坛徽章:
5
机器学习徽章
日期:2015-03-02 14:31:17spss初级
日期:2015-08-13 12:05:21投资理财徽章
日期:2016-04-07 11:04:36统计徽章
日期:2017-06-15 17:35:57spark徽章
日期:2018-04-26 15:29:14
发表于 2018-1-28 18:23 | 显示全部楼层
学习了  。                                 
回复 支持 反对

使用道具 举报

论坛徽章:
9
Hadoop研习者初级
日期:2017-12-28 17:09:25Java徽章
日期:2018-01-04 17:15:14数据陷阱解读徽章
日期:2018-03-01 16:41:57计算徽章
日期:2018-03-19 15:04:30Kafka徽章
日期:2018-03-23 10:45:46大型分布式徽章
日期:2018-03-29 16:06:23spark徽章
日期:2018-04-20 15:29:14spark徽章
日期:2018-04-26 15:29:14spark徽章
日期:2018-05-03 15:46:21
发表于 2018-1-29 00:02 | 显示全部楼层
学习了,谢谢楼主分享
回复 支持 反对

使用道具 举报

论坛徽章:
17
Hadoop研习者初级
日期:2014-01-28 12:16:34spark徽章
日期:2018-05-03 15:46:22spark徽章
日期:2018-04-26 15:29:14数据展示徽章
日期:2018-04-12 14:26:20金融徽章
日期:2018-03-01 16:44:04Java徽章
日期:2018-02-08 16:11:57安全徽章
日期:2018-01-11 17:39:54Mycat徽章
日期:2016-08-11 11:03:51数据陷阱解读徽章
日期:2016-08-11 11:02:12Hadoop研习者初级
日期:2016-07-14 11:07:35抽样调查徽章
日期:2016-05-12 11:57:26R研习者中级
日期:2015-04-10 15:08:07
发表于 2018-1-29 02:42 | 显示全部楼层
学习,感谢楼主分享!
回复 支持 反对

使用道具 举报

新浪微博达人勋 bxy5511  未实名认证
论坛徽章:
28
R研习者中级
日期:2014-09-19 14:18:44Java徽章
日期:2016-08-18 11:33:28python徽章
日期:2016-11-03 17:46:49python徽章
日期:2017-12-07 16:06:27python徽章
日期:2018-01-11 17:40:18机器学习徽章
日期:2018-02-01 17:45:33机器学习徽章
日期:2018-03-29 16:05:00pyspark徽章
日期:2018-04-08 16:26:32Tensorflow徽章
日期:2018-04-20 15:27:10Hive徽章
日期:2018-05-17 15:59:03spark徽章
日期:2018-06-14 15:36:26spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-3 22:23 | 显示全部楼层
这个是机器学习的包或者库吧,不是学习项目。。。
回复 支持 反对

使用道具 举报

论坛徽章:
45
Hadoop研习者初级
日期:2018-10-25 15:12:53Java徽章
日期:2018-03-01 16:42:33Kaggle徽章
日期:2018-01-25 17:05:07安全徽章
日期:2018-01-11 17:39:54Java徽章
日期:2018-01-04 17:15:14Hadoop研习者初级
日期:2017-12-28 17:09:25zabbix徽章
日期:2017-12-25 17:34:14Kaggle徽章
日期:2017-12-25 17:28:41spark徽章
日期:2017-11-23 16:58:48Oracle研习者初级
日期:2017-10-26 15:09:26Julia徽章
日期:2018-03-08 10:53:12机器学习徽章
日期:2018-03-29 16:05:00
发表于 2018-6-10 19:01 | 显示全部楼层
呵呵,学习了,原来H2O也是开源的项目啊
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-11-13 04:23 , Processed in 0.197552 second(s), 66 queries .