如何评价 spark mllib-期初科技网

如何评价 spark mllib

MLlib是抄Spark的机器学习（ML）库。旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的袭学习算法和2113工具组成，包括5261分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。

MLllib目前分为两个代4102码包：

Spark技术的核心是什么？优势有哪些？

Spark是基于内存，是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目，尤其出色的支持Interactive Query、流计算、图计算等。

Spark在机器学习方面有着无与伦比的优势，特别适合需要多次迭代计算的算法。同时Spark的拥有非常出色的容错和调度机制，确保系统的稳定运行，Spark目前的发展理念是通过一个计算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多种功能于一个项目中，具有非常好的易用性。

目前SPARK已经构建了自己的整个大数据处理生态系统，如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术，并且是Apache顶级Project，可以预计的是2014年下半年在社区和商业应用上会有爆发式的增长。

Spark最大的优势在于速度，在迭代处理计算方面比Hadoop快100倍以上；Spark另外一个无可取代的优势是：“One Stack to rule them all”，Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题，这直接奠定了其一统云计算大数据领域的霸主地位；

如何评价 spark mllib