一、如何评价spark的机器学习框架 和 tensorflow的机器学习系统
现在的深度学习过程是一个计算密集的过程。
然后就是深度学习理论很难也暂时没有很完美的数学解释,从2006年开始复苏,才过去十年。
现在的理论解释很多是用类比的方法,很直觉。举个例子,dropout的论文里引用了一段生物学的知识,说的是有性生殖,lecun同学为了解释深度学习不需要顾虑局部最小的问题,因为存在的概率很小,小到可以忽略,用的方法是公式大变形,将深度学习的公式换了个形式,同时加了几个可能不太严格的条件,然后就可以用玻璃的统计物理学解释来讨论问题了!
这两个系统会互相学习,但是现在看来,用spark来做深度学习训练有点效率不太好
二、大数据好学吗?去哪里学较好?
一:好学不好学其实分很多情况,要是有Java基础的话相对来说容易一点,因为大数据涉及的Java内容也就是Javase这一方面,Javase对于大数据来说就是基础部分,如果是没有一点儿基础,倒也不是学不会,只是相对于有基础的会吃力一点儿。
二:再说去哪里学,我多少了解一点儿,因为身边有很多朋友都参加过培训,去过的地方有很多,首先行业内,干大数据的有很多,我就不说别的机构了,你可以关注一下海牛部落,这个还不错,各方面设施,师资力量都不错,而且还有自己的服务器集群。还是专业做大数据的。相对于别的来说,他还不错。
三、2分钟读懂大数据框架Hadoop和Spark的异同
解决问题的层面不一样
首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施:
它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。
同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。
两者可合可分
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。
以下是天地会珠海分舵从网上摘录的对MapReduce的最简洁明了的解析,其中把人理解成计算机就好了:
我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。
现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。
Spark数据处理速度秒杀MapReduce
Spark因为其处理数据的方式不一样,会比MapReduce快上很多。MapReduce是分步对数据进行处理的:
”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群,等等...“ Booz Allen
Hamilton的数据科学家Kirk Borne如此解析。
反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,”
Born说道。Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近100倍。
如果需要处理的数据和结果需求大部分情况下是静态的,且你也有耐心等待批处理的完成的话,MapReduce的处理方式也是完全可以接受的。
但如果你需要对流数据进行分析,比如那些来自于工厂的传感器收集回来的数据,又或者说你的应用是需要多重数据处理的,那么你也许更应该使用Spark进行处理。
大部分机器学习算法都是需要多重数据处理的。此外,通常会用到Spark的应用场景有以下方面:实时的市场活动,在线产品推荐,网络安全分析,机器日记监控等。
四、Spark可以完全替代hadoop吗
spark最大优势在于是基于内存的分布式计算框架,在计算速度方面可甩hadoop好几条街。天生就适合于多迭代的业务场景,在机器学习算法上能够充分体现。另外,spark还支持准实时流式框架spark streaming,分布式查询spark SQL、图计算graph、机器学习ML、R语言等,能够满足整条业务线的需求,从获取、处理、分析等提供支持,而不需再加入其它框架,这应该就是spark最大的野心:大一统。
在我看来,虽然基于内存是spark最大的优势,但是也会造成有些业务场景无法满足,如超大数据量的ETL。相反在这方面hadoop的mapreduce能够很好地hold,所以spark可能不断掠夺hadoop的领地,但是不可能完成替代hadoop。