数据吧www.shujuba.net - 专注于企业级云服务器、云计算、网站高防CDN加速、服务器租用托管服务 - 站长资讯中心

数据吧 - 致力提供Linux(CentOS),Win2003,Win2008系统基础资料、vps云服务器安全防护知识、以及PHP,ASP环境搭建等。为各大中小站长、公司企业网站、虚拟主机、香港美国韩国日本台湾vps云服务器用户以及初学者或爱好者提供有用的资料文章。帮助大家学习和收集有用的教程。我们的宗旨是为大众站长提供优质的服务。

如何使用Spark来进行数据分析,Spark可以用来做那些工作?

何为Apache Spark?

  Apache Spark是一个为速度和通用目标设计的集群计算平台。从速度的角度看,Spark从流行的MapReduce模型继承而来,可以更有效地支持多种类型的计算,如交互式查询和流处理。速度在大数据集的处理中非常重要,它可以决定用户可以交互式地处理数据,还是等几分钟甚至几小时。Spark为速度提供的一个重要特性是其可以在内存中运行计算,即使对基于磁盘的复杂应用.Spark是UC Berkeley AMP lab所开发类似于Hadoop MapReduce的通用并行计算框架,Spark是基于map reduce算法实现分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出的结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce算法

«1»

Powered By 站长资讯中心

站长资讯中心为您提供各类站长资讯,站长资料,我们的宗旨是为大众站长服务。您将在这里得到最新、最全、最专业的行业资讯及网站建设技术文档!