« 上一篇下一篇 »

数据可视化是大趋势,大数据我们必须知道的几个核心竞争力

     随着云服务器的越来越火,现在很多公司的数据在开始往上面迁移,形成了一个巨大的协同架构,面对这类运用需求,传统数据库不论在技术上仍是功用上都难以为继。因此,近几年出现了oldSQL、NoSQL 与NewSQL 并存的形势。而大数据技术发展给网络安全领域带来了挑战和机遇。新技术和新模式伴随着数据泄露、个人隐私风险、数据跨境流动、数据滥用等一系列安全风险,系统地介绍了大数据安全保障思路以应对这些风险。同时,大数据技术的发展为安全产业能力提升带来了巨大的机会,将会在大数据技术、智能安全模式和安全产业协同层面分别发挥作用传统的数据存储和处理以结构化数据为主,因此联络数据库系统(RDBMS)能够统一天下满足各类运用需求。大数据往往是半结构化和非结构化数据为主,结构化数据为辅,而且各种大数据运用一般是对不同类型的数据内容检索、交叉比对、深度开掘与概括分析。

1大数据生命周期

底层是基础设施,包括核算资源、内存与存储和网络互联,详细体现为核算节点、集群、机柜和数据中心。在此之上是数据存储和处理,包括文件系统、数据库和相似YARN的资源处理系统。然后是核算处理层,如hadoop、MapReduce和Spark,以及在此之上的各种不同核算范式,如批处理、流处理和图核算等,包括衍生出编程模型的核算模型,如BSP、GAS 等。数据分析和可视化根据核算处理层。分析包括简略的查询分析、流分析以及更凌乱的分析(如机器学习、图核算等)。查询分析多根据表结构和联络函数,流分析根据数据、工作流以及简略的核算分析,而凌乱分析则根据更凌乱的数据结构与方法,如图、矩阵、迭代核算和线性代数。一般含义的可视化是对分析效果的展示。但是通过交互式可视化,还能够探求性地提问,使分析获得新的条理,构成迭代的分析和可视化。根据大规划数据的实时交互可视化分析以及在这个进程中引进自动化的要素是现在研讨的抢手。

有2个领域垂直打通了上述的各层,需求整体、协同地看待。一是编程和处理东西,方向是机器通过学习结束自动最优化、尽量无需编程、无需凌乱的配备。另一个领域是数据安全,也是贯穿整个技术栈。除了这两个领域垂直打通各层,还有一些技术方向是跨了多层的,例如“内存核算”事实上覆盖了整个技术栈。

 

2.大数据收集与预处理

在大数据的生命周期中,数据收集处于第一个环节。根据MapReduce发作数据的运用系统分类,大数据的收集首要有4种来历:处理信息系统、Web信息系统、物理信息系统、科学实验系统。关于不同的数据集,可能存在不同的结构和方法,如文件、XML 树、联络表等,体现为数据的异构性。对多个异构的数据集,需求做进一步集成处理或整合处理,将来自不同数据集的数据收集、收拾、清洗、改换后,生成到一个新的数据集,为后续查询和分析处理供应一起的数据视图。针对处理信息系统中异构数据库集成技术、Web 信息系统中的实体辨认技术和DeepWeb集成技术、传感器网络数据融合技术现已有许多研讨作业,获得了较大的开展,现已推出了多种数据清洗和质量控制东西,例如,美国SAS公司的Data Flux、美国IBM 公司的Data Stage、美国Informatica 公司的Informatica Power Center。

 

3.大数据存储与处理

传统的数据存储和处理以结构化数据为主,因此联络数据库系统(RDBMS)能够统一天下满足各类运用需求。大数据往往是半结构化和非结构化数据为主,结构化数据为辅,而且各种大数据运用一般是对不同类型的数据内容检索、交叉比对、深度开掘与概括分析。面对这类运用需求,传统数据库不论在技术上仍是功用上都难以为继。因此,近几年出现了oldSQL、NoSQL 与NewSQL 并存的形势。总体上,按数据类型的不同,大数据的存储和处理选用不同的技术路途,大致能够分为3类。第1类首要面对的是大规划的结构化数据。针对这类大数据,一般选用新式数据库集群。它们通过列存储或队伍混合存储以及粗粒度索引等技术,结合MPP(Massive Parallel Processing)架构高效的分布式核算方法,结束对PB 量级数据的存储和处理。这类集群具有高功用和高扩展性特征,在企业分析类运用领域已获得广泛运用;第2类首要面对的是半结构化和非结构化数据。应对这类运用场景,根据Hadoop开源系统的系统途径更为拿手。它们通过对Hadoop生态系统的技术扩展和封装,结束对半结构化和非结构化数据的存储和处理;第3类面对的是结构化和非结构化混合的大数据,因此选用MPP 并行数据库集群与Hadoop 集群的混合来结束对百PB 量级、EB量级数据的存储和处理。一方面,用MPP 来处理核算高质量的结构化数据,供应健壮的SQL和OLTP型效力;另一方面,用Hadoop结束对半结构化和非结构化数据的处理,以支撑比方内容检索、深度开掘与概括分析等新式运用。这类混合方法将是大数据存储和处理未来开展的趋势。大数据的采集与发掘与云计算是离不开的,与庞大的服务器空间也是分不开的。而现在的倾向就是租用云计算平台进行大数据的整理运用,简单快捷,还不占地

 

4.大数据技术生态

大数据的底子处理流程与传统数据处理流程并无太大差异,首要差异在于:由于大数据要处理许多、非结构化的数据,所以在各处理环节中都能够选用并行处理。现在,Hadoop、MapReduce和Spark等分布式处理方法现已成为大数据处理各环节的通用处理方法。

 

  根据业务对实时的需求,有支撑在线处理的Storm、Cloudar Impala、支撑迭代核算的Spark 及流处理结构S4。Storm是一个分布式的、容错的实时核算系统,由BackType开发,后被Twitter捕获。Storm归于流处理途径,多用于实时核算并更新数据库。Storm也可被用于“连续核算”(Continuous Computation),对数据流做连续查询,在核算时就将效果以流的方法输出给用户。它还可被用于“分布式RPC”,以并行的方法工作贵重的运算。Cloudera Impala是由Cloudera开发,一个开源的Massively Parallel Processing(MPP)查询引擎。与Hive 相同的元数据、SQL语法、ODBC 驱动程序和用户接口(HueBeeswax),能够直接在HDFS 或HBase 上供应快速、交互式SQL 查询。Impala是在Dremel的启发下开发的,不再运用缓慢的Hive+MapReduce 批处理,而是通过与商用并行联络数据库中相似的分布式查询引擎(由Query Planner、Query Coordinator 和Query Exec Engine这3部分组成),能够直接从HDFS 或许HBase 顶用SELECT、JOIN 和核算函数查询数据,然后大大降低了推延。

Hadoop社区正极力扩展示有的核算方法结构和途径,以便处理现有版别在核算功用、核算方法、系统构架和处理才华上的许多缺乏,这正是Hadoop2.0 版别“ YARN”的极力方针。各种核算方法还能够与内存核算方法混合,结束高实时性的大数据查询和核算分析。混合核算方法之集大成者当属UC Berkeley AMP Lab 开发的Spark生态系统,如图3所示。Spark 是开源的类Hadoop MapReduce的通用的数据分析集群核算结构,用于构建大规划、低延时的数据分析运用,建立于HDFS之上。Spark供应健壮的内存核算引擎,几乎包括了全部典型的大数据核算方法,包括迭代核算、批处理核算、内存核算、流式核算(Spark Streaming)、数据查询分析核算(Shark)以及图核算(GraphX)。Spark 运用Scala 作为运用结构,选用根据内存的分布式数据集,优化了迭代式的作业负载以及交互式查询。与Hadoop 不同的是,Spark 和Scala 紧密集成,Scala 像处理本地collective 方针那样处理分布式数据集。Spark支撑分布式数据集上的迭代式任务,实践上能够在Hadoop文件系统上与Hadoop一起工作(通过YARN、Mesos等结束)。其他,根据功用、兼容性、数据类型的研讨,还有Shark、Phoenix、Apache Accumulo、Apache Drill、Apache Giraph、Apache Hama、Apache Tez、Apache Ambari 等其他开源处理计划。估量未来适当长一段时间内,干流的Hadoop途径改善后将与各种新的核算方法和系统共存,并相互融合,构成新一代的大数据处理系统和途径。

5.大数据核算方法与系统

核算方法的出现有力推动了大数据技术和运用的开展,使其成为现在大数据处理最为成功、最广为接受运用的干流大数据核算方法。但是,实践国际中的大数据处理问题凌乱多样,难以有一种单一的核算方法能包括全部不同的大数据核算需求。研讨和实践运用中发现,由于MapReduce首要适合于进行大数据线下批处理,在面向低推延和具有凌乱数据联络和凌乱核算的大数据问题时有很大的不适应性。因此,近几年来学术界和业界在不断研讨并推出多种不同的大数据核算方法。

所谓大数据核算方法,即根据大数据的不同数据特征和核算特征,从多样性的大数据核算问题和需求中提炼并建立的各种高层抽象(abstraction)或模型(model)。例如,MapReduce 是一个并行核算抽象,加州大学伯克利分校出名的Spark系统中的“分布内存抽象RDD”,CMU 出名的图核算系统GraphLab 中的“图并行抽象”(Graph Parallel Abstraction)等。传统的并行核算方法,首要从系统结构和编程言语的层面定义了一些较为底层的并行核算抽象和模型,但由于大数据处理问题具有许多高层的数据特征和核算特征,因此大数据处理需求更多地结合这些高层特征考虑更为高层的核算方法。

根据大数据处理多样性的需求和以上不同的特征维度,现在出现了多种典型和重要的大数据核算方法。与这些核算方法相适应,出现了许多对应的大数据核算系统和东西。由于单纯描绘核算方法比较抽象和空泛,因此在描绘不同核算方法时,将一起给出相应的典型核算系统和东西,如表1所示,这将有助于对核算方法的了解以及对技术开展示状的掌握,并进一步有利于在实践大数据处理运用中对适合的核算技术和系统东西的挑选运用。

 

6.大数据分析与可视化

在大数据年代,人们迫切希望在由一般机器组成的大规划集群上结束高功用的以机器学习算法为中心的数据分析,为实践业务供应效力和辅导,进而结束数据的毕竟变现。与传统的在线联机分析处理OLAP不同,对大数据的深度分析首要根据大规划的机器学习技术,一般来说,机器学习模型的操练进程能够归结为最优化定义于大规划操练数据上的方针函数而且通过一个循环迭代的算法结束,如图4所示。因此与传统的OLAP相比较,根据机器学习的大数据分析具有自己一起的特征。

 

(1)迭代性:由于用于优化问题一般没有闭式解,因此对模型参数断定并非一次能够结束,需求循环迭代多次逐渐迫临最优值点。

(2)容错性:机器学习的算法规划和模型点评容忍非最优值点的存在,一起多次迭代的特性也答应在循环的进程中发作一些过错,模型的毕竟收敛不受影响。

(3)参数收敛的非均匀性:模型中一些参数通过少数几轮迭代后便不再改动,而有些参数则需求很长时间才华抵达收敛。

这些特征抉择了理想的大数据分析系统的规划和其他核算系统的规划有很大不同,直接运用传统的分布式核算系统运用于大数据分析,很大份额的资源都糟蹋在通讯、等候、协调等非有用的核算上。

      传统的分布式核算结构MPI(message passing interface,信息传递接口)虽然编程接口活络功用健壮,但由于编程接口凌乱且对容错性支撑不高,无法支撑在大规划数据上的凌乱操作,研讨人员转而开发了一系列接口简略容错性强的分布式核算结构效力于大数据分析算法,以MapReduce、Spark和参数效力器ParameterServer等为代表。

分布式核算结构MapReduce将对数据的处理归结为Map和Reduce两大类操作,然后简化了编程接口而且前进了系统的容错性。但是MapReduce受制于过于简化的数据操作抽象,而且不支撑循环迭代,因此对凌乱的机器学习算法支撑较差,根据MapReduce的分布式机器学习库Mahout需求将迭代运算分解为多个连续的Map 和Reduce 操作,通过读写HDFS文件方法将上一次第循环的运算效果传入下一轮结束数据交换。在此进程中,许多的操练时间被用于磁盘的读写操作,操练功率十分低效。为了处理MapReduce上述问题,Spark 根据RDD 定义了包括Map 和Reduce在内的更加丰盛的数据操作接口。不同于MapReduce 的是Job 中心输出和效果能够保存在内存中,然后不再需求读写HDFS,这些特性使得Spark能更好地适用于数据开掘与机器学习等需求迭代的大数据分析算法。根据Spark结束的机器学习算法库MLLIB现已闪现出了其相关于Mahout 的优势,在实践运用系统中得到了广泛的运用。

     近年来,跟着待分析数据规划的灵敏扩张,分析模型参数也快速增加,对已有的大数据分析方法提出了应战。例如在大规划论题模型LDA 中,人们期望操练得到百万个以上的论题,因此在操练进程中可能需求对上百亿甚至千亿的模型参数进行更新,其规划远远超出了单个节点的处理才华。为了处理上述问题,研讨人员提出了参数效力器(Parameter Server)的概念,如图5所示。在参数效力器系统中,大规划的模型参数被会合存储在一个分布式的效力器集群中,大规划的操练数据则分布在不同的作业节点(worker)上,这样每个作业节点只需求保存它核算时所依靠的少部分参数即可,然后有用处理了超大规划大数据分析模型的操练问题。现在参数效力器的结束首要有卡内基梅隆大学的Petuum、PSLit等。

    很多数据产生于业务系统、支撑业务的正常运行。如ERP、MES、PLM等。我们把这些数据称为一次应用。把业务系统中的数据存入数据仓库、大数据平台,进行分析、利用,称为二次应用。大数据前期的案例,主要针对二次应用。现在看来,谈论一次应用的人越来越多。如果包含了一次应用,就把大量的应用纳入了大数据讨论的范畴。数据一次应用的目的很清晰,二次应用则往往是探索性的。
l大数据是服务于现有业务的延伸和发展,还是创立新业务
在工业界,应用数字化方法早已不是什么新鲜事了。但是,很多应用受存储、计算、传递能力的限制,只能做些简单的工作。这时,随着业务需求的增长和创新,人们会考虑更大量的存储、更复杂的计算、更大范围的数据共享。如产品开发中的重用和协同。这时,如何提升数据的存储、计算和传递能力是关键要求。另外一种情况则是把大数据做为开展新业务的基础。如向设计和服务转型、开发智能产品等等。

  以上就总结这么多,关于大数据的行业深度分析,我们将会在以后的文章中更多的解读分析,如有雷同,请联系数据吧编辑部,祝大家旗开得胜!