大数据导论(二:大数据的架构)
大数据和云计算密不可分,由于大数据处理和应用需求急剧增长,学术界和工业界不断推出新的或改进的计算模式和系统工具平台。
2、云计算的概念
云是网络、互联网的一种比
1、大数据和云计算 大数据和云计算密不可分,由于大数据处理和应用需求急剧增长,学术界和工业界不断推出新的或改进的计算模式和系统工具平台。 2、云计算的概念 云是网络、互联网的一种比喻说法,通常在图中往往用云来表示电信网,后来也用云来表示互联网和底层基础设施的抽象。云计算并不是对某一项独立技术的称呼,而是对实现云计算模式所需要的所有技术的总称。 3、云计算的特点 4、云计算的服务方式 5、大数据架构 大数据架构是一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。 5.1、大数据的分类 5.2、大数据的数据类型 数据类型包括原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型。 大数据时代的数据类型: 采用大数据方案解决问题时,应熟悉项目的实际状况,熟悉项目的建设流程,弄清大数据分析技术的原理,架构,设计理念,以及掌握大数据的关键技术大数据存储架构,才可以从容不迫的对待建设项目进行调研实施。 5.3、架构概述 架构,又称软件架构,是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计。软件系统的架构有两个要素:首先他是一个软件系统从整体到部分的最高层的的划分,再则一个系统通常是由元件组成,而这些元件如何形成、相互之间怎样发生作用,就是这个系统本身结构的问题了。所以说软件架构是平衡的艺术。 5.4、架构四大注意要素 5.5、数据库体系架构图 5.6、整体系统架构图 5.7、大数据架构关键技术 6、Hadoop架构 Hadoop是由Apache软件基金会研发的一种开源、高可靠、伸缩性强的分布式计算系统,主要用于处理大于1TB的海量数据。其核心包括系统HDFS和MapReduce,这一结构的实现十分有利于面向数据的系统架构,因此已经成为大数据技术领域的事实标准。 6.1、Hadoop五大优点 1)高可靠性。Hadoop具有按位存储和处理数据的能力。 2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,可以方便地扩展到其他节点中。 3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,具有较快的处理速度。 4)高容错性。Hadoop能够自动保存数据的多个副本,并自动将失败的任务重新分配。 5)低成本。Hadoop是开源的,项目的软件成本因此会大大降低。 6.2、Hadoop版本选择 ** 6.3、Hadoop核心组件 ** **HDFS:**Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。他是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 **MapReduce:**MapReduce是一种编程模型,MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)是一个基于集群的高性能并行计算平台(Cluster Infrastructure);2)是一个并行计算与运行软件框架(Software Framework);3)是一个并行程序设计模型与方法(Programming Model & Methodology)。 HBase: 类似Google BigTable的分布式NoSQL列数据库; Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以sql语句转换为MapReduce任务进行运行; Zookeeper:分布式锁,提供类似Google Chubby的功能; Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制; Pig:大数据数据流分析平台,为用户提供多种接口; Sqoop:在HADOOP与传统的数据库间进行数据的传递。 (编辑:武汉站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |