长见识了!现有的各大大数据技术体系源自Google的三本秘籍
我们从之前内容了解到谷歌大数据,从海量数据的云储存到云计算,以及之后大数据对于各个行业领域的应用,是从一群物理学家开始的。现如今大数据市场越来越趋于成熟,对应大数据的各项技术体系也百花齐放。世界各大厂商如 美国的Google云、亚马逊云,到中国的阿里云和腾讯云等,早已开始了自己的“云”上之路。 万变不离其中,最终实现大数据的价值,主要解决以下四点技术问题: 1. 储存,对于海量数据储存,光凭借硬件是不行的,所以需要软件技术将数据进行更加合理的分布式储存,分布式文件存储系统包括hdfs、kafka 2. 计算,海量数据怎样进行快速计算,这里就需要成熟的编程模型,进行大规模数据集的并行运算,主要包括spark、map reduce、flink等。 3. 查询,面对今天的超大规模高并发sns类型的动态网站,产生的数据过于庞大,所以需要nosql解决随机查询问题,olap解决关联查询问题 4. 挖掘,海量数据的挖掘,当让需要当前最火的机器学习和深度学习等技术,主要包括TensorFlow、caffe、mahout等 由于大数据对各大行业带来生产力和创新力的效益,大数据技术服务厂商纷纷在这一领域注入各自的心血,从而也推动了大数据技术体系的发展。 我们先从google说起,google作为大数据技术生态里面的老大哥,制定出了针对大数据从储存到查询的关键性理论基础,分别如下: 《Google file system》 :主要解决如何借助普通的机器有效的储存海量数据; 《Google MapReduce》:主要解决怎样快速的计算海量数据; 《Google BigTable》: 解决海量数据如何实现快速的查询; Apache受到最先由Google Lab 开发的Map/Reduce 和Google File System(GFS) 的启发,研究出了对应的大数据分布式系统基础架构Hadoop;Hadoop由刘、关、张三大部分组成 1. hdfs解决大数据的存储问题。 2. mapreduce解决大数据的计算问题。 3. hbase解决大数据量的查询问题。 之后随着hadoop相关技术的不断成熟并衍生出了各种分支,其中最激烈的当属计算和查询技术,储存技术基本没有太多变化,还是hdfs来解决储存问题。 计算和查询技术的演进过程如下: 1. 由于mapreduce太过于复杂,降低了大数据计算难度,遂出了hive,pig、impla等SQL ON Hadoop的简易大数据计算技术 2. 为了面对不同场景下的不同技术需求,于是推出了基于内存的《apark》,意图解决所有大数据计算问题。 3. 由于hadoop只能进行批量计算的原因,太麻烦,于是就出了SparkStreaming、Storm,S4等流式计算技术,能够实现数据一来就即时计算 4. 之后Apache看到流式计算和批量计算不能统一的弊端,又推出了自己的计算技术flink,想一统流计算和批量计算 (编辑:武汉站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |