加入收藏 | 设为首页 | 会员中心 | 我要投稿武汉站长网（https://www.027zz.com/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 大数据 > 正文

长见识了！现有的各大大数据技术体系源自Google的三本秘籍

发布时间：2022-11-22 20:00:53 所属栏目：大数据来源：未知

导读： 我们从之前内容了解到谷歌大数据，从海量数据的云储存到云计算，以及之后大数据对于各个行业领域的应用，是从一群物理学家开始的。现如今大数据市场越来越趋于成熟，对应大数据的各项技术体

我们从之前内容了解到谷歌大数据，从海量数据的云储存到云计算，以及之后大数据对于各个行业领域的应用，是从一群物理学家开始的。现如今大数据市场越来越趋于成熟，对应大数据的各项技术体系也百花齐放。世界各大厂商如美国的Google云、亚马逊云，到中国的阿里云和腾讯云等，早已开始了自己的“云”上之路。

谷歌大数据_36大数据 36大数据_谷歌大数据的论文

万变不离其中，最终实现大数据的价值，主要解决以下四点技术问题：

1. 储存，对于海量数据储存，光凭借硬件是不行的，所以需要软件技术将数据进行更加合理的分布式储存，分布式文件存储系统包括hdfs、kafka

2. 计算，海量数据怎样进行快速计算，这里就需要成熟的编程模型，进行大规模数据集的并行运算，主要包括spark、map reduce、flink等。

3. 查询，面对今天的超大规模高并发sns类型的动态网站，产生的数据过于庞大，所以需要nosql解决随机查询问题，olap解决关联查询问题

4. 挖掘，海量数据的挖掘，当让需要当前最火的机器学习和深度学习等技术，主要包括TensorFlow、caffe、mahout等

谷歌大数据_谷歌大数据的论文_36大数据 36大数据

谷歌大数据_36大数据 36大数据_谷歌大数据的论文

由于大数据对各大行业带来生产力和创新力的效益，大数据技术服务厂商纷纷在这一领域注入各自的心血，从而也推动了大数据技术体系的发展。

我们先从google说起，google作为大数据技术生态里面的老大哥，制定出了针对大数据从储存到查询的关键性理论基础，分别如下：

谷歌大数据的论文_36大数据 36大数据_谷歌大数据

《Google file system》：主要解决如何借助普通的机器有效的储存海量数据；

《Google MapReduce》：主要解决怎样快速的计算海量数据；

《Google BigTable》：解决海量数据如何实现快速的查询；

Apache受到最先由Google Lab 开发的Map/Reduce 和Google File System(GFS) 的启发，研究出了对应的大数据分布式系统基础架构Hadoop；Hadoop由刘、关、张三大部分组成

1. hdfs解决大数据的存储问题。

2. mapreduce解决大数据的计算问题。

3. hbase解决大数据量的查询问题。

之后随着hadoop相关技术的不断成熟并衍生出了各种分支，其中最激烈的当属计算和查询技术，储存技术基本没有太多变化，还是hdfs来解决储存问题。

计算和查询技术的演进过程如下：

1. 由于mapreduce太过于复杂，降低了大数据计算难度，遂出了hive，pig、impla等SQL ON Hadoop的简易大数据计算技术

2. 为了面对不同场景下的不同技术需求，于是推出了基于内存的《apark》，意图解决所有大数据计算问题。

3. 由于hadoop只能进行批量计算的原因，太麻烦，于是就出了SparkStreaming、Storm，S4等流式计算技术，能够实现数据一来就即时计算

4. 之后Apache看到流式计算和批量计算不能统一的弊端，又推出了自己的计算技术flink，想一统流计算和批量计算

（编辑：武汉站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

相关内容

推荐文章

元宇宙会存在品牌安全	你真的明白ELT和ETL吗
人工智能如何影响区块	宝钢宝山基地来了只智

站长推荐

热点阅读