理清阿里云大数据产品（一）

发布时间：2022-11-26 03:00:39 所属栏目：大数据来源：转载

导读： 阿里云官网上大数据产品众多，初看起来，既熟悉又陌生，熟悉的是好像都见过，陌生的是不清楚如何使用这些产品？

之前曾经提起过，大多数公有云都是在其擅长的领域进行了长时间的积累，然后

阿里云官网上大数据产品众多，初看起来，既熟悉又陌生，熟悉的是好像都见过，陌生的是不清楚如何使用这些产品？

阿里云大数据应用学院_阿里云大客户服务经理_阿里云大数据

之前曾经提起过，大多数公有云都是在其擅长的领域进行了长时间的积累，然后产品化对外以云服务的形式提供。阿里云形成了完整的大数据体系，《企业迁云实战》一书中给出了如下架构：

阿里云大数据应用学院_阿里云大客户服务经理_阿里云大数据

但要理清阿里云大数据产品的前世今生，我们还需要透过大数据的开源实现，来分析阿里数据处理的产品演进。

一、大数据的开源世界

我们知道，Google以论文的形式引领了大数据处理技术和发展，后来的开源生态都是围绕这些论文进行扩展。如：GFS --> HDFS、MapReduce --> Hadoop MapReduce、BigTable --> HBase、DataFlow --> Apache Beam。详情参见：。

Hadoop能够实现超大规模的数据处理，而Spark更是基于内存进行运算，极大地提升了性能。但Hadoop和Spark存在的问题：都是批处理系统，能够处理海量数据阿里云大数据，却不能实时处理数据。后来Spark Streaming采用微批处理（Micro-batch processing）的思想，也就是每次接收一个时间间隔（秒级）的数据（微批），然后再进行计算，本质上还是批处理，实时性不够好。

对于实时计算，开源的世界有没有相关实现呢？答案是Flink。Flink缘起于德国柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的Stratosphere项目，后来研究项目的核心人员共同创办了Data Artisans公司，命名为Flink，意为快速和灵巧，并在2014年，捐献给Apache基金会，后成为其顶级项目。其技术内涵是用流式计算来做大数据的计算。

下面介绍MaxCompute和Flink两款产品。

二、云原生大数据计算服务MaxCompute

MaxCompute是离线计算和存储平台，源于阿里云项目，类似但强于Hadoop体系，进行批量结构化数据的存储和计算。用于数据仓库、数据挖掘、商业智能分析等场景。

我们来看看MaxCompute是如何演化的。

2009年左右，淘宝系统采用的是IOE，也就是IBM的小型机、Oracle数据库和EMC存储设备。就Oracle数据库而言，阿里拥有亚洲最大的Oracle集群，数据规模在数百TB。随着数据规模的进一步扩大，阿里又使用了Greenplum存储，数据量扩展到了数千TB，机器数量达到数百台。

2009年9月，阿里云项目启动，分布式大数据存储服务ODPS（Open Data Processing Service，开放数据处理服务）是其中一部分。2012年，ODPS平台稳定，2013年开始商业化，单集群突破5千台。在此期间，阿里很多业务部门使用开源Hadoop体系进行大数据的分析、存储与处理，集群规模也达到了5000台，能处理PB级别的数据。阿里内部将Hadoop开源体系称为云梯1，而将ODPS自研体系称为云梯2。

阿里业务部门使用的Hadoop版本不一致，导致后期维护、业务之间的数据互通都存在问题。为此，2014年到2015年，阿里内部启动了“登月”计划：将原有运行在Hadoop上的数据迁移到ODPS上，如阿里金融、淘宝等业务。

2016年之后，ODPS也改名为MaxCompute。它支撑了内部所有业务，同时也对外提供服务。

阿里云大数据_阿里云大客户服务经理_阿里云大数据应用学院

我们再来看下MaxCompute的大致定义：

MaxCompute是一种企业级SaaS云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。

三、实时计算Flink

阿里巴巴双十一大促的场景中，用户因促销的刺激会临时产生一些购物需求，而这些需求又可能是临时的。那么，如何快速感知到用户的临时需求变化，快速地推荐用户感兴趣的商品是极不重要的。

这就需要进行实时处理海量数据，需要进行实时计算。

针对实时计算，阿里曾有Galaxy、JStorm和Blink三款产品：

JStorm是开源实现Storm的改进版本。Storm的编程语言是Java和Clojure。有关细节可参考：、。

阿里采用Java语言进行对Storm进行了重写，称为JStorm。在2015年11月，阿里将JStorm捐献给Apache基金会，但最终没能成为顶级项目。

Blink是开源实现Flink项目的改进商业版本，于2015年启动。Flink的技术优势是流处理，并认为批量处理是流处理的一种特例。而同期的Spark技术是批处理，通过微批来模拟流处理。

2017年，阿里统一合并了Galaxy、JStorm和Blink，统一采用Blink来支撑全集团的实时数据业务。2019年1月，阿里收购了DataArtisans公司，Blink改称为Flink企业版平台，也就是Ververica Platform，简称VVP。

阿里云官网给出了Flink的演进过程：

阿里云大数据_阿里云大客户服务经理_阿里云大数据应用学院

Flink运行在容器服务和ECS之上，主要工作是将各种不同的实时数据源中的数据进行实时的订阅、处理、分析，并把得到的结果写入到其他的在线存储之中，让用户直接生产使用。

阿里云大数据_阿里云大数据应用学院_阿里云大客户服务经理

（编辑：武汉站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

元宇宙会存在品牌安全	你真的明白ELT和ETL吗
人工智能如何影响区块	宝钢宝山基地来了只智