加入收藏 | 设为首页 | 会员中心 | 我要投稿 武汉站长网 (https://www.027zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

理清阿里云大数据产品(一)

发布时间:2022-11-26 03:00:39 所属栏目:大数据 来源:转载
导读: 阿里云官网上大数据产品众多,初看起来,既熟悉又陌生,熟悉的是好像都见过,陌生的是不清楚如何使用这些产品?

之前曾经提起过,大多数公有云都是在其擅长的领域进行了长时间的积累,然后

阿里云官网上大数据产品众多,初看起来,既熟悉又陌生,熟悉的是好像都见过,陌生的是不清楚如何使用这些产品?

阿里云大数据应用学院_阿里云大客户服务经理_阿里云大数据

之前曾经提起过,大多数公有云都是在其擅长的领域进行了长时间的积累,然后产品化对外以云服务的形式提供。阿里云形成了完整的大数据体系,《企业迁云实战》一书中给出了如下架构:

阿里云大数据应用学院_阿里云大客户服务经理_阿里云大数据

但要理清阿里云大数据产品的前世今生,我们还需要透过大数据的开源实现,来分析阿里数据处理的产品演进。

一、大数据的开源世界

我们知道,Google以论文的形式引领了大数据处理技术和发展,后来的开源生态都是围绕这些论文进行扩展。如:GFS --> HDFS、MapReduce --> Hadoop MapReduce、BigTable --> HBase、DataFlow --> Apache Beam。详情参见:。

Hadoop能够实现超大规模的数据处理,而Spark更是基于内存进行运算,极大地提升了性能。但Hadoop和Spark存在的问题:都是批处理系统,能够处理海量数据阿里云大数据,却不能实时处理数据。后来Spark Streaming采用微批处理(Micro-batch processing)的思想,也就是每次接收一个时间间隔(秒级)的数据(微批),然后再进行计算,本质上还是批处理,实时性不够好。

对于实时计算,开源的世界有没有相关实现呢?答案是Flink。Flink缘起于德国柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的Stratosphere项目,后来研究项目的核心人员共同创办了Data Artisans公司,命名为Flink,意为快速和灵巧,并在2014年,捐献给Apache基金会,后成为其顶级项目。其技术内涵是用流式计算来做大数据的计算。

下面介绍MaxCompute和Flink两款产品。

二、云原生大数据计算服务MaxCompute

MaxCompute是离线计算和存储平台,源于阿里云项目,类似但强于Hadoop体系,进行批量结构化数据的存储和计算。用于数据仓库、数据挖掘、商业智能分析等场景。

我们来看看MaxCompute是如何演化的。

2009年左右,淘宝系统采用的是IOE,也就是IBM的小型机、Oracle数据库和EMC存储设备。就Oracle数据库而言,阿里拥有亚洲最大的Oracle集群,数据规模在数百TB。随着数据规模的进一步扩大,阿里又使用了Greenplum存储,数据量扩展到了数千TB,机器数量达到数百台。

2009年9月,阿里云项目启动,分布式大数据存储服务ODPS(Open Data Processing Service,开放数据处理服务)是其中一部分。2012年,ODPS平台稳定,2013年开始商业化,单集群突破5千台。在此期间,阿里很多业务部门使用开源Hadoop体系进行大数据的分析、存储与处理,集群规模也达到了5000台,能处理PB级别的数据。阿里内部将Hadoop开源体系称为云梯1,而将ODPS自研体系称为云梯2。

阿里业务部门使用的Hadoop版本不一致,导致后期维护、业务之间的数据互通都存在问题。为此,2014年到2015年,阿里内部启动了“登月”计划:将原有运行在Hadoop上的数据迁移到ODPS上,如阿里金融、淘宝等业务。

2016年之后,ODPS也改名为MaxCompute。它支撑了内部所有业务,同时也对外提供服务。

阿里云大数据_阿里云大客户服务经理_阿里云大数据应用学院

我们再来看下MaxCompute的大致定义:

MaxCompute是一种企业级SaaS云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。

三、实时计算Flink

阿里巴巴双十一大促的场景中,用户因促销的刺激会临时产生一些购物需求,而这些需求又可能是临时的。那么,如何快速感知到用户的临时需求变化,快速地推荐用户感兴趣的商品是极不重要的。

这就需要进行实时处理海量数据,需要进行实时计算。

针对实时计算,阿里曾有Galaxy、JStorm和Blink三款产品:

JStorm是开源实现Storm的改进版本。Storm的编程语言是Java和Clojure。有关细节可参考:、。

阿里采用Java语言进行对Storm进行了重写,称为JStorm。在2015年11月,阿里将JStorm捐献给Apache基金会,但最终没能成为顶级项目。

Blink是开源实现Flink项目的改进商业版本,于2015年启动。Flink的技术优势是流处理,并认为批量处理是流处理的一种特例。而同期的Spark技术是批处理,通过微批来模拟流处理。

2017年,阿里统一合并了Galaxy、JStorm和Blink,统一采用Blink来支撑全集团的实时数据业务。2019年1月,阿里收购了DataArtisans公司,Blink改称为Flink企业版平台,也就是Ververica Platform,简称VVP。

阿里云官网给出了Flink的演进过程:

阿里云大数据_阿里云大客户服务经理_阿里云大数据应用学院

Flink运行在容器服务和ECS之上,主要工作是将各种不同的实时数据源中的数据进行实时的订阅、处理、分析,并把得到的结果写入到其他的在线存储之中,让用户直接生产使用。

阿里云大数据_阿里云大数据应用学院_阿里云大客户服务经理

(编辑:武汉站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!