加入收藏 | 设为首页 | 会员中心 | 我要投稿 武汉站长网 (https://www.027zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

谷歌一线工程师的大数据开发能力,真的那么牛么?

发布时间:2022-12-09 19:02:26 所属栏目:大数据 来源:未知
导读: 对职业发展有困惑吗?加飞总知识星球!
我最近出版了一本书,叫《大数据浪潮之巅》,是讲大数据10多年发展史的。
大数据浩浩荡荡10多年,期间经历了浮浮沉沉,诞生了很多不同的架构和工具,

对职业发展有困惑吗?加飞总知识星球!

我最近出版了一本书,叫《大数据浪潮之巅》,是讲大数据10多年发展史的。

大数据浩浩荡荡10多年,期间经历了浮浮沉沉,诞生了很多不同的架构和工具,吸引了不少人才投身其中,也有不少好的大数据的书和专栏发布。大数据这个领域可谓非常的精彩。

极客时间上了一个新专栏《大规模数据处理实战》。在大数据业已如此成熟之际,极客时间推出这个新专栏,颇有一点耐人寻味的地方。这个专栏推出来的时候,极客时间的小姐姐找我来问我能不能推广一下。

我非常的好奇,在大数据学习资料如此成熟的今天推出一个新专栏是不是太晚了。这个专栏是不是和其他的专栏一样千篇一律。于是我接过小姐姐递来的专栏大纲仔细读起来。读完之后我顿时眼前一亮,发自内心的觉得,这的确是一个与众不同的好专栏,赶紧推荐给大家。

我这人有很多的毛病,比如说话做事比较直接。比如说我以前也评价过极客时间的一些专栏不咋地。我的公众号维护了优惠购买极客时间各个专栏的文章。但我公开明确的说一个专栏是好专栏,并且大张旗鼓的宣传的次数并不多。最近的一次是给丁奇的mySQL打call。而且我大张旗鼓打call的专栏,最后卖的都不错,大家的评价也都不错。

为什么我认为这是个好专栏呢?我们从大数据说起。平时我们提到做大数据的人,其实有两拨不同的人。一拨人是做大数据基础架构的,比如说写Spark的,写Flink的,写MapReduce的。一拨人是用大数据的基础架构解决实际的数据处理问题的人。比如说写MapReduce的job去处理数据的,写Spark程序去做数据分析的。

这两拨人,前者和后者的比例1比100也不为过。往往大公司里,会有一小部分人是前者,一大部分人是后者。而且两者之间互相交流沟通的渠道比较少。这种割裂的局面产生了很多的问题。

从使用架构去解决实际问题的人的角度去看,他们往往不了解架构。不了解架构带来的问题是不知道怎么样选择合适的大数据工具。即使选了之后,遇到性能问题也不知道怎么办。他们不清楚怎么样才能最好的用好自己选的大数据工具去解决自己的实际问题。

从做架构的人的角度看,问题正好倒过来。做架构的人往往觉得自己的大数据工具设计的很好,能够解决整个宇宙的问题,但是却不知道实际上客户们到底需要什么,痛点在哪里。这也可以解释为什么大数据的工具一代又超越一代。大数据领域里这两类人互相看不到对方的问题,也在大数据的各种书籍和专栏里体现得淋漓尽致。

《大规模数据处理实战》的作者蔡元楠是谷歌大脑里面做AI健康医疗应用领域的工程师。之前他也就职于搜索广告和智能语音助手系统。从大数据用户分类的角度来说,这是一个典型的使用大数据架构和工具的人。但是从专栏的大纲来看,作者对大数据的架构本身有着深入的理解。这就让我对这个专栏有了很强的信心。

这样说吧,在大数据里我是做架构的,但是我有近一年被借调去用大数据的组里和对方一起解决一个重要的大数据业务问题:雅虎搜索业务切换到必应引擎之后产生的大量广告数据。这让我同时也有了作为大数据架构使用者去开发和解决业务问题的经历。作为在微软内极少数有两者结合经历的人谷歌大数据,我对大数据的理解一直是非常深刻和有洞见的。基于类比的原理,一个大数据架构有深刻理解的大数据使用者的经验,对每个从事大数据的人,都有很强的借鉴作用。

具体来看,这个专栏分六部分。第一部分里蔡元楠开始通过大数据的应用,介绍了MapReduce是怎么样没办法解决现在大数据应用的实际需求。第二部分则是所有大数据和分布式系统的基础理论回顾。

第三部分是以一个大数据使用者对大数据架构的深入理解的方式,介绍了主流的Spark是怎么样设计的,作为大数据的使用者,应该怎么样去写出性能优化的Spark程序。

第四部分的Apache Beam带有强烈的谷歌色彩。Beam虽然说在谷歌之外并不是特别使用广泛,但是作为一个很优美的抽象模型,学习起来对提高大家对数据处理的抽象能力的认识,是非常有好处的。

作者用四部分奠定基础之后,第五部分可谓是整个专栏最为精华的部分。只此一个部分,足矣抵得上整个专栏的价格。在这里作者以Beam为工具,给大家展示了如何使用大数据处理工具,去解决实际的大数据应用问题。大数据应用开发之难,很多时候不仅仅难在对业务的理解,更是对大数据平台自身的理解。作者可谓给大家展现了一个榜样。这部分对每个做大数据应用开发的人,都值得反复阅读。

当然作者不止于此,最后还给大家展望了一下未来,给大家介绍一下大数据的未来是如何发展的。这个专栏的具体目录如下。

作为读者,应该对这个专栏抱有什么样的期望呢?如果你是希望学习大数据的具体应用技术的,比如说Spark应该怎么用,我想这个专栏可能会让你失望了。因为作者的写作核心并不在于此,作者擅长的也不在于此。

如果你是希望了解一个非常有经验的大数据应用开发者是如何理解大数据的架构和平台,如何理解大数据的应用开发和平台之间的关系,以及如何很好的把相应的平台知识和应用开发结合起来的,那么这个专栏就会很适合你。

可以这样说,因为作者本身谷歌的经历,而谷歌内部的工具体系和开源的工具体系并非完全一致,这个专栏从了解开源工具体系方面来说,注定不会是一个最适合的专栏。它的精髓所在,就是作者作为一个资深的大数据应用开发者,他是如何理解大数据框架的平台技术特性,他又是如何结合这些理解到应用开发里面去的。

作者讲述的故事,很多都是每个大数据应用开发者,或早或晚会遇到的真实场景。它们独立于具体的轮子,但是却又会在不同的轮子里以稍微不同的方式来展现。这些体验和经验,是这个专栏最有价值的地方。

(编辑:武汉站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!