如何学习大数据

发布时间：2022-11-26 15:01:01 所属栏目：大数据来源：网络

导读： 学习大数据的头一步:打好基础，比高逼格的大数据技术更重要!而基础知识就是:编程语言和linux操作系统。

我们以java编程为例，当然了你所擅长的编程语言也可以是python、Scala等!
点击链接

学习大数据的头一步:打好基础，比高逼格的大数据技术更重要!而基础知识就是:编程语言和linux操作系统。

大数据学习_大数据学习_大数据深度学习

我们以java编程为例，当然了你所擅长的编程语言也可以是python、Scala等!

点击链接加入群聊【大数据学习分享交流群】：大数据是未来的发展方向，正在挑战我们的分析能力及对世界的认知方式，因此，我们与时俱进，迎接变化，并不断的成长! 一起讨论进步学习

Java:只需要学习Java的标准版JavaSE就可以了，像Servlet、JSP、Tomcat、Struts、Spring、Hibernate，Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多，只需要了解就可以了，当然Java怎么连接数据库还是要知道的大数据学习，像JDBC一定要掌握一下，有同学说Hibernate或Mybites也能连接数据库啊，为什么不学习一下，我这里不是说学这些不好，而是说学这些可能会用你很多时间，工作中也不常用，我还没看到谁做大数据处理用到这两个东西的，当然你的精力很充足的话，可以学学Hibernate或Mybites的原理，不要只学API，这样可以增加你对Java操作数据库的理解，因为这两个技术的核心就是Java的反射加上JDBC的各种使用。

Linux:因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

接下来就是大数据技术的两大生态系统:Hadoop生态系统和spark生态系统。

Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了，这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了，让它直接跑在现有的hadoop yarn上面就可以了。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

以上很多都是必须的理论技术知识，想要成功就业，光纸上谈兵不行，还需要一定的实战经验才行，寻找一些大数据相关的项目进行练练手，巩固一下自己的技术。

学习是一项很好的技能，但也需要循序渐进!

大数据学习_大数据深度学习_大数据学习

学习大数据需要的基础

1、java SE、EE（SSM）

90%的大数据框架都是Java写的

2、MySQL

SQL on Hadoop

3、Linux

大数据的框架安装在Linux操作系统上

- 需要学什么

大数据离线分析

一般处理T+1数据（T：可能是1天、一周、一个月、一年）

a、Hadoop ：一般不选用最新版本，踩坑难解决

（common、HDES、MapReduce、YARN）

环境搭建、处理数据的思想

b、Hive：大数据的数据仓库

通过写SQL对数据进行操作，类似于MySQL数据库的sql

c、HBase：基于HDFS的NOSQL数据库

面向列存储

d、协作框架：

sqoop（桥梁：HDFS《==》RDBMS）

flume：搜集日志文件中的信息

e、调度框架

anzkaban

了解：crotab（Linux自带）

zeus（Alibaba）

Oozie（cloudera）

f、前沿框架扩展：

kylin、impala、ElasticSearch（ES）

大数据学习_大数据深度学习_大数据学习

大数据实时分析

以spark框架为主

Scala：OOP（面向对象程序设计）+FP（函数是程序设计）

sparkCore：类比MapReduce

sparkSQL：类比hive

sparkStreaming：实时数据处理

kafka：消息队列

前沿框架扩展：flink

阿里巴巴：blink

大数据机器学习

spark MLlib：机器学习库

pyspark编程：Python和spark的结合

推荐系统

python数据分析

python机器学习

学习是一次长期的过程，想要在这行有一点点成就，随着行业的变化，需要学习的东西也会发生变化，因此要根据市场

（编辑：武汉站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

元宇宙会存在品牌安全	你真的明白ELT和ETL吗
人工智能如何影响区块	宝钢宝山基地来了只智