大数据具体是学习什么内容呢？主要框架是什么？

如题所述

举报该文章

相关建议 2020-05-19

首先，学习大数据是需要有java，python和R语言的基础。
1) Java学习到什么样的程度才可以学习大数据呢?
java需要学会javaSE即可。javaweb，javaee对于大数据用不到。学会了javase就可以看懂hadoop框架。
2) python是最容易学习的，难易程度：python java Scala 。
python不是比java更直观好理解么，因为会了Python 还是要学习java的，你学会了java，再来学习python会很简单的，一周的时间就可以学会python。
3) R语言也可以学习，但是不推荐，因为java用的人最多，大数据的第一个框架Hadoop，底层全是Java写的。就算学会了R还是看不懂hadoop。
java在大数据中的作用是构成大数据的语言，大数据的第一个框架Hadoop以及其他大数据技术框架，底层语言全是Java写的，所以推荐首选学习java
大数据开发学习路线：
第一阶段：Hadoop生态架构技术
1、语言基础
Java：多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以，不需要深入掌握。
Linux：系统安装、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。
Python：基础语法，数据结构，函数，条件判断，循环等基础知识。
2、环境准备
这里介绍在windows电脑搭建完全分布式，1主2从。
VMware虚拟机、Linux系统（Centos6.5）、Hadoop安装包，这里准备好Hadoop完全分布式集群环境。
3、MapReduce
MapReduce分布式离线计算框架，是Hadoop核心编程模型。
4、HDFS1.0/2.0
HDFS能提供高吞吐量的数据访问，适合大规模数据集上的应用。
5、Yarn（Hadoop2.0）
Yarn是一个资源调度平台，主要负责给任务分配资源。
6、Hive
Hive是一个数据仓库，所有的数据都是存储在HDFS上的。使用Hive主要是写Hql。
7、Spark
Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
8、SparkStreaming
Spark Streaming是实时处理框架，数据是一批一批的处理。
9、SparkHive
Spark作为Hive的计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算，可以提高Hive查询的性能。
10、Storm
Storm是一个实时计算框架，Storm是对实时新增的每一条数据进行处理，是一条一条的处理，可以保证数据处理的时效性。
11、Zookeeper
Zookeeper是很多大数据框架的基础，是集群的管理者。
12、Hbase
Hbase是一个Nosql数据库，是高可靠、面向列的、可伸缩的、分布式的数据库。
13、Kafka
kafka是一个消息中间件，作为一个中间缓冲层。
14、Flume
Flume常见的就是采集应用产生的日志文件中的数据，一般有两个流程。
一个是Flume采集数据存储到Kafka中，方便Storm或者SparkStreaming进行实时处理。
另一个流程是Flume采集的数据存储到HDFS上，为了后期使用hadoop或者spark进行离线处理。
第二阶段：数据挖掘算法
1、中文分词
开源分词库的离线和在线应用
2、自然语言处理
文本相关性算法
3、推荐算法
基于CB、CF，归一法，Mahout应用。
4、分类算法
NB、SVM
5、回归算法
LR、DecisionTree
6、聚类算法
层次聚类、Kmeans
7、神经网络与深度学习
NN、Tensorflow
以上就是学习Hadoop开发的一个详细路线，如果需要了解具体框架的开发技术，可咨询加米谷大数据老师，详细了解。
学习大数据开发需要掌握哪些技术呢？
（1）Java语言基础
Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类
（2）HTML、CSS与Java
PC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生Java交互功能开发、Ajax异步交互、jQuery应用
（3）JavaWeb和数据库
数据库、JavaWeb开发核心、JavaWeb开发内幕
Linux&Hadoop生态体系
Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架
分布式计算框架和Spark&Strom生态体系
（1）分布式计算框架
Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算、实战一：基于Spark的推荐系统（某一线公司真实项目）、实战二：新浪网（www.sina.com.cn）
（2）storm技术架构体系
Storm原理与基础、消息队列kafka、Redis工具、zookeeper详解、大数据项目实战数据获取、数据处理、数据分析、数据展现、数据应用
大数据分析—AI（人工智能）Data
Analyze工作环境准备&数据分析基础、数据可视化、Python机器学习
以上的回答希望对你有所帮助

温馨提示：内容为网友见解，仅供参考

当前网址：https://aolonic.com/aa/154add1awaa3kaa4an4.html

其他看法

第1个回答 2020-05-21

大数据学习的内容有8个方面，按照顺序学习就可以了，大数据的前景是很不错的，就业的薪资也是可观的，希望你能早日学有所成。

大数据学什么

第2个回答 2020-06-05

消息队列很多：
1、RabbitMQ
RabbitMQ 2007年发布，是一个在AMQP(高级消息队列协议)基础上完成的，可复用的企业消息系统，是当前最主流的消息中间件之一。
2、ActiveMQ
ActiveMQ是由Apache出品，ActiveMQ 是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现。它非常快速，支持多种语言的客户端和协议，而且可以非常容易的嵌入到企业的应用环境中，并有许多高级功能
3、RocketMQ
RocketMQ出自阿里公司的开源产品，用 Java 语言实现，在设计时参考了 Kafka，并做出了自己的一些改进，消息可靠性上比 Kafka 更好。RocketMQ在阿里集团被广泛应用在订单，交易，充值，流计算，消息推送，日志流式处理等
4、Kafka
Apache Kafka是一个分布式消息发布订阅系统。它最初由LinkedIn公司基于独特的设计实现为一个分布式的提交日志系统( a distributed commit log)，，之后成为Apache项目的一部分。Kafka系统快速、可扩展并且可持久化。它的分区特性，可复制和可容错都是其不错的特性。

第3个回答 2020-06-04

大数据存储调度，主流框架hadoop的hdfs和yarn。
大数据sql，主流框架hive和spark sql。
大数据的消息队列，kafka，pulsar。
大数据离线计算，spark，mr。
大数据实时计算，flink，spark。

第4个回答 2020-05-19

你好，想要成为大数据工程师，肯定需要工作技巧、行业背景知识等多方面的输入。只要掌握了真正的的技术，以后各方面的发展都会非常不错，有一定的Java编程基础，学大数据会更容易一些。
如果想入大数据行业，却苦于自己没有基础，担心自己学不会，可以选择专业的学习，千锋的很不错，一般学习费用在2W左右，也有线上的相关学习。零基础学习并不可怕，一般4-6个左右的时间，只要你肯努力，一切都不是事。本回答被网友采纳

1 2 下一页

相似回答

大家正在搜