广告
返回顶部
首页 > 资讯 > 数据库 >大数据学习路线
  • 157
分享到

大数据学习路线

大数据学习路线 2020-02-15 04:02:57 157人浏览 绘本
摘要

前言 数据科学部为想从事大数据方向学习的小伙伴总结了一下大数据的学习路线,供大家学习参考。由于大数据是一个基础门槛较高就业前景较好的学习方向。所以打算学习大数据的小伙伴要加油啦! 大数据学习路线: 首先我要了解大数据处理流程: 第

大数据学习路线

前言

数据科学部为想从事大数据方向学习的小伙伴总结了一下大数据的学习路线,供大家学习参考。由于大数据是一个基础门槛较高就业前景较好的学习方向。所以打算学习大数据的小伙伴要加油啦!

大数据学习路线:

首先我要了解大数据处理流程:

第一步:数据收集

第二部:数据存储

第三步:数据分析

第四步:数据应用

数据收集

 

大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,所以数据的采集需要在多台服务器上进行,且采集过程不能影响正常业务的开展。基于这种需求,就衍生了多种日志收集工具,如 Flume Logstash等,它们都能通过简单的配置完成复杂的数据收集和数据聚合。

 

数据存储

 

收集到数据后,下一个问题就是:数据该如何进行存储?我们通常熟知的就是把数据存入Mysqloracle等传统的关系型数据库,这些传统的数据库的特点是能够快速存储结构化的数据,并支持随机访问。但大数据的数据结构通常是半结构化(如日志数据)、甚至是非结构化的(如视频、音频数据),为了解决海量半结构化和非结构化数据的存储,衍生了 hadoop hdfs KFSGFS 等分布式文件系统,它们都能够支持结构化、半结构和非结构化数据的存储,并可以通过增加机器进行横向扩展。

分布式文件系统完美地解决了海量数据存储的问题,但是一个优秀的数据存储系统需要同时考虑数据存储和访问两方面的问题,比如你希望能够对数据进行随机访问,这是传统的关系型数据库所擅长的,但却不是分布式文件系统所擅长的,那么有没有一种存储方案能够同时兼具分布式文件系统和关系型数据库的优点,基于这种需求,就产生了 HBasemongoDB

数据分析

大数据处理最重要的环节就是数据分析,数据分析通常分为两种:批处理和流处理。

批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架 Hadoop mapReducesparkflink 等;

流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有 StORMSpark StreamingFlink Streaming 等。

批处理和流处理各有其适用的场景,时间不敏感或者硬件资源有限,可以采用批处理;时间敏感和及时性要求高就可以采用流处理。随着服务器硬件的价格越来越低和大家对及时性的要求越来越高,流处理越来越普遍,如股票价格预测和电商运营数据分析等。

数据应用

 

数据分析完成后,接下来就是数据应用的范畴,这取决于你实际的业务需求。比如你可以将数据进行可视化展现,或者将数据用于优化你的推荐算法,这种运用现在很普遍,比如短视频个性化推荐、电商商品推荐、头条新闻推荐等。当然你也可以将数据用于训练你的机器学习模型,这些都属于其他领域的范畴,都有着对应的框架和技术栈进行处理,这里就不一一赘述。

 

学习路线

 

学习大数据门槛相对较高,首先要有一定的语言基础

java

大数据框架大多采用 Java 语言进行开发,并且几乎全部的框架都会提供 Java api Java 是目前比较主流的后台开发语言,所以网上免费的学习资源也比较多。

2.Scala

Scala 是一门综合了面向对象和函数式编程概念的静态类型的编程语言,它运行在 Java 虚拟机上,可以与所有的 Java 类库无缝协作,著名的 kafka 就是采用 Scala 语言进行开发的。

为什么需要学习 Scala 语言 这是因为当前最火的计算框架 Flink Spark 都提供了 Scala 语言的接口,使用它进行开发,比使用 Java 8 所需要的代码更少,且 Spark 就是使用 Scala 语言进行编写的,学习 Scala 可以帮助你更深入的理解 Spark

 

linux基础

通常大数据框架都部署在 Linux 服务器上,所以需要具备一定的 Linux 知识。

 

构建工具

 

这里需要掌握的自动化构建工具主要是 MavenMaven 在大数据场景中使用比较普遍,主要在以下三个方面:

1.管理项目 jar 包,帮助你快速构建大数据应用程序;

2.不论你的项目是使用 Java 语言还是 Scala 语言进行开发,提交到集群环境运行时,都需要使用 Maven 进行编译打包;

3.大部分大数据框架使用 Maven 进行源码管理,当你需要从其源码编译出安装包时,就需要使用到 Maven

 

框架学习

 

我们对框架进行简单的分类总结:

日志收集框架:Flume LogstashKibana

分布式文件存储系统:Hadoop HDFS

数据库系统:MonGodbHBase

分布式计算框架:

  • 批处理框架:Hadoop MapReduce
  • 流处理框架:Storm
  • 混合处理框架:SparkFlink

查询分析框架:Hive Spark sql Flink SQL PigPhoenix

集群资源管理器:Hadoop YARN

分布式协调服务:ZooKeeper

数据迁移工具:Sqoop

任务调度框架:AzkabanOozie

集群部署和监控AmbariCloudera Manager

上面列出的都是比较主流的大数据框架,社区都很活跃,学习资源也比较丰富。建议从 Hadoop 开始入门学习,因为它是整个大数据生态圈的基石,其它框架都直接或者间接依赖于 Hadoop 。接着就可以学习计算框架,Spark Flink 都是比较主流的混合处理框架,Spark 出现得较早,所以其应用也比较广泛。 Flink 是当下最火热的新一代的混合处理框架,其凭借众多优异的特性得到了众多公司的青睐。两者可以按照你个人喜好或者实际工作需要进行学习。

 

开发工具

 

这里推荐一些大数据常用的开发工具:

Java IDE:idea 和 Eclipse 都可以。从个人使用习惯而言,更倾向于 IDEA ;

VMware Workstation:在学习过程中,你可能经常要在虚拟机上搭建服务和集群。

MobaXterm:大数据的框架通常都部署在服务器上,这里推荐使用 MobaXterm 进行连接。同样是免费开源的,支持多种连接协议,支持拖拽上传文件,支持使用插件扩展;

Translate Man:一款浏览器上免费的翻译插件 (谷歌和火狐均支持)。它采用谷歌的翻译接口,准确性非常高,支持划词翻译,可以辅助进行官方文档的阅读。

您可能感兴趣的文档:

--结束END--

本文标题: 大数据学习路线

本文链接: https://www.lsjlt.com/news/6165.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 大数据学习路线
    前言 数据科学部为想从事大数据方向学习的小伙伴总结了一下大数据的学习路线,供大家学习参考。由于大数据是一个基础门槛较高就业前景较好的学习方向。所以打算学习大数据的小伙伴要加油啦! 大数据学习路线: 首先我要了解大数据处理流程: 第...
    99+
    2020-02-15
    大数据学习路线
  • Python 数据分析学习路线
    Python 数据分析学习路线 第一阶段:Python语言基础第二阶段:数据采集和持久化第三阶段:数据分析第四阶段:数据挖掘与机器学习书籍介绍参与方式 第一阶段:Python语言基础 在...
    99+
    2023-09-22
    python 数据分析 学习
  • python大佬进阶学习路线
    学习路线: 1.硬件: 1、操作系统简介 2、第二篇:操作系统 2.linux基础: 1、初始Linux 2、基本使用  3、Linux进阶 3.python基础 : 1、python...
    99+
    2023-01-31
    大佬 进阶 路线
  • Python学习路线(课程大纲+Pyth
    最新Python学习路线+千锋Python课程大纲+Python视频教程+Python学习资料下载地址大合集 目前Python已经成为最受欢迎的程序设计语言之一。Python的设计哲学是“优雅”、“明确”、“简单”。 Python的优点...
    99+
    2023-01-31
    大纲 路线 课程
  • Mysql数据库语言学习的路线
    对于我们数据库的学习,不管是测试人员还是开发人员以及我们的DBA来说重点都是SQL;但是我们的SQL可以分多少类型,学习重点又是在哪里呢,本文仅仅针对测试人员来展开说明: SQL:structure query language是结构化语...
    99+
    2020-09-30
    Mysql数据库语言学习的路线
  • 云计算大数据学习路线课程大纲资料:hive内部函数
    今天给大家分享一些云计算大数据学习路线课程大纲资料,这篇文章是关于hive内部函数的一些学习笔记资料,希望能给大家一些帮助:hive内部函数取随机数函数:rand()语法: rand(),rand(int seed) 返回值: double...
    99+
    2023-06-04
  • Python学习路线
    注意:此文是转载根据本人的学习经验,我总结了以下十点和大家分享:1)学好python的第一步,就是马上到www.python.org网站上下载一个python版本。我建议初学者,不要下载具有IDE功能的集成开发环境,比如Eclipse插件等...
    99+
    2023-01-31
    路线 Python
  • php学习路线
    0.php环境搭建 单独搭建php非常麻烦,因此采用集成环境phpStudy,自带apache,mysql,nginx,php等。 编辑工具phpStorm或者vscode composer,php包管理工具 thinkPHP,国内开源的...
    99+
    2023-09-08
    php 学习
  • 关于MongoDB数据库学习路线指南
    学习路线 1、MongoDB数据库学习大纲 2、MongoDB数据格式 3、MongoDB数据库特点 4、MongoDB数据库应用场景 5、MongoDB数据库单节点部署 6、MongoDB数据库常用操作指令 ...
    99+
    2023-04-12
    MongoDB数据库 MongoDB学习路线
  • 云计算大数据学习路线课程大纲资料:hive入门操作
    一、hive产生背景Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。• 由Face...
    99+
    2023-06-04
  • Java学习星球,Java学习路线
    目录 一、Java学习路线二、学习计划三、为何会有Java学习星球?四、加入星球后,你可以得到什么?五、如何加入Java学习星球?六、打卡挑战 大家好,我是哪吒,一个靠着热情攀登至C...
    99+
    2023-08-31
    java 学习 开发语言
  • Android开发学习路线的七大阶段
    看了专业的培训机构的课程大纲,才知道,自己学习android的路途才刚刚开始!特此整理分享一下,希望能帮到那些准备学习android开发,或者正在学习android开发,但是又...
    99+
    2022-06-06
    学习 路线 android开发 Android
  • 终章:学习路线
    说明 该文章来源于徒弟lu2ker转载至此处,更多文章可参考:https://github.com/lu2ker/ 文章目录 说明一些废话成果路线第一阶段要点 第二阶段要点 第...
    99+
    2023-10-02
    学习 php 代码审计 TP代码审计 安全
  • ORACLE学习路线图
    这是我个人的学习路线1、sql、pl/sql(网上有很多的视频,可以做一个简单的入手,然后看几本书,多做实验)    作为oracle的基本功,需要大家对sql和plsql非常的熟悉。特...
    99+
    2022-10-18
  • Python学习路线图
    文章转载自「开发者圆桌」一个关于开发者入门、进阶、踩坑的微信公众号Python学习路线图你可以通过百度云盘下载观看对应的视频链接: http://pan.baidu.com/s/1c2zLllA 密码: 6kjp好东西岂能独享,欢迎分享到你...
    99+
    2023-01-31
    路线图 Python
  • Hadoop学习之路(一)——Hadoop家族学习路线图
    主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括...
    99+
    2022-10-18
  • Python爬虫学习路线
    (一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Pytho...
    99+
    2023-01-31
    爬虫 路线 Python
  • Python入门学习路线
    Python技术路径中包含入门知识、Python基础、Web框架、基础项目、网络编程、数据与计算、综合项目七个模块。路径中的教程将带你逐步深入,学会如何使用 Python 实现一个博客,桌面词典,微信机器人或网络安全软件等。完成本路径的基...
    99+
    2023-01-30
    入门 路线 Python
  • Python最佳学习路线
    Python最佳学习路线 如何学习Python 最近开始整理python的资料,会陆续放到博客中存档。找了几个qq群,其中有一个群78486745(点击进群)。后面就没怎么加群了,还是需要看官方文档为主 python语言基础:(带你熟悉...
    99+
    2023-01-31
    路线 Python
  • java架构师学习路线-MongoDB数据库详解
    图灵学院 java架构师学习路线   相信每个软件程序员对数据库这个名词都不陌生吧,今天就由我为大家总结大家生活中最常用到的MongoDB,可能有许多软件专业的学生都没听过这个词,MongoDB究竟是什么?下面请为大家一一道来MongoDB...
    99+
    2021-01-04
    java架构师学习路线-MongoDB数据库详解 数据库入门 数据库基础教程 数据库 mysql
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作