广告
返回顶部
首页 > 资讯 > 精选 >怎样理解Spark的基本原理
  • 395
分享到

怎样理解Spark的基本原理

2023-06-02 09:06:38 395人浏览 八月长安
摘要

怎样理解spark的基本原理,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1Spark优势特点作为大数据计算框架 mapReduce 的继任者,Spark 具备以下优势特性

怎样理解spark的基本原理,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

1

Spark优势特点

作为大数据计算框架 mapReduce 的继任者,Spark 具备以下优势特性。

01

高效性

不同于 MapReduce 将中间计算结果放入磁盘中,Spark 采用内存存储中间计算结果,减少了迭代运算的磁盘 io,并通过并行计算 DAG 图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快 100 倍。

02

易用性

不同于 MapReduce 仅支持 Map 和 Reduce 两种编程算子,Spark 提供了超过 80 种不同的 TransfORMation 和 Action 算子,如map, reduce, filter, groupByKey, sortByKey, foreach 等,并且采用函数式编程风格,实现相同的功能需要的代码量极大缩小。

03

通用性

Spark 提供了统一的解决方案。Spark 可以用于批处理、交互式查询(Spark sql)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。

这些不同类型的处理都可以在同一个应用中无缝使用。这对于企业应用来说,就可使用一个平台来进行不同的工程实现,减少了人力开发和平台部署成本。

04

兼容性

Spark 能够跟很多开源工程兼容使用。如 Spark 可以使用 hadoop 的 YARN 和 Apache Mesos 作为它的资源管理和调度器,并且 Spark 可以读取多种数据源,如 hdfsHBaseMySQL 等。02

Spark基本概念

RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。

DAG:是 Directed Acyclic Graph(有向无环图)的简称,反映 RDD 之间的依赖关系。

Driver Program:控制程序,负责为 Application 构建 DAG 图。

Cluster Manager:集群资源管理中心,负责分配计算资源。

Worker node:工作节点,负责完成具体计算。

Executor:是运行在工作节点(Worker Node)上的一个进程,负责运行 Task,并为应用程序存储数据。

Application:用户编写的 Spark 应用程序,一个 Application 包含多个 Job。

Job:作业,一个 Job 包含多个 RDD 及作用于相应 RDD 上的各种操作。

Stage:阶段,是作业的基本调度单位,一个作业会分为多组任务,每组任务被称为“阶段”。

Task:任务,运行在 Executor 上的工作单元,是 Executor 中的一个线程

总结:Application 由多个 Job 组成,Job 由多个 Stage 组成,Stage 由多个 Task 组成。Stage 是作业调度的基本单位。

03

Spark架构设计

Spark 集群由 Driver, Cluster Manager(Standalone, Yarn 或 Mesos),以及 Worker Node 组成。对于每个 Spark 应用程序,Worker Node 上存在一个 Executor 进程,Executor 进程中包括多个 Task 线程。

关于怎样理解Spark的基本原理问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注编程网精选频道了解更多相关知识。

--结束END--

本文标题: 怎样理解Spark的基本原理

本文链接: https://www.lsjlt.com/news/229651.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 怎样理解Spark的基本原理
    怎样理解Spark的基本原理,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1Spark优势特点作为大数据计算框架 MapReduce 的继任者,Spark 具备以下优势特性...
    99+
    2023-06-02
  • SpringSecurity基本原理详解
    目录1、SpringSecurity 本质是一个过滤器链2、SpringSecurity 流程图流程说明3、Security 配置配置类伪代码配置简介4、Security 权限系统5...
    99+
    2023-05-19
    Spring Security Security原理
  • 怎么进行Spark in action on Kubernetes - Spark Operator的原理解析
    怎么进行Spark in action on Kubernetes - Spark Operator的原理解析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。前言...
    99+
    2023-06-02
  • History是基本原理及使用方法是怎样的
    这期内容当中小编将会给大家带来有关History是基本原理及使用方法是怎样的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。当我们频繁使用 Linux 命令行时,有效地使用历史记录,可以大大提高工作效率。在...
    99+
    2023-06-15
  • 怎样理解 php变量和基本语法
    怎样理解 php变量和基本语法 ,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。php基本语法 1.html和php混...
    99+
    2022-10-19
  • gosync.Map基本原理深入解析
    目录引言map 在并发下的问题map 并发读写异常的例子使用 sync.Mutex 保证并发安全使用 sync.RWMutex 保证并发安全有了读写锁为什么还要有 sync.Map?...
    99+
    2023-01-28
    go sync.Map基本原理 go sync.Map
  • 详解hibernate4基本实现原理
    整体流程通过configuration来读cfg.xml文件得到SessionFactory工厂通过SessionFactory工厂来创建Session实例通过Session打开事务通过session的api操作数据库事务提交关闭连接说明:...
    99+
    2023-05-31
    hibernate4 原理 te
  • 爬虫的基本原理
    爬虫是什么如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 通过程序模拟浏览器请求站点...
    99+
    2023-01-30
    爬虫 基本原理
  • 怎样理解HTTPS工作原理
    怎样理解HTTPS工作原理,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。当你打开浏览器,访问某个网站,如果网址旁有个小锁,代表访问的网址是安全的,反之不安全。当我们没有看到...
    99+
    2023-06-17
  • MySQL DISTINCT 的基本实现原理详解
    前言 DISTINCT 实际上和 GROUP BY 操作的实现非常相似,只不过是在 GROUP BY 之后的每组中只取出一条记录而已。所以,DISTINCT 的实现和 GROUP BY 的实现也基本差不多,...
    99+
    2022-10-18
  • OpenFeign 基本介绍和原理了解
    了解 OpenFeign OpenFeign 组件的前身是 Netflix Feign 项目。后来 Feign 项目被贡献给了开源组织,才有了今天使用的 Spring Cloud OpenFeign ...
    99+
    2023-09-20
    java spring spring cloud
  • Java基础元注解基本原理示例详解
    目录元注解@DocumentedIDEA Documented 文档生成@Target@Retention@Inherited示例@Repeatable示例@Native元注解 是...
    99+
    2023-01-17
    Java 元注解 Java 基础原理
  • java中ThreadLocal的基本原理
    目录基本流程ThreadLoalMap数据结构Hash冲突及解决ThreadLocal内存泄露内存引用链路引用类型为什么使用弱引用而不是强引用?泄露原因分析ThreadLocal应用场景 源码实现 一个线程内可以存多个ThreadL...
    99+
    2015-05-05
    Java ThreadLocal基本原理 Java ThreadLocal
  • MySQL分页的基本原理
    这篇文章主要介绍“MySQL分页的基本原理”,在日常操作中,相信很多人在MySQL分页的基本原理问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”MySQL分页的基本原理”的疑惑...
    99+
    2022-10-18
  • GoldenGate的基本原理介绍
    本篇内容介绍了“GoldenGate的基本原理介绍”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!什么是Go...
    99+
    2022-10-18
  • 说MGR - MGR的基本原理
    状态机复制MGR本质上一个状态机复制的集群。在状态机复制的架构中,数据库被当做一个状态机。每一次写操作都会导致数据库的状态变化。为了创建一个高可用的数据库集群,有一个组件,即事务分发器,将这些操作按照同样的...
    99+
    2022-10-18
  • 详解Android ContentProvider的基本原理和使用
    目录一、前言二、URI(Uniform Resource Identifier)三、MIME四、UriMatcher五、ContentUris5.1、方法使用示例5.2、监听数据变化...
    99+
    2022-11-12
  • 了解自然语言处理算法的基本原理
    自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要研究方向,其目的是让计算机能够理解和处理自然语言。NLP涉及到多个领域,如计算语言学、机器学习和人工智能等。本文将介绍NLP算法的基本原...
    99+
    2023-08-07
    编程算法 自然语言处理 bash
  • 怎样理解MySQL索引底层原理
    这篇文章给大家介绍怎样理解MySQL索引底层原理,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。Mysql 作为互联网中非常热门的数据库,其底层的存储引擎和数据检索引擎的设计非常重要,尤...
    99+
    2022-10-18
  • Oracle字符集的基本原理
    本篇内容主要讲解“Oracle字符集的基本原理”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Oracle字符集的基本原理”吧! 一、...
    99+
    2022-10-18
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作