首页 > 资讯 > 后端开发 > Python >Spark集群框架的搭建与入门

913

分享到

Spark集群框架的搭建与入门

2024-04-02 19:04:59 913人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录一、spark概述运行结构二、环境部署1、Scala环境2、Spark基础环境3、Spark集群配置4、Spark启动5、访问Spark集群三、开发案例1、核心依赖2、案例代码开

一、Spark概述

运行结构

Driver

运行Spark的Applicaion中main()函数，会创建SparkContext，SparkContext负责和Cluster-Manager进行通信，并负责申请资源、任务分配和监控等。

ClusterManager

负责申请和管理在Workernode上运行应用所需的资源，可以高效地在一个计算节点到数千个计算节点之间伸缩计算，目前包括Spark原生的ClusterManager、ApacheMesos和hadoopYARN。

Executor

Application运行在WorkerNode上的一个进程，作为工作节点负责运行Task任务，并且负责将数据存在内存或者磁盘上，每个 Application都有各自独立的一批Executor，任务间相互独立。

二、环境部署

1、Scala环境

安装包管理


[root@hop01 opt]# tar -zxvf scala-2.12.2.tgz
[root@hop01 opt]# mv scala-2.12.2 scala2.12

配置变量


[root@hop01 opt]# vim /etc/profile

export SCALA_HOME=/opt/scala2.12
export PATH=$PATH:$SCALA_HOME/bin

[root@hop01 opt]# source /etc/profile

版本查看


[root@hop01 opt]# scala -version

Scala环境需要部署在Spark运行的相关服务节点上。

2、Spark基础环境

安装包管理


[root@hop01 opt]# tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz
[root@hop01 opt]# mv spark-2.1.1-bin-hadoop2.7 spark2.1

配置变量


[root@hop01 opt]# vim /etc/profile

export SPARK_HOME=/opt/spark2.1
export PATH=$PATH:$SPARK_HOME/bin

[root@hop01 opt]# source /etc/profile

版本查看


[root@hop01 opt]# spark-shell

3、Spark集群配置

服务节点


[root@hop01 opt]# cd /opt/spark2.1/conf/
[root@hop01 conf]# cp slaves.template slaves
[root@hop01 conf]# vim slaves

hop01
hop02
hop03

环境配置


[root@hop01 conf]# cp spark-env.sh.template spark-env.sh
[root@hop01 conf]# vim spark-env.sh

export JAVA_HOME=/opt/jdk1.8
export SCALA_HOME=/opt/scala2.12
export SPARK_MASTER_IP=hop01
export SPARK_LOCAL_IP=安装节点IP
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/opt/hadoop2.7/etc/hadoop

注意SPARK_LOCAL_IP的配置。

4、Spark启动

依赖Hadoop相关环境，所以要先启动。


启动：/opt/spark2.1/sbin/start-all.sh
停止：/opt/spark2.1/sbin/stop-all.sh

这里在主节点会启动两个进程：Master和Worker，其他节点只启动一个Worker进程。

5、访问Spark集群

默认端口是：8080。


Http://hop01:8080/

运行基础案例：


[root@hop01 spark2.1]# cd /opt/spark2.1/
[root@hop01 spark2.1]# bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples_2.11-2.1.1.jar

运行结果：Pi is roughly 3.1455357276786384

三、开发案例

1、核心依赖

依赖Spark2.1.1版本：


<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.1.1</version>
</dependency>

引入Scala编译插件：


<plugin>
    <groupId>net.alchim31.Maven</groupId>
    <artifactId>scala-maven-plugin</artifactId>
    <version>3.2.2</version>
    <executions>
        <execution>
            <Goals>
                <goal>compile</goal>
                <goal>testCompile</goal>
            </goals>
        </execution>
    </executions>
</plugin>

2、案例代码开发

读取指定位置的文件，并输出文件内容单词统计结果。


@RestController
public class WordWEB implements Serializable {

    @GetMapping("/word/web")
    public String getWeb (){
        // 1、创建Spark的配置对象
        SparkConf sparkConf = new SparkConf().setAppName("LocalCount")
                                             .setMaster("local[*]");

        // 2、创建SparkContext对象
        JavaSparkContext sc = new JavaSparkContext(sparkConf);
        sc.setLogLevel("WARN");

        // 3、读取测试文件
        JavaRDD lineRdd = sc.textFile("/var/spark/test/word.txt");

        // 4、行内容进行切分
        JavaRDD wordsRdd = lineRdd.flatMap(new FlatMapFunction() {
            @Override
            public Iterator call(Object obj) throws Exception {
                String value = String.valueOf(obj);
                String[] words = value.split(",");
                return Arrays.asList(words).iterator();
            }
        });

        // 5、切分的单词进行标注
        JavaPairRDD wordAndOneRdd = wordsRdd.mapToPair(new PairFunction() {
            @Override
            public Tuple2 call(Object obj) throws Exception {
                //将单词进行标记：
                return new Tuple2(String.valueOf(obj), 1);
            }
        });

        // 6、统计单词出现次数
        JavaPairRDD wordAndCountRdd = wordAndOneRdd.reduceByKey(new Function2() {
            @Override
            public Object call(Object obj1, Object obj2) throws Exception {
                return Integer.parseInt(obj1.toString()) + Integer.parseInt(obj2.toString());
            }
        });

        // 7、排序
        JavaPairRDD sortedRdd = wordAndCountRdd.sortByKey();
        List<Tuple2> finalResult = sortedRdd.collect();

        // 8、结果打印
        for (Tuple2 tuple2 : finalResult) {
            System.out.println(tuple2._1 + " ===> " + tuple2._2);
        }

        // 9、保存统计结果
        sortedRdd.saveAsTextFile("/var/spark/output");
        sc.stop();
        return "success" ;
    }
}

打包执行结果：

四、源代码地址

GitHub·地址
https://github.com/cicadasmile/big-data-parent
GitEE·地址
https://gitee.com/cicadasmile/big-data-parent

以上就是Spark集群框架的搭建与入门的详细内容，更多关于Spark集群框架的搭建的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Spark集群框架的搭建与入门

本文链接: https://www.lsjlt.com/news/128502.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Spark集群框架的搭建与入门

目录一、Spark概述运行结构二、环境部署1、Scala环境2、Spark基础环境3、Spark集群配置4、Spark启动5、访问Spark集群三、开发案例1、核心依赖2、案例代码开...

99+

2024-04-02
spark入门框架+python

目录：简介 pyspark IPython Notebook 安装配置 spark编写框架：首先开启hdfs以及yarn 1 sparkconf 2 sparkcontext 3 RDD（核心） 4 transformation（核...

99+

2023-01-31

框架入门 spark
Spark集群搭建的方法

这篇文章主要介绍“Spark集群搭建的方法”，在日常操作中，相信很多人在Spark集群搭建的方法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Spark集群搭建的方法”的疑惑有所帮助！接下来，请跟着小编一起来...

99+

2023-06-27
kubernetes中搭建spark集群的方式

这篇文章主要讲解了“kubernetes中搭建spark集群的方式”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“kubernetes中搭建spark集群的方式”吧！适用场景：linux系统，...

99+

2023-06-19
怎么用Docker-Compose搭建Spark集群

这篇文章主要讲解了“怎么用Docker-Compose搭建Spark集群”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么用Docker-Compose搭建Spark集群”吧！docker-...

99+

2023-06-30
Docker-Compose搭建Spark集群的实现方法

目录一、前言二、docker-compose.yml三、启动集群四、结合hdfs使用一、前言在前文中，我们使用Docker-Compose完成了hdfs集群的构建。本文将继续使用D...

99+

2024-04-02
spark框架搭建的步骤是什么

搭建Spark框架一般需要以下步骤：下载Spark：首先需要从官方网站上下载Spark的压缩包，并解压到本地目录。配置环...

99+

2024-04-02
Spark大数据处理学习笔记（2.2）搭建Spark Standalone集群

一、在master虚拟机上安装配置Spark 1.1 将spark安装包上传到master虚拟机下载Spark：pyw2 进入/opt目录，查看上传的spark安装包 2 将spark安装包解压到...

99+

2023-09-27

spark 学习笔记
深入剖析MongoDB的复制集与分片集群的搭建与优化

深入剖析MongoDB的复制集与分片集群的搭建与优化概述在大规模应用程序中，数据存储和管理是至关重要的。MongoDB作为一种非关系数据库解决方案，广泛用于处理大规模数据集和高负载应用程序的需求。MongoDB的数据复制和分片功能让用户能够...

99+

2023-11-04

- MongoDB - 复制集 - 分片集群
基于Jupyter notebook搭建Spark集群开发环境的详细过程

一、概念介绍： 1、Sparkmagic：它是一个在Jupyter Notebook中的通过Livy服务器 Spark REST与远程Spark群集交互工作工具。Sparkmagic...

99+

2024-04-02
greenplum集群的搭建过程

本篇内容主要讲解“greenplum集群的搭建过程”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“greenplum集群的搭建过程”吧!环境说明本次环境一共四台虚拟机，一台为master,三台为s...

99+

2023-06-02
linux集群的搭建方法

这篇文章主要介绍“linux集群的搭建方法”，在日常操作中，相信很多人在linux集群的搭建方法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”linux集群的搭建方法”的疑惑有所帮助！接下来，请跟着小编一起来...

99+

2023-06-16
redis搭建集群的方法

这篇文章给大家分享的是有关redis搭建集群的方法的内容。小编觉得挺实用的，因此分享给大家做个参考。一起跟随小编过来看看吧。redis集群的搭建集群搭建：Redis集群至少需要3个节点第一步：创建一个文件夹...

99+

2024-04-02
Kubernetes集群的搭建方法

本篇内容主要讲解“Kubernetes集群的搭建方法”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Kubernetes集群的搭建方法”吧!0. 概要使用kubeadm搭建一个单节点kuberne...

99+

2023-06-19
搭建Redis集群的方法

这篇文章主要讲解了“搭建Redis集群的方法”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“搭建Redis集群的方法”吧！Redis集群是一个由多个主从节点群组成的分布式服务集群，它具有复制、...

99+

2023-06-27
redis集群搭建的方法

这篇文章主要介绍redis集群搭建的方法，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！redis集群搭建在介绍正式内容之前，首先我们来介绍一下redis单机版的搭建步骤是怎样的。下载...

99+

2024-04-02
MongoDB搭建集群的方法

小编给大家分享一下MongoDB搭建集群的方法，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！为什么使用集群架构？主从：故障转移:...

99+

2024-04-02
ClickHouse集群搭建的方法

这篇文章主要介绍“ClickHouse集群搭建的方法”，在日常操作中，相信很多人在ClickHouse集群搭建的方法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”ClickH...

99+

2024-04-02
S2S3H4框架深度集成搭建(3) hi

之前分别写了集成struts2，以及spring3的关键问题，就剩hibernate4了，但是其中并不需要什么特殊的地方。只是将hibernate的配置全部转换到spring的配置中去而已。网上搜一搜有大量的技术文章，我这里就不详细赘述了，...

99+

2023-01-31

框架深度
MySQL核心技术原理之：MySQL集群架构设计与搭建

作者：禅与计算机程序设计艺术 1.简介随着互联网公司网站日益复杂化、用户量激增、营收及利润不断提升，数据也在不断膨胀。随着云计算、大数据、容器技术的普及，大量数据需要存储到数据库中进行分析处理。数...

99+

2023-10-05

自然语言处理人工智能语言模型编程实践开发语言架构设计