基于Jupyter notebook搭建Spark集群开发环境的详细过程

2024-04-02 19:04:59 214人浏览薄情痞子

摘要

一、概念介绍： 1、sparkmagic：它是一个在Jupyter Notebook中的通过Livy服务器 Spark REST与远程Spark群集交互工作工具。Sparkmagic

一、概念介绍：

1、sparkmagic：它是一个在Jupyter Notebook中的通过Livy服务器 Spark REST与远程Spark群集交互工作工具。Sparkmagic项目包括一组以多种语言交互运行Spark代码的框架和一些内核，可以使用这些内核将Jupyter Notebook中的代码转换在Spark环境运行。

2、Livy：它是一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、python或是R代码片段到远端的Spark集群上执行，提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行和提交批处理应用在集群中运行

二、基本框架

为下图所示：

三、准备工作：

具备提供Saprk集群，自己可以搭建或者直接使用华为云上服务，如MRS，并且在集群上安装Spark客户端。同节点（可以是Docker容器或者虚拟机）安装Jupyter Notebook和Livy，安装包的路径为：https://livy.incubator.apache.org/download/

四、配置并启动Livy：

修改livy.conf参考：Https://enterprise-docs.anaconda.com/en/latest/admin/advanced/config-livy-server.html

添加如下配置：


livy.spark.master = yarn
livy.spark.deploy-mode = cluster
livy.impersonation.enabled = false
livy.server.csrf-protection.enabled = false
livy.server.launch.kerberos.keytab=/opt/workspace/keytabs/user.keytab
livy.server.launch.kerberos.principal=miner
livy.superusers=miner

修改livy-env.sh, 配置SPARK_HOME、hadoop_CONF_DIR等环境变量


export JAVA_HOME=/opt/Bigdata/client/jdk/jdk
export HADOOP_CONF_DIR=/opt/Bigdata/client/hdfs/hadoop/etc/hadoop
export SPARK_HOME=/opt/Bigdata/client/Spark2x/spark
export SPARK_CONF_DIR=/opt/Bigdata/client/Spark2x/spark/conf
export LIVY_LOG_DIR=/opt/workspace/apache-livy-0.7.0-incubating-bin/logs
export LIVY_PID_DIR=/opt/workspace/apache-livy-0.7.0-incubating-bin/pids
export LIVY_SERVER_JAVA_OPTS="-Djava.security.krb5.conf=/opt/Bigdata/client/KrbClient/kerberos/var/krb5kdc/krb5.conf -DZooKeeper.server.principal=zookeeper/hadoop.hadoop.com -Djava.security.auth.login.config=/opt/Bigdata/client/HDFS/hadoop/etc/hadoop/jaas.conf -Xmx128m"

启动Livy：

./bin/livy-server start

五、安装Jupyter Notebook和sparkmagic

Jupyter Notebook是一个开源并且使用很广泛项目，安装流程不在此赘述

sparkmagic可以理解为在Jupyter Notebook中的一种kernel，直接pip install sparkmagic。注意安装前系统必须具备GCc python-dev libkrb5-dev工具，如果没有，apt-get install或者yum install安装。安装完以后会生成$HOME/.sparkmagic/config.JSON文件，此文件为sparkmagic的关键配置文件，兼容spark的配置。关键配置如图所示

其中url为Livy服务的ip和端口，支持http和https两种协议

六、添加sparkmagic kernel

python3_KERNEL_DIR="$(jupyter kernelspec list | grep -w "python3" | awk '{print $2}')"
KERNELS_FOLDER="$(dirname "${PYTHON3_KERNEL_DIR}")"
SITE_PACKAGES="$(pip show sparkmagic|grep -w "Location" | awk '{print $2}')"
cp -r ${SITE_PACKAGES}/sparkmagic/kernels/pysparkkernel ${KERNELS_FOLDER}

七、在Jupyter Notebook中运行spark代码验证：

八、访问Livy查看当前session日志：

到此这篇关于基于Jupyter notebook搭建Spark集群开发环境的详细过程的文章就介绍到这了,更多相关基于Jupyter notebook搭建Spark集群开发环境内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 基于Jupyter notebook搭建Spark集群开发环境的详细过程

本文链接: https://www.lsjlt.com/news/137859.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

基于Jupyter notebook搭建Spark集群开发环境的详细过程

一、概念介绍： 1、Sparkmagic：它是一个在Jupyter Notebook中的通过Livy服务器 Spark REST与远程Spark群集交互工作工具。Sparkmagic...

99+

2022-11-12
vscode搭建STM32开发环境的详细过程

目录需要安装的软件 vscodemakeopenocdstm32CubeMX配置开发环境配置编译下载功能配置调试功能需要安装的软件 vscode 必装插件： ...

99+

2022-11-12
openEuler 搭建java开发环境的详细过程

目录1. 初始化环境2. 安装jdk83. 安装SVN4. 安装Git5. 安装Node.js6. 下载并激活IntelliJ IDEA7. 下载并激活Navicat本文操作系统及版...

99+

2022-11-13
基于visual studio code + react 开发环境搭建过程

开发环境 windows 开发工具 visual studio code node 安装和 npm windows 安装node 可以直接在 node官网直接下载直接当作普通软件安...

99+

2022-11-12
图文详解Android Studio搭建Android集成开发环境的过程

　　有很长一段时间没有更新博客了，最近实在是太忙了，没有时间去总结，现在终于可以有时间去总结一些Android上面的东西了，很久以前写过这篇关于使用Android Studio...

99+

2022-06-06

Android Studio studio 环境开发环境 Android
windows下在vim中搭建c语言开发环境的详细过程

目录1 代码格式化1.1 clang-format初体验1.2 在vim中格式化c代码2 代码自动补全3 编译运行源程序1 代码格式化 C语言代码的格式化需要使用clang-form...

99+

2022-11-12
基于Docker+K8S+GitLab/SVN+Jenkins+Harbor搭建持续集成交付环境的详细教程

目录环境搭建概述1.K8S是什么？2.为什么要用K8S?3.使用K8S有哪些好处？4.环境构成安装Docker环境安装docker-compose1.下载docker-com...

99+

2022-11-12
基于Gradle搭建Spring 5.3.13-release源码阅读环境的详细流程

目录# 1、安装JDK# 2、安装Gradle# 3、Spring版本命名规则# 4、下载Spring 5.3.13-release源码# 5、修改Spring源码中Gradle配置...

99+

2022-11-13
Win11平台安装和配置NeoVim0.8.2编辑器搭建Python3开发环境详细过程(2023最新攻略)

目录安装配置第一个NeoVim插件目录管理终端配置Python代码补全配置结语毫无疑问，我们生活在编辑器的最好年代，Vim是仅在Vi之下的神级编辑器，而脱胎于Vim的NeoVim则是...

99+

2023-01-29

NeoVim0.8.2安装和配置 NeoVim0.8.2编辑器搭建Python3开发环境 win11 NeoVim安装和配置