iis服务器助手广告广告
返回顶部
首页 > 资讯 > 前端开发 > VUE >如何利用Eclipse构建Spark集成开发环境
  • 516
分享到

如何利用Eclipse构建Spark集成开发环境

2024-04-02 19:04:59 516人浏览 安东尼
摘要

如何利用Eclipse构建spark集成开发环境,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。使用Maven编译生成可直接运行在hadoop

如何利用Eclipse构建spark集成开发环境,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。

使用Maven编译生成可直接运行在hadoop 2.2.0上的Spark jar包,在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。

(1) 准备工作

在正式介绍之前,先要以下软硬件准备:

软件准备:

Eclipse Juno版本(4.2版本),可以直接点击这里下载:Eclipse 4.2

Scala 2.9.3版本,Window安装程序可以直接点击这里下载:Scala 2.9.3

Eclipse Scala IDE插件,可直接点击这里下载:Scala IDE(for Scala 2.9.x and Eclipse Juno)

硬件准备

装有linux或者windows操作系统的机器一台

(2) 构建Spark集成开发环境

我是在windows操作系统下操作的,流程如下:

步骤1:安装scala 2.9.3:直接点击安装即可。

步骤2:将Eclipse Scala IDE插件中features和plugins两个目录下的所有文件拷贝到Eclipse解压后对应的目录中

步骤3:重新启动Eclipse,点击eclipse右上角方框按钮,如下图所示,展开后,点击“Other….”,查看是否有“Scala”一项,有的话,直接点击打开,否则进行步骤4操作。

如何利用Eclipse构建Spark集成开发环境

步骤4:在Eclipse中,依次选择“Help” –> “Install New Software…”,在打开的卡里填入Http://download.scala-ide.org/sdk/e38/scala29/stable/site,并按回车键,可看到以下内容,选择前两项进行安装即可。(由于步骤3已经将jar包拷贝到eclipse中,安装很快,只是疏通一下)安装完后,重复操作一遍步骤3便可。

如何利用Eclipse构建Spark集成开发环境

(3) 使用Scala语言开发Spark程序

在eclipse中,依次选择“File” –>“New” –> “Other…” –>  “Scala Wizard” –> “Scala Project”,创建一个Scala工程,并命名为“SparkScala”。

右击“SaprkScala”工程,选择“Properties”,在弹出的框中,按照下图所示,依次选择“Java Build Path” –>“Libraties” –>“Add External JARs…”,导入文章“Apache Spark:将Spark部署到Hadoop 2.2.0上”中给出的

assembly/target/scala-2.9.3/目录下的spark-assembly-0.8.1-incubating- hadoop2.2.0.jar,这个jar包也可以自己编译spark生成,放在spark目录下的assembly/target/scala- 2.9.3/目录中。

如何利用Eclipse构建Spark集成开发环境

跟创建Scala工程类似,在工程中增加一个Scala Class,命名为:WordCount,整个工程结构如下:

如何利用Eclipse构建Spark集成开发环境

WordCount就是最经典的词频统计程序,它将统计输入目录中所有单词出现的总次数,Scala代码如下:

import org.apache.spark._ import SparkContext._ object WordCount {   def main(args: Array[String]) {     if (args.length != 3 ){       println("usage is org.test.WordCount <master> <input> <output>")       return     }     val sc = new SparkContext(args(0), "WordCount",     System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))     val textFile = sc.textFile(args(1))     val result = textFile.flatMap(line => line.split("\\s+"))         .map(word => (word, 1)).reduceByKey(_ + _)     result.saveAsTextFile(args(2))   } }

在Scala工程中,右击“WordCount.scala”,选择“Export”,并在弹出框中选择“Java” &ndash;> “JAR  File”,进而将该程序编译成jar包,可以起名为“spark-wordcount-in-scala.jar”,我导出的jar包下载地址是 spark-wordcount-in-scala.jar。

该WordCount程序接收三个参数,分别是master位置,hdfs输入目录和HDFS输出目录,为此,可编写run_spark_wordcount.sh脚本:

# 配置成YARN配置文件存放目录

export YARN_CONF_DIR=/opt/hadoop/yarn-client/etc/hadoop/

SPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar \

./spark-class org.apache.spark.deploy.yarn.Client \

&ndash;jar spark-wordcount-in-scala.jar \

&ndash;class WordCount \

&ndash;args yarn-standalone \

&ndash;args hdfs://hadoop-test/tmp/input \

&ndash;args hdfs:/hadoop-test/tmp/output \

&ndash;num-workers 1 \

&ndash;master-memory 2g \

&ndash;worker-memory 2g \

&ndash;worker-cores 2

需要注意以下几点:WordCount程序的输入参数通过“-args”指定,每个参数依次单独指定,第二个参数是HDFS上的输入目录,需要事先创建好,并上传几个文本文件,以便统计词频,第三个参数是HDFS上的输出目录,动态创建,运行前不能存在。

直接运行run_spark_wordcount.sh脚本即可得到运算结果。

在运行过程中,发现一个bug,org.apache.spark.deploy.yarn.Client有一个参数“&ndash;name”可以指定应用程序名称:

如何利用Eclipse构建Spark集成开发环境

但是使用过程中,该参数会阻塞应用程序,查看源代码发现原来是个bug,该Bug已提交到Spark jira上:

// 位置:new-yarn/src/main/scala/org/apache/spark/deploy/yarn/ClientArguments.scala         case ("--queue") :: value :: tail =>           aMQueue = value           args = tail           case ("--name") :: value :: tail =>           appName = value           args = tail //漏了这行代码,导致程序阻塞           case ("--addJars") :: value :: tail =>           addJars = value           args = tail

因此,大家先不要使用“&ndash;name”这个参数,或者修复这个bug,重新编译Spark。

(4) 使用Java语言开发Spark程序

方法跟普通的Java程序开发一样,只要将Spark开发程序包spark-assembly-0.8.1-incubating-hadoop2.2.0.jar作为三方依赖库即可。

(5) 总结

初步试用Spark On YARN过程中,发现问题还是非常多,使用起来非常不方便,门槛还是很高,远不如Spark On Mesos成熟。

看完上述内容,你们掌握如何利用Eclipse构建Spark集成开发环境的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注编程网VUE频道,感谢各位的阅读!

--结束END--

本文标题: 如何利用Eclipse构建Spark集成开发环境

本文链接: https://www.lsjlt.com/news/86259.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何利用Eclipse构建Spark集成开发环境
    如何利用Eclipse构建Spark集成开发环境,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。使用Maven编译生成可直接运行在Hadoop ...
    99+
    2024-04-02
  • Eclipse集成开发环境如何配置
    配置Eclipse集成开发环境可以按照以下步骤进行:1. 下载Eclipse:在Eclipse官网上下载适合你的操作系统的Eclip...
    99+
    2023-08-23
    Eclipse
  • Eclipse+FlexBuilder集成开发环境的搭建步骤
    这篇文章主要讲解了“Eclipse+FlexBuilder集成开发环境的搭建步骤”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Eclipse+FlexBuilder集成开发环境的搭建步骤”吧...
    99+
    2023-06-17
  • android开发环境怎么利用eclipse搭建
    今天就跟大家聊聊有关android开发环境怎么利用eclipse搭建,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1,下载JDK去oracle官网下载最新版本的jdk根据自己的操作系...
    99+
    2023-05-31
    android roi
  • 如何搭建Visual Studio 2005集成开发环境
    这篇文章主要介绍如何搭建Visual Studio 2005集成开发环境,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!VisualStudio2005和.NETFramework2.0将在应用程序开发的所有方面取得大...
    99+
    2023-06-17
  • Python 环境搭建,集成开发环境IDE: PyCharm
    Python 环境搭建,集成开发环境IDE: PyCharm 一、Python 环境搭建二、Python下载三、Python安装四、环境变量配置五、Python 环境变量六、运行Python1...
    99+
    2023-09-25
    python ide pycharm
  • Linux下如何用eclipse搭建J2ME开发环境
    这篇文章将为大家详细讲解有关Linux下如何用eclipse搭建J2ME开发环境,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。你知道在linux下用ecli...
    99+
    2024-04-02
  • 如何使用Docker构建开发环境
    这篇文章主要介绍“如何使用Docker构建开发环境”,在日常操作中,相信很多人在如何使用Docker构建开发环境问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何使用Docker构建开发环境”的疑惑有所帮助!...
    99+
    2023-06-21
  • Linux下如何使用Eclipse搭建Android开发环境
    小编给大家分享一下Linux下如何使用Eclipse搭建Android开发环境,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!Linux如何使用Eclipse搭建Android开发环境安装,Java运行环境JDK(没这个Ec...
    99+
    2023-06-27
  • java集成开发环境怎么搭建
    要搭建Java集成开发环境(IDE),可以按照以下步骤进行操作:1. 下载Java开发工具包(JDK):首先要确保你的计算机上已经安...
    99+
    2023-08-28
    java
  • 如何在Mac OSX中搭建Python集成开发环境
    今天就跟大家聊聊有关如何在Mac OSX中搭建Python集成开发环境,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。首先到Python官网下载python,python官网链接这里选...
    99+
    2023-06-17
  • PHP CI/CD与PHP集成开发环境:如何集成?
    PHP CI/CD与PHP集成开发环境集成,可以实现自动化构建、测试和部署,提高开发效率和产品质量。本文将介绍如何将PHP CI/CD与PHP集成开发环境集成,并提供相应的示例代码。 1. PHP CI/CD简介 PHP CI/CD是一...
    99+
    2024-02-09
    PHP CI/CD PHP集成开发环境 自动化构建 测试 部署
  • 使用Docker Dockerfile构建php LNMP集成开发环境,并运行Thinkphp5
    宿主机环境 系统:MAC、Windows10 Docker版本:Docker version 23.0.5 Docker Desktop:Dockerdesktop官方地址 前言 这篇主要介绍如何在Mac、Windows10使用docke...
    99+
    2023-08-31
    docker 容器 运维
  • eclipse 如何安装 php开发环境
    这篇文章主要介绍了eclipse 如何安装 php开发环境,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。eclipse安装php开发环境的方法:1、在help里面选择Inst...
    99+
    2023-06-25
  • Ubuntu下如何构建Ubuntu gstreamer开发环境
    这篇文章主要介绍了Ubuntu下如何构建Ubuntu gstreamer开发环境,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。1,Ubuntu已经安装了Ubuntu gstr...
    99+
    2023-06-16
  • 基于Jupyter notebook搭建Spark集群开发环境的详细过程
    一、概念介绍: 1、Sparkmagic:它是一个在Jupyter Notebook中的通过Livy服务器 Spark REST与远程Spark群集交互工作工具。Sparkmagic...
    99+
    2024-04-02
  • java语言开发的集成环境怎么搭建
    要搭建Java语言开发的集成环境,可以按照以下步骤进行操作:1. 安装JDK(Java Development Kit):首先,需要...
    99+
    2023-09-25
    java
  • 教你如何开发Vite3插件构建Electron开发环境
    目录创建项目创建主进程代码开发环境 Vite 插件渲染进程集成内置模块设置 Vite 模块别名与模块解析钩子总结开发新版本 Vue 项目推荐你使用 Vite 脚手架构建开发环境,然而...
    99+
    2022-11-13
    Vite3插件构建Electron开发环境 vue Vite3插件Electron开发
  • JBuilder 6如何用Borland方式的Java集成开发环境
    JBuilder 6如何用Borland方式的Java集成开发环境,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。Jbuilder软件提供了三种不同的版本,它们是:个人版,专业版...
    99+
    2023-06-03
  • 如何使用eclipse搭建Swt环境
    本篇内容主要讲解“如何使用eclipse搭建Swt环境”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何使用eclipse搭建Swt环境”吧!一、查看当前使用的eclipse 版本型号在exlp...
    99+
    2023-06-22
软考高级职称资格查询
推荐阅读
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作