广告
返回顶部
首页 > 资讯 > 数据库 >Spark Streaming 编程入门指南
  • 549
分享到

Spark Streaming 编程入门指南

SparkStreaming编程入门指南 2022-02-15 21:02:19 549人浏览 绘本
摘要

spark Streaming 是核心Spark api的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。可以从许多数据源(例如kafka,Flume,Kinesis或tcp Sockets)中提取数据,并且可以使用复杂的算

Spark Streaming 编程入门指南

spark Streaming 是核心Spark api的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。可以从许多数据源(例如kafka,Flume,Kinesis或tcp Sockets)中提取数据,并且可以使用复杂的算法处理数据,这些算法用高级函数表示,如map、reduce、join和window。最后,可以将处理后的数据推送到文件系统,数据库和实时仪表板。实际上,可以在数据流上应用Spark的机器学习和图形处理算法。

在内部,它的工作方式如下。 Spark Streaming接收实时输入数据流,并将数据分成批次,然后由Spark引擎进行处理,以生成批次的最终结果流。

Spark Streaming提供了一种高级抽象,称为离散流或DStream,它表示连续的数据流。DStreams可以从Kafka、Flume和Kinesis等源的输入数据流创建,也可以通过在其他DStreams上应用高级操作创建。在内部,DStream表示为RDDs序列。

1. 了解Spark

Apache Spark 是一个用于大规模数据处理的统一分析引擎

    

特性:

将工作负载运行速度提高100倍

Apache Spark使用最新的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能。

易用

可以使用Java,Scalapython,R和sql快速编写应用程序

通用

结合SQL、流和复杂的分析

Spark为包括SQL和DataFrames,用于机器学习的MLlib,GraphX和Spark Streaming在内的一堆库提供支持。您可以在同一应用程序中无缝组合这些库。

到处运行

Spark可在hadoop,Apache Mesos,kubernetes,独立或云中运行。它可以访问各种数据源

可以在EC2,Hadoop YARN,Mesos或Kubernetes上使用其独立集群模式运行Spark。访问hdfs,Alluxio,Apache Cassandra,Apache HBase,Apache Hive和数百种其他数据源中的数据。

2. 入门案例

统计单词出现的次数,这个例子在Hadoop中用mapReduce也写过。

JavaStreaminGContext是java版的StreamingContext。它是Spark Streaming功能的主要入口点。它提供了从输入源创建JavaDStream和JavaPairDStream的方法。可以使用context.sparkContext访问内部的org.apache.spark.api.java.JavaSparkContext。在创建和转换DStream之后,可以分别使用context.start()和context.stop()启动和停止流计算。

 1 public static void main(String[] args) throws InterruptedException {
 2     // Create a local StreamingContext with two working thread and batch interval of 1 second
 3     SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount");
 4     JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1));
 5 
 6     // Create a DStream that will connect to hostname:port, like localhost:9999
 7     JavaReceiverInputDStream<String> lines = jssc.socketTextStream("localhost", 9999);
 8 
 9     // Split each line into words
10     JavaDStream<String> words = lines.flatMap(x -> Arrays.asList(x.split(" ")).iterator());
11 
12     // Count each word in each batch
13     JavaPairDStream<String, Integer> pairs = words.mapToPair(s -> new Tuple2<>(s, 1));
14     JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey((i1, i2) -> i1 + i2);
15 
16     // Print the first ten elements of each RDD generated in this DStream to the console
17     wordCounts.print();
18 
19     // Start the computation
20     jssc.start();
21     // Wait for the computation to terminate
22     jssc.awaitTermination();
23 }

3. 基本概念

3.1. Maven依赖

1 org.apache.spark
2     spark-streaming_2.12
3     2.4.5
4     provided
5 

为了从其它数据源获取数据,需要添加相应的依赖项spark-streaming-xyz_2.12。例如:

1 
2     org.apache.spark
3     spark-streaming-kafka-0-10_2.12
4     2.4.5
5 

3.2. 初始化StreamingContext

为了初始化一个Spark Streaming程序,必须创建一个StreamingContext对象,该对象是所有Spark Streaming功能的主要入口点。 

我们可以从SparkConf对象中创建一个JavaStreamingContext对象

1 import org.apache.spark.SparkConf;
2 import org.apache.spark.streaming.Duration;
3 import org.apache.spark.streaming.api.java.JavaStreamingContext;
4 
5 SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);
6 JavaStreamingContext ssc = new JavaStreamingContext(conf, new Duration(1000)); 

appName 参数是显示在集群UI上的你的应用的名字

master 参数是一个Spark、 Mesos 或 YARN 集群URL,或者也可以是一个特定的字符串local[*]”表示以本地模式运行。实际上,当在集群上运行时,肯定不希望对在程序中对master进行硬编码,而希望通过spark-submit启动应用程序并在其中接收它。然而,对于本地测试,你可以传“local[*]”来运行Spark Streaming。

还可以从一个已存在的JavaSparkContext中创建一个JavaStreamingContext对象

1 import org.apache.spark.streaming.api.java.*;
2 
3 JavaSparkContext sc = ...   //existing JavaSparkContext
4 JavaStreamingContext ssc = new JavaStreamingContext(sc, Durations.seconds(1));

在定义完context之后,必须做以下事情:

  1. 通过创建input DStreams来定义input sources
  2. 通过对DStreams应用transfORMation(转换)和output(输出)操作来定义流计算
  3. 用streamingContext.start()来开始接收数据并处理它
  4. 用streamingContext.awaitTermination()等待处理停止(手动停止或由于任何错误)
  5. 用streamingContext.stop()可以手动停止

需要记住的点:

  • 一旦启动上下文,就无法设置新的流计算或将其添加到该流计算中
  • 上下文一旦停止,就无法重新启动
  • 一个JVM中只能同时激活一个StreamingContext
  • StreamingContext中的stop()也会停止SparkContext。但如果要仅停止StreamingContext的话,设置stop(false)
  • 只要在创建下一个StreamingContext之前停止了上一个StreamingContext(不停止SparkContext),就可以将SparkContext重用于创建多个StreamingContext

3.3. DStreams(离散流)

Discretized StreamDStream 是Spark Streaming提供的基本抽象。它表示一个连续的数据流,可以是从源接收的输入数据流,也可以是通过转换输入流生成的已处理数据流。在内部,DStream由一系列连续的RDD表示,这是Spark对不变的分布式数据集的抽象。DStream中的每个RDD都包含来自特定间隔的数据,如下图所示。 

在DStream上执行的任何操作都转换为对基础RDD的操作。例如,最简单的将一行句子转换为单词的例子中,flatMap操作应用于行DStream中的每个RDD,以生成单词DStream的RDD。如下图所示:

 

3.4. Input DStreams 和 Receivers

Input DStream是表示从源接收的输入数据流。在上图中,lines是输入DStream,因为它表示从netcat服务器接收的数据流。每一个输入DStream都关联着一个Receiver对象,该对象从源接收数据并将其存储在Spark的内存中以进行处理。

Spark Streaming提供了两类内置的streaming源:

  • Basic sources :直接在StreamingContext API中可用的源。例如,文件系统和socket连接
  • Advanced sources :像Kafka,Flume,Kinesis等这样的源,可通过额外的程序类获得 

如果要在流应用程序中并行接收多个数据流,则可以创建多个输入DStream。这将创建多个Receiver(接收器),这些接收器将同时接收多个数据流。重要的是要记住,必须为Spark Streaming应用程序分配足够的内核(或线程,如果在本地运行),以处理接收到的数据以及运行接收器。

需要记住的点:

  • 在本地运行Spark Streaming程序时,请勿使用“ local”或“ local [1]”作为master URL。这两种方式均意味着仅一个线程将用于本地运行任务。如果使用的是基于接收器的输入DStream(例如套接字,Kafka,Flume等),则将使用单个线程来运行接收器,而不会留下任何线程来处理接收到的数据。 因此,在本地运行时,请始终使用“ local [n]”作为主URL,其中n>要运行的接收器数 
  • 为了将逻辑扩展到在集群上运行,分配给Spark Streaming应用程序的内核数必须大于接收器数。 否则,系统将接收数据,但无法处理它。

Basic Sources 

为了从文件中读取数据,可以通过StreamingContext.fileStream[KeyClass, ValueClass, InputFormatClass]来创建一个DStream

例如:streamingContext.textFileStream(dataDirectory);

Spark Streaming将监视目录dataDirectory并处理在该目录中创建的所有文件

  • 可以监视一个简单的目录,例如:"hdfs://namenode:8040/logs/2017 16 public class JavaWordCount { 17 18 private static final Pattern SPACE = Pattern.compile(" "); 19 20 public static void main(String[] args) { 21 if (args.length < 1) { 22 System.err.println("Usage: JavaWordCount "); 23 System.exit(1); 24 } 25 26 SparkConf conf = new SparkConf().setMaster("local[*]").setAppName("JavaWordCount"); 27 JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1)); 28 29 JavaDStream<String> lines = jssc.textFileStream(args[0]); 30 JavaDStream<String> words = lines.flatMap(line -> Arrays.asList(SPACE.split(line)).iterator()); 31 JavaPairDStream<String, Integer> ones = words.mapToPair(word -> new Tuple2<>(word, 1)); 32 JavaPairDStream<String, Integer> counts = ones.reduceByKey((i1, i2) -> i1 + i2); 33 counts.print(); 34 35 44 } 45 }

    4. Docs

    https://spark.apache.org/ 

    Https://spark.apache.org/docs/latest/streaming-programming-guide.html 

您可能感兴趣的文档:

--结束END--

本文标题: Spark Streaming 编程入门指南

本文链接: https://www.lsjlt.com/news/5445.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Spark Streaming 编程入门指南
    Spark Streaming 是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。可以从许多数据源(例如Kafka,Flume,Kinesis或TCP sockets)中提取数据,并且可以使用复杂的算...
    99+
    2022-02-15
    Spark Streaming 编程入门指南
  • PHP入门指南:PHP和Spark
    PHP是一种非常流行的服务器端编程语言,因为它简单易学、开放源代码和跨平台。目前,很多大企业都采用PHP语言来构建应用程序,例如Facebook和WordPress等。Spark是一种快速且轻量级的开发框架,可用于构建Web应用程序。它基于...
    99+
    2023-05-20
    PHP spark 入门指南
  • PHP入门指南:UDP编程
    PHP是一门十分流行的Web编程语言,早期更被大家认为是一种简单易学的脚本语言。然而,由于其流行度,在过去几年中,它已经成长为一门成熟的编程语言,可以实现各种任务和项目。而在这门语言中,UDP编程是一个十分重要和有趣的主题。UDP(User...
    99+
    2023-05-20
    编程 PHP UDP
  • PHP入门指南:HTTP编程
    PHP入门指南:HTTP编程随着互联网的飞速发展,网站已经成为人们交流、获取信息和进行业务交易的重要途径。在网站开发的过程中,PHP作为一种广泛使用的Web编程语言,得到了大量的应用。HTTP(Hypertext Transfer Prot...
    99+
    2023-05-22
    编程 PHP Http
  • Spark 编程指南 (一) [Spa
    Python Programming Guide - Spark(Python) Spark应用基本概念 每一个运行在cluster上的spark应用程序,是由一个运行main函数的driver program和运行多种并行操作的exec...
    99+
    2023-01-31
    指南 Spark Spa
  • PHP入门指南:TCP/IP编程
    PHP作为一个流行的服务器端脚本语言,它不仅可以用于Web应用程序的开发,还可以用于进行TCP/IP编程以及网络编程。在本文中,我们将为您介绍TCP/IP编程的基础知识和如何使用PHP进行TCP/IP编程。一、TCP/IP编程的基础知识TC...
    99+
    2023-05-20
    PHP入门 TCP/IP编程 编程指南
  • PHP入门指南:异步编程
    PHP作为一门流行的脚本语言,一直以来都是Web开发的主流语言之一。在Web开发中,异步编程被越来越多地应用于网络爬虫、实时聊天、长轮询等高性能场景。本文将介绍PHP异步编程的相关知识,以便读者掌握异步编程基础,提高Web应用性能。一、异步...
    99+
    2023-05-20
    PHP 异步编程 入门指南
  • PHP入门指南:多线程编程
    PHP是一种流行的服务器端编程语言,用于创建Web应用程序和动态网站。虽然PHP本身不支持多线程编程,但它提供了一些工具和扩展,可用于实现非阻塞I/O操作和进程间通信。本文将介绍PHP多线程编程的基本知识和工具。多线程编程基础多线程编程是一...
    99+
    2023-05-20
    PHP(编程语言) 多线程编程(并发编程方式) 入门指南(针对初学者的指导文本)
  • Flink入门(五)——DataSet Api编程指南
    Apache Flink Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天,Flink正在飞速发展。由于性能的优势和兼顾批处理,流处理的特性,Flink可能正在颠覆整个大数据的生态...
    99+
    2020-07-01
    Flink入门(五)——DataSet Api编程指南
  • PHP入门指南:ReactPHP编程框架
    随着互联网技术的日益发展,Web应用程序已经渐渐成为了我们日常生活和工作中离不开的一部分。而PHP作为一个广泛应用于Web开发的语言,也在不断地发展和改进。本文将为你介绍一种基于PHP的编程框架——ReactPHP,帮助你更好地理解和掌握它...
    99+
    2023-05-20
    PHP 入门指南 ReactPHP编程框架
  • PHP入门指南:Swoole编程框架
    随着互联网技术的不断发展,越来越多的开发者开始涉足PHP编程,而Swoole作为一种高性能的开源框架,它的出现为PHP开发者提供了更多的工具和方法,让PHP编程变得更加快捷、高效。本篇文章将介绍Swoole框架的基本概念和入门使用方法,帮助...
    99+
    2023-05-21
    PHP 入门指南 Swoole编程框架
  • Python编程入门指南之函数
    目录Python编程:函数定义和调用函数向函数传递信息传递实参:位置实参传递实参:关键字实参传递实参:默认值传递列表禁止函数修改列表传递任意数量实参返回值返回简单值让实参可选返回字典...
    99+
    2022-11-12
  • 阿里云服务器编程入门指南
    阿里云服务器是阿里云提供的一种云服务,可以让你轻松地在云上构建、运行和扩展应用程序。本文将为你提供阿里云服务器编程的入门指南,包括如何创建服务器、如何连接到服务器、如何在服务器上安装和运行应用程序等内容。 阿里云服务器编程入门指南:创建阿里...
    99+
    2023-11-02
    阿里 入门 服务器
  • SpringMVC入门指南
    目录 前言 一、什么是SpringMVC 二、MVC架构模式 三、SpringMVC的工作流程 四、SpringMVC核心组件 五、SpringMVC的优势 六、SpringMVC的配置与常用注解 七、SpringMvc请求处理流程、 控...
    99+
    2023-09-05
    spring mybatis java intellij-idea maven servlet
  • MongoDB 入门指南
    目录组件结构核心进程数据库工具数据逻辑结构数据库集合文档数据库文件命令行工具使用技巧执行脚本创建 .mongorc.js 文件定制提示信息编辑复杂变量不便使用的集合名称组件结构 核心进程 在 MongoDB 中,核心进程...
    99+
    2022-12-26
    mongodb入门教程 MongoDB基础教程 mongodb入门经典
  • MongoDB入门指南
    目录组件结构核心进程数据库工具数据逻辑结构数据库集合文档数据库文件命令行工具使用技巧执行脚本创建 .mongorc.js 文件定制提示信息编辑复杂变量不便使用的集合名称组件结构 核心...
    99+
    2022-12-26
    mongodb入门教程 MongoDB 基础教程 mongodb入门经典
  • LangChain入门指南
    LangChain入门 什么是LangChain如何使用 LangChain?LangChain的模型LangChain 的主要特点使用示例构建语言模型应用程序:LLMPrompt Templ...
    99+
    2023-09-04
    人工智能
  • PHP入门指南:线程池
    随着互联网时代的到来,网站和应用程序越来越受到人们的欢迎。 在Web开发中,PHP是一个非常流行的脚本语言。PHP是一种解释性语言,它可以在服务器上执行。 由于PHP语言易学易用,因此它成为了PHP开发人员的首选之一。但是,当涉及到高负载应...
    99+
    2023-05-20
    PHP 线程池 入门
  • Spring Boot 入门指南
    目录0x0 前言0x1 简介0x2 Hello World0x3 文件解析pom.xml应用入口类0x4 进阶项目目录编写单元测试开发环境的调试0x5 参考0x0 前言 记得当初放...
    99+
    2022-11-12
  • PHP入门指南:composer
    PHP是一种流行的编程语言,被广泛用于Web开发项目。在使用PHP进行项目开发时,我们经常需要使用许多第三方库和软件包。手动下载和安装这些软件包会变得非常繁琐和困难,这时Composer就派上用场了。Composer是一个PHP的依赖管理工...
    99+
    2023-05-20
    PHP Composer 入门指南
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作