广告
返回顶部
首页 > 资讯 > 精选 >Spark Streaming+Spark SQL的数据倾斜示例分析
  • 200
分享到

Spark Streaming+Spark SQL的数据倾斜示例分析

2023-06-03 04:06:41 200人浏览 安东尼
摘要

这篇文章将为大家详细讲解有关spark Streaming+Spark sql的数据倾斜示例分析,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。1.现象 三台机器都有产生executor,每台

这篇文章将为大家详细讲解有关spark Streaming+Spark sql的数据倾斜示例分析,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

1.现象
Spark Streaming+Spark SQL的数据倾斜示例分析
三台机器都有产生executor,每台都会产生tasks,但是其中只有一台的task有input数据,其他机器的tasks都没有数据。



2.猜想
2.1是不是数据倾斜?


2.2是数据量过大,group by时,导致key分布不均?
比如key1 有98万,key2有2万,那么shuffle时,肯定数据倾斜。但是我刚开始数据量不是很大,所以pass  (就算数据量大,也很简单处理,一般处理时key加上随机前缀数)

2.3是不是数据量太少 不够分区的?
也怀疑过,不过还没去验证

2.4 flume流到kafka,是snappy压缩格式,而spark作为kafka的消费者,虽然能够自动识别压缩格式,但是这种snappy格式不支持切分
也怀疑过,不过还没去修改支持spilt的压缩格式,也还没去验证

2.5 spark streaming分区数目是有谁决定的?
使用direct这种模式是由kafka的分区数目决定
使用receiver这种模式由流的数目决定也就是由receiver数目决定。

3.修改分区数
[root@sht-sgmhadoopdn-02 kafka]#bin/kafka-topics.sh --alter  --ZooKeeper 172.16.101.58:2181,172.16.101.59:2181,172.16.101.60:2181/kafka --topic logtopic --partitions 3
[root@sht-sgmhadoopdn-02 kafka]# bin/kafka-topics.sh --describe --zookeeper 172.16.101.58:2181,172.16.101.59:2181,172.16.101.60:2181/kafka --topic logtopic
Topic:logtopic      PartitionCount:3        ReplicationFactor:3     Configs:
        Topic: test     Partition: 0    Leader: 3       Replicas: 3,1,2 Isr: 3,1,2
        Topic: test     Partition: 1    Leader: 1       Replicas: 1,2,3 Isr: 1,2,3
        Topic: test     Partition: 2    Leader: 2       Replicas: 2,3,1 Isr: 2,3,1
[root@sht-sgmhadoopdn-02 kafka]#

4.验证(每个executor都有input数据)
Spark Streaming+Spark SQL的数据倾斜示例分析

关于Spark Streaming+Spark SQL的数据倾斜示例分析就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

--结束END--

本文标题: Spark Streaming+Spark SQL的数据倾斜示例分析

本文链接: https://www.lsjlt.com/news/232727.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Spark Streaming+Spark SQL的数据倾斜示例分析
    这篇文章将为大家详细讲解有关Spark Streaming+Spark SQL的数据倾斜示例分析,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。1.现象 三台机器都有产生executor,每台...
    99+
    2023-06-03
  • Spark-Sql的示例分析
    这篇文章主要介绍Spark-Sql的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!SparkSQL运行架构Spark SQL对SQL语句的处理,首先会将SQL语句进行解析(Parse),然后形成一个Tree,...
    99+
    2023-06-21
  • flink和spark Streaming中Back Pressure的示例分析
    这篇文章将为大家详细讲解有关flink和spark Streaming中Back Pressure的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。Spark Streaming的back pres...
    99+
    2023-06-19
  • Spark SQL数据加载和保存的实例分析
    今天就跟大家聊聊有关Spark SQL数据加载和保存的实例分析,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。一、前置知识详解 Spark SQL重要...
    99+
    2022-10-19
  • macOS Spark 2.4.3 standalone 搭建的示例分析
    本篇文章给大家分享的是有关macOS Spark 2.4.3 standalone 搭建的示例分析,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。based onjdk 1.8M...
    99+
    2023-06-02
  • 基于Spark Mllib文本分类的示例分析
    这篇文章将为大家详细讲解有关基于Spark Mllib文本分类的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题,其主要目标是通过...
    99+
    2023-06-19
  • Apache Spark SQL入门及实践的实例分析
    Apache Spark SQL入门及实践的实例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Apache SparkSQL是一个重要的Spark模块,我们...
    99+
    2023-06-02
  • 如何使用Spark分析云HBase的数据
    这篇文章将为大家详细讲解有关如何使用Spark分析云HBase的数据,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1 云HBase查询分析的现状HBase原生API:HBase原生API适合基于row k...
    99+
    2023-06-02
  • python爬虫等获取实时数据+Flume+Kafka+Spark Streaming+mysql+Echarts实现数据动态实时采集、分析、展示
    使用爬虫等获取实时数据+Flume+Kafka+Spark Streaming+mysql+Echarts实现数据动态实时采集、分析、展示 主要工作流程如下所示: 其中爬虫获取实时数据,并把数据实时传输到Linux本地文件夹中。 使用Fl...
    99+
    2020-03-13
    python爬虫等获取实时数据+Flume+Kafka+Spark Streaming+mysql+Echarts实现数据动态实时采集 分析 展示
  • 基于 Spark 的数据分析实践是怎样进行的
    今天就跟大家聊聊有关基于 Spark 的数据分析实践是怎样进行的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。引言:Spark是在借鉴了MapReduce之上发展而来的,继承了其分布...
    99+
    2023-06-02
  • spark大数据任务提交参数的优化记录分析
    目录起因分析环境参数问题所在优化结果起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。 分析 环境 spark 2.2.0 基于...
    99+
    2023-05-20
    spark任务提交参数优化 spark大数据参数优化
  • 如何进行大数据发展趋势和Spark的分析
    本篇文章为大家展示了如何进行大数据发展趋势和Spark的分析,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。大数据发展趋势和Spark介绍大数据是随着计算机技术、通信技术、互联网技术的发展而产生的一种...
    99+
    2023-06-02
  • SQL Server数据库分区分表的示例分析
    这篇文章主要介绍SQL Server数据库分区分表的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1、 需求说明将数据库Demo中的表按照日期字段进行水平分区分表。要求数据文件按一年一个文件存储,且...
    99+
    2023-06-14
  • 数据库中sql注入的示例分析
    这篇文章将为大家详细讲解有关数据库中sql注入的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。首先可能大家都会问什么是sqlSql是数据库的一种类型,是用来存储网...
    99+
    2022-10-18
  • 数据库SQL SELECT查询的示例分析
    小编给大家分享一下数据库SQL SELECT查询的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!作为Web开发人员,虽并...
    99+
    2022-10-18
  • sql server跟踪数据库的示例分析
    今天就跟大家聊聊有关sql server跟踪数据库的示例分析,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。 select * FROM ...
    99+
    2022-10-19
  • sql server 2005数据修改的示例分析
    这篇文章主要为大家展示了“sql server 2005数据修改的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“sql server 2005数据修改的...
    99+
    2022-10-18
  • 数据库之SQL注入的示例分析
    小编给大家分享一下数据库之SQL注入的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1、产生SQL注入原因开发代码的时候没有全面考虑到网络安全性,特别是在...
    99+
    2023-06-20
  • Sql Server数据库常用Transact-SQL脚本的示例分析
    这篇文章主要介绍了Sql Server数据库常用Transact-SQL脚本的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Tran...
    99+
    2022-10-18
  • SQL Server中Table字典数据查询SQL的示例分析
    这篇文章主要介绍SQL Server中Table字典数据查询SQL的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!前言在数据库系统原理与设计(第3版)教科书中这样写道:数据库...
    99+
    2022-10-18
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作