iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >Apache Hudi结合Flink的示例分析
  • 773
分享到

Apache Hudi结合Flink的示例分析

2023-06-29 18:06:56 773人浏览 八月长安
摘要

这篇文章主要介绍Apache Hudi结合flink的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1. 实时数据落地需求演进实时平台上线后,主要需求是开发实时报表,即抽取各类数据源做实时etl后,

这篇文章主要介绍Apache Hudi结合flink的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

Apache Hudi结合Flink的示例分析

1. 实时数据落地需求演进

实时平台上线后,主要需求是开发实时报表,即抽取各类数据源做实时etl后,吐出实时指标到oracle库中供展示查询。

随着实时平台的稳定及推广开放,各种使用人员有了更广发的需求:

  • 对实时开发来说,需要将实时sql数据落地做一些etl调试,数据取样等过程检查;

  • 数据分析、业务等希望能结合数仓已有数据体系,对实时数据进行分析和洞察,比如用户行为实时埋点数据结合数仓已有一些模型进行分析,而不是仅仅看一些高度聚合化的报表;

  • 业务希望将实时数据作为业务过程的一环进行业务驱动,实现业务闭环;

  • 针对部分需求,需要将实时数据落地后,结合其他数仓数据,T - 1离线跑批出报表;

Apache Hudi结合Flink的示例分析

>

除了上述列举的主要的需求,还有一些零碎的需求。

总的来说,实时平台输出高度聚合后的数据给用户,已经满足不了需求,用户渴求更细致,更原始,更自主,更多可能的数据

而这需要平台能将实时数据落地至离线数仓体系中,因此,基于这些需求演进,实时平台开始了实时数据落地的探索实践

2. 基于spark+Hudi的实时数据落地应用实践

最早开始选型的是比较流行的Spark + Hudi体系,整体落地架构如下:

Apache Hudi结合Flink的示例分析

这套主要基于以下考虑:

  • 数仓开发不需写Scala/Java打jar包做任务开发

  • ETL逻辑能够嵌入落数据任务中

  • 开发入口统一

我们当时做了通用的落数据通道,通道由Spark任务Jar包和shell脚本组成,数仓开发入口为统一调度平台,将落数据的需求转化为对应的Shell参数,启动脚本后完成数据的落地。

3. 基于Flink自定义实时数据落地实践

由于我们当时实时平台是基于Flink,同时Spark+Hudi对于大流量任务的支持有一些问题,比如落埋点数据时,延迟升高,任务经常OOM等,因此决定探索Flink落数据的路径。

当时Flink+Hudi社区还没有实现,我们参考Flink+ORC的落数据的过程,做了实时数据落地的实现,主要是做了落数据Schema的参数化定义,使数据开发同事能shell化实现数据落地。

Apache Hudi结合Flink的示例分析

4. 基于Flink + Hudi的落地数据实践

Hudi整合Flink版本出来后,实时平台就着手准备做兼容,把Hudi纳入了实时平台开发内容。

先看下接入后整体架构

Apache Hudi结合Flink的示例分析

实时平台对各类数据源及Sink端都以各类插件接入,我们参考了HudiFlinkTable的Sink流程,将Hudi接入了我们的实时开发平台。

为了提高可用性,我们主要做了以下辅助功能;

  • Hive表元数据自动同步、更新;

  • Hudi schema自动拼接;

  • 任务监控、Metrics数据接入等

实际使用过程如下

Apache Hudi结合Flink的示例分析

整套体系上线后,各业务线报表开发,实时在线分析等方面都有使用,比较好的赋能了业务,上线链路共26条,单日数据落入约3亿条左右

5. 后续应用规划及展望

后续主要围绕如下几个方面做探索

5.1 取代离线报表,提高报表实时性及稳定性

离线报表特点是 T - 1,凌晨跑数,以及报表整体依赖链路长。两个特点导致时效性不高是一个方面,另一个方面是,数据依赖链路长的情况下,中间数据出问题容易导致后续整体依赖延时,而很多异常需要等到报表任务实际跑的时候,才能暴露出来。并且跑批问题凌晨暴露,解决的时效与资源协调都是要降低一个等级的,这对稳定性准时性要求的报表是不可接受的,特别是金融公司来说,通过把报表迁移至实时平台,不仅仅是提升了报表的时效性,由于抽数及报表etl是一直再实时跑的,报表数据给出的稳定性能有一个较大的提升。这是我们Hudi实时落数据要应用的规划之一

5.2 完善监控体系,提升落数据任务稳定性

目前仅仅做到落数据任务的监控,即任务是否正常运行,有没有抛异常等等。但实际使用者更关心数据由上游到Hive整条链路的监控情况。比如数据是否有延迟,是否有背压,数据源消费情况,落数据是否有丢失,各个task是否有瓶颈等情况,总的来说,用户希望能更全面细致的了解到任务的运行情况,这也是后面的监控需要完善的目标

5.3 落数据中间过程可视化探索

这个是和上面的监控有类似的地方,用户希望确定,一条数据从数据源接进来,经过各个算子的处理,它的一些详细情况。比如这个数据是否应该被过滤,处于哪个窗口,各个算子的处理时间等等,否则对于用户,整个数据SQL处理流程是一个黑盒。

以上是“Apache Hudi结合Flink的示例分析”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注编程网精选频道!

--结束END--

本文标题: Apache Hudi结合Flink的示例分析

本文链接: https://www.lsjlt.com/news/326031.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Apache Hudi结合Flink的示例分析
    这篇文章主要介绍Apache Hudi结合Flink的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1. 实时数据落地需求演进实时平台上线后,主要需求是开发实时报表,即抽取各类数据源做实时etl后,...
    99+
    2023-06-29
  • Apache Pulsar结合Hudi构建Lakehouse方案分析
    目录1. 动机2. 分析3. 当前方案4. 新的Lakehouse存储方案4.1 新的存储布局4.2 支持高效Upserts4.3 将Hudi表当做Pulsar Topic4.4 可...
    99+
    2024-04-02
  • Apache Hudi多版本清理服务的示例分析
    这篇文章给大家分享的是有关Apache Hudi多版本清理服务的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1. 回收空间以控制存储成本Hudi 提供不同的表管理服务来管理数据湖上表的数据,其...
    99+
    2023-06-29
  • Apache教程Hudi与Hive集成手册的示例分析
    小编给大家分享一下Apache教程Hudi与Hive集成手册的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1. Hudi表对应的Hive外部表介绍Hud...
    99+
    2023-06-29
  • Apache Hudi内核文件标记机制的示例分析
    这篇文章主要介绍了Apache Hudi内核文件标记机制的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。1. 摘要Hudi 支持在写入时自动清理未成功提交的...
    99+
    2023-06-29
  • javax.validation结合spring的示例分析
    这篇文章主要为大家展示了“javax.validation结合spring的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“javax.validation结合spring的示例分析”这篇...
    99+
    2023-06-20
  • RedHatLinux AS3中APACHE+SendMail+OpenWebMail整合的示例分析
    小编给大家分享一下RedHatLinux AS3中APACHE+SendMail+OpenWebMail整合的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧...
    99+
    2023-06-13
  • Mysql索引结合explain分析示例
    目录简介1.索引分类聚簇索引为什么选择B+树explain简介 Mysql 在我们项目中使用是非常广的,当我们数据量大的时候,就需要考虑建立索引了,我感觉这也是一种以空间换时间的方式...
    99+
    2024-04-02
  • Flink on yarn运行原理的示例分析
    小编给大家分享一下Flink on yarn运行原理的示例分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!Flink运行时由两种类型的进程组成:1),JobManager也叫master协调分布式执行。他们调度任务,协调...
    99+
    2023-06-19
  • MySQL与ASP.NET相互结合的示例分析
    MySQL与ASP.NET相互结合的示例分析,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。MySQL与ASP.NET配合更强大由于富有竞争...
    99+
    2024-04-02
  • flink和spark Streaming中Back Pressure的示例分析
    这篇文章将为大家详细讲解有关flink和spark Streaming中Back Pressure的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。Spark Streaming的back pres...
    99+
    2023-06-19
  • Apache Avro数据的示例分析
    这篇文章主要介绍Apache Avro数据的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!随着互联网高速的发展,云计算、大数据、人工智能AI、物联网等前沿技术已然成为当今时代主流的高新技术,诸如电商网站、人脸...
    99+
    2023-06-29
  • js中async函数结合promise的示例分析
    这篇文章主要为大家展示了“js中async函数结合promise的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“js中async函数结合promise的...
    99+
    2024-04-02
  • vue-admin和后端flask分离结合的示例分析
    这篇文章主要介绍vue-admin和后端flask分离结合的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!具体如下感觉 vue-admin 界面很不错,写了一个小 Demo看...
    99+
    2024-04-02
  • Redis整合Spring及结合使用缓存的示例分析
    Redis整合Spring及结合使用缓存的示例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。一、Redis介绍什么是Red...
    99+
    2024-04-02
  • python脚本与命令行结合的示例分析
    这篇文章将为大家详细讲解有关python脚本与命令行结合的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。脚本与命令行结合可以使用下面方法运行一个Python脚本,...
    99+
    2024-04-02
  • Python中结构型组合模式的示例分析
    这篇文章将为大家详细讲解有关Python中结构型组合模式的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一、组合模式组合,将多个对象组合成为一个树状结构,来表示业务逻辑上的层次。组合模式使得用户对...
    99+
    2023-06-29
  • Apache Flink结合Apache Kafka实现端到端的一致性语义是怎样的
    本篇文章为大家展示了Apache Flink结合Apache Kafka实现端到端的一致性语义是怎样的,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。接下来,我们进一步介绍flink的这个特性:Fli...
    99+
    2023-06-19
  • java集合的示例分析
    这篇文章主要介绍了java集合的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、简介1、java集合框架图从上面的集合框架图可以看到,Java 集合框架主要包括两种...
    99+
    2023-06-20
  • angularjs结合pagination插件实现分页功能的示例分析
    小编给大家分享一下angularjs结合pagination插件实现分页功能的示例分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!angularjs与pagination插件可以完美实现...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作