[平台建设] 日志数据同步数仓设计

[平台建设]日志数据同步数仓设计 2019-01-19 21:01:38 622人浏览猪猪侠

摘要

本文主要针对日志数据接入数据仓库场景进行设计, 同时介绍了下在设计接入时的一些细节,针对可能出现的问题进行必要的处理. 背景主要针对用户流量数据、风控数据、人物画像等数据进行同步至数仓, 制

[平台建设] 日志数据同步数仓设计

本文主要针对日志数据接入数据仓库场景进行设计, 同时介绍了下在设计接入时的一些细节,针对可能出现的问题进行必要的处理.

背景

主要针对用户流量数据、风控数据、人物画像等数据进行同步至数仓, 制定数据传输格式为JSON,将用户数据解析写入Hive中,以T+1形式交付给用户,以便用户后续统计分析.

架构设计

实现细节

创建工作目录,用于记录kafka消费偏移量, 如果消费完毕将tmp后缀改为success, 第二次消费根据最后一个success后缀文件与kafka 接口计算出下次消费的偏移量数据数据.
任务启动创建lock 文件,避免调度时任务冲突,只有当第一批次任务成功完成时,再删除lock文件
自适应匹配添加字段, 通过数据字段与原始schema对比自动添加字段
在driver端代码内添加必要的日志,如消费的条数, 通过spark累加器计算executor处理失败的条数数据
针对流量数据等需要添加过滤功能, 避免测试数据或者大量的异常数据过来导致任务失败、消耗资源过多等情况,算是一个兜底的方案,
可以根据时间字段过滤特定时间段数据或者根据某个字段关键字进行过滤
小文件处理, 主要是在写入hdfs时候, 对写入数据进行repartition 操作,根据期望分区文件数(并行度),根据下面的udf函数随机将数据打散写入hdfs文件中

 val udf_shuffle_partition = udf((partitions: String) => {
        partitions + new Random().nextInt(parallelismPerPartiton)
     })

总结

本文主要针对日志数据接入数据仓库场景进行设计, 同时介绍了下在设计接入时的一些细节,针对可能出现的问题进行必要的处理.

本文作者: chaplinthink, 关注领域:大数据、基础架构、系统设计, 一个热爱学习、分享的大数据工程师

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: [平台建设] 日志数据同步数仓设计

本文链接: https://www.lsjlt.com/news/9056.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

[平台建设] 日志数据同步数仓设计

本文主要针对日志数据接入数据仓库场景进行设计, 同时介绍了下在设计接入时的一些细节,针对可能出现的问题进行必要的处理. 背景主要针对用户流量数据、风控数据、人物画像等数据进行同步至数仓, 制...

99+

2019-01-19

[平台建设] 日志数据同步数仓设计
[平台建设] 大数据平台如何实现任务日志采集

本文主要介绍如何基于log4j appender自定义扩展实现大数据平台任务日志采集. 背景平台任务主要分3种: flink实时任务, spark任务,还有java任务,spark、flin...

99+

2018-05-22

[平台建设] 大数据平台如何实现任务日志采集
大数据的数仓平台设计思路是什么

这篇文章主要讲解了“大数据的数仓平台设计思路是什么”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“大数据的数仓平台设计思路是什么”吧！下图为数仓整体的技术架构：一个优秀可靠的数仓，一定要结构、...

99+

2023-06-05
[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

本文主要针对hudi进行调研, 设计MySQL CDC 近实时同步至数仓中方案, 写入主要利用hudi的upsert以及delete能力. 针对hudi 表的查询,引入kyuubi 框架,除了增强平台 ...

99+

2015-04-26

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计
如何进行大数据平台架构的设计

本篇文章为大家展示了如何进行大数据平台架构的设计，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。　　关于大数据平台架构的设计探究。麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面...

99+

2023-06-02
运维平台的建设思考-元数据管理（三）

继第一篇，第二篇介绍了关于元数据的一些想法，最近做了一些改进。对于一部分的元数据抽取大体有下面的两种方式。假设数据源已经做了很大的努力，终于统一起来了。我们现在要通过ssh的方式从源端抽取出数据来。一种...

99+

2022-10-18
设计 | ClickHouse 分布式表实现数据同步

作者：吴帆青云数据库团队成员主要负责维护 MySQL 及 ClickHouse 产品开发，擅长故障分析，性能优化。在多副本分布式 ClickHouse 集群中，通常需要使用 Distributed 表写入或读取数据，Distr...

99+

2021-07-11

设计 | ClickHouse 分布式表实现数据同步
大数据总线平台DBus设计思路与工作原理

大数据总线平台DBus设计思路与工作原理，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。一、背景企业中大量业务数据保存在各个业务系统数据库中，过去通常的同步数据的...

99+

2023-06-02
如何遵循MySQL设计规约，提高技术同学的数据库设计水平？

如何遵循MySQL设计规约，提高技术同学的数据库设计水平？导语：MySQL是一种开源的关系型数据库管理系统，在技术领域有广泛的应用。良好的数据库设计是构建高效、可靠系统的重要基础。本文将介绍如何遵循MySQL设计规约，提高技术同学的数据库设...

99+

2023-10-22

MySQL设计规约：MySQL 规约技术同学：技术同学数据库设计：数据库
Wormhole大数据流式处理平台的设计思想是怎样的

本篇文章为大家展示了Wormhole大数据流式处理平台的设计思想是怎样的，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。导读：互联网的迅猛发展使得数据不再昂贵，而如何从数据中更快速获取价值变得日益重要...

99+

2023-06-19
web自动化平台开发元数据的设计方法是是什么

这篇“web自动化平台开发元数据的设计方法是是什么”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“web自动化平台开发元数据的...

99+

2023-06-04
如何设计一个优化的MySQL表结构来实现数据同步功能？

如何设计一个优化的MySQL表结构来实现数据同步功能？数据同步是在分布式系统中非常常见的需求，它可以确保多个节点之间的数据一致性。在MySQL中，我们可以通过合理设计表结构来实现数据同步功能。本文将介绍如何设计一个优化的MySQL表结构，并...

99+

2023-10-31
Golang中使用RabbitMQ实现可扩展的实时数据同步系统的设计与实现

在Golang中使用RabbitMQ实现可扩展的实时数据同步系统，可以按照以下步骤进行设计与实现：1. 安装RabbitMQ并配置好...

99+

2023-10-08

Golang