广告
返回顶部
首页 > 资讯 > 操作系统 >数据仓库总结
  • 447
分享到

数据仓库总结

数据仓库 2023-08-30 16:08:36 447人浏览 安东尼
摘要

1.为什么要做数仓建模 数据仓库建模的目标是通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。 当有了适合业务和基础数据存储环境的模型(良好的数据模型),那么大数据就能获得以下好处: 当有了适合业务和基

1.为什么要做数仓建模

数据仓库建模的目标是通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。
当有了适合业务和基础数据存储环境的模型(良好的数据模型),那么大数据就能获得以下好处:

当有了适合业务和基础数据存储环境的模型(良好的数据模型)
访问性能:能够快速查询所需的数据,减少数据I/O。
数据成本:减少不必要的数据冗余,实现计算结果数据复用降低大数据系统中的存储成本和计算成本
使用效率:改善用户应用体验,提高使用数据的效率。
数据质量:改善数据统计口径的不一致性,减少数据计算错误的可能性,提供高质量的、一致的数据访问平台

建模方式有哪些

er建模

在信息系统中,将事务抽象为“实体”(Entity)、“属性”(Property)、“关系”(Relationship)来表示数据关联和事物描述,这种对数据的抽象建模通常被称为ER实体关系模型。
ER模型是数据库设计的理论基础,当前几乎所有的OLTP系统设计都采用ER模型建模的方式
遵从三范式
1NF:原子性。 字段属性不可再分
  2NF:唯一性 。一个表只说明一个事物;
  3NF:每列都与主键有直接关系,不存在传递依赖。

维度建模

关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。所以一般都会采用维度模型建模,把相关各种表整理成两种:事实表和维度表两种。

在维度建模的基础上又可分为三种模型:星型模型、雪花模型、星座模型。

维度建模是从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速的完成需求分析,同事具有较好的大规模复杂查询的相应能力。其典型的代表是星型模型,以及在一些特殊场景下使用的雪花模型。

维度建模设计分为以下步骤:

  • 选择需要进行分析决策的业务过程
  • 定义粒度
  • 识别维度
  • 确认事实

星型模型

在这里插入图片描述
星型模式是维度模型中最简单的形式,也是数据仓库以及数据集市开发中使用最广泛的形式。星型模式由事实表和维度表组成,一个星型模式中可以有一个或多个事实表,每个事实表引用任意数量的维度表。

星型模型与雪花模型的区别主要在于维度的层级,标准的星型模型维度只有一层,而雪花模型可能会涉及多层。

雪花模型

在这里插入图片描述
雪花模式是一种多维模型中表的逻辑布局,与星型模式相同,雪花模式也是由事实表和维度表所组成。所谓的“雪花化”就是将星型模型中的维度表进行规范化处理。当所有的维度表完成规范化后,就形成了以事实表为中心的雪花型结构,即雪花模式。、

星座模型

在这里插入图片描述
数据仓库由多个主题构成,包含多个事实表,而维表是公共的,可以共享(例如两张事实表共用一些维度表时,就叫做星型模型),这种模式可以看做星型模式的汇集,因而称作星系模式或者事实星座模式。

数据仓库和数据库的区别

数据库和数据仓库都是存储数据的地方,关键是存储数据的区别。数据仓库准确而言是一个逻辑的概念,依托RDBMS作为数据仓库平台。数据库存储的是原始数据,没经过任何加工;而数据仓库是为了满足数据分析需要设计的,对源数据进行了ETL(Extract,TransfORM,Load)过程,数据抽取工作分抽取、清洗、转换、装载。
数据仓库中的数据主要是为了给企业做决策时分析使用,涉及的主要是对数据的查询,一般情况下不会对数据进行修改,如果数据仓库中的历史数据超过存储期限

为什么要数仓分层

我们先来看下数据仓库为什么要分层,也就是分层的优势。

1)把复杂问题简单化

将复杂的问题分解成多层来完成,每一次只处理简单的任务,方便定位问题。

2)减少重复开发

规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性。

3)隔离原始数据

不论是数据的异常还是数据敏感度,使真实数据与统计数据解耦开。

各个分层的作用

第一层:

ODS——原始数据层:存放原始数据

第二层:

DWD——数据明细层:对ODS层数据进行清洗、维度退化、脱敏等。

第三层:

DWS——数据汇总层: 对DWD层数据进行一个轻度的汇总。

第四层:

ADS——数据应用层:为各种统计报表提供数据

该层是基于DW层的数据,整合汇总成主题域的服务数据,用于提供后续的业务查询等。

第五层:

DIM——维表层:基于维度建模理念思想,建立整个企业的一致性维度。

维表层主要包含两部分数据:

高基数维度数据:一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。

低基数维度数据:一般是配置表,比如枚举值对应的中文含义,或者日期维表。数据量可能是个位数或者几千几万

来源地址:https://blog.csdn.net/weixin_43203363/article/details/132549882

--结束END--

本文标题: 数据仓库总结

本文链接: https://www.lsjlt.com/news/383208.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 数据仓库总结
    1.为什么要做数仓建模 数据仓库建模的目标是通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。 当有了适合业务和基础数据存储环境的模型(良好的数据模型),那么大数据就能获得以下好处: 当有了适合业务和基...
    99+
    2023-08-30
    数据仓库
  • android SQLite数据库总结
    SQLite SQLite是一种超轻量级的嵌入式数据库,大小只有几百KB,但是其语法支持标准SQL语法,同时还遵循了数据库的ACID事务,所以学过其他数据库的开发人员都很容易掌...
    99+
    2022-06-06
    sqlite数据库 SQLite Android
  • 总结7.18 laravel数据库
    use IlluminateSupportFacadesDB; //引入数据库类   public function user(){         var_dump(‘aaa‘);         $arr = [         ...
    99+
    2021-07-18
    总结7.18 laravel数据库 数据库入门 数据库基础教程 数据库 mysql
  • postgresql数据库——数据类型总结
    postgresql数据库的 数据类型 postgresql支持多种数据类型,主要有:整数类型、浮点数类型、任意精度数值、日期时间类型、字符串类型、二进制类型、布尔类型和数组类型等。1、整数类型&...
    99+
    2022-10-18
  • 数据库知识点总结 -
    目录数据库介绍SQLSQL定义SQL的分类:DDL(数据定义语言:操作数据库和表)DML(数据操纵语言:操作数据(增删改))DQL(查询表中的数据记录)(重点)视图事务 数据库介绍 数据库DataBase: 用于存储和管理数...
    99+
    2021-05-02
    数据库知识点总结 -
  • 总结数据库知识点
    本篇内容主要讲解“总结数据库知识点”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“总结数据库知识点”吧!存储引擎InnoDBInnoDB 是 MySQL 默认的事务型存储引擎,只要在需要它不支持的...
    99+
    2023-06-16
  • 数据库面试题总结
    文章目录 一、索引相关(1)什么是索引(2)索引是个什么样的数据结构呢(3)为什么使用索引?(4)主键和索引的区别(5)说一说索引的底层实现?(6)索引有哪些优缺点?(7)联合索引是什么(8)MySQL索引种类(9)索引的基本原...
    99+
    2023-08-16
    数据库 java 面试 python mysql
  • 总结Gitee上创建仓库的详细步骤
    如果您想在Gitee上托管您的项目或代码,需要先创建一个仓库。以下是在Gitee上创建仓库的详细步骤。第一步:登录您的Gitee账户在浏览器中打开Gitee的官方网站,并使用您的账户名和密码登录。第二步:进入仓库页面登录成功后,您会看到Gi...
    99+
    2023-10-22
  • 常用oracle数据库函数总结
    wm_concat的基本语法    select proj_id,max(scale_valus) as scale_valus  &n...
    99+
    2022-10-18
  • 关系型数据库主键总结
    在基于关系型数据库设计时候,通常要为每张表指定一个主键,所谓主键就是能够唯一标识表中某一行记录的属性或属性组,一个表只能有一个主键,但可以 有多个候选索引。因为主键可以唯一标识某一行记录,所以可以确保执行数...
    99+
    2022-10-18
  • Oracle 数据库12c新特性总结
    本篇内容介绍了“Oracle 数据库12c新特性总结”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  1....
    99+
    2022-10-18
  • 总结数据库十年大格局
    这篇文章主要介绍“总结数据库十年大格局”,在日常操作中,相信很多人在总结数据库十年大格局问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”总结数据库十年大格局”的疑惑有所帮助!接...
    99+
    2022-10-18
  • Mysql数据库常用命令总结
    本篇内容介绍了“Mysql数据库常用命令总结”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  启动Mysq...
    99+
    2022-10-18
  • 数据库SQL语句优化总结
    这篇文章主要介绍“数据库SQL语句优化总结”,在日常操作中,相信很多人在数据库SQL语句优化总结问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”数据库SQL语句优化总结”的疑惑...
    99+
    2022-10-18
  • 数据库性能优化参数总结(一)
    1.AWR报告快照间隔时间1小时改为半小时,保留天数修改 --不用重启库 2.闪回时间15分钟改为1小时--不用重启库 3.修改数据库允许的最大连接数  进程数150改为500 ,会话数改为555...
    99+
    2022-10-18
  • Git获取本地仓库及基础操作指令总结
    目录一、Git获取本地仓库二、Git基础操作指令1、查看修改的状态(status)2、添加工作区到暂存区(add)3、提交暂存区到本地仓库(commit)4、查看提交日志(log)5...
    99+
    2022-11-13
    Git 获取本地仓库 Git 本地仓库 Git 操作 命令
  • c3p0数据库连接池配置总结
    C3P0是一个开源的数据库连接池,可以用于在Java应用程序中管理数据库连接。下面是C3P0数据库连接池的配置总结:1. 配置数据源...
    99+
    2023-10-12
    数据库
  • mysql之数据库常用脚本总结
    目录一、库新增库删除库修改库查询库使用库二、表结构2.1表2.2字段三、数据记录新增数据删除数据修改数据查询数据(博大精深,暂不讨论)总结前言:统计维度 - - 库、表结构、数据记录 一、库 新增库 create dat...
    99+
    2023-03-31
    mysql数据库 mysql常用脚本 mysql数据库常用脚本
  • mysql数据库中getshell的方式总结
    目录outfile和dumpfile写shell利用条件基于union联合查询:非联合查询outfile和dumpfile的区别secure_file_prive日志ge...
    99+
    2022-07-11
    mysql getshell getshell方法
  • mysql 数据库表错误 修复 总结
    mysql 数据库坏表修复    萝卜白菜,各有所爱,能干活、能修复表才是王道!!!修复之前谨记:先备份数据库 (备份完成后再进行以下修复操作)   可以mysqldump ...
    99+
    2022-10-18
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作