广告
返回顶部
首页 > 资讯 > 数据库 >Greenplum怎么创建表的分布键
  • 360
分享到

Greenplum怎么创建表的分布键

2024-04-02 19:04:59 360人浏览 安东尼
摘要

本篇内容介绍了“Greenplum怎么创建表的分布键”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Gree

本篇内容介绍了“Greenplum怎么创建表的分布键”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

Greenplum创建表--分布键

Greenplum是分布式系统,创建表时需要指定分布键(创建表需要CREATEDBA权限),目的在于将数据平均分布到各个segment。选择分布键非常重要,选择错了会导致数据不唯一,更严重的是会造成sql性能急剧下降。


Greenplum有两种分布策略:

1、hash分布。

Greenplum默认使用hash分布策略。该策略可选一个或者多个列作为分布键(distribution key,简称DK)。分布键做hash算法来确认数据存放到对应的segment上。相同分布键值会hash到相同的segment上。表上最好有唯一键或者主键,这样能保证数据均衡分不到各个segment上。语法,distributed by。

如果没有主键或者唯一键,默认选择第一列作为分布键。增加主键


2、随机(randomly)分布。

数据会被随机分不到segment上,相同记录可能会存放在不同的segment上。随机分布可以保证数据平均,但是Greenplum没有跨节点的唯一键约束数据,所以无法保证数据唯一。基于唯一性和性能考虑,推荐使用hash分布,性能部分会另开一篇文档详细介绍。语法,distributed randomly。

一、hash分布键

创建表,未指定分布列、分布类型,默认创建hash分布表,把第一列ID字段作为了分布键。

testDB=# create table t_hash(id int,name varchar(50)) distributed by (id);

CREATE TABLE

testDB=# 

 

testDB=# \d t_hash

           Table "public.t_hash"

 Column |         Type          | Modifiers 

--------+-----------------------+-----------

 id     | integer               | 

 name   | character varying(50) | 

Distributed by: (id)

 

添加主键后,主键升级为分布键替代了id列。

testDB=# alter table t_hash add primary key (name);

NOTICE:  updating distribution policy to match new primary key

NOTICE:  ALTER TABLE / ADD PRIMARY KEY will create implicit index "t_hash_pkey" for table "t_hash"

 

ALTER TABLE

testDB=# \d t_hash

           Table "public.t_hash"

 Column |         Type          | Modifiers 

--------+-----------------------+-----------

 id     | integer               | 

 name   | character varying(50) | not null

Indexes:

    "t_hash_pkey" PRIMARY KEY, btree (name)

Distributed by: (name)

 

验证hash分布表可实现主键或者唯一键值的唯一性

testDB=# insert into t_hash values(1,'szlsd1');

INSERT 0 1

testDB=#

testDB=# insert into t_hash values(2,'szlsd1');

ERROR:  duplicate key violates unique constraint "t_hash_pkey"(seg2 gp-s3:40000 pid=3855)

另外,主键列上依然能够创建唯一键

testDB=# create unique index u_id on t_hash(name);

CREATE INDEX

testDB=#

testDB=#

testDB=# \d t_hash

           Table "public.t_hash"

 Column |         Type          | Modifiers

--------+-----------------------+-----------

 id     | integer               |

 name   | character varying(50) | not null

Indexes:

    "t_hash_pkey" PRIMARY KEY, btree (name)

    "u_id" UNIQUE, btree (name)

Distributed by: (name)

但是,非主键列无法单独创建唯一索引,想创建的话必须包含多有分布键列

testDB=#  create unique index uk_id on t_hash(id);

ERROR:  UNIQUE index must contain all columns in the distribution key of relation "t_hash"

testDB=#  create unique index uk_id on t_hash(id,name);

CREATE INDEX

testDB=# \d t_hash

           Table "public.t_hash"

 Column |         Type          | Modifiers

--------+-----------------------+-----------

 id     | integer               |

 name   | character varying(50) | not null

Indexes:

    "t_hash_pkey" PRIMARY KEY, btree (name)

    "uk_id" UNIQUE, btree (id, name)

Distributed by: (name)

删除主键后,原hash分布键依然不变。

testDB=# alter table t_hash drop constraint t_hash_pkey;

ALTER TABLE

testDB=# \d t_hash

           Table "public.t_hash"

 Column |         Type          | Modifiers

--------+-----------------------+-----------

 id     | integer               |

 name   | character varying(50) | not null

Distributed by: (name)

当分布键不是主键或者唯一键时,我们来验证分布键的相同值落在一个segment的结论。

下面的实验,name列是分布键,我们插入相同的name值,可以看到7条记录都落在了2号segment节点中。

testDB=#  insert into t_hash values(1,'szlsd');

INSERT 0 1

testDB=#  insert into t_hash values(2,'szlsd');

INSERT 0 1

testDB=#  insert into t_hash values(3,'szlsd');

INSERT 0 1

testDB=#  insert into t_hash values(4,'szlsd');

INSERT 0 1

testDB=#  insert into t_hash values(5,'szlsd');

INSERT 0 1

testDB=#  insert into t_hash values(6,'szlsd');

INSERT 0 1

testDB=#

testDB=#

testDB=# select gp_segment_id,count(*) from t_hash group by gp_segment_id; 

 gp_segment_id | count

---------------+-------

             2 |     7

(1 row)

二、随机分布键

创建随机分布表需加distributed randomly关键字,具体使用哪列作为分布键不得而知。


testDB=# create table t_random(id int ,name varchar(100)) distributed randomly;

CREATE TABLE

testDB=#

testDB=#

testDB=# \d t_random

           Table "public.t_random"

 Column |          Type          | Modifiers

--------+------------------------+-----------

 id     | integer                |

 name   | character varying(100) |

Distributed randomly

验证主键/唯一键的唯一性,可以看到随机分布表不能创建主键和唯一键

testDB=# alter table t_random add primary key (id,name);

ERROR:  PRIMARY KEY and DISTRIBUTED RANDOMLY are incompatible

testDB=#

testDB=# create unique index uk_r_id on t_random(id);

ERROR:  UNIQUE and DISTRIBUTED RANDOMLY are incompatible

testDB=#

从实验中可以看出无法实现数据的唯一性。并且,数据插入随机分布表,并不是轮询插入,实验中共有3个segment,但是在1号插入3条记录,在2号segment节点插入2条记录后,才在0号segment中插入数据。随机分布表如何实现数据平均分配不得而知。这个实验也验证了随机分布表的相同值分布在不同segment的结论。

testDB=# insert into t_random values(1,'szlsd3');

INSERT 0 1

testDB=# select gp_segment_id,count(*) from t_random group by gp_segment_id;

 gp_segment_id | count

---------------+-------

             1 |     1

(1 row)

 

testDB=#

testDB=# insert into t_random values(1,'szlsd3');

INSERT 0 1

testDB=# select gp_segment_id,count(*) from t_random group by gp_segment_id;

 gp_segment_id | count

---------------+-------

             2 |     1

             1 |     1

(2 rows)

 

testDB=# insert into t_random values(1,'szlsd3');

INSERT 0 1

testDB=# select gp_segment_id,count(*) from t_random group by gp_segment_id;

 gp_segment_id | count

---------------+-------

             2 |     1

             1 |     2

(2 rows)

 

testDB=# insert into t_random values(1,'szlsd3');

INSERT 0 1

testDB=# select gp_segment_id,count(*) from t_random group by gp_segment_id;

 gp_segment_id | count

---------------+-------

             2 |     2

             1 |     2

(2 rows)

 

testDB=# insert into t_random values(1,'szlsd3');

INSERT 0 1

testDB=# select gp_segment_id,count(*) from t_random group by gp_segment_id;

 gp_segment_id | count

---------------+-------

             2 |     2

             1 |     3

(2 rows)

 

testDB=# insert into t_random values(1,'szlsd3');

INSERT 0 1

testDB=# select gp_segment_id,count(*) from t_random group by gp_segment_id;

 gp_segment_id | count

---------------+-------

             2 |     2

             1 |     3

             0 |     1

(3 rows)

三、CTAS继承原表分布键

Greenplum中有两种CTAS语法,无论哪种语法,都默认继承原表的分布键。但是,不会继承表的一些特殊属性,如主键、唯一键、APPENDONLY、COMPRESSTYPE(压缩)等。

testDB=# \d t_hash;

           Table "public.t_hash"

 Column |         Type          | Modifiers

--------+-----------------------+-----------

 id     | integer               |

 name   | character varying(50) | not null

Indexes:

    "t_hash_pkey" PRIMARY KEY, btree (name)

    "uk_id" UNIQUE, btree (id, name)

Distributed by: (name)

 

testDB=#

testDB=#

testDB=# create table t_hash_1 as select * from t_hash;

NOTICE:  Table doesn't have 'DISTRIBUTED BY' clause -- Using column(s) named 'name' as the Greenplum Database data distribution key for this table.

HINT:  The 'DISTRIBUTED BY' clause determines the distribution of data. Make sure column(s) chosen are the optimal data distribution key to minimize skew.

SELECT 0

testDB=# \d t_hash_1

          Table "public.t_hash_1"

 Column |         Type          | Modifiers

--------+-----------------------+-----------

 id     | integer               |

 name   | character varying(50) |

Distributed by: (name)

 

testDB=#

testDB=# create table t_hash_2 (like t_hash);

NOTICE:  Table doesn't have 'distributed by' clause, defaulting to distribution columns from LIKE table

CREATE TABLE

testDB=# \d t_hash_2

          Table "public.t_hash_2"

 Column |         Type          | Modifiers

--------+-----------------------+-----------

 id     | integer               |

 name   | character varying(50) | not null

Distributed by: (name)

如果CTAS创建表改变分布键,加上distributed by即可。

testDB=# create table t_hash_3 as select * from t_hash distributed by (id);

SELECT 0

testDB=#

testDB=# \d t_hash_3

          Table "public.t_hash_3"

 Column |         Type          | Modifiers

--------+-----------------------+-----------

 id     | integer               |

 name   | character varying(50) |

Distributed by: (id)

 

testDB=#

testDB=#

testDB=# create table t_hash_4 (like t_hash) distributed by (id);

CREATE TABLE

testDB=#

testDB=# \d t_hash5

Did not find any relation named "t_hash5".

testDB=# \d t_hash_4

          Table "public.t_hash_4"

 Column |         Type          | Modifiers

--------+-----------------------+-----------

 id     | integer               |

 name   | character varying(50) | not null

Distributed by: (id)

CTAS时,randomly随机分布键要特别注意,一定要加上distributed randomly,不然原表是hash分布键,CTAS新表则是随机分布键。

testDB=# \d t_random

           Table "public.t_random"

 Column |          Type          | Modifiers

--------+------------------------+-----------

 id     | integer                |

 name   | character varying(100) |

Distributed randomly

 

testDB=#

testDB=# \d t_random_1

          Table "public.t_random_1"

 Column |          Type          | Modifiers

--------+------------------------+-----------

 id     | integer                |

 name   | character varying(100) |

Distributed by: (id)

testDB=# create table t_random_2 as select * from t_random distributed randomly;

SELECT 7

testDB=#

testDB=# \d t_random_2

          Table "public.t_random_2"

 Column |          Type          | Modifiers

--------+------------------------+-----------

 id     | integer                |

 name   | character varying(100) |

Distributed randomly

“Greenplum怎么创建表的分布键”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

您可能感兴趣的文档:

--结束END--

本文标题: Greenplum怎么创建表的分布键

本文链接: https://www.lsjlt.com/news/70568.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Greenplum怎么创建表的分布键
    本篇内容介绍了“Greenplum怎么创建表的分布键”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Gree...
    99+
    2022-10-19
  • navicat中怎样创建表的外键
    小编给大家分享一下navicat中怎样创建表的外键,希望大家阅读完这篇文章后大所收获,下面让我们一起去探讨吧!navicat如何创建表的外键?首先打开创建好表的设计界面,如图然后点下外键,显示外键设置界面,...
    99+
    2022-10-18
  • PostgreSQL怎么创建分区表
    这篇文章主要介绍“PostgreSQL怎么创建分区表”,在日常操作中,相信很多人在PostgreSQL怎么创建分区表问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Postgr...
    99+
    2022-10-18
  • mysql创建表时怎么设置外键
    在MySQL中,设置外键需要使用FOREIGN KEY关键字。首先,需要确保两个表都已经创建。然后,在创建表时,可以在列的定义中使用...
    99+
    2023-09-26
    mysql
  • mysql中怎么创建表分区
    今天就跟大家聊聊有关mysql中怎么创建表分区,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。 1.RANGE 分区: CREATE TABLE ...
    99+
    2022-10-18
  • oracle怎么创建列表分区
    要在Oracle中创建列表分区,可以按照以下步骤进行操作:1. 首先,确保你有创建分区的权限。如果没有,可以联系数据库管理员进行授权...
    99+
    2023-08-18
    oracle
  • mysql创建表怎么设置外键关联
    在MySQL中,可以通过在创建表时使用FOREIGN KEY关键字来设置外键关联。下面是一个示例:```sqlCREATE TABL...
    99+
    2023-08-30
    mysql
  • SQL创建表外键约束的语句怎么写
    这篇文章主要介绍SQL创建表外键约束的语句怎么写,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!SQL外键约束可通过FOREIGN KEY关键字来指定,创建语句为“ALTER TABL...
    99+
    2022-10-18
  • PostgreSQL怎么创建分区表详解
    目录前言列分区表范围分区表总结前言 PG 假如我们想像Hive那也创建动态分区是不能实现的。         那么需要我们手动通过脚本来创建分区表,创建分区表必须要创建主表和分区表...
    99+
    2022-06-23
    pg数据库创建分区表 pg分区表创建 pg10创建分区表
  • plsql怎么导出创建表的sql
    在PL/SQL中,可以使用DBMS_METADATA.GET_DDL函数来导出创建表的SQL语句。以下是一个示例:sqlDECLAR...
    99+
    2023-10-18
    plsql sql
  • mongodb的数据库表怎么创建
    MongoDB是一个文档数据库,不使用传统的表和行的概念,而是使用集合(collection)和文档(document)的概念。要创...
    99+
    2023-08-24
    mongodb 数据库
  • 怎么查看HBase表的创建时间
    查看HBase表创建时间的方法 前几天HBase出现了RIT告警,忽然发现发出告警的Region所属的表并不是我创建出来的,于是就想看看这些表是怎么来的。 一时也没什么头绪,就先看看这些表是什么时候创建...
    99+
    2021-07-31
    怎么查看HBase表的创建时间
  • Python的列表怎么创建和删除
    这篇文章主要讲解了“Python的列表怎么创建和删除”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python的列表怎么创建和删除”吧!1.列表定义:形式上,列表的所有元素都放在一对中括号&...
    99+
    2023-06-26
  • python怎么创建空的二维列表
    要创建一个空的二维列表,你可以使用嵌套的列表推导式或者使用循环来完成。下面是两种常见的方法:方法1:使用嵌套的列表推导式```pyt...
    99+
    2023-08-12
    python
  • 怎么解决mysql外键创建失败的问题
    这篇文章主要讲解了“怎么解决mysql外键创建失败的问题”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么解决mysql外键创建失败的问题”吧!创建pers...
    99+
    2022-10-18
  • mysql怎么建立两个表的外键连接
    要建立两个表的外键连接,需要遵循以下步骤:1. 创建第一个表和第二个表。假设我们有两个表:`表A`和`表B`。2. 在`表B`中创建...
    99+
    2023-10-12
    mysql
  • sql中创建数据表的命令怎么写
    这篇文章将为大家详细讲解有关sql中创建数据表的命令怎么写,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。创建数据表的sql语法:CREATE TABLE&nbs...
    99+
    2022-10-18
  • FlexBuilder2.0中怎么创建一个基于约束的布局
    FlexBuilder2.0中怎么创建一个基于约束的布局,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。FlexBuilder2.0中创建基于约束的布局这个速学教...
    99+
    2023-06-17
  • 怎么创建关机快捷键?Win7在桌面创建关机快捷方式的方法
    现在我们都在讲究效率,有些朋友就希望将系统关机在桌面创建一个快捷方式,这样我们需要关机的时候点击一下桌面快捷方式就可以了,是不是很有个性呢?小编这里介绍一下怎么在Win7桌面创建关机快捷方式,希望可以帮助到喜欢玩电脑的朋...
    99+
    2023-06-12
    Win7关机怎 关机快捷方式 Win7 桌面 关机 快捷方式 方法
  • Dubbo+zookeeper最简单的分布式怎么搭建
    这篇文章主要介绍“Dubbo+zookeeper最简单的分布式怎么搭建”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Dubbo+zookeeper最简单的分布式怎么搭建”文章能帮助大家解决问题。Du...
    99+
    2023-06-29
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作