如何使用 SeaTunnel 同步 MySQL 数据到 Hive

hive 大数据 hadoop 2023-09-24 09:09:48 360人浏览薄情痞子

摘要

第一步：环境准备 Java 8 或 11 并配置JAVA_HOME git Maven 第二步：下载SeaTunnel并安装连接器下载地址：https://seatunnel.apache.org/download/

第一步：环境准备

Java 8 或 11 并配置JAVA_HOME
git
Maven

第二步：下载SeaTunnel并安装连接器

下载地址：https://seatunnel.apache.org/download/
下载SeaTunnel并安装2.3.0版本

Https://www.apache.org/dyn/closer.lua/incubator/seatunnel/2.3.0/apache-seatunnel-incubating-2.3.0-bin.tar.gz

详细的安装过程可以参考：https://seatunnel.apache.org/docs/2.3.0/start-v2/locally/deployment

第三步：创建测试数据

1、在Mysql创建表source_user

create table source_user(userid int(4) primary key not null auto_increment,username varchar(16) not null);

并插入一些数据

insert into source_user (username) values ("z3");insert into source_user (username) values ("l4");insert into source_user (username) values ("w5");

2、在Hive中创建表sink_user

create table sink_user( userid int, username string);

第四步：运行作业

下载mysql驱动程序

- 下载mysql驱动程序并放在 /plugins/Jdbc/lib/目录下
- MySQL驱动可以从这里下载：https://dev.mysql.com/downloads/connector/j/

下载和拷贝Hive连接器所需包

- 目前版本Hive连接器需将以下包拷贝到 ./lib/ 目录下
- hive-exec-x.x.x.jar 这个包可以从hive的lib目录下找到。
- flink-shaded-hadoop-2-uber-x.x.x-xx.x.jar 这个包可以从这里下载：https://mvnrepository.com/artifact/org.apache.flink/flink-shaded-hadoop-2-uber

创建任务配置文件mysql_to_hive.conf 放在 ./conf/目录下

env {  job.mode = "BATCH"} source {    Jdbc {        url = "jdbc:mysql://ctyun9/test?serverTimezone=GMT%2b8"        driver = "com.mysql.cj.jdbc.Driver"        user = "root"        passWord = "123456"        query = "select * from source_user"    }} transfORM {} sink {  Hive {    table_name = "st.sink_user"    metastore_uri = "thrift://localhost:9083"  } }

如果我们需要分片并行读取，可以在JDBC中配置partition_column 和 partition_num。

连接器文档可以参考这里👉https://seatunnel.apache.org/docs/2.3.0-beta/connector-v2/source/Jdbc、https://seatunnel.apache.org/docs/2.3.0-beta/connector-v2/sink/Hive

运行任务

通过./bin/seatunnel.sh 可以运行同步任务。
通过-e 可以执行运行模式
- LOCAL为本地模式，会在本机启动一个SeaTunnel实例并提交任务运行，任务运行完成后会自动关闭实例
- CLUSTER为集群模式，可以把任务提交到SeaTunnel集群。

./bin/seatunnel.sh -e LOCAL -c ./config/mysql_to_hive.conf

集群模式

SeaTunnel也支持集群模式，集群模式的部署可以参考https://seatunnel.apache.org/docs/2.3.0/seatunnel-engine/deployment。

相比之下，集群模式比Local模式拥有更好的性能，同时支持作业的多机并行，支持集群HA、断点续传、历史作业信息存储等特性。

集群模式的使用方式可以参考 https://seatunnel.apache.org/docs/2.3.0/seatunnel-engine/cluster-mode。

来源地址：https://blog.csdn.net/Enterprisbigdata/article/details/128847786

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 如何使用 SeaTunnel 同步 MySQL 数据到 Hive

本文链接: https://www.lsjlt.com/news/416824.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

如何使用 SeaTunnel 同步 MySQL 数据到 Hive

第一步：环境准备 Java 8 或 11 并配置JAVA_HOME Git Maven 第二步：下载SeaTunnel并安装连接器下载地址：https://seatunnel.apache.org/download/...

99+

2023-09-24

hive 大数据 hadoop
使用Apache SeaTunnel进行数据库同步（MySQL to MySQL）

Apache SeaTunnel 起到的主要作用是什么？目前，大数据体系里有各种各样的数据引擎，有大数据生态的 Hadoop、Hive、Kudu、Kafka、HDFS，也有泛大数据库体系的 MongoDB、Redis、ClickHouse...

99+

2023-08-17

数据库 mysql seaTunnel
如何将mysql用户数据同步到redis

要将MySQL用户数据同步到Redis，可以使用以下步骤：1. 首先，连接到MySQL数据库，并查询出需要同步的用户数据。可以使用M...

99+

2023-08-31

redis mysql
Enterprise：使用 MySQL connector 同步 MySQL 数据到 Elasticsearch

Elastic MySQL 连接器是 MySQL 数据源的连接器。它可以帮我们把 MySQL 里的数据同步到 Elasticsearch 中去。在今天的文章里，我来详细地描述如何一步一步地实现。在下面的展示中，我将使用 Elastic ...

99+

2023-09-08

mysql elasticsearch 数据库大数据搜索引擎全文检索
使用sqoop从Hive导出数据到MySQL

启动hadoop：start-all.sh。启动mysql：support-files/mysql.server start。启动hive：hive。在hive中创建表。（学生信息：学号xh，姓名xm）xsxx： create ...

99+

2023-10-22

hadoop hive 大数据
如何使用Maxwell实时同步mysql数据

目录Maxwell简介Maxwell的配置与使用1.下载Maxwell安装包2.配置mysql，打开mysql binlog日志3.启动Maxwell，主要介绍数据写入rabbitm...

99+

2024-04-02
详解Mysql如何实现数据同步到Elasticsearch

目录一、同步原理二、logstash-input-jdbc三、go-mysql-elasticsearch四、elasticsearch-jdbc五、logstash-input-j...

99+

2024-04-02
MySQL到Oracle如何进行实时数据同步

这篇文章将为大家详细讲解有关MySQL到Oracle如何进行实时数据同步，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。第一步：配置MySQL 连接点击 Tapdata Cloud 操作后台左...

99+

2023-06-26
使用flink1.17 实时同步数据（mysql到sqlserver 或 sqlserver 到sqlserver）

介绍两种数据库用 flink1.17 做数据实时同步的操作。第一种：mysql 同步到 sqlserver 第二种：sqlserver 同步到 sqlserver 步骤一，环境的准备准备一台有...

99+

2023-10-21

mysql sqlserver 数据库 flink
5、DataX（DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL）

1、DataX简介 1.1 DataX概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、...

99+

2023-09-05

mysql hdfs 大数据数据仓库架构
如何使用MySQL进行跨数据库的数据同步？

如何使用MySQL进行跨数据库的数据同步？在现代的软件开发中，数据库的使用无处不在。而随着软件项目的增长，数据的同步和备份变得越来越重要。MySQL是一个强大的关系型数据库管理系统，同时也提供了一些可靠的方法来实现跨数据库的数据同步。本文将...

99+

2023-10-22

数据同步 MySQL跨数据库跨数据库同步
MySQL 到Oracle 实时数据同步

目录第一步：配置MySQL 连接第二步：配置 Oracle连接第四步：进行数据校验其他数据库的同步操作摘要：很多 DBA 同学经常会遇到要从一个数据库实时同步到另一个数据库的问题，同...

99+

2024-04-02
Mysql数据怎么同步到Greenplum

本篇内容主要讲解“Mysql数据怎么同步到Greenplum”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Mysql数据怎么同步到Greenplum”吧!一、资源信息这边就不赘述二、配置相关数据...

99+

2023-06-01
如何设置MySql数据同步

这篇文章将为大家详细讲解有关如何设置MySql数据同步，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。　　mysql从3.23.15版本以后提供数据库复制功能。利用该功能可...

99+

2024-04-02
cancel框架同步mysql数据到kafka

下载cancel https://github.com/alibaba/canal/releases/tag/canal-1.1.5 修改conf文件夹下的canal.properties配置文件 c...

99+

2023-10-07

mysql kafka 数据库
Hive数据仓库如何使用

这篇文章将为大家详细讲解有关Hive数据仓库如何使用，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，...

99+

2023-06-27
使用Flink CDC将Mysql中的数据实时同步到ES

前言最近公司要搞搜索，需要把mysql中的数据同步到es中来进行搜索，由于公司已经搭建了flink集群，就打算用flink来做这个同步。本来以为很简单，跟着官网文档走就好了，结果没想到折腾了将近一周...

99+

2023-09-01

mysql flink elasticsearch
mysql数据不同步如何解决

mysql数据不同步的解决方法首先，对数据进行锁表，防止数据写入；flush tables with read lock; 对数据进行备份；mysqldump -uroot -p123456 --all-databases > /tmp/m...

99+

2024-04-02
mysql数据库同步如何实现

MySQL数据库同步可以通过多种方式实现，以下是一些常用的方法：使用主从复制：主从复制是MySQL自带的一种数据库同步方法，通...

99+

2024-04-09

mysql
MySQL同步数据Replication如何实现

今天小编给大家分享一下MySQL同步数据Replication如何实现的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。MySQ...

99+

2023-07-05