MapReduce将文本数据导入到HBase中

2024-04-02 19:04:59 241人浏览安东尼

摘要

整体描述：将本地文件的数据整理之后导入到HBase中在HBase中创建表数据格式mapReduce程序map程序package com.hadoop.mapreduce.test.map; im

整体描述：将本地文件的数据整理之后导入到HBase中
在HBase中创建表
数据格式

mapReduce程序

map程序

package com.hadoop.mapreduce.test.map;

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordCountHBaseMapper extends Mapper<Object, Text, Text, Text>{
    
    public Text keyValue = new Text();
    public Text valueValue = new Text();
    //数据类型为：key@addressValue#ageValue#sexValue
    @Override
    protected void map(Object key, Text value, Context context)
            throws IOException, InterruptedException {
        String lineValue = value.toString();
        
        if(lineValue != null){
            String[] valuesArray = lineValue.split("@");
            context.write(new Text(valuesArray[0]), new Text(valuesArray[1]));
        }
    }
}

Reduce程序

package com.hadoop.mapreduce.test.reduce;

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;

public class WordCountHBaseReduce extends TableReducer<Text, Text, NullWritable>{

    @Override
    protected void reduce(Text key, Iterable<Text> value, Context out)
            throws IOException, InterruptedException {
        String keyValue = key.toString();
        Iterator<Text> valueIterator = value.iterator();
        while(valueIterator.hasNext()){
            Text valueV = valueIterator.next();
            String[] valueArray = valueV.toString().split("#");
            
            Put putRow = new Put(keyValue.getBytes());
            putRow.add("address".getBytes(), "baseAddress".getBytes(), 
                        valueArray[0].getBytes());
            putRow.add("sex".getBytes(), "baseSex".getBytes(), 
                        valueArray[1].getBytes());
            putRow.add("age".getBytes(), "baseAge".getBytes(), 
                        valueArray[2].getBytes());
            
            out.write(NullWritable.get(), putRow);
        }
    }
}

主程序

package com.hadoop.mapreduce.test;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFORMat;

import com.hadoop.mapreduce.test.map.WordCountHBaseMapper;
import com.hadoop.mapreduce.test.reduce.WordCountHBaseReduce;


public class WordCountHBase {
    public static void main(String args[]) throws IOException, 
        InterruptedException, ClassNotFoundException{
        
        Configuration conf = HBaseConfiguration.create();
        conf.set("hbase.ZooKeeper.quorum", "192.168.192.137"); 
        Job job = Job.getInstance(conf, "MapReduceHbaseJob");
        //各种class
        job.setjarByClass(WordCountHBase.class);
        job.setMapperClass(WordCountHBaseMapper.class);
        TableMapReduceUtil.initTableReducerJob("userInfo3", 
               WordCountHBaseReduce.class, job);
        
        FileInputFormat.addInputPath(job, new Path(args[0]));
        job.setMapOutpuTKEyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

结果：

MapReduce将文本数据导入到HBase中

注：如果运行的client没有hbase，需要在hadoop里面的lib中加入hbase的lib

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: MapReduce将文本数据导入到HBase中

本文链接: https://www.lsjlt.com/news/37084.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

oracle怎么查询当前用户所有的表

要查询当前用户拥有的所有表，可以使用以下 sql 命令：select * from user_tables; 如何查询当前用户拥有的所有表要查询当前用户拥有的所有表，可以使...

99+

2024-05-14

oracle
oracle怎么备份表中数据

oracle 表数据备份的方法包括：导出数据 (exp)：将表数据导出到外部文件。导入数据 (imp)：将导出文件中的数据导入表中。用户管理的备份 (umr)：允许用户控制备份和恢复过程...

99+

2024-05-14

oracle
oracle怎么做到数据实时备份

oracle 实时备份通过持续保持数据库和事务日志的副本来实现数据保护，提供快速恢复。实现机制主要包括归档重做日志和 asm 卷管理系统。它最小化数据丢失、加快恢复时间、消除手动备份任务...

99+

2024-05-14

oracle 数据丢失
oracle怎么查询所有的表空间

要查询 oracle 中的所有表空间，可以使用 sql 语句 "select tablespace_name from dba_tablespaces"，其中 dba_tabl...

99+

2024-05-14

oracle
oracle怎么创建新用户并赋予权限设置

答案：要创建 oracle 新用户，请执行以下步骤：以具有 create user 权限的用户身份登录；在 sql*plus 窗口中输入 create user identified ...

99+

2024-05-14

oracle
oracle怎么建立新用户

在 oracle 数据库中创建用户的方法：使用 sql*plus 连接数据库；使用 create user 语法创建新用户；根据用户需要授予权限；注销并重新登录以使更改生效。如何在 ...

99+

2024-05-14

oracle
oracle怎么创建新用户并赋予权限密码

本教程详细介绍了如何使用 oracle 创建一个新用户并授予其权限：创建新用户并设置密码。授予对特定表的读写权限。授予创建序列的权限。根据需要授予其他权限。如何使用 Oracle 创...

99+

2024-05-14

oracle
oracle怎么查询时间段内的数据记录表

在 oracle 数据库中查询指定时间段内的数据记录表，可以使用 between 操作符，用于比较日期或时间的范围。语法：select * from table_name wh...

99+

2024-05-14

oracle
oracle怎么查看表的分区

问题：如何查看 oracle 表的分区？步骤：查询数据字典视图 all_tab_partitions，指定表名。结果显示分区名称、上边界值和下边界值。如何查看 Oracle 表的分区...

99+

2024-05-14

oracle
oracle怎么导入dump文件

要导入 dump 文件，请先停止 oracle 服务，然后使用 impdp 命令。步骤包括：停止 oracle 数据库服务。导航到 oracle 数据泵工具目录。使用 impdp 命令导...

99+

2024-05-14

oracle