iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Java基础之MapReduce框架总结与扩展知识点
  • 785
分享到

Java基础之MapReduce框架总结与扩展知识点

2024-04-02 19:04:59 785人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录一、MapTask工作机制二、MapTask工作流程:三、ReduceTask工作机制四、ReduceTask工作流程:五、数据清洗(ETL)六、计数器应用七、计数器案例八、ma

一、MapTask工作机制

MapTask就是Map阶段的job,它的数量由切片决定

在这里插入图片描述

二、MapTask工作流程:

1.Read阶段:读取文件,此时进行对文件数据进行切片(InputFORMat进行切片),通过切片,从而确定MapTask的数量,切片中包含数据和key(偏移量)

2.Map阶段:这个阶段是针对数据进行map方法的计算操作,通过该方法,可以对切片中的key和value进行处理

3.Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中。

4.Spill阶段:即“溢写”,当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。

5.Combine阶段:当所有数据处理完成后,MapTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件,这个阶段默认是没有的,一般需要我们自定义

6.当所有数据处理完后,MapTask会将所有临时文件合并成一个大文件,并保存到文件output/file.out中,同时生成相应的索引文件output/file.out.index。

7.在进行文件合并过程中,MapTask以分区为单位进行合并。对于某个分区,它将采用多轮递归合并的方式。每轮合并io.sort.factor(默认10)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到最终得到一个大文件。

8.让每个MapTask最终只生成一个数据文件,可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销

第四步溢写阶段详情:

  • 步骤1:利用快速排序算法缓存区内的数据进行排序,排序方式是,先按照分区编号Partition进行排序,然后按照key进行排序。这样,经过排序后,数据以分区为单位聚集在一起,且同一分区内所有数据按照key有序。
  • 步骤2:按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out(N表示当前溢写次数)中。如果用户设置了Combiner,则写入文件之前,对每个分区中的数据进行一次聚集操作。
  • 步骤3:将分区数据的元信息写到内存索引数据结构SpillRecord中,其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB,则将内存索引写到文件output/spillN.out.index中。

三、ReduceTask工作机制

ReduceTask就是Reduce阶段的job,它的数量由Map阶段的分区进行决定

在这里插入图片描述

四、ReduceTask工作流程:

1.Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。

2.Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。

3.Sort阶段:按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可。

4.Reduce阶段:reduce()函数将计算结果写到hdfs

五、数据清洗(ETL)

我们在大数据开篇概述中说过,数据是低价值的,所以我们要从海量数据中获取到我们想要的数据,首先就需要对数据进行清洗,这个过程也称之为ETL

还记得上一章中的Join案例么,我们对pname字段的填充,也算数据清洗的一种,下面我通过一个简单的案例来演示一下数据清洗

数据清洗案例

需求:过滤一下log日志中字段个数小于11的日志(随便举个栗子而已)

测试数据:就拿我们这两天学习中HadoopnodeName产生的日志来当测试数据吧,我将log日志信息放到我的windows中,数据位置如下


/opt/module/hadoop-3.1.3/logs/hadoop-xxx-nodemanager-hadoop102.log

编写思路:

直接通过切片,然后判断长度即可,因为是举个栗子,没有那么复杂

真正的数据清洗会使用框架来做,这个我后面会为大家带来相关的知识

  • ETLDriver

package com.company.etl;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class ETLDriver {
    public static void main(String[] args) throws Exception {
        Job job = Job.getInstance(new Configuration());

        job.setjarByClass(ETLDriver.class);

        job.setMapperClass(ETLMapper.class);

        job.setNumReduceTasks(0);

        job.setMapOutpuTKEyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);


        FileInputFormat.setInputPaths(job,new Path("D:\\io\\input8"));
        FileOutputFormat.setOutputPath(job,new Path("D:\\io\\output88"));

        job.waitForCompletion(true);
    }
}

  • ETLMapper

package com.company.etl;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Counter;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class ETLMapper extends Mapper<LongWritable, Text,Text, NullWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //清洗(过滤)
        String line = value.toString();
        String[] info = line.split(" ");
        //判断
        if (info.length > 11){
            context.write(value,NullWritable.get());
        }
    }
}

六、计数器应用

  • 顾名思义,计数器的作用就是用于计数的,在Hadoop中,它内部也有一个计数器,用于监控统计我们处理数据的数量
  • 我们通常在MapReduce中通过上下文 context进行应用,例如在Mapper中,我通过step方法进行初始化计数器,然后在我们map方法中进行计数

七、计数器案例

在上面数据清洗的基础上进行计数器的使用,Driver没什么变化,只有Mapper

我们在Mapper的setup方法中,创建计数器的对象,然后在map方法中调用它即可

ETLMapper


package com.company.etl;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Counter;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class ETLMapper extends Mapper<LongWritable, Text,Text, NullWritable> {

    private Counter sucess;
    private Counter fail;
    
    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        
        sucess = context.getCounter("ETL", "success");
        fail = context.getCounter("ETL", "fail");

    }

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //清洗(过滤)
        String line = value.toString();
        String[] info = line.split(" ");
        //判断
        if (info.length > 11){
            context.write(value,NullWritable.get());
            //统计
            sucess.increment(1);
        }else{
            fail.increment(1);
        }

    }
}

八、MapReduce总结

好了,到这里,我们MapReduce就全部学习完毕了,接下来,我再把整个内容串一下,还是MapReduce的那个图

在这里插入图片描述

MapReduce的主要工作就是对数据进行运算、分析,它的工作流程如下:

1.我们会将HDFS中的数据通过InputFormat进行进行读取、切片,从而计算出MapTask的数量

2.每一个MapTask中都会有Mapper类,里面的map方法就是任务的具体实现,我们通过它,可以完成数据的key,value封装,然后通过分区进入shuffle中来完成每个MapTask中的数据分区排序

3.通过分区来决定ReduceTask的数量,每一个ReduceTask都有一个Reducer类,里面的reduce方法是ReduceTask的具体实现,它主要是完成最后的数据合并工作

4.当Reduce任务过重,我们可以通过Combiner合并,在Mapper阶段来进行局部的数据合并,减轻Reduce的任务量,当然,前提是Combiner所做的局部合并工作不会影响最终的结果

5.当Reducer的任务完成,会将最终的key,value写出,交给OutputFormat,用于数据的写出,通过OutputFormat来完成HDFS的写入操作

每一个MapTask和ReduceTask内部都是循环进行读取,并且它有三个方法:setup() map()/reduce() cleanup()
setup()方法是在MapTask/ReduceTask刚刚启动时进行调用,cleanup()是在任务完成后调用

到此这篇关于Java基础之MapReduce框架总结与扩展知识点的文章就介绍到这了,更多相关Java MapReduce框架内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Java基础之MapReduce框架总结与扩展知识点

本文链接: https://www.lsjlt.com/news/126459.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Java基础之MapReduce框架总结与扩展知识点
    目录一、MapTask工作机制二、MapTask工作流程:三、ReduceTask工作机制四、ReduceTask工作流程:五、数据清洗(ETL)六、计数器应用七、计数器案例八、Ma...
    99+
    2024-04-02
  • JAVA基础知识点总结
    文章目录 前言一、JAVA简介二、基础语法面向对象StringIntegerObject异常IO序列化Java 泛型注解反射 前言 一、JAVA简介 Java 是一门面向对象的编程语言。 语言特点:面向对象,平台无关性,支持多...
    99+
    2023-08-18
    java jvm 开发语言
  • java基础之泛型知识点总结
    目录一、什么是泛型?为什么要使用泛型? 二、泛型的特性是什么?三、泛型的使用方式 四、Java中的泛型通配符一、什么是泛型?为什么要使用泛型? 泛型,即“参数化...
    99+
    2024-04-02
  • java基础之String知识总结
    目录一、概念二、特点三、三种构造方式:四、字符串常量池一、概念 String代表字符串,java语言中所有双引号的字符串都是String的对象,不管是否是new出来的对象。 二、特点...
    99+
    2024-04-02
  • JDBC的扩展知识点总结
    目录一、数据库的事务1.1 事务概述1.2 事务的属性1.3 JDBC事务处理1.4 数据库事务使用的过程1.5 使用数据库事务的好处二、数据库连接池2.1 数据库连接池技术的优点三...
    99+
    2024-04-02
  • Java基础知识总结之继承
    目录一、继承的基本概念二、继承的好处和弊端三、继承中变量访问的特点四、super关键字五、继承中构造方法的访问特点六、继承中成员方法的访问特点七、方法重写八、包九、修饰符十、stat...
    99+
    2024-04-02
  • Python基础知识点总结
       学了一年多的Python,去年做了一段时间的爬虫项目,近来在做数据分析和机器学习的东西,抽空整理一下以前学的Python基础知识点,有借鉴与总结。具体知识点后续会分段展开深入。     1.到底什么是Python?你可以在回答中与...
    99+
    2023-01-31
    知识点 基础 Python
  • Oracle基础知识点总结
    这篇文章主要讲解了“Oracle基础知识点总结”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Oracle基础知识点总结”吧!首先上一张Oracle体系结构图...
    99+
    2024-04-02
  • STM32基础知识点总结
    一、基础知识点  1、课程体系介绍 单片机概述+arm体系结构+STM32开发环境搭建 STM32-GPIO编程-点亮世界的那盏灯 STM32-USART串口应用+SPI+液晶屏 STM32-中断系统 STM32-时钟系统 ...
    99+
    2023-09-04
    stm32 嵌入式硬件 单片机
  • java基础之字符串编码知识点总结
    目录一、为什么要编码二、如何“翻译”三、Java 中需要编码的场景3.1 I/O 操作中存在的编码3.2 内存中操作中的编码四、Java 中如何编解码4.1 按照 ISO-8859-...
    99+
    2024-04-02
  • Java基础之位运算知识总结
    目录一、位运算的分类与展现效果二、原理三、边界值测试一、位运算的分类与展现效果 java位运算可以分为左移和右移,其中右移还有无符号右移。   java只对整型位移,可...
    99+
    2024-04-02
  • Java基础之内部类与代理知识总结
    目录一、内部类1.1 创建内部类1.2 内部类调用外部类的变量二、局部内部类2.1 外部方法访问变量三、匿名内部类四、lambda表达式结合局部内部类五、静态内部类六、代理一、内部类...
    99+
    2024-04-02
  • java基础详解之数据类型知识点总结
    目录一、基本数据类型1.1 整形1.1.1 int1.1.2 长整形:long1.1.3 短整形:short1.2 浮点型1.2.1 双精度浮点型:double1.2.2 单精度浮点...
    99+
    2024-04-02
  • Java基础之并发相关知识总结
    目录一、Java并发是什么?二、怎么做?三、分工四、同步五、互斥六、总结一、Java并发是什么? 用学术定义来说就是 并发:同一时间段,多个任务都在执行 (单位时间内不一定同时执行...
    99+
    2024-04-02
  • Java基础之引用相关知识总结
    目录一、引用的定义二、问题三、引用的分类四、应用场景五、源码六、总结一、引用的定义 在JDK 1.2以前,Java中的引用定义很传统:如果reference类型的数据存储的数值代表的...
    99+
    2024-04-02
  • Java基础之Math和Random类知识总结
    java的Math类 java中的java.lang.Math类可以直接使用,不需要导包,在JDK的API 中看到Math类被final修饰着,那么说明了这个Math类不能被继承,...
    99+
    2024-04-02
  • Python3基础语法知识点总结
    本章节将一些Python3基础语法整理成手册,方便各位在日常使用和学习是查阅,包含了编码、标识符、保留字、注释、缩进、字符串等常用内容。 编码 默认情况下,Python 3 源码文件...
    99+
    2024-04-02
  • python 基础知识点归纳总结
    目录 1. python 基础知识点归纳总结1.1. 变量1.2. 数据类型1.3. 控制流语句1.3.1. if 语句1.3.2. for 循环1.3.3. while 循环 1.4....
    99+
    2023-10-20
    python 开发语言
  • Python基础之元组与文件知识总结
    目录大纲Python文件类型及汇总一、元组二、文件三、pickle存储和读取python对象四、类型汇总大纲 Python文件类型及汇总 一、元组 1 特征 1.任意对象的有序集...
    99+
    2024-04-02
  • Java基础之MapReduce框架的示例分析
    小编给大家分享一下Java基础之MapReduce框架的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、MapTask工作机制MapTask就是Map阶...
    99+
    2023-06-15
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作