MapReduce原理深入理解(一)

MapReduce原理深入理解(一) 2019-09-24 11:09:08 217人浏览绘本

摘要

1.MapReduce概念 1）mapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题. 2）MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程

MapReduce原理深入理解(一)

1.MapReduce概念

1）mapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.

2）MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据。Reduce阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。

3）MapReduce框架都有默认实现，用户只需要覆盖map()和reduce()两个函数，即可实现分布式计算，非常简单。

4）两个函数的形参和返回值都是，使用的时候一定要注意构造。

2.MapReduce核心思想

（1）分布式的运算程序往往需要分成至少2个阶段。

（2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。

（3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。

（4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

总结：分析WordCount数据流走向深入理解MapReduce核心思想。

3. MapReduce 中的shuffle

4.Mapreduce代码

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFORMat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCount {
    //分割任务
    // 第一对kv,是决定数据输入的格式
    // 第二队kv 是决定数据输出的格式
    public static class MyMapper extends Mapper {
        
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            LongWritable longWritable = new LongWritable(1);
            String s = value.toString();
            context.write(new Text(s), longWritable);
        }
    }
   //接收Map端数据
    public static class MyReducer extends Reducer {
       
        @Override
        protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
            //设置统计的初始值为0
            long sum = 0l;
            for (LongWritable value : values) {
                sum += value.get();
            }
            context.write(key, new LongWritable(sum));
        }
    }

    
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //创建一个job任务
        Job job=Job.getInstance();
        //指定job名称
        job.setJobName("第一个mr程序");
        //构建mr
        //指定当前main所在类名(识别具体的类)
        job.setjarByClass(WordCount.class);
        //指定map端类
        // 指定map输出的kv类型
        job.setMapperClass(MyMapper.class);
        job.setMapOutpuTKEyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);
        //指定reduce端类
        //指定reduce端输出的kv类型
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        // 指定输入路径
        Path in = new Path("/word");
        FileInputFormat.addInputPath(job,in);
        //输出路径指定
        Path out = new Path("/output");
        FileSystem fs = FileSystem.get(new Configuration());
        //如果文件存在
        if(fs.exists(out)){
            fs.delete(out,true);
        }
        //存在
        FileOutputFormat.setOutputPath(job,out);

        //启动
        job.waitForCompletion(true);
        System.out.println("MapReduce正在执行");
    }
}

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: MapReduce原理深入理解(一)

本文链接: https://www.lsjlt.com/news/8790.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

MapReduce原理深入理解(一)

1.MapReduce概念 1）MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题. 2）MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程...

99+

2019-09-24

MapReduce原理深入理解(一)
HDFS原理深入理解

1.HDFS概述 1)数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。 2)是一种允许...

99+

2017-01-26

HDFS原理深入理解
深入理解React State 原理

目录问题：setState 到底是同步还是异步的？类组件statesetState原理揭秘函数组件state问题：setState 到底是同步还是异步的？如果对 React 底层有...

99+

2022-11-12
一文带你深入理解Vue3响应式原理

目录响应式原理2.0的不足reactive和effect的实现effect track trigger测试代码递归实现reactive总结响应式原理 Vue2...

99+

2022-11-13

vue3响应式原理精讲 vue3 响应式 vue 响应式原理
React深入了解原理

目录VDOM（虚拟dom）Fiber架构初始化渲染更新时render阶段commit阶段VDOM（虚拟dom） react和vue都是基于vdom的前端框架。 web界面由DOM树来...

99+

2022-11-13
深入讲解Socket原理

目录关于TCP/IP、UDP、Socket什么是TCP/IP、UDP？Socket在哪里呢？Socket是什么呢？你会使用它们吗？1、网络中进程之间如何通信？2、什么是Socket？...

99+

2022-11-12
GoComparableType原理深入解析

目录介绍内部实现现实中的陷阱与应用errors.Is(*Type)(nil) ≠ nilContext Value Key指针类型Struct 类型介绍在 Go reflec...

99+

2023-01-06

Go Comparable Type原理 Go Comparable
深入理解React调度(Scheduler)原理

目录异步调度时间分片异步调度原理总结异步调度问题：由于对于大型的 React 应用，会存在一次更新，递归遍历大量的虚拟 DOM ，造成占用 js 线程，使得浏览器没有时间去做一些动...

99+

2022-11-13
深入理解Vue3响应式原理

目录响应式原理手写实现1、实现Reactive2、实现依赖的收集和触发effect影响函数收集/添加依赖触发依赖3、移除/停止依赖衍生类型1、实现readonly2、实现shallo...

99+

2022-12-19

vue3响应式原理精讲 vue3 响应式 vue 响应式原理
MapReduce的运行原理

本篇内容介绍了“MapReduce的运行原理”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！MapReduce是一种编程模型，用于大规模数据集...

99+

2023-06-02
Redis字符串原理的深入理解

前言来掘进都有两年多了一直当个小透明,今天终于发一次文章了. 最近在看 Redis,感觉收获很多,写篇博客记录一下. Redis 有五种基础数据结构:string,list,set,zset,has...

99+

2022-10-18
深入理解 MySQL 索引底层原理

目录mysql 索引底层数据结构选型哈希表（Hash）二叉查找树(BST)AVL 树和红黑树B 树5.B+树Innodb 引擎和 Myisam 引擎的实现MyISAM 引擎的底层实现（非聚集索引方式）Innodb 引擎的...

99+

2022-12-25

MySQL 索引底层原理 MySQL索引底层实现原理 MySQL数据库索引底层原理
深入理解 MySQL 索引底层原理

目录Mysql 索引底层数据结构选型哈希表（Hash）二叉查找树(BST)AVL 树和红黑树B 树5.B+树Innodb 引擎和 Myisam 引擎的实现MyISAM 引擎的底层实现...

99+

2022-12-25

MySQL 索引底层原理 MySQL索引底层实现原理 MySQL数据库索引底层原理
深入理解spring的AOP机制原理

前言在软件开发中，散布于应用中多处的功能被称为横切关注点，通常来讲，这些横切关注点从概念上是与应用的业务逻辑相分离的。把这些横切关注点和业务逻辑分离出来正是AOP要解决的问题。AOP能够帮我们模块化横切关注点，换言之，横切关注点可以被描述为...

99+

2023-05-31

spring aop sprin
深入理解python之一——python

文章使用markdown写的，编辑的时候行间距还可以，显示的时候行间距好小，我也没办法。首先，需要明白的是python是一种解释性语言标准，他可以由c、java或者其他语言来实现。在python的标准中，变量是链接式的。举个例子来说，内...

99+

2023-01-30

python
Flutter渲染原理深入解析

目录Widget Element RenderObject之间的关系1 Widget2 Element3 RenderObject4 结合图说一下其三者的关系5 一些小问题Widge...

99+

2023-05-15

Flutter渲染原理 Flutter渲染
深入解析kafka架构原理

kafka 架构原理大数据时代来临，如果你还不知道Kafka那就真的out了！据统计，有三分之一的世界财富500强企业正在使用Kafka，包括所有TOP10旅游公司，7家TOP1...

99+

2022-11-12
Golangsync.Map原理深入分析讲解

目录GO语言内置的mapsync.Mapsync.Map原理分析sync.Map的结构查找新增和更新删除GO语言内置的map go语言内置一个map数据结构，使用起来非常方便，但是它...

99+

2022-12-17

Go sync.Map Golang sync.Map原理
gosync.Map基本原理深入解析

目录引言map 在并发下的问题map 并发读写异常的例子使用 sync.Mutex 保证并发安全使用 sync.RWMutex 保证并发安全有了读写锁为什么还要有 sync.Map？...

99+

2023-01-28

go sync.Map基本原理 go sync.Map
SpringBoot启动原理深入解析

目录一、SpringBootApplication 背后的秘密1、@Configuration2、@ComponentScan3、@EnableAutoConfiguration二、...

99+

2023-05-14

springboot启动流程 SpringBoot的启动类 springboot启动原理