iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >Hadoop Combiner使用方法详解
  • 953
分享到

Hadoop Combiner使用方法详解

hadoopcombiner 2023-05-30 23:05:07 953人浏览 安东尼
摘要

Hadoop Combiner使用方法详解Combiner函数是一个可选的中间函数,发生在Map阶段,Mapper执行完成后立即执行。使用Combiner有如下两个优势: Combiner可以用来减少发送到Reducer的数据量,从而提高

Hadoop Combiner使用方法详解

Combiner函数是一个可选的中间函数,发生在Map阶段,Mapper执行完成后立即执行。使用Combiner有如下两个优势:

  1. Combiner可以用来减少发送到Reducer的数据量,从而提高网络效率。
  2. Combiner可以用于减少发送到Reducer的数据量,这将提高Reduce端的效率,因为每个reduce函数将处理相对较少记录,相比于未使用Combiner之前。

Combiner与Reducer结构相同,因为Combiner和Reducer都对Mapper的输出进行处理。这给了我们一个复用Reducer作为Combiner的好机会。但问题是,复用Reducer作为Combiner总是是一个好主意吗?

特点:

Combiners是MapReduce中的一个优化,允许在shuffle和排序阶段之前在本地进行聚合。Combiners的首要目标是通过最小化键值对的数量来节省尽可能多的带宽

Reducer作为Combiner的适用场景

假设我们正在编写一个mapReduce程序来计算股票数据集中每个股票代码的最大收盘价。Mapper将数据集中每个股票记录的股票代码作为key和收盘价作为value。Reducer然后将循环遍历股票代码对应的所有收盘价,并从收盘价列表中计算最高收盘价。假设Mapper 1 处理 股票代码为ABC 的3个记录,收盘价分别为50,60和111。让我们假设Mapper 2 处理股票代码为ABC的2个记录,收盘价分别为100和31。那么Reducer将收到股票代码ABC五个收盘价---50,60,111,100和31。Reducer的工作非常简单,它将简单地循环遍历所有收盘价,并将计算最高收盘价为111。

我们可以在每个Mapper之后使用相同的Reducer作为Combiner。Mapper 1 上的Combiner将处理3个收盘价格--50,60和111,并且仅输出111,因为它是3个收盘价的最大值。Mapper 2 上的Combiner将处理2个收盘价格--100和31,并且仅输出100,因为它是2个收盘价的最大值。现在使用Combiner之后,Reducer仅处理股票代码ABC的2个收盘价(原先需要处理5个收盘价),即来自Mapper 1 的111和来自Mapper 2 的100,并且将从这两个值中计算出最大收盘价格为111。

正如我们看到的,使用Combiner情况下Reducer输出与没有使用Combiner的输出结果是相同的,因此在这种情况下复用Reducer作为

Combiner是没有问题。

Reducer作为Combiner的不适用场景

假设我们正在编写一个MapReduce程序来计算股票数据集中每个股票代码的平均交易量(average volume for each symbol)。Mapper将数据集中每个股票记录的股票代码作为key和交易量(volume)作为value。Reducer然后将循环遍历股票代码对应的所有交易量,并从交易量列表中计算出平均交易量(average volume from the list of volumes for that symbol)。假设Mapper 1 处理 股票代码为ABC 的3个记录,收盘价分别为50,60和111。让我们假设Mapper 2 处理股票代码为ABC的2个记录,收盘价分别为100和31。那么Reducer将收到股票代码ABC五个收盘价---50,60,111,100和31。Reducer的工作非常简单,它将简单地循环遍历所有交易量,并将计算出平均交易量为70.4。

50 + 60 + 111 + 100 + 31 / 5 = 352 / 5 = 70.4

--结束END--

本文标题: Hadoop Combiner使用方法详解

本文链接: https://www.lsjlt.com/news/222143.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Hadoop Combiner使用方法详解
    Hadoop Combiner使用方法详解Combiner函数是一个可选的中间函数,发生在Map阶段,Mapper执行完成后立即执行。使用Combiner有如下两个优势: Combiner可以用来减少发送到Reducer的数据量,从而提高...
    99+
    2023-05-30
    hadoop combiner
  • FragmentTabHost使用方法详解
    FragmentTabHost是support-v包下提供的用于集成和管理Fragment页面的组件. 今天要实现的效果图如下: 整体结构是MainActivity+5个模块的Fragment. MainActivity的布局如下:<...
    99+
    2023-05-30
    android fragmenttabhost
  • iperf3使用方法详解
    iperf3是一款带宽测试工具,它支持调节各种参数,比如通信协议,数据包个数,发送持续时间,测试完会报告网络带宽,丢包率和其他参数。 小广告:欢迎喜欢网络技术的朋友加我微信:xfiles_sky,一起...
    99+
    2023-09-06
    服务器 网络 运维
  • Optional 使用方法详解
    Optional的作用是什么?他都有哪些方法?阿里规范点名说尽量用Optional来避免空指针,那么什么场景用Optional?本篇文章围绕这三点来进行讲解。 目录 一、Optional类的来源二、Optional类是什么?三、Op...
    99+
    2023-08-17
    java 开发语言
  • JavaBigDecimal使用方法详解
    目录重要属性Double 转 BigDecimal基础方法数值比较剔除尾部的零重要属性 1、scale: 小数点后的位数。如将1.234构建为BigDecimal,scale属性则为...
    99+
    2022-12-20
    Java BigDecimal Java BigDecimal用法
  • KotlinWorkManager使用方法详解
    目录WorkMananger的简介WorkManager的基本用法使用WorkManager处理复杂的任务链式任务WorkMananger的简介 Google推出WorkManage...
    99+
    2023-01-28
    Kotlin WorkManager Kotlin WorkManager实例
  • ToolBar使用方法详解
    ToolBar的出现是为了替换之前的ActionBar的各种不灵活使用方式,相反,ToolBar的使用变得非常灵活,因为它可以让我们自由往里面添加子控件.低版本要使用的话,可以添加support-v7包. 今天要实现的效果如下: 由上图可以...
    99+
    2023-05-30
    android toolbar
  • Quartz.Net使用方法详解
    目录Hello Quartz.Net作业:Job和JobDetailJobDataJobDetail持久化JobData触发器:TriggerSampleTriggerCronTri...
    99+
    2024-04-02
  • KotlinFragment使用方法详解
    目录1.Fragment的介绍2.静态加载3.动态加载1.Fragment的介绍 Android在3.0版本引入了Fragment功能,它非常类似于Activity,可以像Activ...
    99+
    2023-01-28
    Kotlin Fragment Kotlin Fragment接口
  • 详解datagrid使用方法
    DataGrid是一种用于显示和编辑数据的控件,常用于展示表格数据。以下是DataGrid的使用方法:1. 引用DataGrid控件...
    99+
    2023-08-11
    datagrid
  • PopupWindow使用方法详解
    学习了Android PopupWindow的使用技巧 和【Android UI设计与开发】7.底部菜单栏(四)PopupWindow 实现显示仿腾讯新闻底部弹出菜单,然后自己进行了一下研究,写一个总结,方便以后学习。效果图:PopupWi...
    99+
    2023-05-30
    popupwindow 使用
  • PerformanceCounter详解,使用方法
    PerformanceCounter是一个用于监视计算机性能指标的类,它可以用来测量各种指标,如CPU使用率、内存使用率、磁盘读写速...
    99+
    2023-09-16
    详解
  • hadoop集群使用的方法是什么
    Hadoop集群使用的方法通常是通过Hadoop分布式文件系统(HDFS)存储和管理大规模数据,并使用MapReduce编程模型来处...
    99+
    2024-03-05
    hadoop
  • djangoredis的使用方法详解
    目录1.说明2.安装3.配置3.1 配置redis3.2 使用redis存储session3.3 redis连接超时时间设置4.使用redis4.1 使用默认redis4.2 使用指...
    99+
    2023-05-16
    django redis使用 django redis
  • Android IdleHandler使用方法详解
    正文 在Android中,Handler是一个使用的非常频繁的东西,输入事件机制和系统状态,都通过Handler来进行流转,而在Handler中,有一个很少被人提起但是却很有用的东西...
    99+
    2022-11-13
    Android IdleHandler Android IdleHandler使用
  • Android Notification 使用方法详解
    Android Notification 使用方法详解用TaskStackBuilder来获取PendingIntent处理点击跳转到别的Activity,首先是用一般的PendingIntent来进行跳转。mBuilder = new N...
    99+
    2023-05-30
    android notification roi
  • Android HandlerThread使用方法详解
    Android HandlerThread使用方法详解HandlerThread 继承自Thread,内部封装了Looper。首先Handler和HandlerThread的主要区别是:Handler与Activity在同一个线程中,Han...
    99+
    2023-05-30
    android handlerthread roi
  • Kotlin ContentProvider使用方法详解
    目录ContentProvider提供者contentResolver获取短信数据ContentObserver监控短信的到来小结android的四大组件,已经介绍了两个,这一节介绍...
    99+
    2022-12-08
    Kotlin ContentProvider Kotlin ContentProvider的使用
  • JS event使用方法详解
    JavaScript中的事件是指浏览器或用户执行某种动作时所触发的操作,如点击按钮、滚动页面等。使用事件可以为元素添加交互功能和响应...
    99+
    2023-08-14
    JS
  • 详解go mod 使用方法
    目录1、进入grammar文件夹2、初始化目录3、导入自定义的模块4、导入本地没有的模块常用命令1、初始化模块2 、获取远程的模块3、 查看当前依赖模块4、清除未使用到的依赖go m...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作