hadoop如何通过CombineFileInputFormat实现小文件合并减少map的个数

2023-06-02 19:06:25 298人浏览安东尼

摘要

小编给大家分享一下hadoop如何通过CombineFileInputFORMat实现小文件合并减少map的个数，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！//

小编给大家分享一下hadoop如何通过CombineFileInputFORMat实现小文件合并减少map的个数，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！

//map读入的键package hgs.combinefileinputformat.test;import java.io.Datainput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableComparable;public class CombineFileKey implements  WritableComparable<CombineFileKey> {private String fileName;private long offset;public String getFileName() {return fileName;}public void setFileName(String fileName) {this.fileName = fileName;}public long getOffset() {return offset;}public void setOffset(long offset) {this.offset = offset;}@Overridepublic void readFields(DataInput input) throws IOException {this.fileName = Text.readString(input);this.offset = input.readLong();}@Overridepublic void write(DataOutput output) throws IOException {Text.writeString(output, fileName);output.writeLong(offset);}@Overridepublic int compareTo(CombineFileKey obj) {int f = this.fileName.compareTo(obj.fileName);if(f==0)return (int)Math.signum((double)(this.offset-obj.offset));return f;}@Overridepublic int hashCode() {//摘自于 Http://www.idryman.org/blog/2013/09/22/process-small-files-on-hadoop-using-combinefileinputformat-1/final int prime = 31;    int result = 1;    result = prime * result + ((fileName == null) ? 0 : fileName.hashCode());    result = prime * result + (int) (offset ^ (offset >>> 32));    return result;}@Overridepublic boolean equals(Object o) {if(o instanceof CombineFileKey)return this.compareTo((CombineFileKey)o)==0;return false;}}

package hgs.combinefileinputformat.test;import java.io.IOException;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapReduce.InputSplit;import org.apache.hadoop.mapreduce.RecordReader;import org.apache.hadoop.mapreduce.TaskAttemptContext;import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;import org.apache.hadoop.util.LineReader;public class CombineFileReader extends RecordReader<CombineFileKey, Text>{private long startOffset; //offset of the chunk;private long end; //end of the chunk;private long position; // current posprivate FileSystem fs;private Path path; private CombineFileKey key;private Text value;private FSDataInputStream input;private LineReader reader;public CombineFileReader(CombineFileSplit split,TaskAttemptContext context ,Integer index) throws IOException {//初始化path fs startOffset endthis.path = split.getPath(index);this.fs = this.path.getFileSystem(context.getConfiguration());this.startOffset = split.getOffset(index);this.end = split.getLength()+this.startOffset;//判断现在开始的位置是否在一行的内部boolean skipFirstLine = false;//open the filethis.input = fs.open(this.path);//不等于0说明读取位置在一行的内部if(this.startOffset !=0 ){skipFirstLine = true;--(this.startOffset);//定位到开始读取的位置this.input.seek(this.startOffset);}//初始化readerthis.reader = new LineReader(input);if(skipFirstLine){ // skip first line and re-establish "startOffset".//这里着这样做的原因是 一行可能包含了这个文件的所有的数据，猜测如果遇到一行的话，还是会读取一行//将其实位置调整到一行的开始，这样的话会舍弃部分数据this.startOffset += this.reader.readLine(new Text(), 0, (int)Math.min             ((long)Integer.MAX_VALUE, this.end - this.startOffset));}this.position = this.startOffset;}@Overridepublic void close() throws IOException {}@Overridepublic void initialize(InputSplit splite, TaskAttemptContext context) throws IOException, InterruptedException {}//返回当前的key@Overridepublic CombineFileKey getCurrenTKEy() throws IOException, InterruptedException {return key;}//返回当前的value@Overridepublic Text getCurrentValue() throws IOException, InterruptedException {return value;}//执行的进度@Overridepublic float getProgress() throws IOException, InterruptedException {//返回的类型为floatif(this.startOffset==this.end){return 0.0f;}else{return Math.min(1.0f, (this.position - this.startOffset)/(float)(this.end - this.startOffset));}}//该方法判断是否有下一个key value@Overridepublic boolean nextKeyValue() throws IOException, InterruptedException {//对key和value初始化if(this.key == null){this.key = new CombineFileKey();this.key.setFileName(this.path.getName());}this.key.setOffset(this.position);if(this.value == null){this.value = new Text();}//读取一行数据，如果读取的newSieze=0说明split的数据已经处理完成int newSize = 0;if(this.position<this.end){newSize = reader.readLine(this.value);position += newSize;}//没有数据，将key value置位空if(newSize == 0){this.key = null;this.value = null;return false;}else{return true;}}}

package hgs.combinefileinputformat.test;import java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.InputSplit;import org.apache.hadoop.mapreduce.JobContext;import org.apache.hadoop.mapreduce.RecordReader;import org.apache.hadoop.mapreduce.TaskAttemptContext;import org.apache.hadoop.mapreduce.lib.input.CombineFileInputFormat;import org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader;import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;public class CustCombineInputFormat extends CombineFileInputFormat<CombineFileKey, Text> {public CustCombineInputFormat(){super();//最大切片大小this.setMaxSplitSize(67108864);//64 MB}@Overridepublic RecordReader<CombineFileKey, Text> createRecordReader(InputSplit split, TaskAttemptContext context) throws IOException {return new CombineFileRecordReader<CombineFileKey, Text>((CombineFileSplit)split,context,CombineFileReader.class);}@Overrideprotected boolean isSplitable(JobContext context, Path file) {return false;}}//驱动类package hgs.test;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import hgs.combinefileinputformat.test.CustCombineInputFormat;public class LetterCountDriver {public static void main(String[] args) throws Exception {Configuration conf = new Configuration();//conf.set("mapreduce.map.log.level", "INFO");///conf.set("mapreduce.reduce.log.level", "INFO");Job job = Job.getInstance(conf, "LetterCount");job.setjarByClass(hgs.test.LetterCountDriver.class);// TODO: specify a mapperjob.setMapperClass(LetterCountMapper.class);// TODO: specify a reducerjob.setReducerClass(LetterReducer.class);// TODO: specify output typesjob.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);if(args[0].equals("1"))job.setInputFormatClass(CustCombineInputFormat.class);else{}// TODO: specify input and output DIRECTORIES (not files)FileInputFormat.setInputPaths(job, new Path("/Words"));FileOutputFormat.setOutputPath(job, new Path("/result"));if (!job.waitForCompletion(true))return;}}

hdfs文件：

hadoop如何通过CombineFileInputFormat实现小文件合并减少map的个数

运行结果：不使用自定义的：CustCombineInputFormat

hadoop如何通过CombineFileInputFormat实现小文件合并减少map的个数

运行结果：在使用自定义的：CustCombineInputFormat

hadoop如何通过CombineFileInputFormat实现小文件合并减少map的个数

以上是“hadoop如何通过CombineFileInputFormat实现小文件合并减少map的个数”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注编程网精选频道！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: hadoop如何通过CombineFileInputFormat实现小文件合并减少map的个数

本文链接: https://www.lsjlt.com/news/231118.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

hadoop如何通过CombineFileInputFormat实现小文件合并减少map的个数

小编给大家分享一下hadoop如何通过CombineFileInputFormat实现小文件合并减少map的个数，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！//...

99+

2023-06-02
如何使用hadoop archive合并小文件并进行mapreduce来减少map的数量

这篇文章给大家分享的是有关如何使用hadoop archive合并小文件并进行mapreduce来减少map的数量的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。如下：原始文件四个文件经过hadoop archi...

99+

2023-06-02
文件API的Go语言实现：如何通过并发编程实现文件处理的高并发性？

Go语言是一门支持高并发编程的语言，它的并发机制非常强大，可以让我们在处理文件时获得更高的并发性能。在本文中，我们将介绍如何使用Go语言的文件API实现高并发的文件处理。并发的文件读写在处理大量文件时，我们需要使用并发的方式来读写...

99+

2023-11-02

并发文件 api
如何实现多个vue子路由文件自动化合并

小编给大家分享一下如何实现多个vue子路由文件自动化合并，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！1. 目录结构目录结构，如...

99+

2024-04-02
java如何通过字节流实现文件的拷贝

小编给大家分享一下java如何通过字节流实现文件的拷贝，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！通过字节流实现文件的拷贝 p...

99+

2023-06-17
通过Python实现对SQL Server 数据文件大小的监控告警功能

1.需求背景系统程序突然报错，报错信息如下： The transaction log for database '@dbname' is full. To find out wh...

99+

2024-04-02
如何通过Java实现高效的文件重定向和加载？

Java是一种流行的编程语言，用于开发各种应用程序。在Java应用程序中，文件重定向和加载是非常重要的任务。本文将介绍如何使用Java实现高效的文件重定向和加载，以便您可以更好地了解如何处理文件操作。文件重定向 Java中的文件重定向是将...

99+

2023-09-05

文件重定向 load
如何通过php接口和ECharts实现统计图的数据分组和聚合

如何通过PHP接口和ECharts实现统计图的数据分组和聚合随着数据分析和可视化需求的增加，通过接口和ECharts实现统计图的数据分组和聚合变得越来越重要。在本文中，我们将介绍如何使用PHP编写接口，并结合ECharts实现数据的分组和聚...

99+

2023-12-17

echarts PHP接口数据分组和聚合
HTML写链接的时候如何实现始终将正斜杠添加到子文件夹减少HTTP请求

这篇文章给大家分享的是有关HTML写链接的时候如何实现始终将正斜杠添加到子文件夹减少HTTP请求的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。因为如果子文件夹的末尾没有正斜杠，就会产生两次HTTP请求，就会对效率...

99+

2023-06-08
如何用java实现同时进行多个请求，可以将它们并行执行，从而减少总共的请求时间。

1.使用线程池通过使用Java提供的线程池，可以将多个请求分配到不同的线程中并行执行。可以通过创建固定数量的线程池，然后将请求分配给线程池来实现。线程池会自动管理线程的数量和复用，从而减少了线程创建和销毁的开销，提高了程序的性能。 ...

99+

2023-09-09

java
JAVA如何通过使用数组遍历和if条件实现选择数据中的最大值

这篇文章给大家分享的是有关JAVA如何通过使用数组遍历和if条件实现选择数据中的最大值的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。前言：通过使用数组遍历和if条件实现选择数据中的最大值。public ...

99+

2023-06-02
Python如何实现对SQL Server 数据文件大小的监控告警功能

这篇文章将为大家详细讲解有关Python如何实现对SQL Server 数据文件大小的监控告警功能，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。python有哪些常用库python常用的库：1.reque...

99+

2023-06-14
Shell脚本常用命令及如何通过shell脚本实现服务器上文件的上传和下载

Shell脚本常用命令简介 1、什么是shell： Shell 是一个用 C 语言编写的应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。Shell 脚本（shell script），是一种为 shell 编写...

99+

2023-08-23

服务器 linux 自动化
【AI选股】如何通过python调用通达信-小达实现AI选股（量化又多了一个选股工具，原文Chrome浏览器请改为Edge浏览器）

文章目录前言一、通达信-小达是什么？二、使用步骤1. 引入browser_cookie3库2. 通达信-小达 AI选股源代码总结前言 ChatGPT火遍网络，那么有没有可以不用...

99+

2023-09-16

人工智能 python 开发语言量化
如何实现批处理bat判断一个文件在最近5分钟内是否被更新过的代码

这篇文章主要介绍“如何实现批处理bat判断一个文件在最近5分钟内是否被更新过的代码”，在日常操作中，相信很多人在如何实现批处理bat判断一个文件在最近5分钟内是否被更新过的代码问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希...

99+

2023-06-08