java实现MapReduce对文件进行切分的示例代码

2024-04-02 19:04:59 557人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

比如有海量的文本文件，如订单，页面点击事件的记录，量特别大，很难搞定。那么我们该怎样解决海量数据的计算？ 1、获取总行数2、计算每个文件中存多少数据3、split切分文件4、redu

比如有海量的文本文件，如订单，页面点击事件的记录，量特别大，很难搞定。
那么我们该怎样解决海量数据的计算？

1、获取总行数
2、计算每个文件中存多少数据
3、split切分文件
4、reduce将文件进行汇总

例如这里有百万条数据，单个文件操作太麻烦，所以我们需要进行切分
在切分文件的过程中会出现文件不能整个切分的情况，可能有剩下的数据并没有被读取到，所以我们每个切分128条数据，不足128条再保留到一个文件中

创建MapTask

import java.io.*;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;

public class MapTask extends Thread {
    //用来接收具体的哪一个文件
    private File file;
    private int flag;

    public MapTask(File file, int flag) {
        this.file = file;
        this.flag = flag;
    }

    @Override
    public void run() {
        try {
            BufferedReader br = new BufferedReader(new FileReader(file));
            String line;
            HashMap<String, Integer> map = new HashMap<String, Integer>();
            while ((line = br.readLine()) != null) {
                
                String clazz = line.split(",")[4];
                if (!map.containsKey(clazz)) {
                    map.put(clazz, 1);
                } else {
                    map.put(clazz, map.get(clazz) + 1);
                }
            }
            br.close();
            BufferedWriter bw = new BufferedWriter(
                    new FileWriter("F:\\ideaDEMO\\shujiabigdata\\part\\part---" + flag));
            Set<Map.Entry<String, Integer>> entries = map.entrySet();
            for (Map.Entry<String, Integer> entry : entries) {
                String key = entry.geTKEy();
                Integer value = entry.getValue();
                bw.write(key + ":" + value);
                bw.newLine();
            }
            bw.flush();
            bw.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

创建Map

import java.io.File;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

public class Map {
    public static void main(String[] args) {
        long start = System.currentTimeMillis();
        // 多线程连接池(线程池)
        ExecutorService executorService = Executors.newFixedThreadPool(8);
        // 获取文件列表
        File file = new File("F:\\IDEADEMO\\shujiabigdata\\split");
        File[] files = file.listFiles();
        //创建多线程对象
        int flag = 0;
        for (File f : files) {
            //为每一个文件启动一个线程
            MapTask mapTask = new MapTask(f, flag);
            executorService.submit(mapTask);
            flag++;
        }
        executorService.shutdown();
        long end = System.currentTimeMillis();
        System.out.println(end-start);
    }
}

创建ClazzSum

import java.io.BufferedReader;
import java.io.FileReader;
import java.util.HashMap;

public class ClazzSum {
    public static void main(String[] args) throws Exception {
        long start = System.currentTimeMillis();
        BufferedReader br = new BufferedReader(
                new FileReader("F:\\IDEADEMO\\shujiabigdata\\data\\bigstudents.txt"));
        String line;
        HashMap<String, Integer> map = new HashMap<String, Integer>();
        while ((line = br.readLine()) != null) {
            String clazz = line.split(",")[4];
            if (!map.containsKey(clazz)) {
                map.put(clazz, 1);
            } else {
                map.put(clazz, map.get(clazz) + 1);
            }
        }
        System.out.println(map);
        long end = System.currentTimeMillis();
        System.out.println(end-start);
    }
}

创建split128

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileReader;
import java.io.FileWriter;
import java.util.ArrayList;

public class Split128 {
    public static void main(String[] args) throws Exception {
        BufferedReader br = new BufferedReader(
                new FileReader("F:\\IDEADEMO\\shujiabigdata\\data\\students.txt"));

        //用作标记文件，也作为文件名称
        int index = 0;
        BufferedWriter bw = new BufferedWriter(
                new FileWriter("F:\\IDEADEMO\\shujiabigdata\\split01\\split---" + index));

        ArrayList<String> list = new ArrayList<String>();
        String line;
        //用作累计读取了多少行数据
        int flag = 0;
        int row = 0;
        while ((line = br.readLine()) != null) {
            list.add(line);
            flag++;
            // flag = 140
            if (flag == 140) {// 一个文件读写完成，生成新的文件
                row = 0 + 128 * index;
                for (int i = row; i <= row + 127; i++) {
                    bw.write(list.get(i));
                    bw.newLine();
                }
                bw.flush();
                bw.close();
                
                index++;
                flag = 12;
                bw = new BufferedWriter(
                        new FileWriter("F:\\IDEADEMO\\shujiabigdata\\split01\\split---" + index));
            }
        }
        //文件读取剩余128*1.1范围之内
        for (int i = list.size() - flag; i < list.size(); i++) {
            bw.write(list.get(i));
            bw.newLine();
        }
        bw.flush();
        bw.close();
    }
}

创建Reduce

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.util.HashMap;

public class Reduce {
    public static void main(String[] args) throws Exception {
        long start = System.currentTimeMillis();
        HashMap<String, Integer> map = new HashMap<String, Integer>();
        File file = new File("F:\\IDEADEMO\\shujiabigdata\\part");
        File[] files = file.listFiles();
        for (File f : files) {
            BufferedReader br = new BufferedReader(new FileReader(f));
            String line;
            while ((line = br.readLine()) != null) {
                String clazz = line.split(":")[0];
                int sum = Integer.valueOf(line.split(":")[1]);
                if (!map.containsKey(clazz)) {
                    map.put(clazz, sum);
                } else {
                    map.put(clazz, map.get(clazz) + sum);
                }
            }
        }
        long end = System.currentTimeMillis();
        System.out.println(end-start);
        System.out.println(map);
    }
}

最后将文件切分了8份，这里采用了线程池，建立线程连接，多个线程同时启动，比单一文件采用多线程效率更高更好使。

到此这篇关于java实现mapReduce对文件进行切分的示例代码的文章就介绍到这了,更多相关java MapReduce 文件切分内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: java实现MapReduce对文件进行切分的示例代码

本文链接: https://www.lsjlt.com/news/163220.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

java实现MapReduce对文件进行切分的示例代码

比如有海量的文本文件，如订单，页面点击事件的记录，量特别大，很难搞定。那么我们该怎样解决海量数据的计算？ 1、获取总行数2、计算每个文件中存多少数据3、split切分文件4、redu...

99+

2022-11-13
C#实现对文件进行加密保护的示例代码

目录实践过程效果代码实践过程效果代码 public partial class Form1 : Form { public Form1() { ...

99+

2022-12-31

C#实现文件加密 C#文件加密 C# 加密
Java对xls文件进行读写操作示例代码

前言本文主要给大家介绍的是关于Java对xls文件进行读写操作的相关内容，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍： win7_x64 IDEAJava读写xls文件，使用库jxl.jar读写xls文件，这里是在知道...

99+

2023-05-31

java 读写xls文件作
使用shell脚本对Nginx日志进行切分的示例代码

本文介绍了使用shell脚本对Nginx日志进行切分的示例代码，分享给大家，具体如下： 1.日志格式默认的日志格式: main log_format main '$remote_addr - $rem...

99+

2022-06-04

切分示例脚本
python实现MD5进行文件去重的示例代码

目录前言工作原理代码前言工作中偶尔会遇到文件去重的事情，收到一大堆文件，名称各不相同，分析文件的时候发现有不少重复的文件，导致工作效率低下，那么，这里就写了一个python脚本实现文件去重功能工作原理脚本会检查...

99+

2022-06-02

python MD5文件去重 python MD5去重
Java代码实现对properties文件有序的读写的示例

最近遇到一项需求，要求把properties文件中的内容读取出来供用户修改，修改完后需要再重新保存到properties文件中。很简单的需求吧，可问题是Properties是继承自HashTable的，直接通过keySet()、keys()...

99+

2023-05-30

properties 有序 ava
Java实现文件分片上传接口的示例代码

目录java后端分片上传接口前端分片java后端分片上传接口文件上传工具--FileUtil package com.youmejava.chun.util; import l...

99+

2022-11-13
Vue实现文件切片上传功能的示例代码

目录流程简说获取文件的 MD5 唯一标识码文件切片获取文件名 name分片文件大小 chunkSize文件切片 chunkList 列表切片总数 chunks切片大小 size合并在...

99+

2022-11-13

Vue文件切片上传 Vue文件切片
使用python对视频文件分辨率进行分组的实例代码

在平时的工作中，我们的目录有很多的视频文件，如果你没有一个好的视频分类习惯，在找视频素材的时候会很费时，通过对视频的分辨路进行分类可以在需要的时候快速找到你想要的视频分辨率。当然人工...

99+

2022-11-12
C++实现对RGB图片进行编码的示例代码

目录1.转换色彩空间2.离散余弦变化3.zigzag编码4.量化5.Huffman编码代码如下依据上一篇的JPEG编码所得到的RGB信息，我们可以重新对RGB图片进行编码，也可对其他...

99+

2023-05-19

C++对图片进行编码 C++图片编码 C++图片
Java实现文件检索系统的示例代码

示例代码 package Demo; import java.io.File; import java.io.FilenameFilter; import java.util.Sc...

99+

2022-11-13
Java实现把文件压缩成zip文件的示例代码

实现代码 ackage org.fh.util; import java.io.File; import java.io.FileInputStream; import java....

99+

2022-11-13
13行python代码实现对微信进行推送消息的示例代码

目录单人推送一对多推送Python可以实现给QQ邮箱、企业微信、微信等等软件推送消息，今天咱们实现一下Python直接给微信推送消息。这里咱们使用了一个第三方工具pushplus ...

99+

2022-11-11
基于Python实现文件分类器的示例代码

本文实现文件分类器的目的主要是为了将办公过程中产生的各种格式的文件完成整理。通过自定义需要整理的文件目录，将该目录下面的全部文件按照文件格式完成分类操作。实现逻辑使用的pyth...

99+

2023-05-14

Python实现文件分类器 Python文件分类器 Python文件分类
PHP+JS实现文件分块上传的示例代码

目录一、分块上传流程二、实现代码HTMLJSPHP我们在上传大文件时，可能会由于服务器的原因导致文件上传失败，文件过大时由于服务器的配置或响应事件过长导致上传文件失败，这时候我们可以...

99+

2022-11-13

PHP JS文件分块上传 PHP 文件分块上传 PHP 文件上传
Java实现Excel文件加密解密的示例代码

目录概述示例大纲工具Java代码示例示例1加密工作簿示例2解密工作簿示例3加密工作表示例4加密工作表指定数据范围示例5设置工作表公式隐藏示例6解密Excel工作表概述设置excel...

99+

2022-11-13
基于Java实现中文分词系统的示例代码

目录1.问题描述2.相关工作3.系统框架和算法设计3.1系统整体框架1.问题描述中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个...

99+

2022-11-13
JAVA实现红包分发的示例代码

大体思路如果发总金额为 m的 n 个红包，先用一个长度为 n的临时数组 a 存放 n个随机双精度小数，然后用 sum表示数组 a 的和，每个红包的金额代码 ...

99+

2022-11-12
Eolink上传文件到Java后台进行处理的示例代码

Eolink上传文件配置：接收文件请求并进行业务处理 @RequestMapping(value = "shangchuan") @ResponseBody public s...

99+

2022-12-09

Eolink上传文件 java文件上传 Eolink上传文件配置
Python实现批量文件分类保存的示例代码

目录序言代码展示效果展示序言当我们电脑里面的文本或者或者文件夹太多了，有时候想找到自己想要的文件，只能通过去搜索文件名，要是名字忘记了的话，那你也搜不了吧，当然你可通过后缀名去搜索...

99+

2022-11-10