教新手使用java如何对一个大的文本文件内容进行去重

2024-04-02 19:04:59 319人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录有内存溢出风险的写法：通过hashCode取模拆分写法：总结有内存溢出风险的写法： public static void distinct() { File ff =

有内存溢出风险的写法：


	public static void distinct() {
		File ff = new File("G://passWord/all.txt");
		File distinctedFile = new File("G://password/all-distinced.txt");
		PrintWriter pw = null;
		Set<String> allHash = null;
		FileReader fr = null;
		BufferedReader br = null;
		try {
			pw = new PrintWriter(distinctedFile);
			allHash = new HashSet<String>();
			fr = new FileReader(ff);
			br = new BufferedReader(fr);
			String line = null;
			while((line=br.readLine())!=null){
				line = line.trim();
				if(line != ""){
					allHash.add(line);
				}
			}
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			try {
				if(null != fr){
					fr.close();
				}
			} catch (IOException e) {
				e.printStackTrace();
			}
			try {
				if(null != br){
					br.close();
				}
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
		for(String s:allHash){
			pw.println(s);
		}
		pw.close();
	}

JVM内存溢出：


Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
	at java.util.HashMap.newnode(HashMap.java:1734)
	at java.util.HashMap.putVal(HashMap.java:630)
	at java.util.HashMap.put(HashMap.java:611)
	at java.util.HashSet.add(HashSet.java:219)
	at encode.Main.distinct(Main.java:180)
	at encode.Main.main(Main.java:215)

通过hashCode取模拆分写法：


import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.PrintWriter;
import java.util.HashSet;
import java.util.Set;
public class DistinctFileUtil {
	
	public static File[] splitFile(String targetFile,int splitSize){
		File file = new File(targetFile);
		BufferedReader reader = null;
		PrintWriter[] pws = new PrintWriter[splitSize];
		File[] littleFiles = new File[splitSize];
		String parentPath = file.getParent();
		File tempFolder = new File(parentPath + File.separator + "test");
		if(!tempFolder.exists()){
			tempFolder.mkdir();
		}
		for(int i=0;i<splitSize;i++){
			littleFiles[i] = new File(tempFolder.getAbsolutePath() + File.separator + i + ".txt");
			if(littleFiles[i].exists()){
				littleFiles[i].delete();
			}
			try {
				pws[i] = new PrintWriter(littleFiles[i]);
			} catch (FileNotFoundException e) {
				e.printStackTrace();
			}
		}
		try {
			reader = new BufferedReader(new FileReader(file));
			String tempString = null;
			while ((tempString = reader.readLine()) != null) {
				tempString = tempString.trim();
				if(tempString != ""){
					//关键是将每行数据hash取模之后放到对应取模值的文件中，确保hash值相同的字符串都在同一个文件里面
					int index = Math.abs(tempString.hashCode() % splitSize);
					pws[index].println(tempString);
				}
			}
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			if (reader != null) {
				try {
					reader.close();
				} catch (IOException e1) {
					e1.printStackTrace();
				}
			}
			for(int i=0;i<splitSize;i++){
				if(pws[i] != null){
					pws[i].close();
				}
			}
		}
		return littleFiles;
	}
	
	public static void distinct(File[] littleFiles,String distinctFilePath,int splitSize){
		File distinctedFile = new File(distinctFilePath);
		FileReader[] frs = new FileReader[splitSize];
		BufferedReader[] brs = new BufferedReader[splitSize];
		PrintWriter pw = null;
		try {
			if(distinctedFile.exists()){
				distinctedFile.delete();
			}
			distinctedFile.createNewFile();
			pw = new PrintWriter(distinctedFile);
			Set<String> unicSet = new HashSet<String>();
			for(int i=0;i<splitSize;i++){
				if(littleFiles[i].exists()){
					System.out.println("开始对小文件：" + littleFiles[i].getName() + "去重");
					frs[i] = new FileReader(littleFiles[i]);
					brs[i] = new BufferedReader(frs[i]);
					String line = null;
					while((line = brs[i].readLine())!=null){
						if(line != ""){
							unicSet.add(line);
						}
					}
					for(String s:unicSet){
						pw.println(s);
					}
					unicSet.clear();
					System.gc();
				}
			}
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e1){
			e1.printStackTrace();
		} finally {
			for(int i=0;i<splitSize;i++){
				try {
					if(null != brs[i]){
						brs[i].close();
					}
					if(null != frs[i]){
						frs[i].close();
					}
				} catch (IOException e) {
					e.printStackTrace();
				}
				//合并完成之后删除临时小文件
				if(littleFiles[i].exists()){
					littleFiles[i].delete();
				}
			}
			if(null != pw){
				pw.close();
			}
		}
	}
	public static void main(String[] args) throws IOException {
		int splitSize = 20;
		File[] files = splitFile("G://test/bigfile.txt",splitSize);
		distinct(files,"G://test/bigfile-distinct.txt",splitSize);
	}
}

总结

本篇文章的内容就到这了，希望大家可以喜欢，也希望大家可以多多关注编程网的其他精彩内容！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 教新手使用java如何对一个大的文本文件内容进行去重

本文链接: https://www.lsjlt.com/news/128815.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

教新手使用java如何对一个大的文本文件内容进行去重

目录有内存溢出风险的写法：通过hashCode取模拆分写法：总结有内存溢出风险的写法： public static void distinct() { File ff = ...

99+

2024-04-02
使用Java如何删除文本文件中特定行的内容

今天就跟大家聊聊有关使用Java如何删除文本文件中特定行的内容，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。常用的java框架有哪些1.SpringMVC，Spring Web MV...

99+

2023-06-14
如何在一个HTML文件中对文本进行格式化

这篇文章主要介绍了如何在一个HTML文件中对文本进行格式化，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。<html> <...

99+

2024-04-02
如何使用Node.js对文件进行重命名

这篇文章主要介绍如何使用Node.js对文件进行重命名，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！前言hexo的文章基本都是生成在_post文件夹下，若文章多了以后就不好管理，所就...

99+

2024-04-02
java如何修改文件某一行的内容

要修改文件中某一行的内容，你可以按照以下步骤进行操作：1. 使用 File 类或 Path 类来指定要修改的文件路径。2. 使用 B...

99+

2023-10-18

java
如何使用DOS命令合并多个文本文件的内容

这篇文章将为大家详细讲解有关如何使用DOS命令合并多个文本文件的内容，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。（1）首先，使用本书中“批量按序更改文件名”介绍的方法对这100多个文本文件进行按序号重命...

99+

2023-06-08
如何使用Shell脚本循环读取文件中每一行内容

这篇文章主要介绍了如何使用Shell脚本循环读取文件中每一行内容，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。前言本文主要给大家介绍了关于使用Shell脚本循环读取文件每一行...

99+

2023-06-09
如何进行Linux大文件重定向和管道的效率对比

这篇文章的内容主要围绕如何进行Linux大文件重定向和管道的效率对比进行讲述，文章内容清晰易懂，条理清晰，非常适合新手学习，值得大家去阅读。感兴趣的朋友可以跟随小编一起阅读吧。希望大家通过这篇文章有所收获！Linux入门# 命令1...

99+

2023-06-28
如何使用C#中的File.ReadAllText函数读取文本文件内容

如何使用C#中的File.ReadAllText函数读取文本文件内容在C#编程中，我们经常需要读取文本文件的内容。File.ReadAllText是一个非常方便的函数，可以帮助我们快速读取文本文件的全部内容。本文将介绍如何使用File.Re...

99+

2023-11-18

C# 读取文件 FileReadAllText
如何在java中使用socket对zip文件进行传输

今天就跟大家聊聊有关如何在java中使用socket对zip文件进行传输，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。服务器端程序：import java.io.*;import j...

99+

2023-05-31

java socket zip文件
linux如何从最后一行开始反向查看一个文件的内容

...

99+

2024-04-02
如何使用pandas对超大csv文件进行快速拆分详解

目录前言1. 操作步骤1.1 安装pandas1.2 拆分大文件2. 再多了解一点儿2.1 pandas读取csv文件后，返回的是什么类型？2.2 如何从DataFrame中读取某一...

99+

2024-04-02
如何使用Python来进行查询和替换一个文本字符串

这篇文章主要介绍如何使用Python来进行查询和替换一个文本字符串，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！如何用 Python 来进行查询和替换一个文本字符串？答：可以使用 r...

99+

2024-04-02
如何使用Python快速打开一个百万行级别的超大Excel文件

小编给大家分享一下如何使用Python快速打开一个百万行级别的超大Excel文件，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！有同学求助说，当他试图打开一个20M左右的excel文件时，无论是使用pandas的read_e...

99+

2023-06-06
如何使用批处理实现反序列出文本的每行内容

小编给大家分享一下如何使用批处理实现反序列出文本的每行内容，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！代码如下:@echo off ::&n...

99+

2023-06-09
Linux如何不使用Linux命令行编辑器清空或删除大文件内容

这篇文章主要为大家展示了“Linux如何不使用Linux命令行编辑器清空或删除大文件内容”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Linux如何不使用Linux命令行编辑器清空或删除大文件内...

99+

2023-06-28
如何使用golang中的os.Create函数创建新文件并写入内容

如何使用golang中的os.Create函数创建新文件并写入内容在golang中，使用os.Create函数可以创建新文件，并且可以通过相关函数将内容写入文件中。下面将详细介绍如何使用os.Create函数，并给出相应的代码示例。首先，我...

99+

2023-11-18

Golang 创建文件 osCreate
如何使用golang中的io/ioutil.ReadAll函数读取整个文件的内容

如何使用golang中的io/ioutil.ReadAll函数读取整个文件的内容，需要具体代码示例在golang中，读取文件是常见的操作之一。ioutil.ReadAll是一种简单而便捷的方式可以使用它来一次性读取整个文件的内容，并将内容作...

99+

2023-11-18

Golang ReadAll io/ioutil
如何使用IDEA查看java文件编译后的字节码内容

目录首先编写一个java类 StringDemo1.java经过编译后，生成 StringDemo1.class文件使用jclasslib反编译工具JDK版本映射首先编写一个java...

99+

2024-04-02
linux如何搜索在过去100天内未被使用过的执行文件

...

99+

2024-04-02