Java获取字符串编码格式实现思路

2024-04-02 19:04:59 714人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

Java——获取字符串编码格式判断一个字符串的编码格式： public static String getEncoding(String

Java——获取字符串编码格式

判断一个字符串的编码格式：

    public static String getEncoding(String str) {
        String encode = "GB2312";
        try {
            if (isEncoding(str, encode)) { // 判断是不是GB2312
                return encode;
            }
        } catch (Exception exception) {
        }
        encode = "ISO-8859-1";
        try {
            if (isEncoding(str, encode)) { // 判断是不是ISO-8859-1
                return encode;
            }
        } catch (Exception exception1) {
        }
        encode = "UTF-8";
        try {
            if (isEncoding(str, encode)) { // 判断是不是UTF-8
                return encode;
            }
        } catch (Exception exception2) {
        }
        encode = "GBK";
        try {
            if (isEncoding(str, encode)) { // 判断是不是GBK
                return encode;
            }
        } catch (Exception exception3) {
        }
        return ""; // 如果都不是，说明输入的内容不属于常见的编码格式。
    }

    public static boolean isEncoding(String str, String encode) {
        try {
            if (str.equals(new String(str.getBytes(), encode))) {
                return true;
            }
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
        return false;
    }

Java获取一个文本文件的编码格式

文本文件是我们在windows平台下常用的一种文件格式，这种格式会随着操作系统的语言不同，而出现其默认的编码不同

那么如何使用程序获取“文本文件”的编码方式呢？

文件编码的格式决定了文件可存储的字符类型，所以得到文件的类型至关重要

下文笔者讲述获取一个文本文件的格式信息的方法分享，如下所示:

实现思路:

通过获取文件流的前3个字节
判断其值的方式，即可获取文本文件的编码方式

例:

package com.java265.other;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
 
public class Test {
    
     
    public static void main(String[] args)   {
      File file = new File("E://person/java265.com/java.txt");
      System.out.println(GetEncoding(file));
      }
    public static String GetEncoding(File file)
    {
        String charset = "GBK";
        byte[] first3Bytes = new byte[3];
        try {
            boolean checked = false; 
            InputStream is = new FileInputStream(file);
            int read = is.read(first3Bytes, 0, 3);
 
            if (read == -1)
                return charset;
            if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE) {
                charset = "UTF-16LE";
                checked = true;
            } else if (first3Bytes[0] == (byte) 0xFE
                    && first3Bytes[1] == (byte) 0xFF) {
                charset = "UTF-16BE";
                checked = true;
            } else if (first3Bytes[0] == (byte) 0xEF
                    && first3Bytes[1] == (byte) 0xBB
                    && first3Bytes[2] == (byte) 0xBF) {
                charset = "UTF-8";
                checked = true;
            }else if (first3Bytes[0] == (byte) 0xA
                    && first3Bytes[1] == (byte) 0x5B
                    && first3Bytes[2] == (byte) 0x30) {
                charset = "UTF-8";
                checked = true;
            }else if (first3Bytes[0] == (byte) 0xD
                    && first3Bytes[1] == (byte) 0xA
                    && first3Bytes[2] == (byte) 0x5B) {
                charset = "GBK";
                checked = true;
            }else if (first3Bytes[0] == (byte) 0x5B
                    && first3Bytes[1] == (byte) 0x54
                    && first3Bytes[2] == (byte) 0x49) {
                charset = "windows-1251";
                checked = true;
            }
            //bis.reset();
            InputStream istmp = new FileInputStream(file);
            if (!checked) {
                int loc = 0;
                while ((read = istmp.read()) != -1) {
                    loc++;
                    if (read >= 0xF0)
                        break;
                    if (0x80 <= read && read <= 0xBF)
                        break;
                    if (0xC0 <= read && read <= 0xDF) {
                        read = istmp.read();
                        if (0x80 <= read && read <= 0xBF)
                            continue;
                        else
                            break;
                    } else if (0xE0 <= read && read <= 0xEF) {
                        read = istmp.read();
                        if (0x80 <= read && read <= 0xBF) {
                            read = istmp.read();
                            if (0x80 <= read && read <= 0xBF) {
                                charset = "UTF-8";
                                break;
                            } else
                                break;
                        } else
                            break;
                    }
                }
            }
            is.close();
            istmp.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return charset; 
    }
}

到此这篇关于Java获取一个文本文件的编码格式的实现思路的文章就介绍到这了,更多相关java文件编码格式内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Java获取字符串编码格式实现思路

本文链接: https://www.lsjlt.com/news/168178.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Java获取字符串编码格式实现思路

Java——获取字符串编码格式判断一个字符串的编码格式： public static String getEncoding(String...

99+

2022-11-13
python获取当前字符串编码格式

import chardet print chardet.detect(html) ...

99+

2023-01-31

字符串格式 python
JAVA怎么获取当前字符串编码

在Java中，可以使用Charset类和StandardCharsets类来获取当前字符串的编码。以下是一些示例代码：```java...

99+

2023-08-18

JAVA
java怎么查看字符串编码格式

在Java中，可以使用以下方法来查看字符串的编码格式：1. 使用getBytes()方法：该方法将字符串转换为字节数组，并返回使用默...

99+

2023-09-23

java
java怎么设置字符串编码格式

在Java中，可以使用以下方法设置字符串的编码格式：1. 使用String类的getBytes方法：可以将字符串转换为指定编码的字节...

99+

2023-08-16

java
java实现获取文本文件的字符编码

一、认识字符编码：Java中String的默认编码为UTF-8，可以使用以下语句获取：Charset.defaultCharset();Windows操作系统下，文本文件的默认编码为ANSI，对中文Windows来说即为GBK。例如我们使用...

99+

2021-11-01

java 实现获取文本文件字符编码
Java如何实现字符串转为驼峰格式

这篇文章主要介绍了Java如何实现字符串转为驼峰格式的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Java如何实现字符串转为驼峰格式文章都会有所收获，下面我们一起来看看吧。字符串转为驼峰格式构建工具类pack...

99+

2023-07-02
java如何实现获取字符串中第一个出现不重复的字符

比如：输入name输出n，输入teeter输出r，输入namename输出null具体实现代码如下：import java.util.Scanner; public class Main { public static void mai...

99+

2020-03-13

java 获取字符串不重复字符第一个
Java利用哈夫曼编码实现字符串压缩

赫夫曼编码基本介绍 1) 赫夫曼编码也翻译为哈夫曼编码(Huffman Coding)，又称霍夫曼编码，是一种编码方式, 属于一种程序算法 2) 赫夫曼编码是赫哈夫曼树在电讯通信中...

99+

2022-11-13
Java实现字符串转为驼峰格式的方法详解

字符串转为驼峰格式构建工具类 package com.yt.common.util; import com.yt.common.dto.NameCode; import com.y...

99+

2022-11-13
如何实现java字符串格式化长度不足补0

可以通过一行代码补足位数，但是能一行代码补足位数的，前面都是补的空格，而要想补0的，都是需要整数型，用到的函数是 String.format，可以格式化整形，字符串，日期等。推荐免费学习视频：java免费视频教程例如：System.out....

99+

2020-08-28

java基础 java 字符串格式化长度不足补0
华为OD机试真题 Java 实现【字符串摘要】【2023 B卷 100分】，附详细解题思路

目录一、题目描述二、输入描述三、输出描述四、解题思路 1、核心思路： 2、具体思路如下：五、Java算法源码六、效果展示...

99+

2023-08-17

java 学习程序人生 spring 数据库原力计划