iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > 其他教程 >C# 从 UTF-8 流中读取字符串的正确方法及代码详解
  • 609
分享到

C# 从 UTF-8 流中读取字符串的正确方法及代码详解

2024-04-02 19:04:59 609人浏览 安东尼
摘要

 我们下面的代码是从一个流 stream 中读取 UTF-8 编码的字符串。我们可以先考虑一下其中存在的潜在问题。 string ReadString(Stream stream

 我们下面的代码是从一个流 stream 中读取 UTF-8 编码的字符串。我们可以先考虑一下其中存在的潜在问题。


string ReadString(Stream stream)
{
    var sb = new StringBuilder();
    var buffer = new byte[4096];
    int readCount;
    while ((readCount = stream.Read(buffer)) > 0)
    {
        var s = Encoding.UTF8.GetString(buffer, 0, readCount);
        sb.Append(s);
    }

    return sb.ToString();
}

问题出在:某些情况下返回的字符串与与原始编码的字符串并不同。

例如,笑脸符号? 有时会被解码为 4 个未知字符:

编码字符串: ?
解码字符串: ????

我们知道:UTF-8 可以使用 1 到 4 个字节来表示一个 Unicode 字符,有关字符串编码的知识可以参考 ​​字符编码​​​ 一文。

​​Stream.Read​​​ 方法可以把从 1 到​​ messageBuffer.Length​​​ 字节返回,这意味着缓冲区可能包含不完整的 UTF-8 字符。

一旦缓冲区中的最后一个字符的 UTF-8 编码不完整,那么 ​​Encoding.UTF8.GetString​​ 就是转换一个无效的 UTF-8 字符串。在这种情况下,该方法返回一个无效字符串,因为它无法猜测丢失的字节。

我们使用以下代码演示以上行为:


var bytes = Encoding.UTF8.GetBytes("?");
// bytes = new byte[4] { 240, 159, 152, 138 }

var sb = new StringBuilder();
// 模拟逐个字节地读取数据流
for (var i = 0; i < bytes.Length; i++)
{
    sb.Append(Encoding.UTF8.GetString(bytes, i, 1));
}

Console.WriteLine(sb.ToString());
// "????" 代替了 "?"

Encoding.UTF8.GetBytes(sb.ToString());
// new byte[12] { 239, 191, 189, 239, 191, 189, 239, 191, 189, 239, 191, 189 }

如何修复代码

有多种方法可以修复代码。

第一种方法:只有当你得到全部数据时,才将字节数组转换为字符串。


string ReadString(Stream stream)
{
    using var ms = new MemoryStream();
    var buffer = new byte[4096];
    int readCount;
    while ((readCount = stream.Read(buffer)) > 0)
    {
        ms.Write(buffer, 0, readCount);
    }

    return Encoding.UTF8.GetString(ms.ToArray());
}

第二种方法:可以把流包进一个具有正确编码的 StreamReader 对象中。


string ReadString(Stream stream)
{
    using var sr = new StreamReader(stream, Encoding.UTF8);
    return sr.ReadToEnd();
}

另外,还可以使用System.Text.Decoder类来正确解码缓冲区内的字符。在需要性能的情况下,可以使用PipeReader、Rune类来以内存优化的方式读取数据。

到此这篇关于C# 从 UTF-8 流中读取字符串的正确方法及代码详解的文章就介绍到这了,更多相关C# 从 UTF-8 流中读取字符串的正确方法内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: C# 从 UTF-8 流中读取字符串的正确方法及代码详解

本文链接: https://www.lsjlt.com/news/157913.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • C# 从 UTF-8 流中读取字符串的正确方法及代码详解
     我们下面的代码是从一个流 stream 中读取 UTF-8 编码的字符串。我们可以先考虑一下其中存在的潜在问题。 string ReadString(Stream stream...
    99+
    2024-04-02
  • C#从UTF-8流中读取字符串的正确方法是什么
    本篇内容介绍了“C#从UTF-8流中读取字符串的正确方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! 我们下面的代码是从一...
    99+
    2023-06-25
  • C/C++中比较字符串的方法详解
    目录一、strcmp函数适用对象函数介绍用法举例二、compare()函数适用对象用法举例三、==适用对象用法举例四、strstr函数适用对象函数介绍用法举例总结一、strcmp函数...
    99+
    2023-02-05
    C比较字符串 C++比较字符串 C字符串 C++字符串
  • 从PySpark中的字符串获取列表方法讲解
    在 PySpark 中是否有类似eval的功能。 我正在尝试将 Python 代码转换为 PySpark 我正在查询一个数据框,并且其中一列具有数据,如下所示,但采用字符串格式。 ...
    99+
    2024-04-02
  • MySQL 中的字段截取与字符串截取方法详解
    系列文章目录 文章目录 系列文章目录前言一、字段截取:二、字符串截取:总结 前言 在 MySQL 数据库中,有时我们需要截取字段或字符串的一部分进行查询、展示或处理。本文将介绍 MySQL 中常用的字段截取和字符串截取方法,...
    99+
    2023-08-17
    mysql 数据库
  • 如何解析从PySpark中的字符串获取列表方法
    如何解析从PySpark中的字符串获取列表方法,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。在 PySpark 中是否有类似eval的功能。我正在尝试将 Python 代码...
    99+
    2023-06-22
  • C#中常见的字符串操作问题及解决方法
    C#中常见的字符串操作问题及解决方法字符串拼接问题在C#中,我们经常需要将多个字符串拼接在一起,但是如果使用简单的加号"+"运算符,则会出现性能问题。这是因为在每次拼接字符串时,都会创建一个新的字符串对象,导致内存的频繁分配和回收。解决方法...
    99+
    2023-10-22
    解决方法 字符串操作问题
  • php中使用substr截取字符串乱码的解决方法
    这篇文章主要介绍php中使用substr截取字符串乱码的解决方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!php substr截取字符串乱码的解决办法:1、使用mbstring扩展库的“mb_substr...
    99+
    2023-06-14
  • 使用 AES-GSM 方法解密在 GO 中编码的 C# 字符串
    php小编西瓜为您介绍一种在GO语言中解密C#字符串的方法——AES-GSM。AES-GSM是一种高级加密标准,它结合了AES(高级加密标准)和GSM(全球系统移动通信)的优势。通过使...
    99+
    2024-02-10
    go语言 安全传输
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作