iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > GO >解析Go 中的 rune 类型
  • 714
分享到

解析Go 中的 rune 类型

2024-04-02 19:04:59 714人浏览 泡泡鱼
摘要

刚接触 Go 语言时,就听说有一个叫rune的数据类型,即使查阅过一些资料,对它的理解依旧比较模糊,加之对陌生事物的天然排斥,在之后很长一段时间的编程工作中,我都没有让它出现在我的代

刚接触 Go 语言时,就听说有一个叫rune的数据类型,即使查阅过一些资料,对它的理解依旧比较模糊,加之对陌生事物的天然排斥,在之后很长一段时间的编程工作中,我都没有让它出现在我的代码里。

逃避虽然有用,但是似乎有些可耻,想要成为一名成熟、优秀的 Go 语言开发工程师,必须要有直面陌生事物并且成功运用的勇气和能力,带着这样的觉悟,让我们一起走近rune,直视它!

了解一下,rune类型究竟是什么?

rune类型是 Go 语言的一种特殊数字类型。在builtin/builtin.go文件中,它的定义:type rune = int32;官方对它的解释是:rune是类型int32的别名,在所有方面都等价于它,用来区分字符值跟整数值。使用单引号定义 ,返回采用 UTF-8 编码的 Unicode 码点。Go 语言通过rune处理中文,支持国际化多语言。

众所周知,Go 语言有两种类型声明方式:一种叫类型定义声明,另一种叫类型别名声明。其中,别名的使用在大型项目重构中作用最为明显,它能解决代码升级或迁移过程中可能存在的类型兼容性问题。而runebyte是 Go 语言中仅有的两个类型别名,专门用来处理字符。当然,我们也可以通过type关键字加等号的方式声明更多的类型别名。

学习一下,rune类型怎么用?

我们知道,字符串由字符组成,字符的底层由字节组成,而一个字符串在底层的表示是一个字节序列。在 Go 语言中,字符可以被分成两种类型处理:对占 1 个字节的英文类字符,可以使用byte(或者unit8);对占 1 ~ 4 个字节的其他字符,可以使用rune(或者int32),如中文、特殊符号等。

下面,我们通过示例应用来具体感受一下。

统计带中文字符串长度

// 使用内置函数 len() 统计字符串长度
fmt.Println(len("Go语言编程"))  // 输出:14  

前面说到,字符串在底层的表示是一个字节序列。其中,英文字符占用 1 字节,中文字符占用 3 字节,所以得到的长度 14 显然是底层占用字节长度,而不是字符串长度,这时,便需要用到rune类型。

// 转换成 rune 数组后统计字符串长度
fmt.Println(len([]rune("Go语言编程")))  // 输出:6

这回对了。很容易,我们解rune类型的第一个功能,即统计字符串长度。

  • 截取带中文字符串

如果想要截取字符串中 ”Go语言“ 这一段,考虑到底层是一个字节序列,或者说是一个数组,通常情况下,我们会这样:

s := "Go语言编程"
// 8=2*1+2*3
fmt.Println(s[0:8])  // 输出:Go语言

结果符合预期。但是,按照字节的方式进行截取,必须预先计算出需要截取字符串的字节数,如果字节数计算错误,就会显示乱码,比如这样:

s := "Go语言编程"
fmt.Println(s[0:7]) // 输出:Go语�

此外,如果截取的字符串较长,那通过字节的方式进行截取显然不是一个高效准确的办法。那有没有不用计算字节数,简单又不会出现乱码的方法呢?不妨试试这样:

s := "Go语言编程"
// 转成 rune 数组,需要几个字符,取几个字符
fmt.Println(string([]rune(s)[:4])) // 输出:Go语言    

到这里,我们解锁了rune类型的第二个功能,即截取字符串。

思考一下,为什么rune类型可以做到?

通过上面的示例,我们发现似乎在处理带中文的字符串时,都需要用到rune类型,这究竟是为什么呢?除了使用rune类型,还有其他方法吗?

在深入思考之前,我们需要首先弄清楚stringbyterune三者间的关系。

字符串在底层的表示是由单个字节组成的一个不可修改的字节序列,字节使用UTF-8[1]编码标识Unicode[2]文本。Unicode 文本意味着.go文件内可以包含世界上的任意语言或字符,该文件在任意系统上打开都不会乱码。UTF-8 是 Unicode 的一种实现方式,是一种针对 Unicode 可变长度的字符编码,它定义了字符串具体以何种方式存储在内存中。UFT-8 使用 1 ~ 4 为每个字符编码。

Go 语言把字符分byterune两种类型处理。byte是类型unit8的别名,用于存放占 1 字节的 ASCII 字符,如英文字符,返回的是字符原始字节。rune是类型int32的别名,用于存放多字节字符,如占 3 字节的中文字符,返回的是字符 Unicode 码点值。如下图所示:

s := "Go语言编程"
// byte
fmt.Println([]byte(s)) // 输出:[71 111 232 175 173 232 168 128 231 188 150 231 168 139]
// rune
fmt.Println([]rune(s)) // 输出:[71 111 35821 35328 32534 31243]

它们的对应关系如下图:

了解了这些,我们再回过来看看,刚才的问题是不是清楚明白很多?接下来,让我们再来看看源码中是如何处理的,以utf8.RuneCountInString()[3]函数为例。

示例:

// 统计字符串长度
fmt.Println(utf8.RuneCountInString("Go语言编程")) // 输出:6

源码:

// RuneCountInString is like RuneCount but its input is a string.
func RuneCountInString(s string) (n int) {
 // 调用 len() 函数得到字节数
 ns := len(s)
 for i := 0; i < ns; n++ {
  c := s[i]
  // 如码点值小于 128,则为占 1 字节的 ASCII 字符(或者说英文字符),长度 + 1
  if c < RuneSelf { // RuneSelf = 128
   // ASCII fast path
   i++
   continue
  }
  // 查询首字节信息表,得到中文占 3 字节,所以这里的 x = 3
  x := first[c]
  // 判断 x = 3,xx = 241(0xF1)
  if x == xx {
   i++ // invalid.
   continue
  }
  // 提取有效的 UTF-8 字节长度编码信息,size = 3
  size := int(x & 7)
  if i+size > ns {
   i++ // Short or invalid.
   continue
  }
  // 提取有效字节范围
  accept := acceptRanges[x>>4]
  // accept.lo,accept.hi,表示 UTF-8 中第二字节的有效范围
  // locb = 0b10000000,表示 UTF-8 编码非首字节的数值下限
  // hicb = 0b10111111,表示 UTF-8 编码非首字节的数值上限
  if c := s[i+1]; c < accept.lo || accept.hi < c {
   size = 1
  } else if size == 2 {
  } else if c := s[i+2]; c < locb || hicb < c {
   size = 1
  } else if size == 3 {
  } else if c := s[i+3]; c < locb || hicb < c {
   size = 1
  }
  i += size
 }
 return n
}

调用该函数时,传入一个原始的字符串,代码会根据每个字符的码点大小判断是否为 ASCII 字符,如果是,则算做 1 位;如果不是,则查询首字节表,明确字符占用的字节数,验证有效性后再进行计数。

小小总结

在我看来,rune类型只是一种名称叫法,表示用来处理长度大于 1 字节( 8 位)、不超过 4 字节( 32 位)的字符类型。但万变不离其宗,我们使用函数时,无论传入参数的是原始字符串还是rune,最终都是对字节进行处理。看似陌生的事物,沉下心了解到其本质以后,才发现原来并不陌生,缺少的只是正视它的勇气!

[1]

UTF-8:https://zh.wikipedia.org/wiki/UTF-8

[2]

Unicode:Https://zh.wikipedia.org/wiki/Unicode

[3]

utf8.RuneCountInString():https://golang.org/src/unicode/utf8/utf8.go

到此这篇关于Go 中的 rune 类型的文章就介绍到这了,更多相关Go  rune 类型内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

您可能感兴趣的文档:

--结束END--

本文标题: 解析Go 中的 rune 类型

本文链接: https://www.lsjlt.com/news/142508.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 解析Go 中的 rune 类型
    刚接触 Go 语言时,就听说有一个叫rune的数据类型,即使查阅过一些资料,对它的理解依旧比较模糊,加之对陌生事物的天然排斥,在之后很长一段时间的编程工作中,我都没有让它出现在我的代...
    99+
    2024-04-02
  • go语言字符类型byte与rune源码分析
    这篇文章主要介绍“go语言字符类型byte与rune源码分析”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“go语言字符类型byte与rune源码分析”文章能帮助大家解决问题。一、byte类型介绍by...
    99+
    2023-07-05
  • go语言字符类型byte与rune案例详解
    目录一、byte类型介绍二、rune类型介绍三、遍历含有中文(Unicode)时差异3.1、遍历打印一个字符串,当使用byte类型时:3.2、使用rune 类型来遍历字符串四、go ...
    99+
    2023-03-01
    go 字符类型 go byte rune
  • golang中rune类型怎么使用
    本篇内容介绍了“golang中rune类型怎么使用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!golang中rune类型在golang中r...
    99+
    2023-06-21
  • Go 语言的静态类型解析
    go 语言通过在编译时检查类型一致性来进行静态类型解析,有助于在运行时防止错误。具体实现包括:类型定义:使用 type 关键字,例如定义 person 结构体类型。变量声明:使用 var...
    99+
    2024-04-08
    go 语言 静态类型 编译错误
  • Go语言中的复合数据类型解析
    go语言复合数据类型包括:数组:固定大小元素集合,索引访问。切片:动态大小数据结构,可增长/缩小。映射:无序键值对集合。结构体:组织相关数据的复合类型。 Go 语言中的复合数据类型详解...
    99+
    2024-04-03
    go语言 复合数据类型 键值对
  • Go语言中rune方法使用详解
    Go语言中rune方法如何使用,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。 1.byte类型 byt...
    99+
    2023-03-19
    Go语言rune方法 Go语言rune
  • GO语言类型查询类型断言示例解析
    目录类型查询1.comma-ok断言2. switch测试类型断言类型查询 我们知道interface的变量里面可以存储任意类型的数值(该类型实现了interface)。那么我们怎么...
    99+
    2024-04-02
  • 详解Go语言中的数据类型及类型转换
    目录1、基本数据类型2、基础数据类型转换3、基本数据类型转为字符串4、strconv的使用5、字符串转为基础类型1、基本数据类型 数据类型有很多,先研究一下基础的,例如:布尔型、数字...
    99+
    2024-04-02
  • Go语言中类型别名和自定义类型的示例分析
    这篇文章主要介绍Go语言中类型别名和自定义类型的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Go语言中没有类的概念,也不支持“类”的继承等面向对象的概念。Go语言中通过结构...
    99+
    2024-04-02
  • 如何理解Go中的类型别名
    这篇文章主要介绍“如何理解Go中的类型别名”,在日常操作中,相信很多人在如何理解Go中的类型别名问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何理解Go中的类型别名”的疑惑有所帮助!接下来,请跟着小编一起来...
    99+
    2023-06-15
  • go语言中值类型和指针类型的深入理解
    golang这个语言用起来和java、 c#之类语言差不多,和c/c++差别比较大,有自动管理内存机制,省心省力。 然而,如果写golang真的按写java的习惯去写,也容易出问题,...
    99+
    2024-04-02
  • 解析Go语言泛型对不同数据类型的适配性
    go 语言泛型允许开发者使用类型参数定义通用函数和类型,从而提高代码适应不同数据类型的能力。具体来说,它提供了以下好处:类型安全:类型约束确保泛型代码中的类型兼容。代码可重用性:泛型函数...
    99+
    2024-04-03
    泛型 类型适配 go语言
  • Go数据类型实例分析
    本篇内容介绍了“Go数据类型实例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!每一个变量都有数据类型,Go中的数据类型有:简单数据类型:...
    99+
    2023-06-30
  • Go语言变量类型及其特性解析
    Go语言是一门由谷歌开发的编程语言,它结合了静态编译语言和动态语言的特点,具有高效、简洁和易于学习的特性。在Go语言中,变量是程序中用于存储数据的基本单元,本文将深入探讨Go语言中变量...
    99+
    2024-04-02
  • TypeScript中的递归类型示例解析
    目录正文什么是递归类型?示例1:树形结构示例2:链表总结正文 在这篇博客中,我们将深入探讨TypeScript中的递归类型。递归类型是一种非常强大的功能,它允许我们对具有自相似结构...
    99+
    2023-05-14
    TypeScript递归类型 TypeScript 类型
  • 深入浅析Java8中的类型注解
    这篇文章将为大家详细讲解有关深入浅析Java8中的类型注解,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。什么是类型注解在java 8之前,注解只能是在声明的地方所使用,比如类,方法,属性;j...
    99+
    2023-05-31
    java8 类型注解 ava
  • 深入了解Go语言中的引用类型
    引用类型在Go语言中是一种特殊的数据类型,它们的值并非直接存储数据本身,而是存储数据的地址。在Go语言中,引用类型包括slices、maps、channels和指针。深入了解引用类型对...
    99+
    2024-02-22
    数据结构 内存管理 指针 go语言 键值对
  • Go 中的切片类型转换
    php小编苹果为大家介绍Go语言中的切片类型转换。在Go语言中,切片是一种动态数组,常用于存储和操作一组相同类型的元素。切片类型转换是指将一个类型的切片转换为另一个类型的切片,这在实际...
    99+
    2024-02-10
    go语言
  • 一文带你了解Go语言中的类型断言和类型转换
    目录类型断言类型判断为什么需要断言类型转换什么时候使用类型转换类型为什么称为转换类型结论在Go中,类型断言和类型转换是一个令人困惑的事情,他们似乎都在做同样的事情。 下面是一个类型断...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作