广告
返回顶部
首页 > 资讯 > 后端开发 > Python >字符编码 ASCII unicode U
  • 882
分享到

字符编码 ASCII unicode U

字符ASCIIunicode 2023-01-30 22:01:44 882人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的

字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。

因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295

由于计算机是美国人发明的,因此,最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122

但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去。

你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。

 

因此,Unicode应运而生。Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。

Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持Unicode。

现在,捋一捋ASCII编码和Unicode编码的区别:ASCII编码是1个字节,而Unicode编码通常是2个字节。

字母A用ASCII编码是十进制的65,二进制的01000001

字符0用ASCII编码是十进制的48,二进制的00110000,注意字符'0'和整数0是不同的;

汉字已经超出了ASCII编码的范围,用Unicode编码是十进制的20013,二进制的01001110 00101101

你可以猜测,如果把ASCII编码的A用Unicode编码,只需要在前面补0就可以,因此,A的Unicode编码是00000000 01000001

新的问题又出现了:如果统一成Unicode编码,乱码问题从此消失了。但是,如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。

所以,本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:

字符 ASCII Unicode UTF-8
A 01000001 00000000 01000001 01000001
x 01001110 00101101 11100100 10111000 10101101

从上面的表格还可以发现,UTF-8编码有一个额外的好处,就是ASCII编码实际上可以被看成是UTF-8编码的一部分,所以,大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

搞清楚了ASCII、Unicode和UTF-8的关系,我们就可以总结一下现在计算机系统通用的字符编码工作方式:

在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。

用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:

rw-file-utf-8

浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器:

web-utf-8

所以你看到很多网页的源码上会有类似<meta charset="UTF-8" />的信息,表示该网页正是用的UTF-8编码。

转载(https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431664106267f12e9bef7ee14cf6a8776a479bdec9b9000)

--结束END--

本文标题: 字符编码 ASCII unicode U

本文链接: https://www.lsjlt.com/news/179493.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 字符编码 ASCII unicode U
    字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的...
    99+
    2023-01-30
    字符 ASCII unicode
  • 字符编码ascii、unicode、ut
    计算机是美国人发明和最早使用的,他们为了解决计算机处理字符串的问题,就将数字字母和一些常用的符号做成了一套编码,这个编码就是ASIIC码。ASIIC码包括数字大小写字母和常用符号,一共128个,1字节(byte)=8bit,8bit能表...
    99+
    2023-01-30
    字符 ascii ut
  • python 转换 Javascript %u 字符串为python unicode的代码
    web采集的数据为 %u6B63%u5F0F%u4EBA%u5458,需要读取并转换为python对象,想了下不调用Javascript去eval,只能自己翻译了。 核心代码: import re i...
    99+
    2022-06-04
    字符串 代码 python
  • ASCII、Unicode、UTF-8编码问题实例分析
    本篇内容介绍了“ASCII、Unicode、UTF-8编码问题实例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!关于编码验证以往我们可能...
    99+
    2023-06-02
  • java怎么获取字符的unicode编码
    在 Java 中,可以使用 `char` 类型的 `unicode` 属性来获取字符的 Unicode 编码。以下是一个示例代码:`...
    99+
    2023-08-18
    java
  • C#字符ASCII码是什么
    这篇文章主要讲解了“C#字符ASCII码是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“C#字符ASCII码是什么”吧!C#字符ASCII码很多时候我们需要得到一个英文字符的 ASCII...
    99+
    2023-06-17
  • php怎么将字符转ascii码
    在php中,可以使用ord()函数来将字符转成ascii码,该函数可以返回单个字符或字符串中第一个字符的ASCII值,返回的ASCII值会以整数形式显示;转换语法“ord(string)”,参数“string”不可省略,...
    99+
    2023-05-14
    php php字符串
  • php如何将字符转ascii码
    这篇文章主要介绍“php如何将字符转ascii码”,在日常操作中,相信很多人在php如何将字符转ascii码问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”php如何将字符转ascii码”的疑惑有所帮助!接下来...
    99+
    2023-07-05
  • php ascii码转字符的方法
    本篇内容介绍了“php ascii码转字符的方法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!php ascii码转字符的方法:首先创建一个...
    99+
    2023-06-20
  • vbs实现unicode和ascii编码转换的方法教程
    本篇内容主要讲解“vbs实现unicode和ascii编码转换的方法教程”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“vbs实现unicode和ascii编码转换的方法教程”吧!一、Copy a...
    99+
    2023-06-08
  • 如何解决Python unicode ascii编码在windows上的问题
    这期内容当中小编将会给大家带来有关如何解决Python unicode ascii编码在windows上的问题,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。unicode ascii编码在计算机的相关实际...
    99+
    2023-06-17
  • Android字符串转Ascii码实例代码
    代码如下:package com.my.page;public class StringToAscii {    private static ...
    99+
    2022-06-06
    ascii码 ascii Android
  • Python中的字符串操作和编码Unicode详解
    本文主要给大家介绍了关于 Python中的字符串操作和编码Unicode的一些知识,下面话不多说,需要的朋友们下面来一起学习吧。 字符串类型 str:Unicode字符串。采用''或者r''构造的字符串均...
    99+
    2022-06-04
    字符串 详解 操作
  • C语言字符怎么转ASCII码
    这篇“C语言字符怎么转ASCII码”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“C语言字符怎么转ASCII码”文章吧。ASC...
    99+
    2023-06-17
  • python中ascii码和字符怎么转换
    在Python中,可以使用`ord()`函数来将字符转换为ASCII码,使用`chr()`函数将ASCII码转换为字符。以...
    99+
    2023-09-20
    python
  • Python unicode ascii编码在windows中的实际应用是怎么样的
    本篇文章为大家展示了Python unicode ascii编码在windows中的实际应用是怎么样的,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。ASCII是AmericanStandardCod...
    99+
    2023-06-17
  • php中unicode编码如何转汉字
    这篇文章主要介绍php中unicode编码如何转汉字,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!php unicode编码转汉字的方法:首先创建一个PHP示例文件;然后通过“function unicodeDeco...
    99+
    2023-06-08
  • C#移除字符串中的不可见Unicode字符案例代码
    目录C#移除字符串中的不可见Unicode字符 背景Unicode码表代码参考资料补充:C# 字符串与unicode互相转换实战案例C#移除字符串中的不可见Unicode字...
    99+
    2023-02-02
    C#移除Unicode字符 C#移除字符串字符
  • c语言如何把字符转换成ascii码
    在C语言中,可以使用强制类型转换将字符转换为ASCII码。ASCII码是一个包含256个字符的标准字符编码,每个字符都有一个对应的A...
    99+
    2023-10-28
    c语言
  • php如何实现汉字转unicode编码
    小编给大家分享一下php如何实现汉字转unicode编码,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!php实现汉字转unicode编码的方法:首先创建一个PHP示例文件;然后通过“function UnicodeEnco...
    99+
    2023-06-08
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作