广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python中Unicode和UTF-8
  • 703
分享到

python中Unicode和UTF-8

pythonUnicodeUTF 2023-01-31 02:01:01 703人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

1,UTF-8在python的开始处,#coding:utf-8或者#coding=utf-8的作用一样,声明Python代码的文本格式是UTF-8,按照这种格式来读取程序。如下编写一个脚本:如果不添加#coding=utf-8,脚本有中文

1,UTF-8
python的开始处,#coding:utf-8或者#coding=utf-8的作用一样,声明Python代码的文本格式是UTF-8,按照这种格式来读取程序。
如下编写一个脚本:
python中Unicode和UTF-8的区别
如果不添加#coding=utf-8,脚本有中文时程序会报错
python中Unicode和UTF-8的区别
2,Unicode和UFT-8的区别
Unicode 是字符集
UTF-8 是编码规则

字符集:为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code Point)
编码规则:将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)

举一个例子:It's 知乎日报
你看到的unicode字符集是这样的编码表:
I 0049
t 0074
' 0027
s 0073
0020
知 77e5
乎 4e4e
日 65e5
报 62a5

每一个字符对应一个十六进制数字。
计算机只懂二进制,因此,严格按照unicode的方式(UCS-2),应该这样存储:
I 00000000 01001001
t 00000000 01110100
' 00000000 00100111
s 00000000 01110011
00000000 00100000
知 01110111 11100101
乎 01001110 01001110
日 01100101 11100101
报 01100010 10100101
这个字符串总共占用了18个字节,但是对比中英文的二进制码,可以发现,英文前9位都是0!浪费啊,浪费硬盘,浪费流量。

UTF-8是这样做的:

  1. 单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;
  2. n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n个字节的其余空位填充该字符unicode码,高位用0补足。
    这样就形成了如下的UTF-8标记位:

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
... ...
于是,”It's 知乎日报“就变成了:
I 01001001
t 01110100
' 00100111
s 01110011
00100000
知 11100111 10011111 10100101
乎 11100100 10111001 10001110
日 11100110 10010111 10100101
报 11100110 10001010 10100101
和上边的方案对比一下,英文短了,每个中文字符却多用了一个字节。但是整个字符串只用了17个字节,比上边的18个短了一点点。
python是支持Unicode的,在使用Unicode时,在字符串前加上u即可。

转载链接:https://www.zhihu.com/question/23374078/answer/65352538
来源:知乎

--结束END--

本文标题: python中Unicode和UTF-8

本文链接: https://www.lsjlt.com/news/186447.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python中Unicode和UTF-8
    1,UTF-8在python的开始处,#coding:utf-8或者#coding=utf-8的作用一样,声明Python代码的文本格式是UTF-8,按照这种格式来读取程序。如下编写一个脚本:如果不添加#coding=utf-8,脚本有中文...
    99+
    2023-01-31
    python Unicode UTF
  • Unicode、UTF-8和ISO8859-1区别解析
    本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等。     在下面的描述中,将以"中文"两个字为例,经...
    99+
    2023-01-28
    Unicode UTF-8 ISO8859-1区别 Unicode和UTF-8 区别 UTF-8 ISO8859-1区别
  • UTF-8、UTF-16、Unicode、GB2312、GBK、GB18030一次说清楚
    关于存储编码和显示编码的区别。 Unicode是显示编码,UTF-8、UTF-16、GB2312、GBK、GB18030都是存储/传输方面使用,也叫做存储编码、处理编码,你在计算机上看见的所有文字都从存储编码转成显示编码后,显示出来,当你单...
    99+
    2023-09-01
    前端 java 服务器
  • Golang中Unicode与UTF-8有什么区别
    Golang中Unicode与UTF-8有什么区别,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Unicode 与 UTF-8...
    99+
    2022-10-19
  • J2ME中如何读取Unicode和UTF-8编码文件
    本篇文章为大家展示了J2ME中如何读取Unicode和UTF-8编码文件,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。向大家简单介绍一下J2ME中读取Unicode...
    99+
    2022-10-19
  • Unicode和UTF-8编码的知识点有哪些
    今天小编给大家分享一下Unicode和UTF-8编码的知识点有哪些的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。ASCII ...
    99+
    2023-06-27
  • ASCII、Unicode、UTF-8编码问题实例分析
    本篇内容介绍了“ASCII、Unicode、UTF-8编码问题实例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!关于编码验证以往我们可能...
    99+
    2023-06-02
  • UTF-8文件中Unicode签名BOM的示例分析
    这篇文章将为大家详细讲解有关UTF-8文件中Unicode签名BOM的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。近日在调测一个UTF8编码的中文Zen Cart网站时遇到一件怪事,网页显示文字...
    99+
    2023-06-08
  • 你真的了解 Unicode 和 UTF-
    目录 引言 ASCII 码 什么是 ASCII 码? ASCII 码都包含哪些字符? ASCII 码的局限在哪里? ...
    99+
    2023-01-30
    你真 Unicode UTF
  • VBS如何实现GB2312,UTF-8,Unicode,BIG5编码转换工具
    这篇文章将为大家详细讲解有关VBS如何实现GB2312,UTF-8,Unicode,BIG5编码转换工具,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。具体代码: 代码如下:' *====...
    99+
    2023-06-08
  • java读取配置文件(properties)的时候,unicode码转utf-8方式
    目录java读取properties,unicode码转utf-8代码如下properties配置文件编码问题java读取properties,unicode码转utf-8 有时我们...
    99+
    2022-11-13
  • python之UTF-8解决方案
    短答案:使用Python3 长答案: # -*- coding: utf8 -*- # 及早将一切转到UTF-8 unicode_str = unicode('中文', encoding='utf-8') # 打印或者写入前用UTF-...
    99+
    2023-01-31
    解决方案 python UTF
  • python 利用utf-8编码判断中文
    下面这个小工具包含了判断unicode是否是汉字、数字、英文或者其他字符,全角符号转半角符号,unicode字符串归一化等工作。 #!/usr/bin/env python # -*- coding:GBK -*- """汉字...
    99+
    2023-01-31
    中文 python utf
  • python中UTF-8编码指的是什么
    小编给大家分享一下python中UTF-8编码指的是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python是什么意思Python是一种跨平台的、具有解释性...
    99+
    2023-06-14
  • Python utf-8编码转换方法
    Python utf-8编码转换方法 在Python编程开发中,我们经常需要处理各式各样的字符串,其中,涉及到字符串的编码问题就是一个很重要的方面。特别是在我们需要将数据传输到不同的系统或应用程序中,...
    99+
    2023-09-04
    python 开发语言 java
  • Python、Unicode和中文
    Python、Unicode和中文 python的中文问题一直是困扰新手的头疼问题,这篇文章将给你详细地讲解一下这方面的知识。当然,几乎可以确定的是,在将来的版本中,python会彻底解决此问题,不用我们这么麻烦了。 先来看看python...
    99+
    2023-01-31
    中文 Python Unicode
  • python中unicode 和 str
    python中的str对象其实就是"8-bit string" ,字节字符串,本质上类似java中的byte[]。  而python中的unicode对象应该才是等同于java中的String对象,或本质上是java的char[...
    99+
    2023-01-31
    python unicode str
  • python unicode详解 python中的unicode
    在Python中,Unicode是一种字符编码标准,它为全球范围内的所有字符提供了唯一的标识符。Unicode编码由一个固定的编码空...
    99+
    2023-08-24
    python
  • Go语言中的UTF-8实现
    计算机刚诞生的时候,计算机内的字符可以全部由 ASCII 来表示,ASCII 字符的长度是 7 位,可以表示 128 个字符,对于美国等国家来说是够了,但是对于世界上的其他国家...
    99+
    2022-06-07
    GO go语言
  • UnicodeDecodeError: ‘utf-8‘ 编码错误解决方案 - Python
    UnicodeDecodeError: ‘utf-8’ 编码错误解决方案 - Python 在Python编程中,当处理文本数据时,有时会遇到UnicodeDecodeError错误,错误信息可能类似...
    99+
    2023-10-02
    python java 前端 Python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作