广告
返回顶部
首页 > 资讯 > 后端开发 > Python >基础知识:字符编码
  • 293
分享到

基础知识:字符编码

基础知识字符 2023-01-31 00:01:40 293人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

一、字符编码 1、什么实字符编码:将人识别的字符转换成计算机能识别的01,而转换的过程或者规则就是字符编码表。 而这种字符编码表表示了一种对应关系。 2、常用的字符编码表有:ascii、unicode、GBK、Shift_JIS、Euc-

一、字符编码

1、什么实字符编码:将人识别的字符转换成计算机能识别的01,而转换的过程或者规则就是字符编码表。

而这种字符编码表表示了一种对应关系。

2、常用的字符编码表有:ascii、unicode、GBK、Shift_JIS、Euc-kr

3、如何理解字符编码

①、电脑三大核心:cpu -内存-硬盘

②、软件及python解释器读取文件过程:启动--读取--展示|解释执行

       计算机只认识数字

  很明显,我们平时在使用计算机时,用的都是人类能读懂的字符(用高级语言编程的结果也无非是在文件内写了一堆字符),如何能让计算机读懂人类的字符?

  必须经过一个过程:
  

  字符--------(翻译过程)------->数字

 

 

  这个过程实际就是一个字符如何对应一个特定数字的标准,这个标准称之为字符编码

       计算机由美国人发明,最早的字符编码为ASCII,只规定了英文字母数字和一些特殊字符与数字的对应关系。最多只能用 8 位来表示(一个字节),即:2**8 = 256,所以,ASCII码最多只能表示 256 个符号

       

  当然我们编程语言都用英文没问题,ASCII够用,但是在处理数据时,不同的国家有不同的语言,日本人会在自己的程序中加入日文,中国人会加入中文。

  而要表示中文,单拿一个字节表表示一个汉子,是不可能表达完的(连小学生都认识两千多个汉字),解决方法只有一个,就是一个字节用>8位2进制代表,位数越多,代表的变化就多,这样,就可以尽可能多的表达出不通的汉字

  所以中国人规定了自己的标准gb2312编码,规定了包含中文在内的字符->数字的对应关系。

  日本人规定了自己的Shift_JIS编码

  韩国人规定了自己的Euc-kr编码(另外,韩国人说,计算机是他们发明的,要求世界统一用韩国编码,但世界人民没有搭理他们)

  因为此刻的各种标准都只是规定了自己国家的文字在内的字符跟数字的对应关系,如果单纯采用一种国家的编码格式,那么其余国家语言的文字在解析时就会出现乱码

  所以迫切需要一个世界的标准(能包含全世界的语言)于是unicode应运而生

  ascii用1个字节(8位二进制)代表一个字符

  unicode常用2个字节(16位二进制)代表一个字符,生僻字需要用4个字节

  这时候乱码问题消失了,所有的文档我们都使用但是新问题出现了,如果我们的文档通篇都是英文,你用unicode会比ascii耗费多一倍的空间,在存储和传输上十分的低效

  本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间

 

4、字符编码总结

unicode与utf-8采用的是一张unicode编码表,utf-8是unicode编码表体现方式,变长存储数据
变长优点:(大量数据都是以英文存在,所以utf-8空间更小)传输速度更快

 

二、字符、编码、解码

u' '              Unicode字符串,默认字符

s1 = u'abc你好\n不好'    #\n代表换行符
print(s1)


>>>
abc你好
不好

b' '             字节字符串

s2 = b'abc123\xb7\xb7'
print(s2)


>>>b'abc123\xb7\xb7'

r' '          原义字符串,不对字符串内存做任何操作

s3 = r'abc你好\n不好'
print(s3)

>>>abc你好\n不好       #此时的换行符不起作用,因为原义字符串不做任何操作。

编码encode与解码decode:

编码:我们能看懂的  编给机器 看 的过程

s='123哈哈'
s1=bytes(s,encoding='utf-8')
print(s1)

>>>b'123\xe5\x93\x88\xe5\x93\x88'

#结果解释:这里的\x代表16进制的意思,一个16进制需要占用4个bit,所以2个16进制就是8个bit也就是1个字节(Bytes),所以\xe5代表2个16进制一个字节,\x93、\x88各代表2个16进制,一个字节。后面三个重复,所以用utf-8编码,这里的一个汉字‘哈’占用3个字节。
解码:把机器能看懂的 解释给我们人看的过程

b1= b'\xe4\xbd\xa0\xe5\xa5\xbd'
b2=str(b1,encoding='utf-8')
print(b2)


>>>你好

编码、解码:

将u‘’字符串转成b‘’字符串   编码
u1=u'你好'
b1=u1.encode('utf-8')
print(b1)


>>>b'\xe4\xbd\xa0\xe5\xa5\xbd'
将b‘’字符转换成u‘’字符     解码
b2=b'\xe4\xbd\xa0\xe5\xa5\xbd'
u2=b2.decode('utf-8')
print(u2)

>>>你好

三 、文件操作

待处理

--结束END--

本文标题: 基础知识:字符编码

本文链接: https://www.lsjlt.com/news/181546.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 基础知识:字符编码
    一、字符编码 1、什么实字符编码:将人识别的字符转换成计算机能识别的01,而转换的过程或者规则就是字符编码表。 而这种字符编码表表示了一种对应关系。 2、常用的字符编码表有:ascii、unicode、GBK、Shift_JIS、Euc-...
    99+
    2023-01-31
    基础知识 字符
  • java基础之字符串编码知识点总结
    目录一、为什么要编码二、如何“翻译”三、Java 中需要编码的场景3.1 I/O 操作中存在的编码3.2 内存中操作中的编码四、Java 中如何编解码4.1 按照 ISO-8859-...
    99+
    2022-11-12
  • Python基础知识大全:字符编码转换、函数
      字符编码转换  字符编码转换最重要的一点就是,切记unicode是编码之间的中转站,若unicode不是目标编码或者原始编码,那么任何两个编码相互转换都需要经过unicode(见下图)。  需要注意的是,python的默认编码是ASCI...
    99+
    2023-06-02
  • Python基础知识(六)--字符串
      #字符串   #字符串是用固定的str数据类型表示的,用来存放Unicode字符序列  #str数据类型可以用来创建一个字符串对象,参数为空时返回一个空字符串  a = str()  print(a)                  ...
    99+
    2023-01-31
    字符串 基础知识 Python
  • Python 基础知识之字符串处理
    Python字符串处理 字符串输入: my_string = raw_input("please input a word:") 字符串判断: (1) 判断是不是纯字母 my_string.isa...
    99+
    2022-06-04
    字符串 基础知识 Python
  • Python 专题三 字符串的基础知识
    在Python中最重要的数据类型包括字符串、列表、元组和字典等.该篇主要讲述Python的字符串基础知识. 一.字符串基础 字符串指一有序的字符序列集合,用单引号、双引号、三重(单双均可)引号引起来.如: ...
    99+
    2022-06-04
    字符串 基础知识 专题
  • python基础之字符编码
    一 计算机基础知识   二 文本编辑器存取文件的原理(nodepad++,pycharm,word) #1、打开编辑器就打开了启动了一个进程,是在内存中的,所以,用编辑器编写的内容也都是存放与内存中的,断电后数据丢失 #2、要想永久...
    99+
    2023-01-30
    字符 基础 python
  • Java基础学习之字符串知识总结
    目录一、前言二、String 类(字符串常量)2.1 String 类实例的创建2.2 String 对象的比较2.3 String对象的空值2.4 字符串拼接三、StringBui...
    99+
    2022-11-12
  • Java编码基础知识点有哪些
    这篇文章主要介绍“Java编码基础知识点有哪些”,在日常操作中,相信很多人在Java编码基础知识点有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Java编码基础知识点有...
    99+
    2022-10-19
  • Java字符编码知识简介(zt)
    新一篇: orcle ibatis 中文字符 问题1 基本信息...
    99+
    2023-06-03
  • Python基础知识之2——字典
      字典是什么? 字典是另外一个可变的数据结构,且可存储任意类型对象,比如字符串、数字、列表等。字典是由关键字和值两部分组成,也就是 key 和 value,中间用冒号分隔。这种结构类似于新华字典,字典中每一个字都有一个对应的解释,具体的...
    99+
    2023-01-30
    字典 基础知识 Python
  • Python字符编码知识点有哪些
    本篇内容主要讲解“Python字符编码知识点有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python字符编码知识点有哪些”吧!字符编码【所谓unicode】unicode是一种类似于符号...
    99+
    2023-06-02
  • C#基础知识之字符串和正则表达式
    目录Stringstring 和 stringbuilder字符串格式$前缀StringFormat转义花括号日期时间和数字的格式正则表达式组总结String System.Stri...
    99+
    2022-11-13
  • Linux 脚本编写基础知识
    1. Linux 脚本编写基础1.1 语法基本介绍1.1.1 开头程序必须以下面的行开始(必须放在文件的第一行):#!/bin/sh  符号#!用来告诉系统它后面的参数是用来执行该文件的程序。在这个例子中我...
    99+
    2022-06-04
    基础知识 脚本 Linux
  • shell编程基础知识小结
    1、文件类型介绍linux系统中主要包括以下七种文件类型: d 目录 - 普通文件 l 符号链接 s 套接字文件 b 块设备文件 c 字符设备文件 p 命名管道文件 2、正则表达式正则表达式在shell编程...
    99+
    2022-06-04
    小结 基础知识 shell
  • python基础知识
    1.注释   1.1.单行注释:以#开头,#右边的有所东西当做说明.   1.2.多行注释:'''   我是多行注释   '''   2.变量   2.1.为了充分的利用内存空间以及更有效率的管理内存,变量是有不同类型的     2.1....
    99+
    2023-01-30
    基础知识 python
  • MySQL基础知识
    1、MySQL查询 union和union all的区别: union和union all都可以将两边的查询结果合并,区别在于union的合并会去掉重复行,并且使用默认的排序规则。而un...
    99+
    2022-01-06
    MySQL基础知识
  • nodejs基础知识
    什么是nodejs? node.js是基于Chrome javaScript运行时建立的平台,用于方便地搭建响应速度快、易于扩展的网络应用。(但nodejs不是javascript应用,nodejs...
    99+
    2022-06-04
    基础知识 nodejs
  • MHA基础知识
    环境: ...
    99+
    2022-10-18
  • Oracle基础知识
    1、Oracle分页查询 现有表employee_tbl,要求按年龄降序,分页查询数据,每页3条数据。 ID  NAME         DATE                             SIGNIN   AGE 1 ...
    99+
    2018-10-23
    Oracle基础知识
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作