广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python编码规范摆脱Python编码噩梦
  • 343
分享到

Python编码规范摆脱Python编码噩梦

2024-04-02 19:04:59 343人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

目录1. python 3 中 str 与 bytes2. Python 2 中 str 与 unicode3. 如何检测对象的编码4. 编码与解码的区别5. 如何设置文件编码博客原

博客原文:Http://python.iswbm.com/en/latest/c01/c01_44.html

GitHubhttps://github.com/iswbm/PythoncodingTime

Python 中编码问题,一直是很多 Python 开发者的噩梦,尽管你是工作多年的 Python 开发者,也肯定会经常遇到令人神烦的编码问题,好不容易花了半天搞明白了。

一段时间后,又全都忘光光了,一脸懵逼的你又开始你找各种博客、帖子,从头搞清楚什么是编码?什么是 unicode?它和 ASCII 有什么区别?为什么 decode encode 老是报错?python2 里和 python3字符串类型怎么都不一样,怎么对应起来?如何检测编码格式?

反反复复,这个过程真是太痛苦了。

今天我把大家在 Python 上会遇到的一些编码问题都讲清楚了,以后你可以不用再 Google,收藏这篇文章就行。

1. Python 3 中 str 与 bytes

在 Python3中,字符串有两种类型 ,str 和 bytes。

今天就来说一说这二者的区别:

unicode string(str 类型):以 Unicode code points 形式存储,人类认识的形式

byte string(bytes 类型):以 byte 形式存储,机器认识的形式

在 Python 3 中你定义的所有字符串,都是 unicode string类型,使用 typeisinstance 可以判别


# python3

>>> str_obj = "你好"
>>> 
>>> type(str_obj)
<class 'str'>
>>> 
>>> isinstance("你好", str)
True
>>> 
>>> isinstance("你好", bytes)
False
>>> 

而 bytes 是一个二进制序列对象,你只要你在定义字符串时前面加一个 b,就表示你要定义一个 bytes 类型的字符串对象。


# python3
>>> byte_obj = b"Hello World!"
>>> type(byte_obj)
<class 'bytes'>
>>> 
>>> isinstance(byte_obj, str)
False
>>> 
>>> isinstance(byte_obj, bytes)
True
>>> 

但是在定义中文字符串时,你就不能直接在前面加 b 了,而应该使用 encode 转一下。


>>> byte_obj=b"你好"
  File "<stdin>", line 1
SyntaxError: bytes can only contain ASCII literal characters.
>>>
>>> str_obj="你好"
>>>
>>> str_obj.encode("utf-8")
b'\xe4\xbd\xa0\xe5\xa5\xbd'
>>>

2. Python 2 中 str 与 unicode

而在 Python2 中,字符串的类型又与 Python3 不一样,需要仔细区分。

在 Python2 里,字符串也只有两种类型,unicode 和 str 。

只有 unicode object 和 非unicode object(其实应该叫 str object) 的区别:

unicode string(unicode类型):以 Unicode code points 形式存储,人类认识的形式byte string(str 类型):以 byte 形式存储,机器认识的形式

当我们直接使用双引号或单引号包含字符的方式来定义字符串时,就是 str 字符串对象,比如这样


# python2

>>> str_obj="你好"
>>>
>>> type(str_obj)
<type 'str'>
>>>
>>> str_obj
'\xe4\xbd\xa0\xe5\xa5\xbd'
>>>
>>> isinstance(str_obj, bytes)
True
>>> isinstance(str_obj, str)
True
>>> isinstance(str_obj, unicode)
False
>>>
>>> str is bytes
True

而当我们在双引号或单引号前面加个 u,就表明我们定义的是 unicode 字符串对象,比如这样


# python2

>>> unicode_obj = u"你好"
>>>
>>> unicode_obj
u'\u4f60\u597d'
>>>
>>> type(unicode_obj)
<type 'unicode'>
>>>
>>> isinstance(unicode_obj, bytes)
False
>>> isinstance(unicode_obj, str)
False
>>>
>>> isinstance(unicode_obj, unicode)
True

3. 如何检测对象的编码

所有的字符,在 unicode 字符集中都有对应的编码值(英文叫做:code point

而把这些编码值按照一定的规则保存成二进制字节码,就是我们说的编码方式,常见的有:UTF-8,GB2312 等。

也就是说,当我们要将内存中的字符串持久化到硬盘中的时候,都要指定编码方法,而反过来,读取的时候,也要指定正确的编码方法(这个过程叫解码),不然会出现乱码。

那问题就来了,当我们知道了其对应的编码方法,我们就可以正常解码,但并不是所有时候我们都能知道应该用什么编码方式去解码?

这时候就要介绍到一个 python 的库 – chardet ,使用它之前 需要先安装


python3 -m pip install chardet

chardet 有一个 detect 方法,可以 预测其其编码格式


>>> import chardet
>>> chardet.detect('微信公众号:Python编程时光'.encode('gbk'))
{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

为什么说是预测呢,通过上面的输出来看,你会看到有一个 confidence 字段,其表示预测的可信度,或者说成功率。

但是使用它时,若你的字符数较少,就有可能 “误诊”),比如只有 中文 两个字,就像下面这样,我们是 使用 gbk 编码的,使用 chardet 却识别成 KOI8-R 编码。


>>> str_obj = "中文"
>>> byte_obj = bytes(a, encoding='gbk')  # 先得到一个 gbk 编码的 bytes
>>>
>>> chardet.detect(byte_obj)
{'encoding': 'KOI8-R', 'confidence': 0.682639754276994, 'language': 'Russian'}
>>> 
>>> str_obj2 = str(byte_obj, encoding='KOI8-R')
>>> str_obj2
'жпнд'

所以为了编码诊断的准确,要尽量使用足够多的字符。

chardet 支持多国的语言,从官方文档中可以看到支持如下这些语言(https://chardet.readthedocs.io/en/latest/supported-encodings.html)

4. 编码与解码的区别

编码和解码,其实就是 str 与 bytes 的相互转化的过程(Python 2 已经远去,这里以及后面都只用 Python 3 举例)

编码:encode 方法,把字符串对象转化为二进制字节序列

解码:decode 方法,把二进制字节序列转化为字符串对象

那么假如我们真知道了其编码格式,如何来转成 unicode 呢?

有两种方法

第一种是,直接使用 decode 方法


>>> byte_obj.decode('gbk')
'中文'
>>> 

第二种是,使用 str 类来转


>>> str_obj = str(byte_obj, encoding='gbk')
>>> str_obj
'中文'
>>> 

5. 如何设置文件编码

在 Python 2 中,默认使用的是 ASCII 编码来读取的,因此,我们在使用 Python 2 的时候,如果你的 python 文件里有中文,运行是会报错的。


SyntaxError: Non-ASCII character '\xe4' in file demo.py

原因就是 ASCII 编码表太小,无法解释中文。

而在 Python 3 中,默认使用的是 uft-8 来读取,所以省了不少的事。

对于这个问题,通常解决方法有两种:

第一种方法

在 python2 中,可以使用在头部指定

可以这样写,虽然很好看


# -*- coding: utf-8 -*- 

但这样写太麻烦了,我通常使用下面两种写法


# coding:utf-8
# coding=utf-8 

第二种方法


import sys 

reload(sys) 
sys.setdefaultencoding('utf-8') 

这里在调用sys.setdefaultencoding(‘utf-8') 设置默认的解码方式之前,执行了reload(sys),这是必须的,因为python在加载完sys之后,会删除 sys.setdefaultencoding 这个方法,我们需要重新载入sys,才能调用 sys.setdefaultencoding 这个方法。

以上就是Python编码技巧摆脱Python编码噩梦的详细内容,更多关于Python编码的资料请关注编程网其它相关文章!

--结束END--

本文标题: Python编码规范摆脱Python编码噩梦

本文链接: https://www.lsjlt.com/news/155430.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python编码规范摆脱Python编码噩梦
    目录1. Python 3 中 str 与 bytes2. Python 2 中 str 与 unicode3. 如何检测对象的编码4. 编码与解码的区别5. 如何设置文件编码博客原...
    99+
    2022-11-12
  • Python 编码规范
    一 代码编排 1 缩进。4个空格的缩进(编辑器都可以完成此功能),不使用Tap,更不能混合使用Tap和空格。 2 每行最大长度79,换行可以使用反斜杠,最好使用圆括号。换行点要在操作符的后边敲回车。 3 类和top-level函数定义之间...
    99+
    2023-01-30
    Python
  • Python编码规范
    标准头部 #!/usr/bin/python 编码 所有的 Python 脚本文件都应在文件头标上 #-*- coding:utf8 -*- 。设置编辑器,默认保存为 utf8 格式。 main函数 应用程序要定义main函数而不要直接写脚...
    99+
    2023-01-31
    Python
  • Python最简编码规范
    0、前言本文是阅读《Python Coding Rule》之后总结的最为精华及简单的编码规范,根据每个人不同喜好有些地方会有不同的选择,我只是做了对自己来说最简单易行的选择,仅供大家参考。1、重要原则a.保持风格的一致性很重要,但最重要的是...
    99+
    2023-01-31
    简编 Python
  • 【python技能树】python编码规范
    想要写好python代码,必须了解python相关编码规范,有了这个的加持,编写的代码不仅可以实现相应的功能,而且简单易读,逻辑清晰。本节技能树主要分享相应的python编码规范,学习python的小伙伴们请仔细阅读,对你的python代...
    99+
    2023-09-15
    python python技能树 python编码规范
  • Python编码规范有哪些
    Python编码规范有哪些,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。编码在Python编码规范中,所有的 Python 脚本文件都应在文件头标上 # -*- codin...
    99+
    2023-06-17
  • 关于Python中的编码规范
    目录编码规范1、分号2、命名3、行长度4、缩进5、空行6、空格7、类8、块注释和行注释9、字符串10、导包【总结】1.命名2.空白3.语句4.注释编码规范 Python 编码规范重要...
    99+
    2023-05-15
    Python规范 Python编码规范
  • Python基本编码规范有哪些
    这篇“Python基本编码规范有哪些”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python基本编码规范有哪些”文章吧。P...
    99+
    2023-06-29
  • Python编码规范知识点整理
    本篇文章给大家带来了关于Python的相关知识,其中主要整理了编码规范的相关问题,想要写好python代码,必须了解python相关编码规范,有了这个的加持,编写的代码不仅可以实现相应的功能,而且简单易读,逻辑清晰,下面一起来看一下,希望对...
    99+
    2022-07-08
    python
  • Python 常用 PEP8 编码规范详解
    Python 常用 PEP8 编码规范 代码布局 缩进 每级缩进用4个空格。 括号中使用垂直隐式缩进或使用悬挂缩进。 EXAMPLE: # (垂直隐式缩进)对准左括号 foo = long_...
    99+
    2022-06-04
    详解 常用 Python
  • python基础之编码规范总结
    目录一、PEP 8规范二、缩进三、行的最大长度四、空行五、命名约定六、字符串引号七、包八、注释一、PEP 8规范 官方文档:https://legacy.python.org/dev...
    99+
    2022-11-12
  • Python中的编码规范有哪些
    这篇“Python中的编码规范有哪些”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python中的编码规范有哪些”文章吧。编...
    99+
    2023-07-06
  • 基于Google的Python编码规范标准
    目录Python 风格规范(Google)分号行长度括号缩进空行空格Python 风格规范(Google) 本项目并非 Google 官方项目, 而是由国内程序员凭热情创建和维护。 ...
    99+
    2022-11-12
  • Python编码规范知识点实例分析
    这篇文章主要讲解了“Python编码规范知识点实例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python编码规范知识点实例分析”吧!1 代码编码格式一般来说,声明编码格式在脚本中是必...
    99+
    2023-07-02
  • 初识Python(注释、代码缩进、编码规范、标识符、变量)
    ✅作者简介:CSDN内容合伙人、阿里云专家博主、51CTO专家博主、新星计划第三季python赛道Top1🏆 📃个人主页:hacker707的csdn博客 ...
    99+
    2023-09-06
    python 代码规范
  • python入门课程第三讲之编码规范知多少
    目录前言注释缩进规则编码规范标识符命令规范标识符遵循的规则关键字总结这是Pyhon系列文章的第三篇,本文主要介绍Python程序的编码规范。 干货满满,建议收藏,需要用到时常看看。 ...
    99+
    2022-11-12
  • 让你的代码更优雅:Python 实时 git 编程算法规范化指南
    Python 实时 git 编程算法规范化指南 随着计算机技术的发展,编程越来越受到重视,而代码的质量也越来越受到关注。优雅的代码可以提高程序的可读性、可维护性和可扩展性,从而让程序更加稳定和高效。而实时 git 编程算法规范化则是优化代码...
    99+
    2023-09-24
    实时 git 编程算法
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作