广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python解决汉字编码问题:Unicode Decode Error
  • 186
分享到

python解决汉字编码问题:Unicode Decode Error

汉字pythonUnicode 2022-06-04 18:06:42 186人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

前言 最近由于项目需要,需要读取一个含有中文的txt文档,完了还要保存文件。文档之前是由base64编码,导致所有汉字读取显示乱码。项目组把base64废弃之后,先后出现两个错误: ascii code

前言

最近由于项目需要,需要读取一个含有中文的txt文档,完了还要保存文件。文档之前是由base64编码,导致所有汉字读取显示乱码。项目组把base64废弃之后,先后出现两个错误:


ascii codec can't encode characters in position ordinal not in range 128
UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。

如果对于ascii、unicode和utf-8还不了解的小伙伴,可以看之前的这篇文章关于字符串和编码

那么必须对下面这三个概念有所了解:

ascii只能表示数字、英文字母和一些特殊符号,不能表示汉字 unicode和utf-8都可以表示汉字,unicode是固定长度,utf-8是可变长度 内存中存储方式一般为unicode,而磁盘文件存储方式一般为utf-8,因为utf-8可以节约存储空间

那么python的默认编码是什么?


>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> sys.getdefaultencoding()
'utf-8'

python的默认编码是ascii,可以通过sys.setdefaultencoding('utf-8')函数设置Python的默认编码。

python中可以通过encode和decode的方式改变数据的编码,比如:


>>> u'汉字'
u'u6c49u5b57'
>>> u'汉字'.encode('utf-8')
'xe6xb1x89xe5xadx97'
>>> u'汉字'.encode('utf-8').decode('utf-8')
u'u6c49u5b57'

我们可以通过这两个函数设置编码。

那么,python中的str是什么类型?


>>> import binascii
>>> '汉字'
'xbaxbaxd7xd6'
>>> type('汉字')
<type 'str'>
>>> print binascii.b2a_hex('汉字')
babad7d6
>>> print binascii.b2a_hex(u'汉字')
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in
position 0-1: ordinal not in range(128)
>>> print binascii.b2a_hex(u'汉字'.encode('utf-8'))
e6b189e5ad97
>>> print binascii.b2a_hex(u'汉字'.encode('gbk'))
babad7d6

binascii是将数据的二进制转换成ascii,上面的解释是:‘汉字'的类型是str,二进制是babad7d6,u‘汉字'是无法转换成ascii,这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8')成str类型。因为我命令行是windows默认的GBK编码,所有u'汉字'.encode(‘gbk')的时候,输出结果和‘汉字'结果一样。

总结一下,python的str实际上是unicode的一种,python的默认编码是ascii,对于非ascii转成ascii的时候都会报错,牢记下面的规则:

unicode => encode(‘合适的编码') => str str => decode(‘合适的编码') => unicode

还有一种简单的方式,就是在文件头设置编码,可以省去很多麻烦:


import sys
reloads(sys)
sys.setdefaultencoding('utf-8')

对于第二个问题,是在文件读取的时候出的错。utf-8的文件有bom和无bom两种方式,两者的差别好像在bom文件比无bom文件多了一个头,导致以utf-8方式读文件时报错,我先前曾尝试读文件的时候先对有无bom进行判断,跳过bom文件的头,后来失败了,真尴尬~~。

还得上Google求助大神,具体的操作方法就是使用codecs库来读文件(我猜这个库就是对文件的头进行检测)。


import codecs
codecs.open(file_name, "r",encoding='utf-8', errors='ignore')

对于编码问题,一定要懂得ascii、unicode和utf-8工作原理。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。

--结束END--

本文标题: python解决汉字编码问题:Unicode Decode Error

本文链接: https://www.lsjlt.com/news/13744.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python解决汉字编码问题:Unicode Decode Error
    前言 最近由于项目需要,需要读取一个含有中文的txt文档,完了还要保存文件。文档之前是由base64编码,导致所有汉字读取显示乱码。项目组把base64废弃之后,先后出现两个错误: ascii code...
    99+
    2022-06-04
    汉字 python Unicode
  • 如何解决Python unicode ascii编码在windows上的问题
    这期内容当中小编将会给大家带来有关如何解决Python unicode ascii编码在windows上的问题,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。unicode ascii编码在计算机的相关实际...
    99+
    2023-06-17
  • JAVA中的Unicode编码问题怎么解决
    在Java中解决Unicode编码问题有多种方法:1. 使用正确的字符编码读取和写入文件:当从文件中读取或写入文本时,需要注意使用正...
    99+
    2023-08-19
    JAVA
  • linux下如何解决was汉字乱码问题
    这篇文章给大家分享的是有关linux下如何解决was汉字乱码问题的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。linux下was汉字乱码的解决办法:1、登录WAS管理控制台;2、选择“java虚拟机”;3、 设置...
    99+
    2023-06-25
  • MySQL解决字符集编码问题
    目录前言方法1:在创建数据库时,指定字符集方法2: 更改mysql的配置文件前言 MySQL的默认编码方式是 拉丁文,如果想要设置一些汉字的数据.可能会报错.分享一下我解决这个问题时的方法.1. 在创建数据库时,指定字符...
    99+
    2023-04-12
    MySQL解决字符集编码 字符集编码问题 MySQL字符集
  • php使用urlencode、urldecode解决汉字乱码问题的示例
    本文将为大家详细介绍“php使用urlencode、urldecode解决汉字乱码问题的示例”,内容步骤清晰详细,细节处理妥当,而小编每天都会更新不同的知识点,希望这篇“php使用urlencode、urldecode解决汉字乱码问题的示例...
    99+
    2023-06-06
  • Java中println输出汉字乱码问题一招解决方案
    目录Java println输出汉字乱码问题Eclipse中println输出html中文乱码错误代码解决办法总结Java println输出汉字乱码问题 1.打开Java菜单Fil...
    99+
    2022-12-26
    Java println println输出汉字乱码 Java println输出汉字乱码
  • 聊聊怎么解决php运行时汉字显示乱码问题
    PHP 是一种在网络应用程序开发中广泛使用的语言,但是当我们在 PHP 运行时,有时会遇到汉字乱码的问题。这可能会对用户交互和数据传输造成很大的困扰。在本篇文章中,我们将介绍一些可能导致 PHP 运行时汉字显示乱码的原因以及如何解决这些问题...
    99+
    2023-05-14
  • Python3如何解决字符编码问题详解
    编码 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制1111...
    99+
    2022-06-04
    如何解决 详解 字符
  • 如何解决MySQL字符集编码问题
    这篇文章给大家分享的是有关如何解决MySQL字符集编码问题的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。项目中,用中断命令导入sql脚本,发现其报出编码错误,后来进过一番分析查询...
    99+
    2022-10-19
  • MySQL字符集编码问题怎么解决
    本文小编为大家详细介绍“MySQL字符集编码问题怎么解决”,内容详细,步骤清晰,细节处理妥当,希望这篇“MySQL字符集编码问题怎么解决”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。方法1:在创建数据库时,指定字...
    99+
    2023-07-06
  • python中文编码乱码问题的解决
    目录前言:一、什么是字符编码。1.ASCII2.GB23123.Unicode4.UTF-8二、Python2中的字符编码三、decode()与encode()方法四、一个字符编码的...
    99+
    2022-11-12
  • Python之string编码问题怎么解决
    这篇文章主要介绍“Python之string编码问题怎么解决”,在日常操作中,相信很多人在Python之string编码问题怎么解决问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python之string编码...
    99+
    2023-07-05
  • python如何解决中文编码乱码问题
    小编给大家分享一下python如何解决中文编码乱码问题,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、什么是字符编码。要彻底解决字符编码的问题就不能不去了解到底...
    99+
    2023-06-25
  • Python UnicodedecodeError编码问题解决方法汇总
    目录1.情景一2.情景二3.情景三4. chardet模块detect()函数今天真的被编码问题一直困扰着,午休都没进行。也真的见识到了各种编码。例如:gbk,unicode、utf...
    99+
    2022-11-11
  • 简单解决Python文件中文编码问题
    读写中文 需要读取utf-8编码的中文文件,先利用sublime text软件将它改成无DOM的编码,然后用以下代码: with codecs.open(note_path, 'r+','utf-8')...
    99+
    2022-06-04
    中文 简单 文件
  • 解决JavaEE开发中字符编码出现乱码的问题
    网上有很多处理字符编码的解决方案,在此,我站着前人的肩膀上作自己的总结。在我看来,出现乱码问题的解决方法无非就是在3个地方进行编码设置:HTML、JSP等前端页面;后台servlet中request和response对象;服务器配置文件。1...
    99+
    2023-05-31
    字符编码 乱码 javaee
  • 如何快速解决CSS字符编码引起乱码的问题
    这篇文章给大家介绍如何快速解决CSS字符编码引起乱码的问题,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。乱码引起的CSS失效原理:由于一个中文是两个字符组成,在编码不一致的情况下会引发...
    99+
    2022-10-19
  • maven编码gbk的不可映射字符问题怎么解决
    在Maven编码为GBK的情况下,如果遇到不可映射字符的问题,可以使用下面的解决方法:1. 修改源代码文件的编码:将源代码文件的编码...
    99+
    2023-09-23
    maven
  • PHP开发中如何调试和解决编码和字符问题
    在PHP开发过程中,编码和字符问题是常见的挑战之一。当我们遇到乱码、字符截断或者非预期字符输出等问题时,我们需要快速定位并修复这些问题。本文将介绍一些调试和解决编码和字符问题的常用方法,并提供具体的代码示例。使用header()函数设置网页...
    99+
    2023-10-21
    调试 编码问题 字符问题
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作