Python 读取文件时的 UnicodeDecodeError

作者: 张志强 , 2021-05-11 , 共 1086 字

在 Python 中操作文件或字符串时，有时候会碰到 UnicodeDecodeError 异常：

  File "/usr/lib/python3.8/codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe5 in position 415632: 
invalid continuation byte

当然，最开始需要检查的是编码是否符合文本自己的编码。目前默认编码都是utf8，有时候我们需要指定编码为中文编码：

file = open(path, encoding="gbk")
b = s.encode(encoding="gbk")
s = b.decode(encoding="gbk")

但即使这样，有些文本还是会抛出 UnicodeDecodeError 错误，这是因为文件或者原来的二进制字节码本身就有错误，出现最多的情况是字节码被中间截断（比如一个中文有三个字节码，但因为某种原因最后一个字节码丢失了）。这时候我们需要用到errors参数。

该参数属于codecs， Python 的编码库和基类。open 函数, 字符串都使用了该编码器，因此都支持errors参数。该参数支持下面三个取值：

值	含义
'strict'	出错时会抛出 UnicodeError。这也是该参数的默认值。
'ignore'	忽略错误格式的数据并且不加进一步通知就继续执行。用户完全无法察觉。
'replace'	使用适当的替换标记进行替换。出错时不会通知，不会抛出异常。但解码后的结果里会包含方块问号，提示这里有错误。

所以要想忽略编码问题，最佳方式是：

file = open(path, encoding="gbk", errors="replace")
b = s.encode(encoding="gbk", errors="replace")
s = b.decode(encoding="gbk", errors="replace")

Q. E. D.

类似文章：

VS2013 不支持无文件头的 UTF8 编码格式相似度: 0.255

2016-06-01, 编程 » C++, visual studio, 字符编码, 编译链接

最近老遇到一个奇怪的问题。在 VS 2013 编译时，爆出很多警告：

Linux 系统中的文件编码问题相似度: 0.191

2016-09-26, 编程 » Linux, Vim, 字符编码

由于 UNICODE 的优势，目前推荐都用 UTF-8 进行编码。

Python 的字符串和相关函数相似度: 0.098

2021-04-09, 编程 » Python

在 Python3 以上，通常说的字符串是指unicode字符串，以下将不再重复强调。

Python 的私有变量和方法相似度: 0.096

2023-07-19, 编程 » Python

今天写一段程序时遇到一个问题，查了好一会才搞清楚。代码可以简化为下面这个小代码：

Python 的 __file__ 需用 os.path.abspath 处理相似度: 0.080

2022-12-07, 编程 » Python

在 Python 中，有时候为了获取当前运行的脚本的同目录下的另外一个文件，会这么写：

Python 的 unittest 的一些细节和笔记相似度: 0.072

2024-05-17, 编程 » python, 单元测试

unittest 是 python 官方的单元测试工具。最近发现一个之前没注意到的盲区：

配置 ubuntu odbc 和 pypyodbc 相似度: 0.070

2016-08-01, 编程 » Linux, 数据库, Linux系统配置

一定要先座这一几步，否则直接用pypyodbc会爆下面错误：

Python 的抽象基类 ABC 相似度: 0.070

2021-03-11, 编程 » Python标准库, Python

Pyhon 的抽象基类（ abstruct base class ）库abc定义了类似于 C++的纯虚函数的功能：

Python 的 DataFrame 摘要相似度: 0.062

2015-12-08, 编程 » DataFrame, Pandas, Python, 数据处理

Python 数据分析工具 pandas 中以 DataFrame 和 Series 作为主要的数据结构。

pandas.DataFrame 转成 numpy.array 以及 C++ 的二进制文件相似度: 0.061

2022-11-14, 编程 » pandas, numpy, Python, C++

首先任意定义一个结构，注意不要用 std::string 非平凡布局的变量，用 char[] 代替：

前一篇：凤凰岭后山南线 - 高压线塔 - 北线大环线（10 公里爬升 1000 米）

2021-05-09, 户外 » 亲子徒步路线, 凤凰岭片区, 徒步强度3.0

从东门出发的 10 公里大环线，南线上到高压线塔，后山山脊下到上方寺遗址，再从北线飞来石塔下山。总路程接近 10 公里，爬升接近 1000 米。

后一篇： Linux 常见命令常用用法

2021-05-15, IT » gnu, Linux

简单列一些 Linux 自带的 GNU 命令的常用用法，可以当做 cheatsheet 使用。