UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xa4 in position 25: ordinal not in range(128)
解决过程
我想看看一个文件里存的数据是什么,但是是个.bin文件,遇是想到用pickle来输出一下,就报这个错了。
def load(self, filename):
f = open(filename,'rb')
tmp = pickle.load(f)
做功课了解到 .bin是个万能后缀,以二进制存储,它特点是随便什么类型文件都可以改成bin文件而不损害内容本身。同理,你也可以尝试改成你想要的后缀看看他到底是什么内容,不过只有猜对了才能正常打开,否则就会出现乱码等错误……我改成 .txt 等后缀以文本编辑器、记事本打开都不行,后来想到pickle用来存储结构化数据的,就想把tmp输出一下就报错了。
报错: 这个错误是因为文件中有字符是非ascii编码的字符,其16进制编码超过127。
后来看到有解决办法是在程序最前面加上以下三行:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
我搜了一下reload发现是python2版本的,然后找了一个python3版本的写法,如下:
import sys
import importlib
importlib.reload(sys)
同时了解到python2默认编码是ascii,当程序中出现非ascii编码时,就会报以上错,而python3默认使用的就是utf-8编码,所以也没有sys.setdefaultencoding了。另外XML和JSON文件默认编码也是utf-8。
也就是此问题还没解决。
后来又看到有方法说把打开模式改成 ‘r’,然后在load里加encoding,也就是
def load(self, filename):
f = open(filename,'r')
tmp = pickle.load(f,encoding='UTF-8')
然后出现另一个bug: 这个错误是因为要处理的字符串不是gbk编码,却要用它去解码。
之前出现过这种错误,是打开txt文件,这种把文件另存为,改编码为UTF-8就可以解决了,但是现在是个bin文件……
后来有办法说把编码模式改成bytes就可以,也就是:
def load(self, filename):
f = open(filename,'rb')
tmp = pickle.load(f,encoding='bytes')
发现!确实不报这个错了,数据也能看到了,但是用这个编码模式,发现每个字符串前面多了个b: 这样的话,就没办法根据键值取出里面的数据了…… 然后又经过一轮发现,将‘bytes’改成‘latin1’就没事了:
def load(self, filename):
f = open(filename,'rb')
tmp = pickle.load(f,encoding='latin1')
终于解决了!
总结
用pickle.load加载文件的时候,出现ascii或者gbk等问题,可以用bytes编码模式加载,如果要处理数据,用latin1模式加载。
pickle是个序列化模块。这里再回顾一下pickle的优点:pickle可以保存几乎任何数据格式的数据,存进去是怎么样,拿出来也是怎么样;当你多次加载数据的时候,第二次之后读取更加高效,因为不需要重新计算数据。
|