Bytes和Str的区别
在Python3中,字符序列有两种类型:bytes 和str 。bytes 类型是无符号的8位值(通常以ASCII码显式),而str 类型是Unicode代码点(code point)。代码点指编码字符集中,字符所对应的数字。
a = b'hello world'
print(isinstance(a, bytes))
print(list(a))
print(a)
"""
True
[104, 101, 108, 108, 111, 32, 119, 111, 114, 108, 100]
b'hello world'
"""
a = 'hello world'
print(isinstance(a, str))
print(list(a))
print(a)
"""
True
['h', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd']
hello world
"""
isinstance() 方法可以判断对象的类型,例如这里用来判断是str 还是bytes 。
Python3对文本(str )和二进制数据(bytes )有着严格的区分,不能混用。
x = b'python'
y = b'java'
z = 'c++'
w = 'c'
print(x + y)
print(z + w)
print(x + z)
print('python' == b'python')
上述示例中str 类型和bytes 类型间使用= 来比较是否相等不会报错,但是会返回False。
Bytes与Str间的转换
str 类型和bytes 类型间可以相互转换。 str 到bytes 的转换需要调用encode() 方法。 bytes 到str 间的转换需要调用decode() 方法。
x = b'python'
y = x.decode(encoding='utf-8')
z = y.encode(encoding='utf-8')
print(y)
print(z)
"""
python
b'python'
"""
可以观察到encode() 和decode() 方法都有一个encoding 参数用来指定具体的编码规则。
读写文件的注意事项
当要将bytes 类型写入到文件中时,必须指定mode=wb 。读取二进制文件时可以指定mode=rb 或者指定编码方式,使用后者时读出来的就不是bytes 类型的字符序列了。
x = b'python'
with open('data.bin', mode='w') as fp:
fp.write(x)
with open('data.bin', mode='wb') as fp:
fp.write(x)
with open('data.bin', mode='rb') as fp:
content = fp.read()
print(content)
with open('data.bin', mode='r', encoding='utf-8') as fp:
content = fp.read()
print(content, type(content))
当读写Unicode数据时,只需要注意下编码方式即可,最好是显式的传递encoding 参数。
x = '世界你好'
with open('data.txt', mode='w', encoding='utf-8') as fp:
fp.write(x)
with open('data.txt', mode='r', encoding='utf-8') as fp:
content = fp.read()
print(content)
with open('data.txt', mode='r', encoding='gbk') as fp:
content = fp.read()
print(content)
|