做了很久的CTF,一直使用在线工具去解析base64,从没想过这些编码的原理,终于有心思研究一下。
0x01. 什么是base64?
Base64是一种用64个字符来表示任意二进制数据的方法。它是一种编码方式,并不是加密方式。它通过将二进制数据转变为64个“可打印字符”,完成了数据在HTTP协议上的传输。
0x02. base64如何玩转?
Base64编码要求把3个8位字节(
3
?
8
=
24
3*8 =24
3?8=24)转化为4个6位的字节(
4
?
6
=
24
4*6=24
4?6=24),之后在6位的前面补两个0,形成8位一个字节的形式。 如果剩下的字符不足3个字节,则用0填充,输出字符使用‘=’,因此编码后输出的文本末尾可能会出现1或2个‘=’。
0x02_1. base64编码表
为了保证所输出的编码位可读字符,Base64制定了一个编码表,以便进行统一转换。编码表的大小为
2
6
=
64
2^6=64
26=64,这也是Base64名称的由来。编码表如下:
引用一个作图优秀的博客:https://www.cnblogs.com/xq1314/p/7909521.html
0x02_2. 图例分析
假设我们有三个字母Man,进行base64编码,过程如图:
3个8位字节转化为4个6位的字节,之后在6位的前面补两个0,形成8位一个字节的形式。
但是,当需要转换的字符数不是3的倍数的情况下该怎么办呢?Base64规定,当需要转换的字符不是3的倍数时,一律采用补0的方式凑足3的倍数,具体如下表所示:
0x03. base64编码脚本
import math
from string import ascii_uppercase, ascii_lowercase, digits
def base64_encode(s):
base = ascii_uppercase + ascii_lowercase + digits + '+/'
bits = [bin(ord(x))[2:].rjust(8, '0') for x in s]
bits_concat = ''.join(bits)
rounds = math.ceil(len(bits_concat) / 6)
bits_concat_cut = [bits_concat[6 * round: 6 * (round + 1)] for round in range(rounds)]
result = [base[int(x.ljust(6, '0'), 2)] for x in bits_concat_cut]
res = ''.join(result)
if len(result) % 4 == 0:
return res
elif len(result) % 4 == 2:
return res + '=='
else:
return res + '='
if __name__ == '__main__':
print(base64_encode('Man'))
print(base64_encode('Ma'))
print(base64_encode('M'))
结果如图:
0x04. base64解码脚本
import math
from string import ascii_uppercase, ascii_lowercase, digits
def base64_decode(s):
base = ascii_uppercase + ascii_lowercase + digits + '+/'
if '==' in s:
s = s[0: -2]
elif '=' in s:
s = s[0: -1]
bin_data = [bin(base.find(x))[2:].rjust(6, '0') for x in s]
bin_data_concat = ''.join(bin_data)
cut = [bin_data_concat[idx: idx + 8] for idx in range(0, len(bin_data_concat), 8)]
rt = [chr(int(x, 2)) if len(x) == 8 else '' for x in cut]
return ''.join(rt)
if __name__ == '__main__':
print(base64_decode('TWFu'))
print(base64_decode('TWE='))
print(base64_decode('TQ=='))
结果如图:
0x05. 使用python3.5自带的函数进行编码
import base64
if __name__ == '__main__':
string = 'Man'.encode()
str_encode = base64.b64encode(string)
print(str_encode)
str_decode = base64.b64decode(str_encode)
print(str_decode)
结果如图:
0x06. 总结
- 在网络传输中,不是所的的内容都是可打印字符,其中绝大多数数据是不可见字符,base64可以基于64个可打印字符来表示这些带有不可打印字符的传输数据。
- base64一般不作为安全加密算法的,因为过程可逆。
幸地识请桃花面,从此阡陌多暖春。 最后放个美图放松一下眼睛:
|