在开始这篇文章前,先让我们来看一组 base64 编码的字符串
ZG==
YY==
aW==
ZF==
cm==
aM==
b2==
dc==
c2==
Zf==
解码后的内容是 daidrhouse,似乎没有什么问题。但是仔细看,第一行和第 4 行解码后的结果都是 d,但内容竟然不太一样?
按照正常的 base64 编码,daidrhouse 应该得到下面的结果。
ZA==
YQ==
aQ==
ZA==
cg==
aA==
bw==
dQ==
cw==
ZQ==
显然,与前者相比,每串 base64 的第二个字符都被改变了,但解码后的内容依然不变,这得从 base64 编码的原理说起。
什么是 base64#
顾名思义,base64 编码就是用 64 个 ascii 字符作为基础来编码二进制内容的一种编码方式。相信各位一定在网页中看到过 base64 编码的内嵌图片,甚至 QQ 音乐传输歌词文件时,也采用了 base64 编码。将二进制编码为 ascii 字符,使数据在某些场景下更便于阅读、便于传输。当然,将所有二进制「浓缩」到区区 64 个字符来表示,一定会在体积上作出妥协。字符在编码完成后,会增大 1/3 倍,至于原因,下面会讲到。
索引表#
base64 有一张标准编码表,为 64 个 ascii 字符排序并赋予索引。
索引 | 字符 | 索引 | 字符 | 索引 | 字符 | 索引 | 字符 |
---|---|---|---|---|---|---|---|
0 | A | 16 | Q | 32 | g | 48 | w |
1 | B | 17 | R | 33 | h | 49 | x |
2 | C | 18 | S | 34 | i | 50 | y |
3 | D | 19 | T | 35 | j | 51 | z |
4 | E | 20 | U | 36 | k | 52 | 0 |
5 | F | 21 | V | 37 | l | 53 | 1 |
6 | G | 22 | W | 38 | m | 54 | 2 |
7 | H | 23 | X | 39 | n | 55 | 3 |
8 | I | 24 | Y | 40 | o | 56 | 4 |
9 | J | 25 | Z | 41 | p | 57 | 5 |
10 | K | 26 | a | 42 | q | 58 | 6 |
11 | L | 27 | b | 43 | r | 59 | 7 |
12 | M | 28 | c | 44 | s | 60 | 8 |
13 | N | 29 | d | 45 | t | 61 | 9 |
14 | O | 30 | e | 46 | u | 62 | + |
15 | P | 31 | f | 47 | v | 63 | / |
有时为了防止混淆(比如链接),会使用 .
_
来代替索引表中的 +
/
。
编码方式#
base64 将 3 个字节(24 位)作为一组进行处理。不足 3 字节时填充 0,并在结尾使用 =
来标识填充的字节数。并将每 6 位作为 1 小组,将 24 位编码成 4 组 6 位二进制。此时,这 6 位二进制一共有 26=642^6=6426=64 种情况,正好能够用 64 个字符来表示。(这也解释了为什么编码完成后体积会增大 1/3)
举些栗子#
隐写的原理#
base64 在解码的时候,会按照字符串末尾的 =
数量来删除相应字节数。或许你已经发现了,当一组字符的数量为 1 字节或 2 字节的时候,会有 4 位或 2 位二进制在解码时被忽略,及下图的红色标识。
红色标识的这些二进制,能够被编码,但解码时却会被忽略。修改这些位置的内容,不会影响到原始数据。
解决问题#
现在,可以来尝试解决文章开头的问题了。那组 base64 编码的字符串,隐藏了什么?
将所有红色标识的二进制位拼接起来,可以得到最后的结果 hello