GIF 字节格式介绍

发表于 2017-11-03 更新于 2024-08-21

gif

最近花了点时间用 C++ 写了一个 GIF 图片的解析程序，在这一过程中我找了许多中文相关的材料，但没有哪一篇是真正能够让读者完全理解 GIF 的文件格式和 LZW 在 GIF 中的应用（解析部分）。在查阅了一些官方文档后我算是顺利的将程序完成了，顺道我就把 GIF 文件的解析在这儿讲讲清除，方便大家学习。

下面这两个网页是我参考的比较权威的资料，大家也可以直接阅读。

http://giflib.sourceforge.net/index.html
https://www.w3.org/Graphics/GIF/spec-gif89a.txt

GIF 文件格式

下图是我从 http://giflib.sourceforge.net/index.html 拿过来的图，从图上可以很清晰的看到 GIF 文件的内部组成。

上图中一个有十一块，其中有八块是 GIF 图像必备的：Header（头）、Logical Screen Descriptor（逻辑屏幕描述符）、Image Descriptor（图像描述符）、Image Data（图像数据流）、Plain Text Extension（文本扩展）、Application Extension（应用扩展）、Comment Extension（注释扩展）、Trailer（尾部标记）。

另外还有三个可选块：Global Color Table（全局颜色表）、Graphic Control Extension（图形控制扩展）、Local Color Table（本地颜色表）。

传统的 Gif 解码器正是通过上述的这些块来对 GIF 文件进行解析，下面我们就按照顺序来详细了解一下这些块的内部字节格式。

为了比较直观的了解这些内容，我还是从 http://giflib.sourceforge.net/index.html 拿了一个 GIF 图过来，如下图：

其放大后的效果图如下：

上图经过放大处理，其代表了一个 10*10 个像素的 GIF 图，其内部字节如下：

47 49 46 38 39 61 
0A 00 0A 00 91 00 00 
FF FF FF FF 00 00 00 00 FF 00 00 00 
21 F9 04 00 00 00 00 00 
2C 00 00 00 00 0A 00 0A 00 00 
02 16 8C 2D 99 87 2A 1C DC 33 A0 02 75 EC 95 FA A8 DE 60 8C 04 91 4C 01 00
3B

GIF 文件由它的 Header 块最为其文件的入口，Header 一共包含六个字节，如下图：

其中前三个字节对应 ASCII 码中的 G、I、F 三个字符，后三个字节用于说明此 GIF 的版本号，目前的版本号有 87a 和 89a 两个。

对于上面的示例图来说，前六个字节分别是 47、49、46、38、39、61。用 0xED 查看如下图：

Logical Screen Descriptor

Logical Screen Descriptor（逻辑屏幕描述符）通常紧跟在 Header 后面，它的作用是告诉解码器 GIF 图像的分辨率，背景色和 Global Color Table 等信息。先看一下其字节的组成：

按顺序看，

Canvas Width：表示 GIF 图像的宽度，单位是像素。
Canvas Height：表示 GIF 图像的高度，单位是像素。
Packed Field：这是一个包装字段，内部的不同 bit（位）表示有不同的含义
- 从左边数第一位表示 Global Color Table Flag，如果其为 1 ，则表示存在 Global Color Table。如果为 0，则没有 Global Color Table。
- 从左边数第二、三、四位表示 Color Resolution，用于表示色彩分辨率，如果为 s，则 Global Color Table 的颜色数为 2^(s+1)个，如果这是 s = 1,则一共有 4 中颜色，即每个像素可以用 2位（二进制）来表示。
- 从左边数第五位表示 Sort Flag，它有两个值 0 或 1。如果为 0 则 Global Color Table 不进行排序，为 1 则表示 Global Color Table 按照降序排列，出现频率最多的颜色排在最前面。
- 最右边三位表示 Global Color Table 的颜色数，如其值为 s，则全局列表颜色个数的计算公式为 2^(s+1)。如 s = 1，则 Global Color Table 包含 4 个颜色。
Background Color Index：表示 GIF 的背景色在 Global Color Table 中的索引。
Pixel Aspect Ratio：表示用于计算原始图像中像素宽高比的近似因子，一般情况为 0，顾不做深入了解。

对于我们是示例图，其 Logical Screen Descriptor 对应的字节如下：

0A 00 0A 00 91 00 00

其中：
Canvas Width = 0A00 = 10（十进制）
Canvas Height = 0A00 = 10（十进制）
Packed Field = 10010001（二进制），其中 Global Color Table 为 1，则存在 Global Color Table。Color Resolution 为 1，表示三原色分别用 2 位来表示。Sort Flag = 0，不排序。Global Color Table 中颜色数为 4 。
Background Color Index = 0，说明此 GIF 的背景色为 Global Color Table 中第一个颜色。
Pixel Aspect Ratio = 0,可忽略。

Global Color Table

Global Color Table 如果有的话就会跟在 Logical Screen Descriptor 块后面。其块中的字节格式如下：

在 Global Color Table 中每个字节仅代表一种颜色，所以 Global Color Table 的字节数 = 颜色数 * 3.在 Logical Screen Descriptor 中我们知道示例中包含 4 中颜色，即 Global Color Table 的字节数为 12 。所以读取接下的 12 个字节。其具体字节如下：

FF FF FF FF 00 00 00 00 FF 00 00 00

根据上面的数据我们来构建 Global Color Table

索引	字节组合	颜色
0	FFFFFF	白色
1	FF0000	红色
2	0000FF	蓝色
3	000000	黑色

Graphics Control Extension

这里先不说 Graphics Control Extension，我们先看 Global Color Table 后面紧跟的那个字节，从示例中可以看到的21，21在 GIF 格式中是有特殊意义的，它表示 Extension Introducer（扩展入口），即接下来的一段数据为最开始提到的这几个扩展中的某一个扩展。

OK，那我们接着 21 往后看，下一个字节为F9，F9 也是有特殊含义的，表示这是一个 Graphics Control Extension。

Graphics Control Extension 算上 21 和 F9 一共有八个字节，其结构如下图：

其中前两个字节上面已经提到，看接下来的几个字节分别表示什么含义：

Byte Size：表示接下来的有效数据字节数。
Packed Field：是一个包装字段，内部不同位的意义也不同。
- 从左边数一，二，三位表示Reserved for Future Use，即保留位，暂无用处。
- 从左边数四，五，六位表示 Display Method，表示在进行逐帧渲染时，前一帧留下的图像作何处理：0：不做任何处理。1：保留前一帧图像，在此基础上进行渲染。2：渲染前将图像置为背景色。3：将被下一帧覆盖的图像重置。
- 从右数第二位表示 User Input Flag，表示是否需要在得到用户的输入时才进行下一帧的输入（具体用户输入指什么视应用而定）。0 表示无需用户输入。1 表示需要用户输入。
- 最右边一位，表示 Transparent Flag，当该值为 1 时，后面的 Transparent Color Index 指定的颜色将被当做透明色处理。为 0 则不做处理。
Delay Time：表示 GIF 动图每一帧之间的间隔，单位为百分之一秒。当为 0 时间隔由解码器管理。
Transparent Color Index：当 Transparent Flag 为 1 时，此字节有效，表示此索引在 Global Color Table 中对应的颜色将被当做透明色做处理。
Block Terminator：表示 Extension 到此结束。

下面看一下示例中 Graphics Control Extension 对应的字节：

21 F9 04 00 00 00 00 00

其中 21，F9 表示这是一个 Graphics Control Extension 块。
Byte Size 为 4。
其它值都为 0 ，概括来讲此 Graphics Control Extension 对应下一帧的渲染无需任何处理，也不需要用户输入，也没有需要做透明处理的颜色值。渲染器要做的就是直接把下一帧图像渲染在画布上即可。

Image Descriptor

上面讲到 21 上 Extension 的标识符。这里的 Image Descriptor 也有自己的标识符，为 2C。下面看一下 Image Descriptor 内部字节结构：

其中 Image Seperator 为固定值 2C。

Image Left：该值表示下一帧图像渲染位置离画布左边的距离（从 0 开始）。
Image Top：该值表示下一帧图像渲染位置离画布上边的距离（从 0 开始）。
Image Width：该值表示下一帧图像的宽度。
Image Height：该值表示下一帧图像的高度。
Packed Field：这是一个包装字段，内部不同位的意义也不同。
- 从左数第一位：Local Color Table Flag，表示下一帧图像是否需要一个独立的颜色表。1 为需要，0 为不需要。
- 从左数第二位：Interlace Flag，表示是否需要隔行扫描。1 为需要，0 为不需要。
- 从左数第三位：Sort Flag，如果需要 Local Color Table 的话，这个字段表示其排列顺序，同 Global Color Table。
- 从左数第四、五位：Reserved For Future Use，保留位。
- 从左数最后三位：Size of Local Color Table，同 Global Color Table 中的该位。如需要本地颜色表，则该数有效。

接着看一下示例中的对应字节：

2C 00 00 00 00 0A 00 0A 00 00

2C 表示 Image Descriptor
Image Left = 0
Image Top = 0
Image Width = 10
Image Height = 10
上面这四个数字表示即将渲染的一帧大小为 10*10 像素，正好与 GIF 图的分辨率一致。
打包字段都为零，表示下一帧不需要 Local Color Table，也不需要进行隔行扫描。

这里读者可能会好奇我们不是在 Logical Screen Descriptor 中知道了图像的分辨率吗，为什么还要在 Image Descriptor 中额外指定图像的宽和高。其实 GIF 在进行编码的时候并不一定对每一帧进行全尺寸的压缩。因为有时候一个 GIF 图只有中间区域是动的，四周都是静止的，那只需要对中间那部分进行压缩编码即可。所以这里的 Image Left、Image Top、Image Width 和 Image Height正好可以指定一个小于等于 GIF 分辨率的图像。

Local Color Table

local color table 在本示例中不涉及，我也不多介绍，在处理的时候按照 Global Color Table 处理即可。

Image Data

如果存在 Local Color Table，Image Data 就紧跟其后。如若不存在，则紧跟在 Image Descriptor 后。下面先看一下 Image Data 的内部字节组成。

LZW Minimum Code Size: GIF 在对每一帧的像素颜色在 Color Table 所对应的索引进行 LZW 压缩，这里的 LZW Minimum Code Size 就是 LZW 压缩中很关键的一个值，不过目前这个值先放着，等后面讲到对 LZW 解压缩时再讲。
Number of bytes of data in sun-blocks（01-FF）：这个值表示在其后面的有效字节的个数。范围为 01-FF，当其值为 0，则表示 Image Data 到此为止，后面就是其他块的数据了。这里需要注意由于其最大值为 FF，但图像的像素个数可能会大于这个值，所以从图上也能知道这个 Data sub-Blocks是有可能接连出现很多个的。
Data Sub-Block(s)：表示有效的字节块。
Block Terminator：表示 Image Data 的结束部分。

接着看一下示例中对应的字节：

02 16 8C 2D 99 87 2A 1C DC 33 A0 02 75 EC 95 FA A8 DE 60 8C 04 91 4C 01 00

02 表示 LZW Minimum Code Size。
16（十六进制）表示后面紧跟着的 22 个字节用来表示下一帧的图像数据。
00 表示 Image Data 到此为止。

Trailer

从上面的示例看，最后还剩下一个字节 3B，这个在 GIF 中也有特殊含义，是尾部标记的意思，GIF 的字节内容到此就结束了。

Plain Text Extension、Application Extension和Comment Extension

最后还剩下上面三个 Extension，他们主要是为 GIF 提供一些额外的信息，本身的信息对实际的渲染没有多少影响。所以这里我也不多介绍，想深入了解的可以阅读一开始提到的两个网址。

总结

本文主要以 GIF 内部字节的格式作为出发点，简单介绍了十一种块。只有充分理解了各个块内部的含义，才能为其编写正确的解码器。但仅仅只了解各个块还是不够的，GIF 的图像数据采用的是 LZW 算法进行压缩，所以还需要对 LZW 有较深理解。在下一篇《GIF 与 LWZ》中我将结合本文中的示例图像，详细讲解如何通过 LWZ 对 GIF 的图像数据进行压缩和解压。