前言
GCC(GNU C Compiler)是编译工具。本文所要介绍的将 C/C++语言编写的程序转换成为处理器能够执行的二进制代码的过程即由编译器完成。
一、准备工作
由于 GCC 工具链主要是在 Linux 环境中进行使用,因此本文也将以 Linux 系统作为工作环 境。为了能够 演示编译的整个 过程,先创建一 个工作目test0,然后用文本编辑器生成一个 C 语言编写的简单 hello.c 程序为示例,其源代码如下所示
#include <stdio.h>
int main(void)
{
printf("Hello World! \n");
return 0;
}
二、编译过程
1. 预处理
预处理的过程主要包括以下过程: (1) 将所有的#define 删除,并且展开所有的宏定义,并且处理所有的条件预编译指令,比如#if #ifdef #elif #else #endif 等。 (2) 处理#include 预编译指令,将被包含的文件插入到该预编译指令的位置。 (3) 删除所有注释“//”和“/* */”。 (4) 添加行号和文件标识,以便编译时产生调试用的行号及编译错误警告号。 (5) 保留所有的#pragma 编译器指令,后续编译过程需要使用它们。
使用 gcc 进行预处理的命令如下: 将源文件 hello.c 文件预处理生成 hello.i,GCC 的选项-E 使 GCC 在进行完预处理后即停止。
2. 编译
编译过程就是对预处理完的文件进行一系列的词法分析,语法分析,语义分析及优化后生成相应的汇编代码。
使用 gcc 进行编译的命令如下: 将预处理生成的 hello.i 文件编译生成汇编程序 hello.s,GCC 的选项-S 使 GCC 在执行完编译后停止,生成汇编程序
3. 汇编
汇编过程调用对汇编代码进行处理,生成处理器能识别的指令,保存在后缀为.o的目标文件中。由于每一个汇编语句几乎都对应一条处理器指令,因此,汇编相对于编译过程比较简单,通过调用 Binutils 中的汇编器 as 根据汇编指令和处理器指令的对照表一一翻译即可。 当程序由多个源代码文件构成时,每个文件都要先完成汇编工作,生成.o 目标文件后,才能进入下一步的链接工作。注意:目标文件已经是最终程序的某一部分了,但是在链接之前还不能执行。
使用 gcc 进行汇编的命令如下: 将编译生成的 hello.s 文件汇编生成目标文件 hello.o,GCC 的选项-c 使 GCC 在执行完汇编后停止,生成目标文件。
注意:hello.o 目标文件为 ELF(Executable and Linkable Format)格式的可重定向文件。
4. 链接
链接也分为静态链接和动态链接,其要点如下: (1) 静态链接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行文件会比较大。链接器将函数的代码从其所在地(不同的目标文件或静态链接库中)拷贝到最终的可执行程序中。为创建可执行文件,链接器必须要完成的主要任务是:符号解析(把目标文件中符号的定义和引用联系起来)和重定位(把符号定义和内存地址对应起来然后修改所有对符号的引用)。
(2) 动态链接则是指链接阶段仅仅只加入一些描述信息,而程序执行时再从系统中把相应动态库加载到内存中去。
由于链接动态库和静态库的路径可能有重合,所以如果在路径中有同名的静态库文件和动态库文件,比如 libtest.a 和 libtest.so,gcc 链接时默认优先选择动态库,会链接libtest.so,如果要让 gcc 选择链接 libtest.a 则可以指定 gcc 选项-static,该选项会强制使用静态库进行链接。以 Hello World 为例:如果使用命令“gcc hello.c -o hello”则会使用动态库进行链接,生成的 ELF 可执行文件的大小(使用 Binutils 的 size 命令查看)和链接的动态库(使用 Binutils 的 ldd 命令查看)如下所示 ldd hello 可以看出该可执行文件链接了很多其他动态库,主要是 Linux 的 glibc 动态库 如果使用命令 gcc -static hello.c -o hello 则会使用静态库进行链接,生成的 ELF 可执行文件的大小(使用 Binutils 的 size 命令查看)和链接的动态库(使用 Binutils 的 ldd 命令查看)如下所示 由此可以看出 text 的代码尺寸变得极大 链接器链接后生成的最终文件为 ELF 格式可执行文件,一个 ELF 可执行文件通常被链接为不同的段,常见的段譬如.text、.data、.rodata、.bss 等段
三、分析 ELF 文件
1. ELF 文件的段
ELF 文件格式如下图所示,位于 ELF Header 和 Section Header Table 之间的都是段(Section)。一个典型的 ELF 文件包含下面几个段:
- text:已编译程序的指令代码段。
- rodata:ro 代表 read only,即只读数据(譬如常数 const)。
- data:已初始化的 C 程序全局变量和静态局部变量。
- bss:未初始化的 C 程序全局变量和静态局部变量。
- debug:调试符号表,调试器用此段的信息帮助调试。
可以使用 readelf -S 查看其各个 section 的信息如下:
2. 反汇编 ELF
由于 ELF 文件无法被当做普通文本文件打开,如果希望直接查看一个 ELF 文件包含的指令和数据,需要使用反汇编的方法。 使用 objdump -D 对其进行反汇编如下:
使用 objdump -S 将其反汇编并且将其 C 语言源代码混合显示出来:
|