程序预处理
本章节研究的是,源代码文件test.c 是如何一步步得到一个可执行程序test.exe 的。在之前的学习中可知.c 文件要先后经过编译链接成.exe 文件再执行。
程序的编译链接运行如下图所示。翻译中编译又包括预编译、编译、汇编。
编译链接执行三个步骤,都需要为其配置不同的环境。编译和链接在翻译环境中,而执行在运行环境中发生。
- 翻译环境:在该环境中源代码被转换成可执行的机器指令。
- 执行环境:用于实际执行代码。
程序的翻译环境
翻译阶段的大致流程如下图所示。
组成一个程序的每个.c 源文件都会被编译器编译,分别生成对应的.obj 目标文件。多个目标文件以及引入的链接库被链接器链接在一起,形成一个单一的.exe 可执行程序。
编译器即是一个用于编译代码的工具,在vs环境下为cl.exe 的可执行程序。连接器则是用于链接所有目标文件的工具,在vs中为link.exe 的可执行程序,链接库是标准中任何被该程序用到的函数。如图:
而若想观察翻译代码过程中的每一个流程的具体细节,在集成开发环境vs 中不便展示,当然我们可以使用Linux 环境下的gcc 编译器。
此次演示就采用加法函数,分别存放在两个文件test.c 和add.c 。
int Add(int x, int y)
{
int sum = x + y;
return sum;
}
#include <stdio.h>
extern int Add(int x, int y);
int main()
{
int a = 10;
int b = 20;
int ret = 0;
ret = Add(a, b);
printf("ret = %d\n", ret);
return 0;
}
预编译
Linux环境下编写完test.c 文件的代码后,输入gcc test.c -E 可以将代码预编译的结果输出到屏幕上。还可以用gcc test.c -E -o test.i 是将结果输出到文件test.i 。
如#include ,#define ,#pragma 的语句被称为预处理指令,还有注释文本的删除,都在此阶段完成替换。
所有可以看出预编译阶段的动作都是文本操作:
#include 头文件的包含#define 预处理符号的替换- 删除注释
预编译,顾名思义,是在编译前删减代码中的不必要的与机器识别代码无关的内容。被称为文本操作。
编译
对预编译产生的文件test.i 再编译gcc test.i -S ,会自动生成汇编代码test.s 。
故编译阶段是将C语言代码转化为汇编代码,这是整体现象。实际上会发生这四个动作:
- 词法分析,语法分析,语义分析
词法分析,语法分析,语义分析都是编译器识别语句的操作。重点是接下接下来的符号汇总。
- 符号汇总
符号汇总,是只对全局符号进行汇总,局部符号是不进行汇总的。目的是能够将所有文件中的代码组合到一起成一个完整的程序。如add.c 文件中的函数名Add ,还有test.c 文件中的Add 和main 。
汇编
gcc test.s -C 将编译结束产生的汇编代码转化成了二进制指令(机器指令)存入二进制文件test.o 中。
汇编阶段会形成符号表,因为机器在调用指令时需要知道其存放的位置,所谓符号表大概就是符号和其地址的集合。如图,可以假设:
链接
链接将二进制指令目标文件test.o 等,链接在一起形成可执行程序test.out 。目标文件test.o 是elf 格式文件,在Linux平台下可以用readelf 翻译并查看其内容。
链接阶段的动作是:
- 合并段表
所谓的链接,就是将对应的段合并起来。
- 符号表的合并和重定位
符号表的合并,是将各自的符号表合并到一起。如test.o 中的Add 的无效地址,需把add.o 中Add 的地址合并过去再重定位到变量的真实地址,才是有意义的。
从编译期间的符号汇总,到汇编时的形成符号表,再到链接时的合并和重定位符号表,都是为了最后生成可执行程序时能够找到并链接各个文件中的符号。
程序的执行环境
-
程序首先载入内存 有的机器上有操作系统,这个动作就是由操作系统完成,没有的由手工完成。 -
执行调用main 函数 -
创建函数栈帧 程序使用一个运行时堆栈,存储函数的局部变量和返回地址。 -
终止程序 可以正常也可以意外终止程序。
程序的执行并不是本章的要点,所以就大概介绍一下。
|