一、GCC的同盟成员介绍
1.GCC的介绍
- GCC:GCC(GNU C Compiler)是编译工具。经过了这么多年的发展,GCC 已经不仅仅能支持 C 语言;它现在还支持 Ada 语言、C++ 语言、Java 语言、Objective C 语言、Pascal 语言、COBOL语言,以及支持函数式编程和逻辑编程的 Mercury 语言,等等。而 GCC 也不再单只是 GNU C 语 言编译器的意思了,而是变成了
- GNU Compiler Collection 也即是 GNU 编译器家族的意思了。另 一方面,说到 GCC对于操作系统平台及硬件平台支持,概括起来就是一句话:无所不在。
2.同盟成员之Binutils
- Binutils:Binutils是一组二进制程序处理工具,包括:addr2line、ar、objcopy、objdump、as、ld、ldd、readelf、 size 等。这 一组工具是开发和调试不可缺少的工具
工具名称 | 作用 |
---|
addr2line | 程序地址转换成其所对应的程序源文件及所对应的代码行,可以得到所对应的函数,帮助调试器在调试的过程中定位对应的源代码位置 | as | 主要用于汇编 | ld | 主要用于链接 | ar | 主要用于创建静态库 | ldd | 用于查看一个可执行程序依赖的共享库 | objcopy | 将一种对象文件翻译成另一种格式 | objdump | 主要的作用是反汇编 | readelf | 显示有关 ELF 文件的信息 | size | 列出可执行文件每个部分的尺寸和总尺寸,代码段、数据段、总小等 |
3.同盟成员之C 运行库
- C语言标准主要由两部分组成:一部分描述C的语法,另一部分描述C标准库。C标准库定义了一组标准头文件,每个头文件中包含一些相关的函数、变量、类型声明和宏定义,譬如常见的printf函数便是一个C标准库函数,其原型定义在stdio头文件中。
- C语言标准仅仅定义了C标准库函数原型,并没有提供实现。因此,C语言编译器通常需要一个C运行时库(C Run Time Libray,CRT)的支持。C运行时库又常简称为C运行库。与C语言类似,C++也定义了自己的标准,同时提供相关支持库,称为C++运行时库。
二、GCC的详细编译过程
1.编译的简介
- 对于一个程序,一步到位的编译指令是:
gcc test.c -o test 实质上,上述编译过程是分为四个阶段进行的,即预处理(也称预编译,Preprocessing)、编译 (Compilation)、汇编(Assembly)和连接(Linking)。
- 为了方便分析编译的过程,特举例说明,首先创建工作目录名为test4,然后创建一个名为test.c的文件,并写入如下代码:
#include <stdio.h>
int main(void)
{
printf("Hello World!\n");
return 0;
}
(若不会创建工作目录和文件,可参考博客:在Ubuntu下用gcc生成.a静态库和.so动态库)
2.预处理(Preprocessing)
预处理的过程主要包括以下过程:
- 将所有的#define 删除,并且展开所有的宏定义,并且处理所有的条件预编译指令,比如#if #ifdef #elif #else #endif等。
- 处理#include 预编译指令,将被包含的文件插入到该预编译指令的位置。
- 删除所有注释“//”和“/* */”。
- 添加行号和文件标识,以便编译时产生调试用的行号及编译错误警告行号。
- 保留所有的#pragma 编译器指令,后续编译过程需要使用它们。
- 指令:
gcc -E test.c -o test.i
如图,预处理的结果已经输出到文件test.i中,指令中gcc 的-E 选项,可以让编译器在预处理后停止,并输出预处理结果。
3.编译为汇编代码(Compilation)
编译过程就是对预处理完的文件进行一系列的词法分析,语法分析,语义分析及优化后生成相应的汇编代码。
- 在预处理之后,可直接对生成的
test.i 文件编译,生成汇编代码 - 指令:
gcc -S test.i -o test.s
gcc 的-S 选项,表示在程序编译期间,在生成汇编代码后,停止,-o 输出汇编代码文件。
4.汇编(Assembly)
- 汇编过程调用对汇编代码进行处理,生成处理器能识别的指令,保存在后缀为.o的目标文件中。由于每一个汇编语句几乎都对应一条处理器指令,因此,汇编相对于编译过程比较简单,通过调用 Binutils 中的汇编器—as,根据汇编指令和处理器指令的对照表一一翻译即可。
- 当程序由多个源代码文件构成时,每个文件都要先完成汇编工作,生成.o目标文件后,才能进入下一步的链接工作。注意:目标文件已经是最终程序的某一部分了,但是在链接之前还不能执行。
- 指令:
gcc -c test.s -o test.o 或者as -c hello.s -o hello.o
5.链接(Linking)
链接也分为静态链接和动态链接,其要点如下:
- 静态链接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行文件会比较大。链接器将函数的代码从其所在地(不同的目标文件或静态链接库中)拷贝到最终的可执行程序中。为创建可执行文件,链接器必须要完成的主要任务是:符号解析(把目标文件中符号的定义和引用联系起来和重定位(把符号定义和内存地址对应起来然后修改所有对符号的引用)。
- 动态链接则是指链接阶段仅仅只加入一些描述信息,而程序执行时再从系统中把相应动态库加载到内存中去。
- 对于上一小节中生成的
test.o ,将其与C标准输入输出库进行连接,最终生成程序test - 指令:
gcc test.o -o test - 现在执行test,验证编译过程是否正确
- 指令:./test
6.补充部分
(1) 多个程序文件的编译
通常整个程序是由多个源文件组成的,相应地也就形成了多个编译单元,使用 GCC 能够很好地管理 这些编译单元。
- 例如:
假设有一个由 test1.c 和 test2.c 两个源文件组成的程序,为了对它们进行编译,并最终生成可执行程序 test ,可以使用指令:gcc test1.c test2.c -o test
- 如果同时处理的文件不止一个,GCC 仍然会按照预处理、编译和链接的过程依次进行。如果深究起来,上面这条命令大致相当于依次执行三条命令:
gcc -c test1.c -o test1.o gcc -c test2.c -otest2.o gcc test1.o test2.o -o test
(2)检错
gcc -pedantic illcode.c -o illcode -pedantic
- 编译选项并不能保证被编译程序与 ANSI/ISO C 标准的完全兼容,它仅仅只能用来帮助Linux 程序员离这个目标越来越近。或者换句话说,-pedantic 选项能够帮助程序员发现一些不符合ANSI/ISO C 标准的代码,但不是全部,事实上只有ANSI/ISO C 语言标准中要求进行编译器诊断的那些情况,才有可能被 GCC 发现并提出警告。
- 除了-pedantic 之外,GCC 还有一些其它编译选项也能够产生有用的警告信息。这些选项大多以-W开头,其中最有价值的当数-Wall 了,使用它能够使 GCC 产生尽可能多的警告信息。
gcc -Wall illcode.c -o illcode
- GCC 给出的警告信息虽然从严格意义上说不能算作错误,但却很可能成为错误的栖身之所。一个优秀的 Linux 程序员应该尽量避免产生警告信息,使自己的代码始终保持标准、健壮的特性。所以将警告信息当成编码错误来对待,是一种值得赞扬的行为!所以,在编译程序时带上-Werror 选项,那么 GCC 会在所有产生警告的地方停止编译,迫使程序员对自己的代码进行修改。
gcc -Werror test.c -o test
(3)库文件连接
- 开发软件时,完全不使用第三方函数库的情况是比较少见的,通常来讲都需要借助许多函数库的支持才能够完成相应的功能。从程序员的角度看,函数库实际上就是一些头文件(.h)和库文件(so、或 lib、dll)的集合。
- 虽然 Linux 下的大多数函数都默认将头文件到/usr/include/目录下,而库文件则放到/usr/lib/目录下;Windows 所使用的库文件主要放在 Visual Stido 的目录下的 include 和 lib,以及系统文件夹下。但也有的时候,我们要用的库不再这些目录下,所以 GCC 在编译时必须用自己的办法来查找所需要的头文件和库文件。
三、ELF文件的分析
ELF是一种用于二进制文件、可执行文件、目标代码、共享库和核心转储的标准文件格式。 ELF标准的目的是为软件开发人员提供一组二进制接口定义,这些接口可延伸到多种操作系统中,从而减少重新编码、编译程序的需要。 ELF指的是一种文件格式,常用的扩展名为:o,so,elf,prx
名称 | 含义 |
---|
.text | 已编译程序的指令代码段 | .rodata | ro 代表 read only,即只读数据(譬如常数 const) | .data | 已初始化的 C 程序全局变量和静态局部变量 | .bss | 未初始化的 C 程序全局变量和静态局部变量 | .debug | 调试符号表,调试器用此段的信息帮助调试 |
- 可以使用 readelf -S 查看其各个 section 的信息,如图
- 指令:
readelf -S test
补充内容:反汇编
由于ELF文件无法被当做普通文本文件打开,如果希望直接查看一个ELF文件包含的指令和数据,使用 objdump -D 对其进行反汇编。
- 指令:
objdump -D test
四、总结
本文主要阐述了gcc编译的预处理、编译 、汇编和连接四个过程,介绍了四个过程的操作指令和对应的结果,使得读者能更清楚的了解编译的过程。补充阐述了多文件编译,检错,库文件连接,使读者对这三个内容有更深的了解。通过对ELF文件的分析,解释了汇编和反汇编,它们的操作指令以及其结果。希望本文能给各位读者提供帮助,若本文有错误的地方,请大佬斧正。
五、参考资料
ELF介绍 Linux GCC常用命令 GCC 编译器背后的故事
|