当超强的光芒降临,映入眼帘的只有黑暗。
1. 简介
前几天逛知乎看到了一个项目,名叫 c4,号称用 4 个函数来实现了一个小型 C 语言编译器。它用很少的代码就完成了一个功能相当完善的 C 语言编译器。它还有一个厉害之处在于,它是能够自己编译自己的。
先附上项目链接: c4 - C in four functions
自己最近刚好想要学习一些编译器相关的内容,也想玩一下开源项目。这样一个小型的编译器项目可谓是可遇不可求。把项目clone下来之后把玩一下,就萌生了用C++重写这个编译器的想法。于是fork到自己的仓库,开始了改造之旅,本系列就是为了记录改造的过程,既是对自己学习到的内容的记录和小结,也是作为自己的输出(所谓输出倒逼输入)。
也放一下自己的项目链接:C4 with C++
开始之初设定了几个目标:
- 保证功能的正确性,至少不回退;
- 使用cmake管理项目;
- 为项目添加测试用例;
- 理清代码流程并尽可能使用C++的各类特性进行重构;
刚好也踏出了心心念念好久的,自己工程实践的第一步:从零开始搭建cmake工程,从零开始基于gtest搭建测试程序。
2. 开工
首先保留原项目文件不动的前提下,新建了./cpp 文件夹,用来存放自己的程序文件。 文件准备完成后使用g++ 开始编译,虽然C++号称C的超集,但是由于C++编译器的很多安全考虑,使用C++ 编译器编译c 文件是可能出现编译报错的。这个项目当时很可能是基于32位的机器编写的,所以很多指针强转的值是使用int存放的,这在64的机器上很容易溢出,原作者添加了一个宏定义用来解决这个问题:
#define int long long
这样虽然以最小的工作量规避了溢出的问题,但却使得程序内无法使用真正的int 类型。C++程序要求主函数的返回值是int 型的,所以我的第一个编译错误即来源于此。我删除了原作者的宏定义,并在程序中搜索int 关键字,把存在溢出风险的地方手动替换为了long long 类型。然后开始消除编译告警,基本上也是C 风格的指针强转引入的。
完成文件迁移并解决完编译错误和编译告警之后,把一些enum常量挪到了头文件之后,项目的基线代码就成型了,添加一个commit ,推送到远端仓库!
3. 使用cmake管理工程
本cmake 小白被公司的大型cmake工程搞的欲仙欲死,很早就有想法希望自己从头搭建一个cmake工程,了解一下一个最简单的CMakeLists.txt 包含哪些内容。但迟迟没有行动,这次也是一个契机,加上工作中积累的微薄经验,这次很顺利地就打通了。
参考的教程主要是这篇:CMake从入门到精通(一)Hello World
4. 基于gtest搭建测试流程,并为测试程序也引入cmake
其实还没有想好这个项目该怎么加用例,但是先把框架搭好总归没有问题。 环境搭建主要参考这篇:[Ubuntu]GTest安装和测试
CMakeLists.txt的编写主要参考这篇:Ubuntu篇 在ubuntu上源码编译gtest,编写gtest-config.cmake并测试
5. 下一步计划
当前的测试还没有真正测到项目代码,下一步打算首先能够测到项目的代码,考虑先把当前主函数封一个函数整体测一下,然后拆分大函数,再针对各个小函数写单元测试。写单元测试的过程也是熟悉代码的过程,有了UT,重构也就更加可以放开手脚了。
|