浮点型及其存储方式

有些时候需要变量能存储带小数点的数，或者能存储极大数或极小数。这类数可以用浮点(因小数点是“浮动的”而得名)格式进行存储。C语言提供了3种浮点类型，对应三种不同的浮点格式。

当精度要求不严格时(小数点后少于六位)，float类型是很适合的类型。double提供更高的精度，对绝大多数程序来说够用了。longdouble支持极高精度的要求，很少会用到。

C标准没有说明float、double和long double类型提供的的精度到底是多少，因为不同计算机可以用不同方法存储浮点数。大多数现代计算机遵循IEEE754标准(即IEC 60559) 的规范，所以这里也将它作为一个示例。

一、IEEE浮点标准

由IEEE开发的IEEE标准提供了两种主要的浮点数格式：单精度(32位) 和双精度(64位)。数值以科学记数法的形式存储，每一个数都由三部分组成：符号、指数和小数。指数部分的位数说明了数值的可能大小程度，而小数部分的位数说明了精度。单精度格式中，指数长度为8位，而小数部分占了23位。因此，单精度数可以表示的最大值大约是3.40×10³⁸，其中精度是6个十进制数字。

IEEE标准还描述了另外两种格式：单扩展精度和双扩展精度。标准没有指明这些格式中的位数，但要求单扩展精度类型至少为43位，而双扩展精度类型至少为79位。

类型	最小值	最大值	精度	备注
●float	1.175 49×10^-38	3.402 82×10³⁸	小数点后6位	单精度32位
●double	2.225 07×10^-308	1.797 69×10³⁰⁸	小数点后15位	双精度64位

上表给出了根据IEEE标准实现的浮点类型特征。[表中给出了规范化的最小正值，非规范化的数可以更小。] long double类型没有显示在此表中，因为它的长度随着机器的不同而变化，而最常见的大小是80位和128位。

二、存储方式

? 对于浮点型数据，首先我们需要明白的一点是：浮点数和整型数的编码方式是不一样的，IEEE浮点标准采用如下形式来标识一个浮点数。

V = (-1)^S M 2^E

(-1)^S 表示符号位，当S=0时，表示正数，当S=1时，表示负数。
M 表示有效数字，是一个二进制小数，其值大于等于1，小于2。
2^E 表示指数位。

在这里插入图片描述

下面，我将用float作为例子，double道理也是一样的，只是位数有所不同。

例如：十进制数：88.8125 —> 二进制为：101 1000.1101
然后将101 1000.1101化成上述公式M的形式，其范围是[1,2)，所以将小数点左移6位，得到1.0110001101×2⁶（这里不懂的话对比十进制，小数点左移一位乘以10，二进制则乘以2）。

最后得到S = 0、M = 1.0110001101、E = 6，但是事情并没有那么简单，我们接着往下看。

IEEE 754对有效数字M和指数E的规定。

1、有效数字M：

1<=M<2,也就是说，M写成1.xxx……的形式，其中xxx……表示小数部分。

IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存小数部分。比如保存1.0110001101时，只保存0110001101，后面的位数补0就可以了，等到读取的时候，再把第一位的1补上去。

2、指数E:

首先，E为一个无符号整数（unsigned int）

如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法是可以出现负数的，所以IEEE 754规定，存入内存的E是真实值加上一个中间数，对于8位的E，中间数是127，对于11位的E，中间数是1023。比如，2⁶ 的E是6，所以保存为32位浮点数时，必须保存为6+127=133，即10000101。