什么是文件
文件*(file)* 通常是在磁盘或固态硬做上的一段已命名的存储区。对我们而言,stdio.h就是一个文件的名称,该文件中包含一些有用的信息。 然而,对操作系统而言,文件更复杂一些。例如,大型文件会被分开储存,或者包含些额外的数据, 方便操作系统确定文件的种类。然而,这都是操作系统所关心的,大多数程序员更关心的是C程序如何处理文件。C把文件看作是一系列连续的字 ,每个字节都能被单独读取。这与UNIX环境中(C的发源地)的文件结构相对应。由于其他环境中可能无法完全对应这个模型,C提供两种文件模式:文本模式和进制模式。
文本模式和二进制模式
首先,要区分文本内容和二进制内容、文本文件格式和二进制文件格式,以及文件的文本模式和二进制模式。
所有文件的内容都以二进制形式(0或1)储存。但是,如果文件最初使用二进编码的字符(例如,ASCII或Unicode)表示文本(就像C字符串那样),该文件就是文本文件,其中包含文本内容。如果文件中的二进制值代表机器语言代码或数值数据(使用相同的内部表示,假设,用于long或double类型的值)或图片或音乐编码,该文件就是二进制文件,其中包含二进制内容。
UNIX 用同一种文件格式处理文本文件和二进制文件的内容。不奇怪,鉴于C是作为开发UNIX的工具而创建的。C和UNIX在文本中都使用\n (换行符)表示换行,UNIX目录中有个统计文件大小的计数。程序可使用该计数确定是否读到文件结尾。然而,其他系统在此之前已经有其他方法处理文件,专门用于保存文本,也就是说,其他系统已经有种与 UNIX模型不同的格式处理文本文件。例如, 以前的OS X Macintosh文件用: \r (回车符)表示新的行。早期的MS-DOS文件用\r\n组合表示新的行。
为了规范文本文件的处理,C提供两种访问文件的途径:二进制模式和文本模式。在二进制模式中,程序可以访问文件的每个字节。而在文本模式中,程序所见的内容和文件的实际内容不同。程序以文本模式读取文件时,把本地环境表示的行末尾或文件结尾映射为C模式。例如,C程序在旧式Macintosh中以文本模式读取文件时,把文件中的\r转换成\n;以文本模式写入文件时,把\n转换成\r。或者,C文本模式程序在MS-DOS平台读取文件时,把\r\n 转换成\n;写入文件时,把\n转换成\r\n.在其他环境中编写的文本模式程序也会做类似的转换。
除了以文本模式读写文本文件,还能以二进制模式读写文本文件。如果读写一 个旧式 MS-DOS文本3件,程序会看到文件中的\r和\n字符,不会发生映射。如果要编写旧式Mac格式、MS-DOS格式或UNIX/Linux格式的文件模式程序,应该使用二进制模式,这样程序才能确定实际的文件内容并执行相应的动作。
虽然C提供了二进制模式和文本模式,但是这两种模式的实现可以相同。前面提到过,因为UNIX使用一种文件格式,这两种模式对于UNIX实现而言完全相同。Linux 也是如此。
I/O的级别
除了选择文件的模式,大多数情况下,还可以选择I/O的两个级别(即处理文件访问的两个级别)。底层I/O *(low-level I/O)*使用操作系统提供的基本I/O服务。标准高级I/O *(standard high-level I/O)*使用C库的标准包和stdio.h头文件定义。因为无法保证所有的操作系统都使用相同的底层I/O模型,C标准只支持标准I/O包。有些实现会提供底层库,但是C标准建立了可移植的I/O模型,我们主要讨论这些I/O.
标准文件
C程序会自动打开3个文件,它们被称为标准输入*(standard input)、标准输出(standard output)和标准错误榆出(standard error output)*。在默认情况下,标准输入是系统的普通输入设备,通常为键盘:标准输出和标准错误输出是系统的普通输出设备,通常为显示屏。通常,标准输入为程序提供输入,它是getchar()和scanf ()使用的文件。程序通常输出到标准输出,它是putchar()、puts()和printf )使用的文件。标准错误输出提供了一个逻辑上不同的地方来发送错误消息。例如,如果使用重定向把输出发送给文件而不是屏幕,那么发送至标准错误输出的内容仍然会被发送到屏幕上。这样很好,因为如果把错误消息发送至文件,就只能打开文件才能看到。
标准I/O
与底层I/O相比,标准I/O包除了可移植以外还有两个好处。第一,标准I/O有许多专门的函数简化了处理不同I/O的问题。例如,printf()把不同形式的数据转换成与终端相适应的字符串输出,第二,输入和输出都是缓冲的,也就是说,一次转移大块信息而不是字节信息 (通常至少512字节)。例如,当程序读取文件时,一块数据被拷贝到缓冲区 (一块中介存储区域)。这种缓冲极大地提高了数据传输速率。程序可以检查缓冲区中的字节。缓冲在后台处理,所以让人有逐字符访问的错觉(如果使用底层I/O,要自己完成大部分工作)。
以下程序演示了如何用标准I/O读取文件和统计文件中的字符数。该程序使用命令行参数,如果你是Windows用户,在编译后必须在命令提示窗口运行该程。(也可以用fgets()替换命令行参数来获取文件名)
#include<stdio.h>
#include<stdlib.h>
int main(int argc, char* argv[])
{
int ch;
FILE* fp = NULL;
unsigned long count = 0;
if (argc != 2)
{
printf("Usage : %s filename \n", argv[0]);
exit(EXIT_FAILURE);
}
if (fopen_s(&fp, argv[1], "r") != 0)
{
printf("Can't open %s \n", argv[1]);
exit(EXIT_FAILURE);
}
while ((ch = getc(fp)) != EOF)
{
putc(ch, stdout);
count++;
}
fclose(fp);
printf("File %s has %lu characters\n", argv[1], count);
return 0;
}
检查命令行参数
首先,程序检查arge的值,查看是否有命令行参数。 如果没有,程序将打印一条消息并退出程序。字符串argv[0]是该程序的名称。显式使用argv[0而不是程序名,错误消息的描述会随可执行文件名的改变而自动改变,这特性在像 UNIX这种允许单个文件具有多个文件名的环境中也很方便。但是,有些操作系统可能不识别argv[0]。 所以这种用法并非完全可移植。
exit()函数关闭所有打开的文件并结束程序。exit()的参数被传递给些操作系统,包括UNIX、Linux. Windows 和Ms-DOS,以供其他程序使用,通常的惯例是:正常结束的程序传递0,异常结束的程序传递非零值。不同的退出值可用于区分程序失败的不同原因,这也是UNIX和DOS编程的通常做法,但是,并不是所有的操作系统都能识别相同范围内的返回值。因此,C标准规定了一个最小的限制范围,尤其是,标准要求0或宏EXIT_SUCCESS用于表明成功结束程序,宏EXIT_FAILURE用于表明结束程序失败。这些宏和exit()原型都位于stdlib.h头文件中。
根据ANSI C的规定,在最初调用的main()中使用return 与调用exit()的效果相同,因此,在main(),return 0;和exir(0)作用相同。
但是要注意,我们说的是“最初的调用”。如果main()在一个递归程序中,exit() 仍然会终止程序,但是return只会把控制权交给上一级递归,直至最初的一级。然后return结束程序。return和exit()的另一个区别是,即使在其他函数中(除main()以外)调用exit()也能结束整个程序。
fopen()函数
继续分析程序, 该程序使用fopen()函数打开文件。该函数声明在stdio.h中。它的第一个参数是待打开文件的名称,更确切地说是一个包含改文件名的字符串地址。第2个参数是一个字符串,指定待打开文件的模式。下表列出了C库提供的一些模式。
模式字符串 | 含义 |
---|
“r” | 以读模式打开文件 | “w” | 以写模式打开文件,把现有文件长度截为0,如果文件不存在,则创建一个新文件 | “a” | 以写模式打开文件,在现有文件末尾添加内容,如果文件不存在,则创建一个新文件 | “r+” | 以更新模式打开文件(即可以读写文件) | “w+” | 以更新模式打开文件,如果文件存在,把现有文件长度截为0,如果文件不存在,则创建一个新文件 | “a+” | 以更新模式打开文件,如果文件存在,在现有文件末尾添加内容,如果文件不存在,则创建一个新文件 | “rb” “wb” “ab” “ab+” “a+b” “wb+” “w+b” | 与上一个模式相似,但是以二进制模式而不是文本模式打开文件 | ”wx" “wbx” “w+x” “wb+x” “w+bx” | (C11)类似非x模式,但是如果文件已存在或已独占模式打开文件,则打开失败 |
像UNIX和Linux这样只有一种文件类型的系统, 带b字母的模式和不带b字母的模式相同。
新的C11新增了带x字母的写模式,与以前的写模式相比具有更多特性。第一,如果以传统的一种写模式打开一个现有文件,fopen() 会把该文件的长度截为0,这样就丢失了该文件的内容。但是使用带x字母的写模式,即使fopen()操作失败,原文件的内容也不会被删除。第二,如果环境允许,x模式的独占特性使得其他程序或线程无法访问正在被打开的文件。
tips:如果使用任何一种"w”模式(不带x字母)打开一个现有文件,该文件的内容会被删除,以便程序在一个空白文件中开始操作。然而,如果使用带x字母的任何一种模式,将无法打开一个现有文件。
程序成功打开文件后,fopen() 将返回文件指针*(file pointer)*,其他I/O函数可以使用这个指针指定该文件。文件指针(该例中是fp)的类型是指向FILE的指针,FILE是一个定义在stdio.h中的派生类型。文件指针fp并不指向实际的文件,它指向一个包含文件信息的数据对象,其中包含操作文件的I/O函数所用的缓冲区信息。因为标准库中的I/O函数使用缓冲区,所以它们不仅要知道缓冲区的位置,还要知道缓冲区被填充的程度以及操作哪一个文件。标准I/O函数根据这些信息在必要时决定再次填充或清空缓冲区。fp指向的数据对象包含了这些信息。
getc()函数和putc()函数
getc()和putc()函数与getchar ()和putchar ()函数类似。所不同的是,要告诉getc()和putc()函数使用哪个文件。 下面这条语句的意思是“从标准输入中获取一个字符”: ch = getchar() ; 然而,下面这条语句的意思是 “从fp指定的文件中获取一个字符”: ch中getc(fp); 与此类似,下面语句的意思是“把字符ch放入FILE指针fpout指定的文件中”: putc(ch, fpout) ; 在putc()函数的参数列表中,第1个参数是待写入的字符,第2个参数是文件指针。 程序把stdout作为putc()的第2个参数。stdout 作为与标准输出相关联的文件指针,定义在stdio.h中,所以putc(ch, stdout)与putchar (ch)的作用相同。实际上,putchar()函数一般通过patc()来定义。 与此类似,getchar() 也通过使用标准输入的getc()来定义。
为何该例不用putchar()而要用putc()?原因之一是为了介绍putc()函数:原因之二是,把stdout替换成别的参数,很容易将这段程序改写成文件输出。
文件结尾
从文件中读取数据的程序在读到文件结尾时要停止。如何告诉程序已经读到文件结尾?如果getc()函数在读取一个字符时发现是文件结尾,它将返回一个特殊值EOF。所以C程序只有在读到超过文件末尾时才会发现文件的结尾(一些其他语言用一个特殊的函数在读取之前测试文件结尾,C语言不同)。
为了避免读到空文件,应该使用入口条件循环(不是do while循环) 进行文件输入。鉴于getc()(和其他C输入函数)的设计,程序应该在进入循环体之前先尝试读取。如下面设计所示:
fclose()函数
fclose(fp)函数关闭fp指定的文件,必要时刷新缓冲区。对于较正式的程序,应该检查是否成功关闭文件。如果成功关闭,fclose() 函数返回0,否则返回EOF:
if (fclose(fp) != 0)
printf("Error in closing file &s\n", argv[1]);
如果磁盘已满、移动硬盘被移除或出现I/O错误,都会导致调用fclose ()函数失败。
|