网络IO简介
服务器大部分都是运行在Linux下的,Linux中的IO模型跟我们服务器中的网络IO息息相关。
Linux中网络连接中每一个Socket对应着一个文件,一个文件对应着一个文件描述符,File Description 简称FD。FD中记载了Socket的接收状态。
网络IO的read分为两步: 1、等待其他网络将数据发送到当前系统的内核空间中 2、将数据从内核空间复制到用户空间中
网络IO模型
本文主要说下Linux中常用的四种网络IO模型: 1、阻塞 IO
进程就是由多个线程组成的,线程就能申请获取对应的网络数据。当线程调用recvfrom()获取对应的端口的网络数据的时候,如果数据还没有发送到内核空间中或者数据还未从内核空间中拷贝到用户空间中,就会阻塞。阻塞就是将线程挂起,让出CPU资源。等待数据拷贝完成后,就会唤醒线程来接着执行线程对应的程序。
2、非阻塞IO 非阻塞IO和阻塞IO的区别就是,当数据还未发送到内核空间,或者还未从内核空间拷贝到用户空间的时候,这时不会阻塞,而是返回一个error。
这样的话,线程需要采用轮询的方式来不断询问查看数据是否准备好了。
非阻塞IO适用于IO处理时间较短的业务,因为IO处理事件短,线程轮询一小会时间就能等待IO完成,然后就能继续执行对应的代码了。
短时间的轮询是要比线程挂起和唤醒消耗的资源要小。因为线程的挂起和唤醒会牵扯到线程的切换,需要保存线程上下文信息等操作。
如果是常见的轮询的话,还是将线程挂起比较好,因为轮询会一直占用CPU资源,而线程挂起会将CPU资源让出,供其他线程使用。
3、IO复用 IO复用其实就是对阻塞IO的改进。阻塞IO中每个IO都需要一个线程来读取。有两个缺点: 1、每个IO对应一个线程,会大量的消耗内存。 2、线程数量多的话,就导致线程之间的频繁切换,线程的频繁切换也会造成资源浪费。
所以Linux提供了IO复用,也就是通过一个线程来监视一个FD数组状态,也就是一个线程负责多个IO。这样的话,能够处理更多的连接。但是IO复用一般比非阻塞IO的速度慢,毕竟是一个线程处理的,后面的IO肯定延迟高一点。
Linux中提供了select、poll、epoll三种复用方式。 select select允许传入一个FD数组,然后遍历这个FD数组。FD数组对应着需要监视的Socket数组。如果有一个FD就绪了,就运行相关的处理事件。如果遍历完之后,没有发现就绪的FD,就将线程挂起,添加到每个FD对应的等待队列中。当某一个FD就绪的时候,会将对应FD的标志位设置为就绪,然后会将线程唤醒,线程会遍历FD数组,如果遍历到的FD的标志位为就绪,就执行其对应的操作。效率为O(n);
因为select传入的是数组,数组要求的是连续空间,所以有数量限制,最大为1024.
poll poll和select大概一致,只不过传入的是链表,链表不需要连续的空间,所以监视的FD个数要多于select。数量为65535,但是效率仍为O(n).
epoll epoll做出了重大改进,epoll维护了一个红黑树和一个就绪链表。被监听的socket将其加入到红黑树中,并且为socket注册回调方法。当对应的socket就绪后,会向CPU发出中断,然后CPU会调用其回调方法,将对应的socket指针信息包装成节点加入到就绪链表中,然后唤醒线程来遍历就绪链表,线程通过就绪链表节点中的指针信息来获取对应的socket,然后执行socket对应的操作。
epoll的效率升级为了O(1)。
4、异步IO 当线程调用异步IO的时候,如果数据还未发送到内核空间或者数据还被拷贝到用户空间,就会立即继续执行线程对应的程序。线程在调用异步IO的时候,会传入一个回调函数,当IO完成后,会通知线程调用回调函数。这时就做到了CPU和IO的并行处理。
|