[系统运维] Linux 平均负载

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 系统运维 -> Linux 平均负载 -> 正文阅读

[系统运维]Linux 平均负载

本文首发自公众号「 LinuxOK 」，ID 为：Linux_ok。
关注公众号第一时间获取更新，分享不仅技术文章，还有关于职场生活的碎碎念。

在 Linux 系统中，所谓平均负载，指的是单位时间内，系统中处于可运行状态和不可中断状态的平均进程数，即平均活跃进程数，确切的说，是指活跃进程数的指数衰减平均值。具体算法暂不关注，这里简单理解为活跃进程数的平均值就可以。

1、uptime 命令的含义

在这里插入图片描述
?当前系统时间：13:35:55
?系统运行来多长时间：up 4:00
?正在登陆的用户数：7 users
?过去1分钟、5分钟、15分钟的平均负载：0.15，0.43，0.25

如上，uptime 命令为我们提供了三个不同时间间隔的平均值，方便我们分析系统负载的趋势：
?若最近 1 分钟、5 分钟、15 分钟的取值相差不大，说明系统负载平稳；
?若最近 1 分钟的值远大于15分钟的值，说明最近 1 分钟的负载在增加，需要我们持续观察分析。
?若最近 1 分钟的值远小于 15 分钟的值，说明系统的负载正在减少，15 分值分钟前有很大负载。

举例：在单核 CPU 系统上的平均负载依次为：1.66，0.43，6.32，说明系统负载整体在降低：
?系统负载最近 1 分钟内超载： (1.66 - 1) * 100 = 66%
?系统负载最近 5 分钟内正常，没有超载
?系统负载最近 15 分钟内（6.32 - 1）* 100 = 532%

在理想情况下平均负载应等于 CPU 的个数，但是当平均负载大于 CPU 个数就说明系统过载了么，这是不确定的，因为在 Linux内核中，平均负载的设计，关注的不仅仅是正在使用 CPU 的进程（CPU使用率），还包括来等待 CPU 和等待 IO 的进程。

为什么要这么设计？这是因为平均负载是为了反映系统对性能的需求量。假设我们想办法降低系统性能，如更换读写速度非常卡慢的磁盘，其他运行的程序、CPU 等都不变，那此时系统反映出来的对性能的需求量理应是增加的，即平均负载呈是增加趋势，然而如果平均负载关注的仅是 CPU 使用率，那就不增反减了。

2、不可中断睡眠状态对平均负载的影响

在前面的文章我们了解到进程的 D状态表示不可中断睡眠状态（Uninterruptible sleep），一般说明进程正跟硬件交互中，我们写一个简单的内核模块来构造进程处于 D 状态的现象，从而验证对系统平均负载的影响。

内核模块代码：

//说明：本代码逻辑并非十分完善，仅为了构造不可中断睡眠状态
#include <linux/module.h>
#include <linux/kernel.h>
#include <linux/init.h>
#include <linux/fs.h>
#include <linux/cdev.h>
#include <linux/device.h>
#include <linux/sched.h>

#define DEVICE_NAME "load_average_test"
static int major_num = 0;

static int load_average_test_open(struct inode *inode, struct file *file)
{
    printk("%s\n", __func__);
    return 0;
}

static int load_average_test_release(struct inode *inode, struct file *file)
{
    printk("%s\n", __func__);
    return 0;
}

static ssize_t load_average_test_write(struct file *file,
                               const char *buffer, size_t length, loff_t *offset)
{
    printk("%s %u\n", __func__, length);

    //设置线程为不可中断的睡眠状态
    __set_current_state(TASK_UNINTERRUPTIBLE);
    schedule();

    return length;
}

struct file_operations fops = {
    .owner = THIS_MODULE,
    .open = load_average_test_open,
    .release = load_average_test_release,
    .write = load_average_test_write,
};

int load_average_test_init(void)
{
    printk("kernel load average init.\n");

    major_num = register_chrdev(0, DEVICE_NAME, &fops);
    if (major_num < 0) {
        printk("Registering char device failed with %d\n", major_num);
        return major_num;
    }

    struct class *my_class_class = class_create(THIS_MODULE, DEVICE_NAME);
    if(IS_ERR(my_class_class))
    {
        printk("Err: failed in creating class.\n");
        return -1;
    }

    device_create(my_class_class, NULL, MKDEV(major_num, 0), NULL, DEVICE_NAME);
    return 0;
}

void load_average_test_exit(void)
{
    printk("kernel load average exit.\n");
}

module_init(load_average_test_init);
module_exit(load_average_test_exit);

MODULE_LICENSE("GPL");

Makefile：

obj-m += load_average.o

all:
    make -C /lib/modules/3.10.0-1127.el7.x86_64/build M=$(PWD) modules
clean:
    make -C /lib/modules/3.10.0-1127.el7.x86_64/build M=$(PWD) clean

编译内核代码需要注意，在 /lib/modules/ $(u n a m e ? r) / b u i l d 需要有内核代码，否则需要先下载。以我的 c e n t o s 7 环境为例， / l i b / m o d u l e s /$ (uname -r)/build 是一个软连接，目标目录并没有相关代码：
在这里插入图片描述
需要执行下载，重新创建软连接：

$ yum -y install kernel-devel.x86_64
$ rm /lib/modules/3.10.0-1127.el7.x86_64/build
$ ln -s /usr/src/kernels/3.10.0-1160.62.1.el7.x86_64 /lib/modules/3.10.0-1127.el7.x86_64/buil

在这里插入图片描述
编译：

应用程序代码：

#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <stdio.h>
#include <string.h>

int main()
{
    int fd = open("/dev/load_average_test", O_RDWR);
    if (fd < 0) {
        perror("open");
        return -1;
    }

    write(fd, "load_average_test", strlen("load_average_test"));

    close(fd);
    return 0;
}

编译：

$ gcc load_average_app.c -o load_average_app

加载内核模块后执行 load_average_app 程序：

$ insmod kernel_load_average.ko

在这里插入图片描述
此时使用 mpstat 查看系统 CPU 的执行情况，从 %idle为 100.00可知当前 CPU 是处于空闲状态的。

在这里插入图片描述
在使用 uptime 查看平均负载，单核系统下最近一分钟平均负载已经超过 2 了。

3、总结

平均负载反映的是系统整体的负载情况，日常工作中它是一个快速查看系统整体性能的方法法，而不单指 CPU 性能；比如有时候IO设备出现了瓶颈导致系统出现大量处于等待 IO 状态的进程，也会导致平均负载升高。所以当我们发现平均负载升高时，还要结合 mpstat、top 等命令，分析具体是什么原因导致的，是 CPU 使用率问题还是 IO 问题。