本文首发自公众号「 LinuxOK 」,ID 为:Linux_ok。 关注公众号第一时间获取更新,分享不仅技术文章,还有关于职场生活的碎碎念。
在 Linux 系统中,所谓平均负载,指的是单位时间内,系统中处于可运行状态和不可中断状态的平均进程数,即平均活跃进程数,确切的说,是指活跃进程数的指数衰减平均值。具体算法暂不关注,这里简单理解为活跃进程数的平均值就可以。
1、uptime 命令的含义
?当前系统时间:13:35:55 ?系统运行来多长时间:up 4:00 ?正在登陆的用户数:7 users ?过去1分钟、5分钟、15分钟的平均负载:0.15,0.43,0.25
如上,uptime 命令为我们提供了三个不同时间间隔的平均值,方便我们分析系统负载的趋势: ?若最近 1 分钟、5 分钟、15 分钟的取值相差不大,说明系统负载平稳; ?若最近 1 分钟的值远大于15分钟的值,说明最近 1 分钟的负载在增加,需要我们持续观察分析。 ?若最近 1 分钟的值远小于 15 分钟的值,说明系统的负载正在减少,15 分值分钟前有很大负载。
举例:在单核 CPU 系统上的平均负载依次为:1.66,0.43,6.32,说明系统负载整体在降低: ?系统负载最近 1 分钟内超载: (1.66 - 1) * 100 = 66% ?系统负载最近 5 分钟内正常,没有超载 ?系统负载最近 15 分钟内 (6.32 - 1)* 100 = 532%
在理想情况下平均负载应等于 CPU 的个数,但是当平均负载大于 CPU 个数就说明系统过载了么,这是不确定的,因为在 Linux内核中,平均负载的设计,关注的不仅仅是正在使用 CPU 的进程(CPU使用率),还包括来等待 CPU 和等待 IO 的进程。
为什么要这么设计?这是因为平均负载是为了反映系统对性能的需求量。假设我们想办法降低系统性能,如更换读写速度非常卡慢的磁盘,其他运行的程序、CPU 等都不变,那此时系统反映出来的对性能的需求量理应是增加的,即平均负载呈是增加趋势,然而如果平均负载关注的仅是 CPU 使用率,那就不增反减了。
2、不可中断睡眠状态对平均负载的影响
在前面的文章我们了解到进程的 D状态表示不可中断睡眠状态(Uninterruptible sleep),一般说明进程正跟硬件交互中,我们写一个简单的内核模块来构造进程处于 D 状态的现象,从而验证对系统平均负载的影响。
内核模块代码:
#include <linux/module.h>
#include <linux/kernel.h>
#include <linux/init.h>
#include <linux/fs.h>
#include <linux/cdev.h>
#include <linux/device.h>
#include <linux/sched.h>
#define DEVICE_NAME "load_average_test"
static int major_num = 0;
static int load_average_test_open(struct inode *inode, struct file *file)
{
printk("%s\n", __func__);
return 0;
}
static int load_average_test_release(struct inode *inode, struct file *file)
{
printk("%s\n", __func__);
return 0;
}
static ssize_t load_average_test_write(struct file *file,
const char *buffer, size_t length, loff_t *offset)
{
printk("%s %u\n", __func__, length);
__set_current_state(TASK_UNINTERRUPTIBLE);
schedule();
return length;
}
struct file_operations fops = {
.owner = THIS_MODULE,
.open = load_average_test_open,
.release = load_average_test_release,
.write = load_average_test_write,
};
int load_average_test_init(void)
{
printk("kernel load average init.\n");
major_num = register_chrdev(0, DEVICE_NAME, &fops);
if (major_num < 0) {
printk("Registering char device failed with %d\n", major_num);
return major_num;
}
struct class *my_class_class = class_create(THIS_MODULE, DEVICE_NAME);
if(IS_ERR(my_class_class))
{
printk("Err: failed in creating class.\n");
return -1;
}
device_create(my_class_class, NULL, MKDEV(major_num, 0), NULL, DEVICE_NAME);
return 0;
}
void load_average_test_exit(void)
{
printk("kernel load average exit.\n");
}
module_init(load_average_test_init);
module_exit(load_average_test_exit);
MODULE_LICENSE("GPL");
Makefile:
obj-m += load_average.o
all:
make -C /lib/modules/3.10.0-1127.el7.x86_64/build M=$(PWD) modules
clean:
make -C /lib/modules/3.10.0-1127.el7.x86_64/build M=$(PWD) clean
编译内核代码需要注意,在 /lib/modules/
(
u
n
a
m
e
?
r
)
/
b
u
i
l
d
需
要
有
内
核
代
码
,
否
则
需
要
先
下
载
。
以
我
的
c
e
n
t
o
s
7
环
境
为
例
,
/
l
i
b
/
m
o
d
u
l
e
s
/
(uname -r)/build 需要有内核代码,否则需要先下载。以我的 centos7 环境为例,/lib/modules/
(uname?r)/build需要有内核代码,否则需要先下载。以我的centos7环境为例,/lib/modules/(uname -r)/build 是一个软连接,目标目录并没有相关代码: 需要执行下载,重新创建软连接:
$ yum -y install kernel-devel.x86_64
$ rm /lib/modules/3.10.0-1127.el7.x86_64/build
$ ln -s /usr/src/kernels/3.10.0-1160.62.1.el7.x86_64 /lib/modules/3.10.0-1127.el7.x86_64/buil
编译: 应用程序代码:
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <stdio.h>
#include <string.h>
int main()
{
int fd = open("/dev/load_average_test", O_RDWR);
if (fd < 0) {
perror("open");
return -1;
}
write(fd, "load_average_test", strlen("load_average_test"));
close(fd);
return 0;
}
编译:
$ gcc load_average_app.c -o load_average_app
加载内核模块后执行 load_average_app 程序:
$ insmod kernel_load_average.ko
此时使用 mpstat 查看系统 CPU 的执行情况,从 %idle为 100.00可知当前 CPU 是处于空闲状态的。
在使用 uptime 查看平均负载,单核系统下最近一分钟平均负载已经超过 2 了。
3、总结
平均负载反映的是系统整体的负载情况,日常工作中它是一个快速查看系统整体性能的方法法,而不单指 CPU 性能;比如有时候IO设备出现了瓶颈导致系统出现大量处于等待 IO 状态的进程,也会导致平均负载升高。所以当我们发现平均负载升高时,还要结合 mpstat、top 等命令,分析具体是什么原因导致的,是 CPU 使用率问题还是 IO 问题。
本文首发自公众号「 LinuxOK 」,ID 为:Linux_ok。 关注公众号第一时间获取更新,分享不仅技术文章,还有关于职场生活的碎碎念。
|