Cgroups是什么?
cgroups(Control Groups) 是 linux 內(nèi)核提供的一種機(jī)制,這種機(jī)制可以根據(jù)需求把一系列系統(tǒng)任務(wù)及其子任務(wù)整合(或分隔)到按資源劃分等級的不同組內(nèi),從而為系統(tǒng)資源管理提供一個統(tǒng)一的框架。簡單說,cgroups 可以限制、記錄任務(wù)組所使用的物理資源。本質(zhì)上來說,cgroups 是內(nèi)核附加在程序上的一系列鉤子(hook),通過程序運(yùn)行時對資源的調(diào)度觸發(fā)相應(yīng)的鉤子以達(dá)到資源追蹤和限制的目的。
本文以 Ubuntu 16.04 系統(tǒng)為例介紹 cgroups,所有的 demo 均在該系統(tǒng)中演示。
為什么要了解 cgroups
在以容器技術(shù)為代表的虛擬化技術(shù)大行其道的時代了解 cgroups 技術(shù)是非常必要的!比如我們可以很方便的限制某個容器可以使用的 CPU、內(nèi)存等資源,這究竟是如何實(shí)現(xiàn)的呢?通過了解 cgroups 技術(shù),我們可以窺探到 linux 系統(tǒng)中整個資源限制系統(tǒng)的脈絡(luò)。從而幫助我們更好的理解和使用 linux 系統(tǒng)。
cgroups 的主要作用
實(shí)現(xiàn) cgroups 的主要目的是為不同用戶層面的資源管理提供一個統(tǒng)一化的接口。從單個任務(wù)的資源控制到操作系統(tǒng)層面的虛擬化,cgroups 提供了四大功能:
- 資源限制:cgroups 可以對任務(wù)是要的資源總額進(jìn)行限制。
- 比如設(shè)定任務(wù)運(yùn)行時使用的內(nèi)存上限,一旦超出就發(fā) OOM。
- 優(yōu)先級分配:通過分配的 CPU 時間片數(shù)量和磁盤 IO 帶寬,實(shí)際上就等同于控制了任務(wù)運(yùn)行的優(yōu)先級。
- 資源統(tǒng)計:cgoups 可以統(tǒng)計系統(tǒng)的資源使用量,比如 CPU 使用時長、內(nèi)存用量等。這個功能非常適合當(dāng)前云端產(chǎn)品按使用量計費(fèi)的方式。
- 任務(wù)控制:cgroups 可以對任務(wù)執(zhí)行掛起、恢復(fù)等操作。
相關(guān)概念
Task(任務(wù)) 在 linux 系統(tǒng)中,內(nèi)核本身的調(diào)度和管理并不對進(jìn)程和線程進(jìn)行區(qū)分,只是根據(jù) clone 時傳入的參數(shù)的不同來從概念上區(qū)分進(jìn)程和線程。這里使用 task 來表示系統(tǒng)的一個進(jìn)程或線程。
Cgroup(控制組) cgroups 中的資源控制以 cgroup 為單位實(shí)現(xiàn)。Cgroup 表示按某種資源控制標(biāo)準(zhǔn)劃分而成的任務(wù)組,包含一個或多個子系統(tǒng)。一個任務(wù)可以加入某個 cgroup,也可以從某個 cgroup 遷移到另一個 cgroup。
Subsystem(子系統(tǒng)) cgroups 中的子系統(tǒng)就是一個資源調(diào)度控制器(又叫 controllers)。比如 CPU 子系統(tǒng)可以控制 CPU 的時間分配,內(nèi)存子系統(tǒng)可以限制內(nèi)存的使用量。以筆者使用的 Ubuntu 16.04.3 為例,其內(nèi)核版本為 4.10.0,支持的 subsystem 如下( cat /proc/cgroups):
blkio 對塊設(shè)備的 IO 進(jìn)行限制。
cpu 限制 CPU 時間片的分配,與 cpuacct 掛載在同一目錄。
cpuacct 生成 cgroup 中的任務(wù)占用 CPU 資源的報告,與 cpu 掛載在同一目錄。
cpuset 給 cgroup 中的任務(wù)分配獨(dú)立的 CPU(多處理器系統(tǒng)) 和內(nèi)存節(jié)點(diǎn)。
devices 允許或禁止 cgroup 中的任務(wù)訪問設(shè)備。
freezer 暫停/恢復(fù) cgroup 中的任務(wù)。
hugetlb 限制使用的內(nèi)存頁數(shù)量。
memory 對 cgroup 中的任務(wù)的可用內(nèi)存進(jìn)行限制,并自動生成資源占用報告。
net_cls 使用等級識別符(classid)標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)包,這讓 Linux 流量控制器(tc 指令)可以識別來自特定 cgroup 任務(wù)的數(shù)據(jù)包,并進(jìn)行網(wǎng)絡(luò)限制。
net_prio 允許基于 cgroup 設(shè)置網(wǎng)絡(luò)流量(netowork traffic)的優(yōu)先級。
perf_event 允許使用 perf 工具來監(jiān)控 cgroup。
pids 限制任務(wù)的數(shù)量。
Hierarchy(層級) 層級有一系列 cgroup 以一個樹狀結(jié)構(gòu)排列而成,每個層級通過綁定對應(yīng)的子系統(tǒng)進(jìn)行資源控制。層級中的 cgroup 節(jié)點(diǎn)可以包含零個或多個子節(jié)點(diǎn),子節(jié)點(diǎn)繼承父節(jié)點(diǎn)掛載的子系統(tǒng)。一個操作系統(tǒng)中可以有多個層級。
cgroups 的文件系統(tǒng)接口
cgroups 以文件的方式提供應(yīng)用接口,我們可以通過 mount 命令來查看 cgroups 默認(rèn)的掛載點(diǎn):
復(fù)制代碼 代碼如下:
$ mount | grep cgroup
![](/d/20211016/a4c87b1b720600c8f0969e6dfc3b2297.gif)
第一行的 tmpfs 說明 /sys/fs/cgroup 目錄下的文件都是存在于內(nèi)存中的臨時文件。
第二行的掛載點(diǎn) /sys/fs/cgroup/systemd 用于 systemd 系統(tǒng)對 cgroups 的支持,相關(guān)內(nèi)容筆者今后會做專門的介紹。
其余的掛載點(diǎn)則是內(nèi)核支持的各個子系統(tǒng)的根級層級結(jié)構(gòu)。
需要注意的是,在使用 systemd 系統(tǒng)的操作系統(tǒng)中,/sys/fs/cgroup 目錄都是由 systemd 在系統(tǒng)啟動的過程中掛載的,并且掛載為只讀的類型。換句話說,系統(tǒng)是不建議我們在 /sys/fs/cgroup 目錄下創(chuàng)建新的目錄并掛載其它子系統(tǒng)的。這一點(diǎn)與之前的操作系統(tǒng)不太一樣。
下面讓我們來探索一下 /sys/fs/cgroup 目錄及其子目錄下都是些什么:
![](/d/20211016/680783857ec5cad171cc679f41d9afe2.gif)
/sys/fs/cgroup 目錄下是各個子系統(tǒng)的根目錄。我們以 memory 子系統(tǒng)為例,看看 memory 目錄下都有什么?
![](/d/20211016/b9916de8793a5eddccbbf7c1affbfe6e.gif)
這些文件就是 cgroups 的 memory 子系統(tǒng)中的根級設(shè)置。比如 memory.limit_in_bytes 中的數(shù)字用來限制進(jìn)程的最大可用內(nèi)存,memory.swappiness 中保存著使用 swap 的權(quán)重等等。
既然 cgroups 是以這些文件作為 API 的,那么我就可以通過創(chuàng)建或者是修改這些文件的內(nèi)容來應(yīng)用 cgroups。具體該怎么做呢?比如我們怎么才能限制某個進(jìn)程可以使用的資源呢?接下來我們就通過簡單的 demo 來演示如何使用 cgroups 限制進(jìn)程可以使用的資源。
查看進(jìn)程所屬的 cgroups
可以通過 /proc/[pid]/cgroup 來查看指定進(jìn)程屬于哪些 cgroup:
![](/d/20211016/56bfcb65069d46f2f66f2282c44939b5.gif)
每一行包含用冒號隔開的三列,他們的含義分別是:
- cgroup 樹的 ID, 和 /proc/cgroups 文件中的 ID 一一對應(yīng)。
- 和 cgroup 樹綁定的所有 subsystem,多個 subsystem 之間用逗號隔開。這里 name=systemd 表示沒有和任何 subsystem 綁定,只是給他起了個名字叫 systemd。
- 進(jìn)程在 cgroup 樹中的路徑,即進(jìn)程所屬的 cgroup,這個路徑是相對于掛載點(diǎn)的相對路徑。
既然 cgroups 是以這些文件作為 API 的,那么我就可以通過創(chuàng)建或者是修改這些文件的內(nèi)容來應(yīng)用 cgroups。具體該怎么做呢?比如我們怎么才能限制某個進(jìn)程可以使用的資源呢?接下來我們就通過簡單的 demo 來演示如何使用 cgroups 限制進(jìn)程可以使用的資源。
cgroups 工具
在介紹通過 systemd 應(yīng)用 cgroups 之前,我們先使用 cgroup-bin 工具包中的 cgexec 來演示 demo。Ubuntu 默認(rèn)沒有安裝 cgroup-bin 工具包,請通過下面的命令安裝:
復(fù)制代碼 代碼如下:
$ sudo apt install cgroup-bin
demo:限制進(jìn)程可用的 CPU
在我們使用 cgroups 時,最好不要直接在各個子系統(tǒng)的根目錄下直接修改其配置文件。推薦的方式是為不同的需求在子系統(tǒng)樹中定義不同的節(jié)點(diǎn)。比如我們可以在 /sys/fs/cgroup/cpu 目錄下新建一個名稱為 nick_cpu 的目錄:
$ cd /sys/fs/cgroup/cpu
$ sudo mkdir nick_cpu
然后查看新建的目錄下的內(nèi)容:
![](/d/20211016/883253fd9c4120d63dda22a977effef5.gif)
是不是有點(diǎn)吃驚,cgroups 的文件系統(tǒng)會在創(chuàng)建文件目錄的時候自動創(chuàng)建這些配置文件!
讓我們通過下面的設(shè)置把 CPU 周期限制為總量的十分之一:
$ sudo su$ echo 100000 > nick_cpu/cpu.cfs_period_us
$ echo 10000 > nick_cpu/cpu.cfs_quota_us
上面的兩個參數(shù)眼熟嗎?沒錯,筆者在《Docker: 限制容器可用的 CPU》一文中介紹的 "--cpu-period=100000 --cpu-quota=200000" 就是由它們實(shí)現(xiàn)的。
然后創(chuàng)建一個 CPU 密集型的程序:
void main()
{ unsigned int i, end;
end = 1024 * 1024 * 1024;
for(i = 0; i < end;
) { i ++; }}
保存為文件 cputime.c 編譯并通過不同的方式執(zhí)行:
$ gcc cputime.c -o cputime
$ sudo su$ time ./cputime
$ time cgexec -g cpu:nick_cpu ./cputime
![](/d/20211016/e9f8eafd5c6c26e7a5d7395cdda8ee94.gif)
time 命令可以為我們報告程序執(zhí)行消耗的時間,其中的 real 就是我們真實(shí)感受到的時間。使用 cgexec 能夠把我們添加的 cgroup 配置 nick_cpu 應(yīng)用到運(yùn)行 cputime 程序的進(jìn)程上。 上圖顯示,默認(rèn)的執(zhí)行只需要 2s 左右。通過 cgroups 限制 CPU 資源后需要運(yùn)行 23s。
demo:限制進(jìn)程可用的內(nèi)存
這次我們來限制進(jìn)程可用的最大內(nèi)存,在 /sys/fs/cgroup/memory 下創(chuàng)建目錄nick_memory:
$ cd /sys/fs/cgroup/memory
$ sudo mkdir nick_memory
下面的設(shè)置把進(jìn)程的可用內(nèi)存限制在最大 300M,并且不使用 swap:
# 物理內(nèi)存 + SWAP <= 300 MB;1024*1024*300 = 314572800$ sudo su$ echo 314572800 > nick_memory/memory.limit_in_bytes$ echo 0 > nick_memory/memory.swappiness
然后創(chuàng)建一個不斷分配內(nèi)存的程序,它分五次分配內(nèi)存,每次申請 100M:
#include<stdio.h>#include<stdlib.h>#include<string.h>#define CHUNK_SIZE 1024 * 1024 * 100void main(){ char *p; int i; for(i = 0; i < 5; i ++) { p = malloc(sizeof(char) * CHUNK_SIZE); if(p == NULL) { printf("fail to malloc!"); return ; } // memset() 函數(shù)用來將指定內(nèi)存的前 n 個字節(jié)設(shè)置為特定的值 memset(p, 0, CHUNK_SIZE); printf("malloc memory %d MB\n", (i + 1) * 100); }}
把上面的代碼保存為 mem.c 文件,然后編譯:
執(zhí)行生成的 mem 程序:
此時一切順利,然后加上剛才的約束試試:
$ cgexec -g memory:nick_memory ./mem
![](/d/20211016/19075cdbf675733b24785819496466a2.gif)
由于內(nèi)存不足且禁止使用 swap,所以被限制資源的進(jìn)程在申請內(nèi)存時被強(qiáng)制殺死了。
下面再使用 stress 程序測試一個類似的場景(通過 stress 程序申請 500M 的內(nèi)存):
$ sudo cgexec -g memory:nick_memory stress --vm 1 --vm-bytes 500000000 --vm-keep --verbose
![](/d/20211016/82e561af231c2a9361d21f77f32d692d.gif)
stress 程序能夠提供比較詳細(xì)的信息,進(jìn)程被殺掉的方式是收到了 SIGKILL(signal 9) 信號。
實(shí)際應(yīng)用中往往要同時限制多種的資源,比如既限制 CPU 資源又限制內(nèi)存資源。使用 cgexec 實(shí)現(xiàn)這樣的用例其實(shí)很簡單,直接指定多個 -g 選項就可以了:
$ cgexec -g cpu:nick_cpu -g memory:nick_memory ./cpumem
總結(jié)
cgroups 是 linux 內(nèi)核提供的功能,由于牽涉的概念比較多,所以不太容易理解。本文試圖在介紹概念性內(nèi)容的同時,用最簡單的 demo 演示 cgroups 的用法。希望直觀的 demo 能夠幫助大家理解 cgroups。