linux 的 cgroups 還可以限制和監(jiān)控進程的磁盤 io。這個功能通過 blkio 子系統(tǒng)實現(xiàn)。
blkio 子系統(tǒng)里東西很多。不過大部分都是只讀的狀態(tài)報告,可寫的參數(shù)就只有下面這幾個:
blkio.throttle.read_bps_device
blkio.throttle.read_iops_device
blkio.throttle.write_bps_device
blkio.throttle.write_iops_device
blkio.weight
blkio.weight_device
這些都是用來控制進程的磁盤 io 的。很明顯地分成兩類,其中帶“throttle”的,顧名思義就是節(jié)流閥,將流量限制在某個值下。而“weight”就是分配 io 的權(quán)重。
“throttle”的那四個參數(shù)看名字就知道是做什么用的。拿 blkio.throttle.read_bps_device 來限制每秒能讀取的字節(jié)數(shù)。先跑點 io 出來
dd if=/dev/sda of=/dev/null
[1] 2750
用 iotop 看看目前的 io
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
2750 be/4 root 66.76 M/s 0.00 B/s 0.00 % 68.53 % dd if=/dev/sda of=/dev/null
...
然后修改一下資源限制,把進程加入控制組
echo '8:0 1048576' >/sys/fs/cgroup/blkio/foo/blkio.throttle.read_bps_device
echo 2750 >/sys/fs/cgroup/blkio/foo/tasks
這里的 8:0 就是對應塊設備的主設備號和副設備號??梢酝ㄟ^ ls -l 設備文件名查看。如
# ls -l /dev/sda
brw-rw----. 1 root disk 8, 0 Oct 24 11:27 /dev/sda
這里的 8, 0 就是對應的設備號。所以,cgroups 可以對不同的設備做不同的限制。然后來看看效果
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
2750 be/4 root 989.17 K/s 0.00 B/s 0.00 % 96.22 % dd if=/dev/sda of=/dev/null
...
可見,進程的每秒讀取立馬就降到了 1MB 左右。要解除限制,寫入如 “8:0 0” 到文件中即可
不過需要注意的是,這種方式對小于采樣間隔里產(chǎn)生的大量 io 是沒用的。比如,就算在 1s 內(nèi)產(chǎn)生一個每秒寫入 100M 的峰值,也不會因此被限制掉。
再看看 blkio.weight 。blkio 的 throttle 和 weight 方式和 cpu 子系統(tǒng)的 quota 和 shares 有點像,都是一種是絕對限制,另一種是相對限制,并且在不繁忙的時候可以充分利用資源,權(quán)重值的范圍在 10 – 1000 之間。
測試權(quán)重方式要麻煩一點。因為不是絕對限制,所以會受到文件系統(tǒng)緩存的影響。如在虛擬機中測試,要關(guān)閉虛機如我用的 VirtualBox 在宿主機上的緩存。如要測試讀 io 的效果,先生成兩個幾個 G 的大文件 /tmp/file_1,/tmp/file_2 ,可以用 dd 搞。然后設置兩個權(quán)重
# echo 500 >/sys/fs/cgroup/blkio/foo/blkio.weight
# echo 100 >/sys/fs/cgroup/blkio/bar/blkio.weight
測試前清空文件系統(tǒng)緩存,以免干擾測試結(jié)果
sync
echo 3 >/proc/sys/vm/drop_caches
在這兩個控制組中用 dd 產(chǎn)生 io 測試效果。
# cgexec -g "blkio:foo" dd if=/tmp/file_1 of=/dev/null
[1] 1838
# cgexec -g "blkio:bar" dd if=/tmp/file_2 of=/dev/null
[2] 1839
還是用 iotop 看看效果
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
1839 be/4 root 48.14 M/s 0.00 B/s 0.00 % 99.21 % dd if=/tmp/file_2 of=/dev/null
1838 be/4 root 223.59 M/s 0.00 B/s 0.00 % 16.44 % dd if=/tmp/file_1 of=/dev/null
兩個進程每秒讀的字節(jié)數(shù)雖然會不斷變動,但是大致趨勢還是維持在 1:5 左右,和設定的 weight 比例一致。blkio.weight_device 是分設備的。寫入時,前面再加上設備號即可。
blkio 子系統(tǒng)里還有很多統(tǒng)計項
blkio.time
各設備的 io 訪問時間,單位毫秒
blkio.sectors
換入者或出各設備的扇區(qū)數(shù)
blkio.io_serviced
各設備中執(zhí)行的各類型 io 操作數(shù),分read、write、sync、async 和 total
blkio.io_service_bytes
各類型 io 換入者或出各設備的字節(jié)數(shù)
blkio.io_service_time
各設備中執(zhí)行的各類型 io 時間,單位微秒
blkio.io_wait_time
各設備中各類型 io 在隊列中的 等待時間
blkio.io_merged
各設備中各類型 io 請求合并的次數(shù)
blkio.io_queued
各設備中各類型 io 請求當前在隊列中的數(shù)量
通過這些統(tǒng)計項更好地統(tǒng)計、監(jiān)控進程的 io 情況
用
echo 1 >blkio.reset_stats
可以將所有統(tǒng)計項清零。