我們要用的監(jiān)控內(nèi)存的腳本在Nagios 市場上,在創(chuàng)建者的Github倉庫中也可以找到。
假設(shè)我們已經(jīng)安裝了NRPE,我們首先在我們想要監(jiān)控的服務(wù)器上下載腳本。
準(zhǔn)備遠(yuǎn)程服務(wù)器
在 Debain/Ubuntu 中:
# cd /usr/lib/nagios/plugins/
# wget https://raw.githubusercontent.com/justintime/nagios-plugins/master/check_mem/check_mem.pl
# mv check_mem.pl check_mem
# chmod +x check_mem
在 RHEL/CentOS 中:
# cd /usr/lib64/nagios/plugins/ (or /usr/lib/nagios/plugins/ for 32-bit)
# wget https://raw.githubusercontent.com/justintime/nagios-plugins/master/check_mem/check_mem.pl
# mv check_mem.pl check_mem
# chmod +x check_mem
你可以通過手工在本地運(yùn)行下面的命令來檢查腳本的輸出是否正常。當(dāng)使用NRPE時,這條命令應(yīng)該會檢測空閑的內(nèi)存,當(dāng)可用內(nèi)存小于20%時會發(fā)出警告,并且在可用內(nèi)存小于10%時會生成一個嚴(yán)重警告。
# ./check_mem -f -w 20 -c 10 /p>
p> OK - 34.0% (2735744 kB) free.|TOTAL=8035340KB;;;; USED=5299596KB;6428272;7231806;; FREE=2735744KB;;;; CACHES=2703504KB;;;;
如果你看到像上面那樣的輸出,那就意味這命令正常工作著。
現(xiàn)在腳本已經(jīng)準(zhǔn)備好了,我們要定義NRPE檢查內(nèi)存使用率的命令了。如上所述,命令會檢查可用內(nèi)存,在可用率小于20%時發(fā)出警報,小于10%時發(fā)出嚴(yán)重警告。
# vim /etc/nagios/nrpe.cfg
對于 Debian/Ubuntu:
command[check_mem]=/usr/lib/nagios/plugins/check_mem -f -w 20 -c 10
對于 RHEL/CentOS 32 bit:
command[check_mem]=/usr/lib/nagios/plugins/check_mem -f -w 20 -c 10
對于 RHEL/CentOS 64 bit:
command[check_mem]=/usr/lib64/nagios/plugins/check_mem -f -w 20 -c 10
準(zhǔn)備 Nagios 服務(wù)器
在Nagios服務(wù)器中,我們?yōu)镹RPE定義了一條自定義命令。該命令可存儲在Nagios內(nèi)的任何目錄中。為了讓本教程簡單,我們會將命令定義放在/etc/nagios目錄中。
對于 Debian/Ubuntu:
# vim /etc/nagios3/conf.d/nrpe_command.cfg /p>
p> define command{
command_name check_nrpe
command_line /usr/lib/nagios/plugins/check_nrpe -H '$HOSTADDRESS$' -c '$ARG1$'
}
對于 RHEL/CentOS 32 bit:
# vim /etc/nagios/objects/nrpe_command.cfg /p>
p> define command{
command_name check_nrpe
command_line /usr/lib/nagios/plugins/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
}
對于 RHEL/CentOS 64 bit:
# vim /etc/nagios/objects/nrpe_command.cfg /p>
p> define command{
command_name check_nrpe
command_line /usr/lib64/nagios/plugins/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
}
現(xiàn)在我們定義Nagios的服務(wù)檢查
在 Debian/Ubuntu 上:
# vim /etc/nagios3/conf.d/nrpe_service_check.cfg /p>
p> define service{
use local-service
host_name remote-server
service_description Check RAM
check_command check_nrpe!check_mem
}
在 RHEL/CentOS 上:
# vim /etc/nagios/objects/nrpe_service_check.cfg /p>
p> define service{
use local-service
host_name remote-server
service_description Check RAM
check_command check_nrpe!check_mem
}
最后我們重啟Nagios服務(wù)
在 Debian/Ubuntu 上:
# service nagios3 restart
在 RHEL/CentOS 6 上:
# service nagios restart
在 RHEL/CentOS 7 上:
# systemctl restart nagios.service
故障排除
Nagios應(yīng)該開始在使用NRPE的遠(yuǎn)程服務(wù)器上檢查內(nèi)存使用率了。如果你有任何問題,你可以檢查下面這些情況。
- 確保NRPE的端口在遠(yuǎn)程主機(jī)上是總是允許的。默認(rèn)NRPE的端口是TCP 5666。
你可以嘗試通過執(zhí)行check_nrpe 命令: /usr/lib/nagios/plugins/check_nrpe -H remote-server 手工檢查NRPE操作。
你同樣可以嘗試運(yùn)行check_mem 命令:/usr/lib/nagios/plugins/check_nrpe -H remote-server –c check_mem
在遠(yuǎn)程服務(wù)器上,在/etc/nagios/nrpe.cfg中設(shè)置debug=1。重啟NRPE服務(wù)并檢查這些日志文件,/var/log/messages (RHEL/CentOS)或者/var/log/syslog (Debain/Ubuntu)。如果有任何的配置或者權(quán)限錯誤,日志中應(yīng)該包含了相關(guān)的信息。如果日志中沒有反映出什么,很有可能是由于請求在某些端口上有過濾而沒有到達(dá)遠(yuǎn)程服務(wù)器上。
總結(jié)一下,這邊教程描述了我們該如何調(diào)試NRPE來監(jiān)控遠(yuǎn)程服務(wù)器的內(nèi)存使用率。過程只需要下載腳本、定義命令和重啟服務(wù)就行了。希望這對你們有幫助。