這篇文章其實已經(jīng)寫好很久,只是后來一直沒有重現(xiàn)當時的問題,或者因為業(yè)務(wù)的重要性、投訴的壓力也就臨時處理了。這幾天某地市Web服務(wù)器連續(xù)多次出現(xiàn)這個問題,正好借這個案例來做個收尾。
前幾個月有臺重要的Web服務(wù)器(Windows Server2003 + IIS6.0)出現(xiàn)客戶端無法訪問Web服務(wù)器上的站點,錯誤信息提示為"頁面無法顯示"的情況。登錄服務(wù)器檢查后發(fā)現(xiàn)IIS并未停止運行,各服務(wù)也正常處理,但就是無法訪問站點上的頁面(包括靜態(tài)頁面)。這種問題其實以前也經(jīng)常發(fā)生,基本上處理方法都是通過重啟Web服務(wù)器來解決,至于為什么要這樣處理,并沒有具體的論斷和依據(jù),多半是憑借個人的經(jīng)驗所致,所以這種解決方法只能緩解下投訴壓力,沒有從根本上解決問題。
那么,我們現(xiàn)在就來針對這個問題深入探討下,找出問題的根本,爭取做到治標治本。
首先,肯定是分析問題服務(wù)器上的IIS日志,我發(fā)現(xiàn)在站點無法訪問的那段時間, httperr日志中記錄了大量的"Connections_Refused"錯誤
![](/d/20211017/214b777b074f77131d6a3a6fe6fed817.gif)
這個問題是在默認情況下,如果可用的非分頁緩沖池內(nèi)存不足 20MB,Http.sys 服務(wù)將停止接收新連接,就會出現(xiàn)上述問題。這也就解釋了為什么重啟IIS沒用,只能通過重啟Web服務(wù)器釋放內(nèi)存資源來解決。
網(wǎng)上也有微軟官方的解決方案:
1. 進入注冊表,找到如下項:
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\HTTP\Parameters ;
2. 新建Dword值,輸入名稱 "EnableAggressiveMemoryUsage";
3. 修改值為1;
4. 重啟 HTTP 服務(wù):
在DOS下分別執(zhí)行
net stop http /y
iisreset /restart
我按照上述說明進行了配置,但有沒有效果無法考證,只能先觀察這臺服務(wù)器后續(xù)的運行情況。這種處理方法比之前重啟Web服務(wù)器更進了一步,至少比之前盲目的重啟重啟重啟,更明確的知道了引起問題的原因,離真相更近了一步。那么問題發(fā)生的真正原因呢?究竟是什么導致的非分頁緩沖池內(nèi)存會持續(xù)增大到少于20M的呢?
要分析這個問題,首先得了解下Windows系統(tǒng)中的核心內(nèi)存概念:核心內(nèi)存是Windows分配給系統(tǒng)內(nèi)核或驅(qū)動所需的內(nèi)存空間,分頁內(nèi)存是虛擬內(nèi)存,也就是這一部分內(nèi)存可以置換到硬盤中,但是,非分頁內(nèi)存是不能置換到硬盤的,只能保存在物理內(nèi)存中,常用于一些軟件或是系統(tǒng)的驅(qū)動程序使用。如果未分頁內(nèi)存無限增大,到達一個閥值,就會造成系統(tǒng)問題。在32位的Windows上,這個閥值最高不能超過256MB,否則操作系統(tǒng)會變得非常不穩(wěn)定。
打開自己系統(tǒng)的任務(wù)管理器,在"性能"項中,可以看到:
![](/d/20211017/536f816e0a8fa7ebb35f30fa43165b11.gif)
如上圖所示,這就是我本機當前時刻所使用的分頁和未分頁內(nèi)存數(shù),這個數(shù)字很正常。
我們再來看下最近這臺有問題的機器連續(xù)2天,2次出現(xiàn)故障時的內(nèi)存使用數(shù),未分頁內(nèi)存已經(jīng)不知不覺暴漲到230多M了
![](/d/20211017/8af5837d23b79485658f314902b4ad4c.gif)
![](/d/20211017/9965dac5d66023529adafaa680fcc4ab.gif)
好了,廢話不多說,這個時候就需要用到Poolmon這個核心內(nèi)存泄漏檢測工具了。通過這個工具,我們來看看Web服務(wù)器上到底是哪些軟件或者程序造成內(nèi)存泄露,從而導致未分頁內(nèi)存數(shù)不足的。Poolmon是類似于Dos 的命令行執(zhí)行程序,基本上完成檢測的操作我們只需要2個指令: P-排序標簽列表通過分頁,非分頁,混合等3種模式;B-對標簽排序最大字節(jié)使用情況。如下圖所示:顯示的就是操作系統(tǒng)中所有占用非分頁內(nèi)存項,并按字節(jié)大小降序排列。我們找出排在前面,并且字節(jié)數(shù)不斷增加的tag項,根據(jù)Tag來定位進程和驅(qū)動文件。比如我們想看下目前占用90M非分頁內(nèi)存的Thre項,在Dos中輸入:
findstr /s /m /l "Thre" c:\windows\system32\drivers\*.sys
![](/d/20211017/b7789de639dda27a586c69713e3dcf39.gif)
![](/d/20211017/b5f7250b2b5b02fc5bc0a139ae0eb017.gif)
如上圖所示,我們看到是系統(tǒng)驅(qū)動和殺毒驅(qū)動占用了Thre。這臺機器上次中過毒,所以后來下了瑞星和360衛(wèi)士來排毒。瑞星是出了名的耗未分頁內(nèi)存大戶,360衛(wèi)士本身也已經(jīng)被病毒感染,所以我基本鎖定了這2款軟件,先卸載,然后重啟服務(wù)器,重新下載360衛(wèi)士和360殺毒再次排毒之后觀察服務(wù)器運行情況和內(nèi)存消耗情況。從上次重啟到目前為止,運行十多天,未分頁內(nèi)存總消耗保持在50M以內(nèi),雖有小許增長,但還算正常。到此,根據(jù)上面的分析, 我們就可以定位出導致IIS故障的真正問題所在了。這種問題,很大部分是因為殺毒軟件程序或者一些系統(tǒng)驅(qū)動導致的。
這里說的很大部分原因是因為殺毒軟件程序或者一些系統(tǒng)驅(qū)動導致的非分頁內(nèi)存不足,是因為非分頁內(nèi)存一般是內(nèi)核程序或驅(qū)動程序在請求。這種資源非常寶貴,如果程序處理不當?shù)脑?,也會導致上述情況,比如一個Socket只接受連接,但因為某些原因沒有讀取數(shù)據(jù),然后客戶端連接上之后一直發(fā)送數(shù)據(jù),在這種極端的情況下未分頁內(nèi)存也很快就會被占滿。
您可能感興趣的文章:- IIS 無法找到服務(wù)器,靜態(tài)頁面也無法訪問 大量出現(xiàn)Connections_Refused的錯誤提示
- win2003 iis6.0站點打不開,找不到服務(wù)器或 DNS 錯誤(Connections_Refused)
- HTTPERR的日志中出現(xiàn)大量Timer_MinBytesPerSecond,Timer_ConnectionIdle錯誤