




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
服務(wù)器監(jiān)控預(yù)警規(guī)范一、概述
服務(wù)器監(jiān)控預(yù)警是保障IT系統(tǒng)穩(wěn)定運(yùn)行的關(guān)鍵環(huán)節(jié),旨在通過實(shí)時(shí)監(jiān)測(cè)服務(wù)器狀態(tài)并及時(shí)發(fā)出警報(bào),預(yù)防潛在故障。規(guī)范的監(jiān)控預(yù)警體系能夠有效提升運(yùn)維效率,減少系統(tǒng)停機(jī)時(shí)間,確保業(yè)務(wù)連續(xù)性。本規(guī)范旨在明確服務(wù)器監(jiān)控預(yù)警的實(shí)施流程、關(guān)鍵指標(biāo)及操作要求。
二、監(jiān)控指標(biāo)體系
(一)核心監(jiān)控指標(biāo)
1.CPU使用率:
-正常范圍:建議設(shè)置閾值為70%,超過80%觸發(fā)預(yù)警。
-監(jiān)控頻率:5分鐘采集一次。
2.內(nèi)存使用率:
-正常范圍:建議設(shè)置閾值為75%,超過85%觸發(fā)預(yù)警。
-監(jiān)控頻率:5分鐘采集一次。
3.磁盤空間:
-正常范圍:可用空間低于10%時(shí)觸發(fā)預(yù)警。
-監(jiān)控頻率:10分鐘采集一次。
4.網(wǎng)絡(luò)流量:
-正常范圍:帶寬使用率超過90%時(shí)觸發(fā)預(yù)警。
-監(jiān)控頻率:5分鐘采集一次。
5.應(yīng)用響應(yīng)時(shí)間:
-正常范圍:平均響應(yīng)時(shí)間超過2秒觸發(fā)預(yù)警。
-監(jiān)控頻率:1分鐘采集一次。
(二)輔助監(jiān)控指標(biāo)
1.系統(tǒng)日志:異常錯(cuò)誤日志數(shù)量超過設(shè)定閾值(如每分鐘5條)時(shí)觸發(fā)預(yù)警。
2.服務(wù)狀態(tài):核心服務(wù)(如Web、數(shù)據(jù)庫)長時(shí)間(如超過3分鐘)無響應(yīng)時(shí)觸發(fā)預(yù)警。
三、預(yù)警流程
(一)預(yù)警閾值設(shè)置
1.根據(jù)業(yè)務(wù)重要性分級(jí)設(shè)置閾值:
-優(yōu)先級(jí)高(如核心業(yè)務(wù)服務(wù)器):更嚴(yán)格閾值(如CPU超過70%)。
-優(yōu)先級(jí)低(如測(cè)試服務(wù)器):較寬松閾值(如CPU超過85%)。
2.動(dòng)態(tài)調(diào)整:根據(jù)歷史數(shù)據(jù)波動(dòng)調(diào)整閾值,避免誤報(bào)或漏報(bào)。
(二)預(yù)警觸發(fā)與響應(yīng)
1.預(yù)警觸發(fā)條件:
-單指標(biāo)超標(biāo)(如內(nèi)存使用率超過85%)。
-多指標(biāo)聯(lián)動(dòng)(如CPU、磁盤同時(shí)超標(biāo))。
2.響應(yīng)步驟(StepbyStep):
(1)自動(dòng)化響應(yīng):觸發(fā)輕度預(yù)警時(shí),系統(tǒng)自動(dòng)擴(kuò)容資源或重啟服務(wù)。
(2)人工介入:觸發(fā)嚴(yán)重預(yù)警時(shí),運(yùn)維團(tuán)隊(duì)10分鐘內(nèi)確認(rèn)并處理。
(3)記錄與復(fù)盤:每次預(yù)警處理需詳細(xì)記錄,每月復(fù)盤誤報(bào)率。
(三)預(yù)警級(jí)別劃分
1.輕度預(yù)警:指標(biāo)接近閾值(如CPU75%-85%),可安排低優(yōu)先級(jí)修復(fù)。
2.嚴(yán)重預(yù)警:指標(biāo)已超標(biāo)(如CPU90%以上),需立即處理。
3.緊急預(yù)警:服務(wù)完全中斷(如無響應(yīng)超過5分鐘),需緊急恢復(fù)。
四、實(shí)施要求
(一)監(jiān)控工具配置
1.工具選擇:推薦使用Zabbix、Prometheus等標(biāo)準(zhǔn)化監(jiān)控平臺(tái)。
2.數(shù)據(jù)采集:確保每5分鐘采集一次核心指標(biāo),存儲(chǔ)周期不少于3個(gè)月。
(二)運(yùn)維操作規(guī)范
1.日常巡檢:每日檢查預(yù)警日志,處理歷史遺留問題。
2.誤報(bào)處理:誤報(bào)次數(shù)超過3次需重新評(píng)估閾值。
3.備案管理:新增服務(wù)器需在24小時(shí)內(nèi)完成監(jiān)控配置并驗(yàn)證。
(三)培訓(xùn)與考核
1.培訓(xùn)內(nèi)容:監(jiān)控工具使用、閾值設(shè)置邏輯、應(yīng)急響應(yīng)流程。
2.考核指標(biāo):誤報(bào)率控制在5%以下,嚴(yán)重預(yù)警處理時(shí)效不低于15分鐘。
五、附錄
(一)常用閾值參考表
|指標(biāo)|正常閾值|預(yù)警閾值|
|------------|------------|------------|
|CPU使用率|≤70%|≥80%|
|內(nèi)存使用率|≤75%|≥85%|
|磁盤空間|≥15%|<10%|
(二)監(jiān)控平臺(tái)配置示例(以Zabbix為例)
1.主機(jī)添加:配置IP、端口、采集項(xiàng)目(CPU、內(nèi)存等)。
2.閾值創(chuàng)建:設(shè)置觸發(fā)器(如"CPU使用率>80%")。
3.報(bào)警接收:配置郵件或短信通知模板。
---
(接續(xù)原有內(nèi)容)
五、附錄(續(xù))
(一)常用閾值參考表(擴(kuò)寫)
|指標(biāo)|說明|正常閾值范圍(建議)|預(yù)警閾值范圍(建議)|嚴(yán)重預(yù)警閾值范圍(建議)|數(shù)據(jù)采集頻率(建議)|
|----------------------|------------------------------------------------------------|--------------------|-------------------|-----------------------|------------------------|
|CPU使用率(%)|反映服務(wù)器處理能力負(fù)載。|≤70%|≥80%|≥90%|5分鐘|
|內(nèi)存使用率(%)|反映服務(wù)器內(nèi)存資源占用情況。|≤75%|≥85%|≥95%|5分鐘|
|磁盤空間(可用量%)|反映系統(tǒng)盤或數(shù)據(jù)盤剩余空間。|≥15%|<10%|<5%|10分鐘|
|磁盤I/O(IOPS/KB/s)|反映磁盤讀寫性能。|在正常性能區(qū)間內(nèi)|顯著低于正常值|嚴(yán)重低于正常值|1分鐘|
|網(wǎng)絡(luò)流量(入/出)(Mbps)|反映服務(wù)器網(wǎng)絡(luò)帶寬使用情況。|在帶寬限制內(nèi)|接近帶寬上限(90%)|超出帶寬上限|5分鐘|
|應(yīng)用響應(yīng)時(shí)間(ms)|反映核心業(yè)務(wù)接口或服務(wù)的處理速度。|≤200ms|201-1000ms|>1000ms|1分鐘|
|TCP連接數(shù)|反映服務(wù)器當(dāng)前建立的客戶端連接數(shù)量。|≤設(shè)定閾值(如5000)|接近閾值(如90%)|超過閾值|5分鐘|
|服務(wù)狀態(tài)|檢查關(guān)鍵服務(wù)(如Web服務(wù)、數(shù)據(jù)庫服務(wù))是否存活。|正常運(yùn)行|超時(shí)(如1分鐘無響應(yīng))|完全不可用|1分鐘|
|系統(tǒng)日志錯(cuò)誤數(shù)|反映系統(tǒng)或應(yīng)用日志中出現(xiàn)的錯(cuò)誤信息頻率。|≤1條/分鐘|2-5條/分鐘|>5條/分鐘|5分鐘|
注意:
1.上述閾值僅為通用建議,實(shí)際閾值需根據(jù)具體服務(wù)器負(fù)載、業(yè)務(wù)重要性、硬件配置等因素進(jìn)行定制化調(diào)整。
2.閾值設(shè)置應(yīng)遵循“寧可誤報(bào),不可漏報(bào)”的原則,尤其是在關(guān)鍵指標(biāo)上。
3.建議定期(如每月)復(fù)盤閾值有效性,并根據(jù)實(shí)際運(yùn)行情況進(jìn)行優(yōu)化。
(二)監(jiān)控平臺(tái)配置示例(以Zabbix為例)(擴(kuò)寫)
1.主機(jī)添加與信息錄入:
(1)登錄Zabbix前端管理界面。
(2)進(jìn)入“配置”->“主機(jī)”,點(diǎn)擊“創(chuàng)建主機(jī)”。
(3)填寫主機(jī)基本信息:
名稱:填寫服務(wù)器規(guī)范名稱,如“生產(chǎn)-Web服務(wù)器01”。
IP地址/主機(jī)名:填寫服務(wù)器的IP地址或可解析主機(jī)名。
接口:配置監(jiān)控接口類型(通常為“Zabbixagent”或“SNMP”)和接口地址(IP地址)。
模板:選擇或應(yīng)用預(yù)定義的監(jiān)控模板(如“Zabbixservertemplate”),該模板會(huì)自動(dòng)加載相關(guān)監(jiān)控項(xiàng)目(Items)和觸發(fā)器(Triggers)。
(4)點(diǎn)擊“確定”保存主機(jī)配置。
2.監(jiān)控項(xiàng)目(Items)配置:
監(jiān)控項(xiàng)目定義了Zabbixagent或SNMP需要采集的具體數(shù)據(jù)。應(yīng)用模板后,大部分項(xiàng)目已自動(dòng)配置。
如需添加自定義項(xiàng)目(例如,監(jiān)控特定應(yīng)用的性能指標(biāo)):
(1)在主機(jī)詳情頁,點(diǎn)擊“項(xiàng)目”->“創(chuàng)建項(xiàng)目”。
(2)填寫項(xiàng)目信息:
名稱:清晰描述監(jiān)控內(nèi)容,如“自定義應(yīng)用錯(cuò)誤日志數(shù)”。
類型:選擇“Zabbixagent”或“SNMP”等。
鍵值:輸入用于采集數(shù)據(jù)的Zabbixagent鍵或SNMPOID(對(duì)象標(biāo)識(shí)符)。
數(shù)據(jù)類型:選擇數(shù)據(jù)類型(如“浮點(diǎn)數(shù)”、“整數(shù)”、“字符串”等)。
更新間隔:設(shè)置數(shù)據(jù)采集頻率(如“60”秒)。
接口:選擇對(duì)應(yīng)的主機(jī)接口。
(3)點(diǎn)擊“確定”保存項(xiàng)目。
3.觸發(fā)器(Triggers)配置:
觸發(fā)器定義了何時(shí)產(chǎn)生預(yù)警。應(yīng)用模板后,大部分觸發(fā)器已自動(dòng)配置。
如需添加或修改觸發(fā)器(例如,調(diào)整內(nèi)存使用率預(yù)警閾值):
(1)在主機(jī)詳情頁,點(diǎn)擊“觸發(fā)器”->“創(chuàng)建觸發(fā)器”或編輯現(xiàn)有觸發(fā)器。
(2)填寫觸發(fā)器信息:
名稱:清晰描述預(yù)警條件,如“內(nèi)存使用率過高”。
表達(dá)式:定義觸發(fā)條件,通常包含“LHS(左側(cè)表達(dá)式)”和“RHS(右側(cè)表達(dá)式)”。例如,`{host:生產(chǎn)-Web服務(wù)器01.memoryused[bytes].last()}>80%`表示監(jiān)控“生產(chǎn)-Web服務(wù)器01”的內(nèi)存使用率是否超過80%。使用“LLD模板”(自動(dòng)發(fā)現(xiàn)模板)可簡(jiǎn)化配置。
優(yōu)先級(jí):設(shè)置觸發(fā)器的重要性級(jí)別(如“高”、“中”、“低”)。
狀態(tài):默認(rèn)為“0”(正常)。
等級(jí):設(shè)置預(yù)警級(jí)別(如“信息”、“警告”、“嚴(yán)重”、“緊急”)。
自動(dòng)恢復(fù)時(shí)間:設(shè)置觸發(fā)器滿足條件后,多久自動(dòng)恢復(fù)為正常狀態(tài)(如“0”表示不自動(dòng)恢復(fù),需手動(dòng)確認(rèn);“60”表示60分鐘后自動(dòng)恢復(fù))。
(3)點(diǎn)擊“確定”保存觸發(fā)器。
4.動(dòng)作(Actions)配置:
動(dòng)作定義了觸發(fā)器被觸發(fā)時(shí)執(zhí)行的操作,如發(fā)送通知。
配置步驟:
(1)進(jìn)入“配置”->“動(dòng)作”。
(2)點(diǎn)擊“創(chuàng)建動(dòng)作”。
(3)選擇動(dòng)作類型:
發(fā)送通知:用于發(fā)送郵件、短信或使用Webhook通知。
事件類型:選擇觸發(fā)動(dòng)作的事件類型(如“觸發(fā)器發(fā)生”、“觸發(fā)器恢復(fù)”)。
對(duì)象:選擇受影響的對(duì)象類型(如“所有主機(jī)”、“選定主機(jī)”)。
用戶組/用戶:選擇接收通知的用戶或用戶組。
模板:選擇通知模板(包含郵件正文、短信內(nèi)容等)。
執(zhí)行計(jì)劃:用于執(zhí)行自動(dòng)化腳本(如重啟服務(wù)、清理日志)。
事件類型:選擇事件類型。
對(duì)象:選擇對(duì)象類型。
用戶組/用戶:選擇執(zhí)行者。
計(jì)劃:配置執(zhí)行頻率(如“立即執(zhí)行”、“每5分鐘”)。
腳本文本:輸入執(zhí)行的腳本命令(如`/usr/local/bin/restart-webserver.sh`)。
(4)點(diǎn)擊“確定”保存動(dòng)作。
5.可視化(Visualization)配置:
配置步驟:
(1)在主機(jī)詳情頁,點(diǎn)擊“圖形”->“創(chuàng)建圖形”。
(2)填寫圖形信息:
名稱:給圖形命名,如“Web服務(wù)器性能監(jiān)控”。
選擇項(xiàng)目:從該主機(jī)已配置的項(xiàng)目中選擇需要展示的監(jiān)控項(xiàng)(如CPU使用率、內(nèi)存使用率、網(wǎng)絡(luò)流量)。
時(shí)間范圍:設(shè)置圖形展示的時(shí)間范圍(如“最后1天”、“最后1小時(shí)”)。
單位:選擇數(shù)據(jù)單位(如“%”、“Mbps”)。
(3)點(diǎn)擊“創(chuàng)建”生成圖形。圖形可用于直觀展示服務(wù)器性能趨勢(shì)。
(三)日志與報(bào)告管理
1.日志記錄:所有監(jiān)控配置變更(閾值、模板、主機(jī))、預(yù)警事件(觸發(fā)、處理、確認(rèn))、動(dòng)作執(zhí)行(通知、腳本)均需詳細(xì)記錄,并存檔至少3個(gè)月。
2.定期報(bào)告:每月生成監(jiān)控報(bào)告,包含:
(1)本月預(yù)警統(tǒng)計(jì)(總數(shù)、級(jí)別分布、已處理/未處理)。
(2)誤報(bào)/漏報(bào)情況分析及改進(jìn)措施。
(3)系統(tǒng)資源利用率趨勢(shì)分析。
(4)需要優(yōu)化的監(jiān)控配置建議。
(四)應(yīng)急響應(yīng)流程細(xì)化
1.輕度預(yù)警(如CPU使用率80%):
(1)自動(dòng)化處理:若配置了自動(dòng)擴(kuò)容,系統(tǒng)檢查資源池是否可用,自動(dòng)進(jìn)行。
(2)人工檢查:運(yùn)維人員檢查是否為偶發(fā)性峰值,或是否有計(jì)劃內(nèi)任務(wù)導(dǎo)致。
(3)記錄:如需人工干預(yù),記錄處理過程及結(jié)果。
2.嚴(yán)重預(yù)警(如內(nèi)存使用率90%):
(1)立即通知:系統(tǒng)通過配置的動(dòng)作發(fā)送通知給相關(guān)運(yùn)維人員。
(2)診斷分析:運(yùn)維人員5分鐘內(nèi)登錄服務(wù)器,檢查:
(a)是否有內(nèi)存泄漏(使用`top`、`htop`等工具)。
(b)是否有進(jìn)程異常耗內(nèi)存。
(c)是否有磁盤I/O瓶頸導(dǎo)致進(jìn)程阻塞。
(3)處理措施:根據(jù)診斷結(jié)果執(zhí)行:
(a)殺死異常進(jìn)程(如`kill-9PID`)。
(b)調(diào)整應(yīng)用配置釋放內(nèi)存。
(c)擴(kuò)展內(nèi)存或進(jìn)行資源調(diào)度。
(4)確認(rèn)恢復(fù):處理完畢后,確認(rèn)指標(biāo)下降并記錄。
3.緊急預(yù)警(如服務(wù)無響應(yīng)):
(1)立即通知:觸發(fā)最高級(jí)別通知。
(2)快速恢復(fù):嘗試快速重啟服務(wù)或主機(jī)(如`systemctlrestartservice_name`)。
(3)若重啟無效,檢查底層硬件(如網(wǎng)絡(luò)卡頓、磁盤故障)。
(4)詳細(xì)記錄:完整記錄故障現(xiàn)象、處理過程及最終解決方案。
---
一、概述
服務(wù)器監(jiān)控預(yù)警是保障IT系統(tǒng)穩(wěn)定運(yùn)行的關(guān)鍵環(huán)節(jié),旨在通過實(shí)時(shí)監(jiān)測(cè)服務(wù)器狀態(tài)并及時(shí)發(fā)出警報(bào),預(yù)防潛在故障。規(guī)范的監(jiān)控預(yù)警體系能夠有效提升運(yùn)維效率,減少系統(tǒng)停機(jī)時(shí)間,確保業(yè)務(wù)連續(xù)性。本規(guī)范旨在明確服務(wù)器監(jiān)控預(yù)警的實(shí)施流程、關(guān)鍵指標(biāo)及操作要求。
二、監(jiān)控指標(biāo)體系
(一)核心監(jiān)控指標(biāo)
1.CPU使用率:
-正常范圍:建議設(shè)置閾值為70%,超過80%觸發(fā)預(yù)警。
-監(jiān)控頻率:5分鐘采集一次。
2.內(nèi)存使用率:
-正常范圍:建議設(shè)置閾值為75%,超過85%觸發(fā)預(yù)警。
-監(jiān)控頻率:5分鐘采集一次。
3.磁盤空間:
-正常范圍:可用空間低于10%時(shí)觸發(fā)預(yù)警。
-監(jiān)控頻率:10分鐘采集一次。
4.網(wǎng)絡(luò)流量:
-正常范圍:帶寬使用率超過90%時(shí)觸發(fā)預(yù)警。
-監(jiān)控頻率:5分鐘采集一次。
5.應(yīng)用響應(yīng)時(shí)間:
-正常范圍:平均響應(yīng)時(shí)間超過2秒觸發(fā)預(yù)警。
-監(jiān)控頻率:1分鐘采集一次。
(二)輔助監(jiān)控指標(biāo)
1.系統(tǒng)日志:異常錯(cuò)誤日志數(shù)量超過設(shè)定閾值(如每分鐘5條)時(shí)觸發(fā)預(yù)警。
2.服務(wù)狀態(tài):核心服務(wù)(如Web、數(shù)據(jù)庫)長時(shí)間(如超過3分鐘)無響應(yīng)時(shí)觸發(fā)預(yù)警。
三、預(yù)警流程
(一)預(yù)警閾值設(shè)置
1.根據(jù)業(yè)務(wù)重要性分級(jí)設(shè)置閾值:
-優(yōu)先級(jí)高(如核心業(yè)務(wù)服務(wù)器):更嚴(yán)格閾值(如CPU超過70%)。
-優(yōu)先級(jí)低(如測(cè)試服務(wù)器):較寬松閾值(如CPU超過85%)。
2.動(dòng)態(tài)調(diào)整:根據(jù)歷史數(shù)據(jù)波動(dòng)調(diào)整閾值,避免誤報(bào)或漏報(bào)。
(二)預(yù)警觸發(fā)與響應(yīng)
1.預(yù)警觸發(fā)條件:
-單指標(biāo)超標(biāo)(如內(nèi)存使用率超過85%)。
-多指標(biāo)聯(lián)動(dòng)(如CPU、磁盤同時(shí)超標(biāo))。
2.響應(yīng)步驟(StepbyStep):
(1)自動(dòng)化響應(yīng):觸發(fā)輕度預(yù)警時(shí),系統(tǒng)自動(dòng)擴(kuò)容資源或重啟服務(wù)。
(2)人工介入:觸發(fā)嚴(yán)重預(yù)警時(shí),運(yùn)維團(tuán)隊(duì)10分鐘內(nèi)確認(rèn)并處理。
(3)記錄與復(fù)盤:每次預(yù)警處理需詳細(xì)記錄,每月復(fù)盤誤報(bào)率。
(三)預(yù)警級(jí)別劃分
1.輕度預(yù)警:指標(biāo)接近閾值(如CPU75%-85%),可安排低優(yōu)先級(jí)修復(fù)。
2.嚴(yán)重預(yù)警:指標(biāo)已超標(biāo)(如CPU90%以上),需立即處理。
3.緊急預(yù)警:服務(wù)完全中斷(如無響應(yīng)超過5分鐘),需緊急恢復(fù)。
四、實(shí)施要求
(一)監(jiān)控工具配置
1.工具選擇:推薦使用Zabbix、Prometheus等標(biāo)準(zhǔn)化監(jiān)控平臺(tái)。
2.數(shù)據(jù)采集:確保每5分鐘采集一次核心指標(biāo),存儲(chǔ)周期不少于3個(gè)月。
(二)運(yùn)維操作規(guī)范
1.日常巡檢:每日檢查預(yù)警日志,處理歷史遺留問題。
2.誤報(bào)處理:誤報(bào)次數(shù)超過3次需重新評(píng)估閾值。
3.備案管理:新增服務(wù)器需在24小時(shí)內(nèi)完成監(jiān)控配置并驗(yàn)證。
(三)培訓(xùn)與考核
1.培訓(xùn)內(nèi)容:監(jiān)控工具使用、閾值設(shè)置邏輯、應(yīng)急響應(yīng)流程。
2.考核指標(biāo):誤報(bào)率控制在5%以下,嚴(yán)重預(yù)警處理時(shí)效不低于15分鐘。
五、附錄
(一)常用閾值參考表
|指標(biāo)|正常閾值|預(yù)警閾值|
|------------|------------|------------|
|CPU使用率|≤70%|≥80%|
|內(nèi)存使用率|≤75%|≥85%|
|磁盤空間|≥15%|<10%|
(二)監(jiān)控平臺(tái)配置示例(以Zabbix為例)
1.主機(jī)添加:配置IP、端口、采集項(xiàng)目(CPU、內(nèi)存等)。
2.閾值創(chuàng)建:設(shè)置觸發(fā)器(如"CPU使用率>80%")。
3.報(bào)警接收:配置郵件或短信通知模板。
---
(接續(xù)原有內(nèi)容)
五、附錄(續(xù))
(一)常用閾值參考表(擴(kuò)寫)
|指標(biāo)|說明|正常閾值范圍(建議)|預(yù)警閾值范圍(建議)|嚴(yán)重預(yù)警閾值范圍(建議)|數(shù)據(jù)采集頻率(建議)|
|----------------------|------------------------------------------------------------|--------------------|-------------------|-----------------------|------------------------|
|CPU使用率(%)|反映服務(wù)器處理能力負(fù)載。|≤70%|≥80%|≥90%|5分鐘|
|內(nèi)存使用率(%)|反映服務(wù)器內(nèi)存資源占用情況。|≤75%|≥85%|≥95%|5分鐘|
|磁盤空間(可用量%)|反映系統(tǒng)盤或數(shù)據(jù)盤剩余空間。|≥15%|<10%|<5%|10分鐘|
|磁盤I/O(IOPS/KB/s)|反映磁盤讀寫性能。|在正常性能區(qū)間內(nèi)|顯著低于正常值|嚴(yán)重低于正常值|1分鐘|
|網(wǎng)絡(luò)流量(入/出)(Mbps)|反映服務(wù)器網(wǎng)絡(luò)帶寬使用情況。|在帶寬限制內(nèi)|接近帶寬上限(90%)|超出帶寬上限|5分鐘|
|應(yīng)用響應(yīng)時(shí)間(ms)|反映核心業(yè)務(wù)接口或服務(wù)的處理速度。|≤200ms|201-1000ms|>1000ms|1分鐘|
|TCP連接數(shù)|反映服務(wù)器當(dāng)前建立的客戶端連接數(shù)量。|≤設(shè)定閾值(如5000)|接近閾值(如90%)|超過閾值|5分鐘|
|服務(wù)狀態(tài)|檢查關(guān)鍵服務(wù)(如Web服務(wù)、數(shù)據(jù)庫服務(wù))是否存活。|正常運(yùn)行|超時(shí)(如1分鐘無響應(yīng))|完全不可用|1分鐘|
|系統(tǒng)日志錯(cuò)誤數(shù)|反映系統(tǒng)或應(yīng)用日志中出現(xiàn)的錯(cuò)誤信息頻率。|≤1條/分鐘|2-5條/分鐘|>5條/分鐘|5分鐘|
注意:
1.上述閾值僅為通用建議,實(shí)際閾值需根據(jù)具體服務(wù)器負(fù)載、業(yè)務(wù)重要性、硬件配置等因素進(jìn)行定制化調(diào)整。
2.閾值設(shè)置應(yīng)遵循“寧可誤報(bào),不可漏報(bào)”的原則,尤其是在關(guān)鍵指標(biāo)上。
3.建議定期(如每月)復(fù)盤閾值有效性,并根據(jù)實(shí)際運(yùn)行情況進(jìn)行優(yōu)化。
(二)監(jiān)控平臺(tái)配置示例(以Zabbix為例)(擴(kuò)寫)
1.主機(jī)添加與信息錄入:
(1)登錄Zabbix前端管理界面。
(2)進(jìn)入“配置”->“主機(jī)”,點(diǎn)擊“創(chuàng)建主機(jī)”。
(3)填寫主機(jī)基本信息:
名稱:填寫服務(wù)器規(guī)范名稱,如“生產(chǎn)-Web服務(wù)器01”。
IP地址/主機(jī)名:填寫服務(wù)器的IP地址或可解析主機(jī)名。
接口:配置監(jiān)控接口類型(通常為“Zabbixagent”或“SNMP”)和接口地址(IP地址)。
模板:選擇或應(yīng)用預(yù)定義的監(jiān)控模板(如“Zabbixservertemplate”),該模板會(huì)自動(dòng)加載相關(guān)監(jiān)控項(xiàng)目(Items)和觸發(fā)器(Triggers)。
(4)點(diǎn)擊“確定”保存主機(jī)配置。
2.監(jiān)控項(xiàng)目(Items)配置:
監(jiān)控項(xiàng)目定義了Zabbixagent或SNMP需要采集的具體數(shù)據(jù)。應(yīng)用模板后,大部分項(xiàng)目已自動(dòng)配置。
如需添加自定義項(xiàng)目(例如,監(jiān)控特定應(yīng)用的性能指標(biāo)):
(1)在主機(jī)詳情頁,點(diǎn)擊“項(xiàng)目”->“創(chuàng)建項(xiàng)目”。
(2)填寫項(xiàng)目信息:
名稱:清晰描述監(jiān)控內(nèi)容,如“自定義應(yīng)用錯(cuò)誤日志數(shù)”。
類型:選擇“Zabbixagent”或“SNMP”等。
鍵值:輸入用于采集數(shù)據(jù)的Zabbixagent鍵或SNMPOID(對(duì)象標(biāo)識(shí)符)。
數(shù)據(jù)類型:選擇數(shù)據(jù)類型(如“浮點(diǎn)數(shù)”、“整數(shù)”、“字符串”等)。
更新間隔:設(shè)置數(shù)據(jù)采集頻率(如“60”秒)。
接口:選擇對(duì)應(yīng)的主機(jī)接口。
(3)點(diǎn)擊“確定”保存項(xiàng)目。
3.觸發(fā)器(Triggers)配置:
觸發(fā)器定義了何時(shí)產(chǎn)生預(yù)警。應(yīng)用模板后,大部分觸發(fā)器已自動(dòng)配置。
如需添加或修改觸發(fā)器(例如,調(diào)整內(nèi)存使用率預(yù)警閾值):
(1)在主機(jī)詳情頁,點(diǎn)擊“觸發(fā)器”->“創(chuàng)建觸發(fā)器”或編輯現(xiàn)有觸發(fā)器。
(2)填寫觸發(fā)器信息:
名稱:清晰描述預(yù)警條件,如“內(nèi)存使用率過高”。
表達(dá)式:定義觸發(fā)條件,通常包含“LHS(左側(cè)表達(dá)式)”和“RHS(右側(cè)表達(dá)式)”。例如,`{host:生產(chǎn)-Web服務(wù)器01.memoryused[bytes].last()}>80%`表示監(jiān)控“生產(chǎn)-Web服務(wù)器01”的內(nèi)存使用率是否超過80%。使用“LLD模板”(自動(dòng)發(fā)現(xiàn)模板)可簡(jiǎn)化配置。
優(yōu)先級(jí):設(shè)置觸發(fā)器的重要性級(jí)別(如“高”、“中”、“低”)。
狀態(tài):默認(rèn)為“0”(正常)。
等級(jí):設(shè)置預(yù)警級(jí)別(如“信息”、“警告”、“嚴(yán)重”、“緊急”)。
自動(dòng)恢復(fù)時(shí)間:設(shè)置觸發(fā)器滿足條件后,多久自動(dòng)恢復(fù)為正常狀態(tài)(如“0”表示不自動(dòng)恢復(fù),需手動(dòng)確認(rèn);“60”表示60分鐘后自動(dòng)恢復(fù))。
(3)點(diǎn)擊“確定”保存觸發(fā)器。
4.動(dòng)作(Actions)配置:
動(dòng)作定義了觸發(fā)器被觸發(fā)時(shí)執(zhí)行的操作,如發(fā)送通知。
配置步驟:
(1)進(jìn)入“配置”->“動(dòng)作”。
(2)點(diǎn)擊“創(chuàng)建動(dòng)作”。
(3)選擇動(dòng)作類型:
發(fā)送通知:用于發(fā)送郵件、短信或使用Webhook通知。
事件類型:選擇觸發(fā)動(dòng)作的事件類型(如“觸發(fā)器發(fā)生”、“觸發(fā)器恢復(fù)”)。
對(duì)象:選擇受影響的對(duì)象類型(如“所有主機(jī)”、“選定主機(jī)”)。
用戶組/用戶:選擇接收通知的用戶或用戶組。
模板:選擇通知模板(包含郵件正文、短信內(nèi)容等)。
執(zhí)行計(jì)劃:用于執(zhí)行自動(dòng)化腳本(如重啟服務(wù)、清理日志)。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Module 6 Unit 1 What do you do on Sundays (教學(xué)設(shè)計(jì))-外研版(一起)英語二年級(jí)上冊(cè)
- 第二節(jié) 南方地區(qū)教學(xué)設(shè)計(jì)初中地理粵人版八年級(jí)下冊(cè)-粵人版2012
- (水滴系列)七年級(jí)生物下冊(cè) 3.3.1 物質(zhì)運(yùn)輸?shù)妮d體說課稿2 (新版)濟(jì)南版
- 03 專題五 牛頓第二定律的綜合應(yīng)用 【答案】作業(yè)手冊(cè)
- 口腔內(nèi)部健康知識(shí)培訓(xùn)課件
- 2023八年級(jí)物理下冊(cè) 第十二章 簡(jiǎn)單機(jī)械 第2節(jié) 滑輪第1課時(shí) 定滑輪和動(dòng)滑輪說課稿 (新版)新人教版
- 保姆常見知識(shí)培訓(xùn)課件
- 保命防范意識(shí)知識(shí)培訓(xùn)內(nèi)容課件
- 高級(jí)油漆工考試題及答案
- 13.2.3 邊角邊教學(xué)設(shè)計(jì) 華東師大版數(shù)學(xué)八年級(jí)上冊(cè)
- (高清版)DB41∕T 742-2012 公路折線配筋先張法預(yù)應(yīng)力混凝土梁設(shè)計(jì)施工規(guī)范
- 國開(四川)2024年秋《地域文化》形考任務(wù)1-2答案終結(jié)性考核答案
- 放射性皮膚損傷的護(hù)理-中華護(hù)理學(xué)會(huì)團(tuán)體標(biāo)準(zhǔn)
- 高中數(shù)學(xué)大題各題型答題模板+必背公式
- 2024年秋新人教版七年級(jí)上冊(cè)歷史教學(xué)課件 第8課 夏商周時(shí)期的科技與文化
- 自考08257《輿論學(xué)》備考試題庫(含答案)
- 高考生物必修2遺傳與進(jìn)化知識(shí)點(diǎn)填空(每天打卡)
- 20G520-1-2鋼吊車梁(6m-9m)2020年合訂本
- 某地區(qū)地質(zhì)災(zāi)害-崩塌勘查報(bào)告
- 我的家鄉(xiāng)德州夏津宣傳介紹模板
- 基于人工智能的個(gè)性化學(xué)習(xí)路徑設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論