機(jī)房監(jiān)控系統(tǒng)是企業(yè)機(jī)房?jī)?nèi)不可或缺的重要輔助工具,是機(jī)房?jī)?nèi)各設(shè)備的守護(hù)使者。對(duì)于企業(yè)來(lái)說(shuō),了解機(jī)房監(jiān)控就是對(duì)自身機(jī)房增加一層安全保障,要想機(jī)房問(wèn)題少,機(jī)房監(jiān)控少不了。
監(jiān)控目標(biāo)
我們先來(lái)了解什么是監(jiān)控,監(jiān)控的重要性以及監(jiān)控的目標(biāo),當(dāng)然每個(gè)人所在的行業(yè)不同、公司不同、業(yè)務(wù)不同、崗位不同、對(duì)監(jiān)控的理解也不同,但是我們需要注意,監(jiān)控是需要站在公司的業(yè)務(wù)角度去考慮,而不是針對(duì)某個(gè)監(jiān)控技術(shù)的使用。
1、 對(duì)系統(tǒng)不間斷實(shí)時(shí)監(jiān)控:實(shí)際上是對(duì)系統(tǒng)不間斷的實(shí)時(shí)監(jiān)控(這就是監(jiān)控) 。
2、 實(shí)時(shí)反饋系統(tǒng)當(dāng)前狀態(tài):我們監(jiān)控某個(gè)硬件、或者某個(gè)系統(tǒng),都是需要能實(shí)時(shí)看到當(dāng)前系統(tǒng)的狀態(tài),是正常、異常、或者故障。
3、 保證服務(wù)可靠性安全性:我們監(jiān)控的目的就是要保證系統(tǒng)、服務(wù)、業(yè)務(wù)正常運(yùn)行。
4、 保證業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行:如果我們的監(jiān)控做得很完善,即使出現(xiàn)故障,能第一時(shí)間接收到故障報(bào)警,在第一時(shí)間處理解決,從而保證業(yè)務(wù)持續(xù)性的穩(wěn)定運(yùn)行。
監(jiān)控方法
既然我們了解到了監(jiān)控的重要性、以及監(jiān)控的目的,那么下面我們需要了解下監(jiān)控有哪些方法。
1、 了解監(jiān)控對(duì)象:我們要監(jiān)控的對(duì)象你是否了解呢?比如 CPU 到底是如何工作的?
2、 性能基準(zhǔn)指標(biāo):我們要監(jiān)控這個(gè)東西的什么屬性?比如 CPU 的使用率、負(fù)載、用戶態(tài)、內(nèi)核態(tài)、上下文切換。
3、 報(bào)警閾值定義:怎么樣才算是故障,要報(bào)警呢?比如 CPU 的負(fù)載到底多少算高,用戶態(tài)、內(nèi)核態(tài)分別跑多少算高?
4、 故障處理流程:收到了故障報(bào)警,那么我們?cè)趺刺幚砟??有什么更高效的處理流程嗎?/p>
監(jiān)控核心
我們了解了監(jiān)控的方法、監(jiān)控對(duì)象、性能指標(biāo)、報(bào)警閾值定義、以及故障處理流程幾步驟,當(dāng)然我們更需要知道監(jiān)控的核心是什么?
1、 發(fā)現(xiàn)問(wèn)題:當(dāng)系統(tǒng)發(fā)生故障報(bào)警,我們會(huì)收到故障報(bào)警的信息。
2、 定位問(wèn)題:故障郵件一般都會(huì)寫某某主機(jī)故障、具體故障的內(nèi)容,我們需要對(duì)報(bào)警內(nèi)容進(jìn)行分析,比如一臺(tái)服務(wù)器連不上:我們就需要考慮是網(wǎng)絡(luò)問(wèn)題、還是負(fù)載太高導(dǎo)致長(zhǎng)時(shí)間無(wú)法連接,又或者某開(kāi)發(fā)觸發(fā)了防火墻禁止的相關(guān)策略等等,我們就需要去分析故障具體原因。
3、 解決問(wèn)題:當(dāng)然我們了解到故障的原因后,就需要通過(guò)故障解決的優(yōu)先級(jí)去解決該故障。
4、 總結(jié)問(wèn)題:當(dāng)我們解決完重大故障后,需要對(duì)故障原因以及防范進(jìn)行總結(jié)歸納,避免以后重復(fù)出現(xiàn)。
監(jiān)控工具
一款好的監(jiān)控系統(tǒng)一定是最切合用戶使用習(xí)慣的,在眾多企業(yè)級(jí)機(jī)房監(jiān)控中選出最完美的監(jiān)控系統(tǒng)幾乎不現(xiàn)實(shí),由于每款機(jī)房監(jiān)控系統(tǒng)都各有各的優(yōu)點(diǎn),導(dǎo)致用戶在選擇上時(shí)常面臨新的挑戰(zhàn)(尤其是選擇恐懼癥患者)。
北京金恒智能CREATE機(jī)房環(huán)境及能效管理系統(tǒng)綜合應(yīng)用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、移動(dòng)通信技術(shù)、自動(dòng)控制技術(shù)、新型傳感技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等,面向機(jī)房動(dòng)力能效、機(jī)房場(chǎng)地環(huán)境和機(jī)房安全保障,通過(guò)信息實(shí)時(shí)采集、數(shù)據(jù)智能分析、預(yù)警、場(chǎng)景化數(shù)據(jù)展現(xiàn)、移動(dòng)查詢、遠(yuǎn)程操控等手段,實(shí)現(xiàn)對(duì)機(jī)房環(huán)境的便捷、高效管理。
大家在選擇合適的機(jī)房監(jiān)控時(shí)要著重對(duì)比價(jià)格、產(chǎn)品功能以及用戶體驗(yàn)等信息,尤其是用戶體驗(yàn)方面。在后期的監(jiān)控運(yùn)維管理工作中,監(jiān)控系統(tǒng)要做到能簡(jiǎn)潔呈現(xiàn)絕不拖泥帶水,需要著重介紹不可一筆帶過(guò)。優(yōu)化系統(tǒng)功能,為用戶提供更優(yōu)質(zhì)的服務(wù)。
提供多種智能基線報(bào)警策略,基于趨勢(shì)提前預(yù)警,有效規(guī)避機(jī)房事故發(fā)生。
CREATE科技機(jī)房監(jiān)控系統(tǒng)支持多種數(shù)據(jù)采集方式,支持混合組網(wǎng)結(jié)構(gòu),可以逐級(jí)靈活組網(wǎng)。系統(tǒng)容量大,可平滑擴(kuò)容,數(shù)據(jù)處理能力強(qiáng)。
CREATE機(jī)房監(jiān)控系統(tǒng)面向業(yè)務(wù)和管理提供豐富的數(shù)據(jù)模塊和自定義功能,用戶可將不同數(shù)據(jù)模塊進(jìn)行組合,建立適合本崗位的私有桌面;同時(shí)提供重點(diǎn)設(shè)備關(guān)注功能,使不同人員可以有針對(duì)性的對(duì)指定設(shè)備進(jìn)行實(shí)時(shí)關(guān)注、跟蹤。
提供獨(dú)有的能效分析機(jī)制以及能效拓?fù)洹㈦娏ν負(fù)涞日宫F(xiàn)方式,為用戶提供PUE值和能效狀況專業(yè)視圖,實(shí)現(xiàn)實(shí)時(shí)展示與管理。
面向科技部門常規(guī)崗位和運(yùn)維職能,系統(tǒng)提供針對(duì)性的工作場(chǎng)景(運(yùn)維場(chǎng)景、報(bào)警場(chǎng)景、巡檢場(chǎng)景等)和數(shù)據(jù)支持,滿足客戶分類需求。
監(jiān)控流程
CREATE機(jī)房監(jiān)控系統(tǒng)為客戶提供了完整的監(jiān)控流程,確保機(jī)房?jī)?nèi)各設(shè)備穩(wěn)定運(yùn)行。
1、 數(shù)據(jù)采集: 支持SNMP、WMI、SYSLOG、AGENT、JDBC、ODBC、TELNET、SSH、PING、DNS、IPMI等各種監(jiān)控方式 。
2、 數(shù)據(jù)存儲(chǔ): CREATE機(jī)房監(jiān)控所獲得的數(shù)據(jù) 存儲(chǔ)在MySQL上,也可以存儲(chǔ)在其他數(shù)據(jù)庫(kù)服務(wù)。
3、 數(shù)據(jù)分析:系統(tǒng)提供所有監(jiān)控對(duì)象的監(jiān)控指標(biāo)、缺省閥值、報(bào)警策略等,支持系統(tǒng)快速實(shí)施和監(jiān)控調(diào)整 。
4、 數(shù)據(jù)展示:web界面 以及 移動(dòng)APP 展示,提供整體 IT環(huán)境總覽,多個(gè)不同告警、監(jiān)測(cè)、配置、統(tǒng)計(jì)等功能提供多種不同視圖展示。
5、 監(jiān)控報(bào)警:可選聲、光、現(xiàn)場(chǎng)語(yǔ)音、短信、Email、電話轉(zhuǎn)移、視頻聯(lián)動(dòng)、控制聯(lián)動(dòng)、投大屏幕等告警,也可實(shí)現(xiàn)分類、分時(shí)段告警抑制 。
6、 報(bào)警處理: 當(dāng)接收到報(bào)警,我們需要根據(jù)故障的級(jí)別進(jìn)行處理,比如 : 重要緊急、重要不緊急等。 同時(shí) 屏蔽掉無(wú)用從屬報(bào)警,實(shí)現(xiàn)故障精準(zhǔn)定位,解決告警風(fēng)暴對(duì)運(yùn)維人員的困擾。
此外CREATE機(jī)房監(jiān)控系統(tǒng)還支持shell腳本和SQL語(yǔ)句自定義擴(kuò)展,方便用戶隨時(shí)增加監(jiān)控項(xiàng)。
監(jiān)控指標(biāo)
我們上面了解了監(jiān)控方法、目標(biāo)、流程、也了解了監(jiān)控工具,可能有人會(huì)疑惑,我們具體要監(jiān)控寫什么東西,那么我在這里進(jìn)行了分類整理。
主要監(jiān)控內(nèi)容列舉:「 硬件監(jiān)控 」 - 「 系統(tǒng)監(jiān)控 」 - 「 應(yīng)用監(jiān)控 」 - 「 網(wǎng)絡(luò)監(jiān)控 」 - 「 流量分析 」 - 「 日志監(jiān)控 」 - 「 安全監(jiān)控」 - 「 API監(jiān)控 」 - 「 性能監(jiān)控 」 - 「 業(yè)務(wù)監(jiān)控 」。
1、 硬件監(jiān)控
早期我們通過(guò)機(jī)房巡檢的方式,查看硬件設(shè)備燈光閃爍情況判斷是否故障,這樣非常浪費(fèi)人力,并且是重復(fù)性無(wú)技術(shù)含量的工作,大家懂得。
當(dāng)然我們現(xiàn)在可以通過(guò) IPMI 對(duì)硬件詳細(xì)情況進(jìn)行監(jiān)控,并對(duì) CPU、內(nèi)存、磁盤、溫度、風(fēng)扇、電壓等設(shè)置報(bào)警設(shè)置報(bào)警閾值(自行對(duì)監(jiān)控報(bào)警內(nèi)容編寫合理的報(bào)警范圍)。
2、 系統(tǒng)監(jiān)控
中小型企業(yè)基本全是 Linux 服務(wù)器,那么我們肯定是要監(jiān)控起系統(tǒng)資源的使用情況,系統(tǒng)監(jiān)控是監(jiān)控體系的基礎(chǔ)。
— CPU
CPU 有幾個(gè)重要的概念:上下文切換、運(yùn)行隊(duì)列和使用率。這也是我們CPU監(jiān)控的幾個(gè)重點(diǎn)指標(biāo)。通常情況,每個(gè)處理器的運(yùn)行隊(duì)列不要高于 3,CPU 利用率中 “用戶態(tài)/內(nèi)核態(tài)” 比例維持在 70/30,空閑狀態(tài)維持在 50%,上下文切換要根據(jù)系統(tǒng)繁忙程度來(lái)綜合考量。針對(duì) CPU 常用的工具有:htop、top、vmstat、mpstat、dstat、glances 等。
— 內(nèi)存
通常我們需要監(jiān)控內(nèi)存的使用率、SWAP 使用率、同時(shí)可以通過(guò) Zabbix 描繪內(nèi)存使用率的曲線圖形發(fā)現(xiàn)某服務(wù)內(nèi)存溢出等。針對(duì)內(nèi)存常用的工具有: free、top、vmstat、glances 等。
— IO
IO 分為磁盤 IO 和網(wǎng)絡(luò) IO 。除了在做性能調(diào)優(yōu)我們要監(jiān)控更詳細(xì)的數(shù)據(jù)外,那么日常監(jiān)控,只關(guān)注磁盤使用率、磁盤吞吐量、磁盤寫入繁忙程度,網(wǎng)絡(luò)也是監(jiān)控網(wǎng)卡流量即可。常用工具有 : iostat、iotop、df、iftop、sar、glances 等。
3、 應(yīng)用監(jiān)控
把硬件監(jiān)控和系統(tǒng)監(jiān)控研究明白后,我們進(jìn)一步操作是需要登陸到服務(wù)器上查看服務(wù)器運(yùn)行了哪些服務(wù),都需要監(jiān)控起來(lái)。
應(yīng)用服務(wù)監(jiān)控也是監(jiān)控體系中比較重要的內(nèi)容,例如:LVS、Haproxy、Docker、Nginx、PHP、Memcached、Redis、MySQL、Rabbitmq等等,相關(guān)的服務(wù)都需要監(jiān)控起來(lái)。
4、 網(wǎng)絡(luò)監(jiān)控
網(wǎng)絡(luò)監(jiān)控是我們構(gòu)建監(jiān)控平臺(tái)是必須要考慮的,尤其是針對(duì)有多個(gè)機(jī)房的場(chǎng)景,各個(gè)機(jī)房之間的網(wǎng)絡(luò)狀態(tài),機(jī)房和全國(guó)各地的網(wǎng)絡(luò)狀態(tài)都是我們需要重點(diǎn)關(guān)注的對(duì)象,那么如何掌握這些狀態(tài)信息呢?我們需要借助于網(wǎng)絡(luò)監(jiān)控工具 Smokeping。
Smokeping 是 RRDTool 的作者 Tobi Oetiker 的作品,是用 Perl 寫的,主要是監(jiān)視網(wǎng)絡(luò)性能,WWW 服務(wù)器性能,DNS 查詢性能等,使用 RRDTool 繪圖,而且支持分布式,直接從多個(gè) Agent 進(jìn)行數(shù)據(jù)的匯總。
5、 流量分析
網(wǎng)站流量分析對(duì)于運(yùn)維人員來(lái)說(shuō),更是一門必須掌握的知識(shí)了。比如對(duì)于一家電商公司來(lái)說(shuō):通過(guò)對(duì)訂單來(lái)源的統(tǒng)計(jì)和分析,可以了解我們?cè)谀硞€(gè)網(wǎng)站上的廣告投入有沒(méi)有收到預(yù)期的效果??梢詤^(qū)分不同地區(qū)的訪問(wèn)人數(shù)、甚至商品交易額等。百度統(tǒng)計(jì)、Google分析、站長(zhǎng)工具等等,只需要在頁(yè)面嵌入一個(gè)js即可。但是,數(shù)據(jù)始終是在對(duì)方手中,個(gè)性化定制不方便,于是 Google 出一個(gè)叫 PiWik 的開(kāi)源分析工具。
6、 日志監(jiān)控
通常情況下,隨著系統(tǒng)的運(yùn)行,操作系統(tǒng)會(huì)產(chǎn)生系統(tǒng)日志。應(yīng)用程序會(huì)產(chǎn)生應(yīng)用程序的訪問(wèn)日志、錯(cuò)誤日志、運(yùn)行日志、網(wǎng)絡(luò)日志,我們可以使用 ELK 來(lái)進(jìn)行日志監(jiān)控。
對(duì)于日志監(jiān)控來(lái)說(shuō),最見(jiàn)的需求就是收集、存儲(chǔ)、查詢、展示,開(kāi)源社區(qū)正好有相對(duì)應(yīng)的開(kāi)源項(xiàng)目:logstash(收集)+ elasticsearch(存儲(chǔ)+搜索)+ kibana(展示)。
我們將這三個(gè)組合起來(lái)的技術(shù)稱之為 ELK Stack,所以說(shuō) ELK Stack指的是Elasticsearch、Logstash、Kibana 技術(shù)棧的結(jié)合。
如果收集了日志信息,那么如果部署更新有異常出現(xiàn),可以立即在 Kibana上看到。
7、 安全監(jiān)控
雖然 Linux 開(kāi)源的安全產(chǎn)品不少,比如:四層 Iptables,七層 WEB 防護(hù)Nginx+Lua實(shí)現(xiàn)的 WAF,最后將相關(guān)的日志都收至 ELK Stack,通過(guò)圖形化進(jìn)行不同的攻擊類型展示。但是始終是一件比較耗費(fèi)時(shí)間,并且個(gè)人效果并不是很好。這個(gè)時(shí)候我們可以選擇接入第三方服務(wù)廠商。
三方廠商提供全面的漏洞庫(kù),涵蓋服務(wù)、后門、數(shù)據(jù)庫(kù)、配置檢測(cè)、CGI、SMTP 等多種類型全面檢測(cè)主機(jī)、Web 應(yīng)用漏洞自主挖掘和行業(yè)共享相結(jié)合第一時(shí)間更新 0day 漏洞,杜絕最新安全隱患。
8、 API 監(jiān)控
由于 API 變得越來(lái)越重要,很顯然我們也需要這樣的數(shù)據(jù)來(lái)分辨我們提供的 API 是否能夠正常運(yùn)作。監(jiān)控API接口 GET、POST、PUT、DELETE、HEAD、OPTIONS 的請(qǐng)求可用性、正確性、響應(yīng)時(shí)間為三大重性能指標(biāo)。
9、 性能監(jiān)控
全面監(jiān)控網(wǎng)頁(yè)性能,DNS 響應(yīng)時(shí)間、HTTP 建立連接時(shí)間、頁(yè)面性能指數(shù)、響應(yīng)時(shí)間、可用率、元素大小等。
10、 業(yè)務(wù)監(jiān)控
沒(méi)有業(yè)務(wù)指標(biāo)監(jiān)控的監(jiān)控平臺(tái),不是一個(gè)完善的監(jiān)控平臺(tái),通常在我們的監(jiān)控系統(tǒng)中,必須將我們重要的業(yè)務(wù)指標(biāo)進(jìn)行監(jiān)控,并設(shè)置閾值進(jìn)行告警通知。
監(jiān)控報(bào)警
故障報(bào)警通知的方式有很多種,當(dāng)然我們最常用的還是短信,郵件。
報(bào)警處理
一般報(bào)警后我們故障如何處理呢?首先,我們可以通過(guò)告警升級(jí)機(jī)制先自動(dòng)處理,比如Nginx服務(wù)Down了,可以設(shè)置告警升級(jí)自動(dòng)啟動(dòng)Nginx。
但是如果一般業(yè)務(wù)出現(xiàn)了嚴(yán)重故障,我們通常根據(jù)故障的級(jí)別,故障的業(yè)務(wù),來(lái)指派不同的運(yùn)維人員進(jìn)行處理。
當(dāng)然不同業(yè)務(wù)形態(tài)、不同架構(gòu)、不同服務(wù)可能采用的方式都不同,這個(gè)沒(méi)有一個(gè)固定的模式套用。
來(lái)源:機(jī)房動(dòng)力環(huán)境監(jiān)控系統(tǒng) http://www.dr4xxf.cn 本文采集于網(wǎng)絡(luò),如有問(wèn)題有聯(lián)系刪除
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號(hào)-2網(wǎng)站XML
智慧機(jī)房
在線體驗(yàn)