日志是帶時(shí)間標(biāo)記的足跡、記錄行為、條件和事件,數(shù)據(jù)中心里的任何設(shè)備都會(huì)有日志輸出,對(duì)這些日志進(jìn)行管理是數(shù)據(jù)中心運(yùn)維工作的重要組成部分。 日志管理不但可以對(duì)日常操作進(jìn)行控制與管理提供依據(jù),還可以在某些故障發(fā)生之前通過(guò)日志信息就能感知到,也可以在故障發(fā)生時(shí)打印一些異常記錄,還可以供故 障發(fā)生后分析使用。作為數(shù)據(jù)中心的運(yùn)維人員學(xué)會(huì)檢查和分析日志數(shù)據(jù),是一項(xiàng)必備的技能。然而日志是一把“雙刃劍”,用好它,可以大幅提升數(shù)據(jù)中心的運(yùn)維水 平,降低數(shù)據(jù)中心的故障發(fā)生概率,節(jié)約運(yùn)維開(kāi)銷;用不好它,反而會(huì)畫蛇添足,增加運(yùn)維的工作量,加大開(kāi)銷,所以對(duì)于數(shù)據(jù)中心日志的管理和使用,是一門大學(xué) 問(wèn),如何靈活運(yùn)用是擺在每個(gè)數(shù)據(jù)中心運(yùn)維者面前的一道難題。本文拋磚引玉,說(shuō)一說(shuō)這里的道道。
數(shù)據(jù)中心里的設(shè)備成千上萬(wàn),尤其是大型數(shù)據(jù)中心,各種服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全與存儲(chǔ)等,擁有數(shù)千臺(tái)設(shè)備的規(guī)模很正常,如果這些設(shè)備每臺(tái)一天報(bào)一 條日志信息,那么就是數(shù)千條日志,這個(gè)數(shù)據(jù)量可想而知。而且最為令人頭疼的是,不同廠家甚至是同一廠家的不同型號(hào)設(shè)備的日志信息格式完全不同,無(wú)法通過(guò)通 用的日志服務(wù)器去采集,有時(shí)甚至要一類設(shè)備用一種日志服務(wù)器,另一類設(shè)備用另外一種。一個(gè)數(shù)據(jù)中心為了獲取所有設(shè)備的日志信息,要搭建數(shù)個(gè)日志服務(wù)器,分 別進(jìn)行監(jiān)控,這樣查看和管理起來(lái)非常不便,而且不同設(shè)備的日志風(fēng)格不同,有些信息含義并不十分明確,讓人丈二和尚摸不著頭腦,這都讓日志的作用大打折扣。 還有很多問(wèn)題,并不能通過(guò)日志提前發(fā)現(xiàn)問(wèn)題。平時(shí)可能設(shè)備上報(bào)了很多日志信息,但是都是一些無(wú)關(guān)痛癢的無(wú)用信息,而真正出現(xiàn)故障了,反而沒(méi)有任何日志報(bào)出 了,采集這樣的日志信息無(wú)助于數(shù)據(jù)中心管理提升,而是給數(shù)據(jù)中心添亂。還有不少的數(shù)據(jù)中心為了節(jié)省管理費(fèi)用,管理網(wǎng)與數(shù)據(jù)網(wǎng)合一,管理網(wǎng)的數(shù)據(jù)也走業(yè)務(wù)轉(zhuǎn) 發(fā)設(shè)備,這樣在真正出現(xiàn)故障時(shí),日志信息經(jīng)過(guò)的網(wǎng)絡(luò)路徑也出了故障,就會(huì)導(dǎo)致日志信息的丟棄,也錯(cuò)失了避免嚴(yán)重故障的機(jī)會(huì),這些都是當(dāng)前數(shù)據(jù)中心在日志監(jiān) 控上面臨的問(wèn)題。
怎樣將數(shù)據(jù)中心的日志監(jiān)控有效做起來(lái),是每個(gè)數(shù)據(jù)中心最為關(guān)心的問(wèn)題。首先,日志信息要統(tǒng)一格式。作為甲方,數(shù)據(jù)中心有權(quán)利要求其采購(gòu)的設(shè)備輸 出日志符合通用日志服務(wù)器采集的格式,無(wú)法滿足的設(shè)備堅(jiān)決不再進(jìn)行后期采購(gòu),如此一來(lái)就可以在整個(gè)數(shù)據(jù)中心部署一套日志監(jiān)控設(shè)備即可,這樣可大幅節(jié)省監(jiān)控 設(shè)備的運(yùn)維支出;其次,日志采集與業(yè)務(wù)轉(zhuǎn)發(fā)分離,日志數(shù)據(jù)走單獨(dú)的管理網(wǎng),管理網(wǎng)一般是通過(guò)專有設(shè)備將所有設(shè)備的管理口,服務(wù)器的單獨(dú)網(wǎng)卡連接起來(lái),這樣 業(yè)務(wù)網(wǎng)絡(luò)有中斷,并不影響到日志數(shù)據(jù)的收集,這樣往往可以給分析問(wèn)題提供及時(shí)、有效的信息,縮短故障定位和恢復(fù)的時(shí)間;第三,日志信息要簡(jiǎn)潔和準(zhǔn)確,一個(gè) 大型數(shù)據(jù)中心數(shù)千臺(tái)設(shè)備,不能什么日志都向日志主機(jī)發(fā)送,只有可能影響到轉(zhuǎn)發(fā)業(yè)務(wù)的日志才會(huì)采集,如果設(shè)備無(wú)法控制,就在日志服務(wù)器上進(jìn)行控制,對(duì)不同日 志進(jìn)行等級(jí)分類,平時(shí)只關(guān)注級(jí)別高的告警,級(jí)別低的忽略不計(jì)。此時(shí),設(shè)備提供的日志準(zhǔn)確性尤為重要,哪些日志可能會(huì)影響業(yè)務(wù),哪些日志是提示性的,哪些日 志是操作類的記錄,這樣分得清楚,這樣在日志服務(wù)器上可以調(diào)取自己關(guān)心的那類日志,不用全部查看,這將大大節(jié)省日常運(yùn)維的檢查時(shí)間;第四,很多數(shù)據(jù)中心已 經(jīng)開(kāi)始做自動(dòng)化的運(yùn)維管理,對(duì)日志服務(wù)器增加自動(dòng)化檢查的腳本,通過(guò)腳本對(duì)日志進(jìn)行檢查,這樣可大大節(jié)省人工成本。這種自動(dòng)化運(yùn)維管理是通過(guò)TCL腳本, 對(duì)日志進(jìn)行檢查,當(dāng)發(fā)現(xiàn)異常關(guān)鍵字時(shí),給出自動(dòng)告警,有些腳本還可以自動(dòng)執(zhí)行一些恢復(fù)的設(shè)備命令,這樣達(dá)到發(fā)現(xiàn)故障自行恢復(fù)的目的。比如:可以在自動(dòng)化腳 本中增加“Fan is fault”的判斷,當(dāng)發(fā)現(xiàn)日志里出現(xiàn)這樣的字樣時(shí)就主動(dòng)給出提示,或者將告警直接發(fā)向運(yùn)維人員的值班手機(jī)上,這樣運(yùn)維人員立即就能知道是哪臺(tái)設(shè)備的風(fēng)扇 出了問(wèn)題,日志自動(dòng)化管理是數(shù)據(jù)中心提升運(yùn)維水平的重要手段;第五,與設(shè)備商做好交流溝通,要求設(shè)備商提供完整的日志信息,包括告警級(jí)別的分類,這些日志 的準(zhǔn)確性將直接決定未來(lái)運(yùn)維的效率,如果設(shè)備商的設(shè)備在故障時(shí),并沒(méi)有從日志中反映出來(lái),就說(shuō)明這些設(shè)備做得還不夠好,要改進(jìn)。所有的故障都應(yīng)該通過(guò)日志 反映出來(lái),這樣才能高效運(yùn)維。設(shè)備可維護(hù)性也可作為數(shù)據(jù)中心未來(lái)采購(gòu)的重要參考標(biāo)準(zhǔn)。操作靈活性差,信息記錄缺失都是可維護(hù)性差的表現(xiàn),對(duì)于這類設(shè)備應(yīng)檢 查采購(gòu)或不采購(gòu)。數(shù)據(jù)中心出了問(wèn)題并不可怕,可怕的是出了問(wèn)題后還不知道怎么回事,沒(méi)有歷史記錄可查。
日志監(jiān)控是未來(lái)數(shù)據(jù)中心管理的重要組成部分,通過(guò)日志監(jiān)控可以避免或者減少業(yè)務(wù)故障的時(shí)間,對(duì)于數(shù)據(jù)中心運(yùn)維特別有意義。當(dāng)然,日志監(jiān)控并不能 解決數(shù)據(jù)中心所有問(wèn)題,數(shù)據(jù)中心業(yè)務(wù)特別復(fù)雜,問(wèn)題表現(xiàn)各異,就算日志監(jiān)控做得再完整,很多問(wèn)題也不能通過(guò)日志完全反映出來(lái)。比如通過(guò)FTP下載數(shù)據(jù)慢, 這樣業(yè)務(wù)層問(wèn)題,通過(guò)日志很難反映出來(lái),就需要借助抓包、統(tǒng)計(jì)報(bào)文等其它手段再深入分析??傊罩颈O(jiān)控還需要不斷完善,不僅是數(shù)據(jù)中心,也需要數(shù)據(jù)中心 設(shè)備提供商一起努力,將日志監(jiān)控做好,從而提升數(shù)據(jù)中心的運(yùn)維水平。
來(lái)源:機(jī)房監(jiān)控機(jī)房環(huán)境監(jiān)控機(jī)房監(jiān)控系統(tǒng)http://www.dr4xxf.cn 本文采集于網(wǎng)絡(luò),如有問(wèn)題有聯(lián)系刪除
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號(hào)-2網(wǎng)站XML
智慧機(jī)房
在線體驗(yàn)