400-650-1086
首頁 > 最新資訊 > 企業(yè)新聞 > 正文

數(shù)據(jù)中心監(jiān)控自動化中的兩個常見問題

admin 2017-01-12 10:21:38 0

如今,數(shù)據(jù)中心越來越趨于自動化,并已成為數(shù)據(jù)中心良好運營的強大力量。以下列出在數(shù)據(jù)中心監(jiān)控自動化中經(jīng)常出現(xiàn)的兩個主要問題。

問題1:房間里的大象

“房間里的大象”是指人們私密生活和公共生活中對于某些顯而易見的事實,集體保持沉默的社會現(xiàn)象。人們在進一步深入自動化之前,無論是自動發(fā)現(xiàn),報告交付或警報觸發(fā)操作,必須做出一個關(guān)鍵點:在某些方面,它被稱為DPR周期。DPR代表檢測,預(yù)防和響應(yīng)。

警報是工作人員在發(fā)生錯誤時捕獲錯誤的方式,但是由數(shù)據(jù)中心工作人員來決定它們發(fā)生的原因,并找到一種防止錯誤再次發(fā)生的方法。當構(gòu)建一個解決方案以自動響應(yīng)警報并進行修復(fù)時,作為負責任的數(shù)據(jù)中心專業(yè)人員,還應(yīng)該致力于分析情況的艱苦工作,以找到模式和根本原因。然后需要解決根本原因,并創(chuàng)建檢查,以便知道是否再次出現(xiàn)問題。

對警報的自動響應(yīng)保持企業(yè)的業(yè)務(wù)在所有的時間運行,并幫助確保知道你需要的時間,工作人員必須能夠看到發(fā)生了什么,做的工作出來為什么會發(fā)生,所以可以防止它在將來發(fā)生。這樣才不會出現(xiàn)“房間里的大象”問題。

問題2:內(nèi)心恐懼

許多數(shù)據(jù)中心專業(yè)人員在第一次提出自動響應(yīng)警報的想法時感到擔心。而具有一個真正有活力的大腦的人會對這些警報進行仔細思考,然后謹慎采取行動。這種想法就像站在“自動化”海洋的邊緣。有點令人望而生畏。但你必須相信不會被海水淹死,并且有能力一步步地嘗試。這并不是一個全有或全無的命題,其風險也將會從零到全部。

與任何IT工作一樣,有實施計劃有時比實施(或在這種情況下是自動化)本身更重要。所以可以再談?wù)勥@個實施計劃:

•首先識別測試機器。無論是為這些目的而部署的實驗室設(shè)備還是那些不太重要的志愿者,請設(shè)置警報,以便觸發(fā)這些機器。

•學習使用反向閾值。雖然企業(yè)的最終警報將檢查CPU的工作負載量大于90%,工作人員可能希望避免反復(fù)測試。而CPU的工作負載量小于90%將觸發(fā)更多的可靠性,至少工作人員希望如此。

•查找復(fù)位選項。與上面密切相關(guān),了解數(shù)據(jù)中心監(jiān)控工具如何重置警報,以便再次觸發(fā)。也許很可能會很多使用那個功能。

•詳細情況。數(shù)據(jù)中心工作人員想要了解發(fā)生什么和什么時候可能發(fā)生。如果數(shù)據(jù)中心的工具支持自己的日志記錄,請將其打開。在自動化中大量插入“我現(xiàn)在開始XYZ步驟”消息。雖然很乏味,但你會很高興所做到的事情。

•自己處理警報。如果你認為會通過發(fā)送這些警報到服務(wù)器團隊進行測試,事實上,你并不會把它發(fā)送到任何團隊,而會認為自己可以處理這些警報。

•你真的不需要通過電子郵件觸發(fā)那些警報。所有這一切都是在基礎(chǔ)設(shè)施上造成額外的延遲和壓力,以及如果你的警報同時啟動多個消息,可能會產(chǎn)生其他問題,會將消息發(fā)送到本地日志文件和顯示屏。

•分享警報提醒?,F(xiàn)在,你可以通過對話與小組的其他人分享警報提醒。

•采用對話。這個過程將涉及與其他人交談。設(shè)置自動化是協(xié)作的,因為你和那些每天都在一起工作的人都應(yīng)該同意從基本功能到消息格式的一切。

•將相位器設(shè)置為滿。一旦自動化在企業(yè)的測試系統(tǒng)上工作,計劃通過分階段的方法實施。使用相同的機制,你用來限制幾個警報,你向網(wǎng)絡(luò)擴展,也許10-20個系統(tǒng)。并且你再次測試觀察結(jié)果。然后你擴大到50個左右。確保你和收件人都很滿意所看到的結(jié)果。記住,在這一點上,團隊正在接收常規(guī)警報,但你仍然應(yīng)該看到之前提到的詳細消息。你應(yīng)該與團隊進行審查,以確保你認為發(fā)生的是真正發(fā)生的事情。

遵循這些指南,任何自動響應(yīng)應(yīng)該有很高的成功機率,或者至少你會避免陷入糟糕的自動化,不會產(chǎn)生太多的損害。采用自動化的一個很好的經(jīng)驗法則是用最小的努力獲得最大的回報。無論你現(xiàn)在看到的是什么基于系統(tǒng)的事件,這可能是你可以獲得的最大影響。另一個找到自動化想法的辦法就是聆聽團隊的想法,考慮是否有哪些用戶投訴是由系統(tǒng)故障驅(qū)動的。如果是這樣,它可能是解決自動化出現(xiàn)問題的機會。最后,不要計劃得太遠。你可能現(xiàn)在感到擔心在獲得一兩個成功之后,你會發(fā)現(xiàn)團隊正在尋求你的建議,以你的方式獲得幫助。

來源:機房動力環(huán)境監(jiān)控 動力環(huán)境監(jiān)控系統(tǒng) http://www.dr4xxf.cn/solution/  本文采集于網(wǎng)絡(luò),如有問題有聯(lián)系刪除

售前咨詢

專線:劉剛 13911133352

E-mail:112417434@qq.com

北京金恒智能系統(tǒng)工程技術(shù)有限責任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.

法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責任的權(quán)利!

電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML

智慧機房

在線體驗

CREATE·機房監(jiān)控 體驗端  用戶名:Admin    密碼:12345 點擊體驗
在線咨詢 電話咨詢