隨著醫(yī)院信息化建設(shè)逐年深入,應(yīng)用范圍越來越廣,配套的服務(wù)器、存儲和網(wǎng)絡(luò)設(shè)備也越來越多。IT設(shè)備的快速增長,使信息系統(tǒng)的管理面臨很大的運(yùn)維壓 力,傳統(tǒng)的人工巡檢和排錯的方式,已經(jīng)無法滿足業(yè)務(wù)系統(tǒng)對高可用性的需求。在近年來發(fā)生的醫(yī)院信息系統(tǒng)宕機(jī)事故中,因?yàn)椴荒芗皶r發(fā)現(xiàn)和排除故障而導(dǎo)致的UPS起火、空調(diào)宕機(jī)、數(shù)據(jù)庫崩潰的情況,占了很大的比例。
“工 欲善其事,必先利其器”,最近幾年,越來越多的醫(yī)院開始采用了機(jī)房監(jiān)控系統(tǒng)、網(wǎng)管系統(tǒng)、數(shù)據(jù)庫監(jiān)控等技術(shù)手段,在不同層面上保障了醫(yī)院信息系統(tǒng)的安全穩(wěn) 定。以上這些軟件我們統(tǒng)稱IT運(yùn)行監(jiān)控系統(tǒng),其作用是自動化的采集、分析 IT設(shè)備的運(yùn)行狀態(tài)數(shù)據(jù),通過圖形化的方式進(jìn)行展示,并對超出設(shè)置閾值的指標(biāo)進(jìn)行報警。
同時我們也發(fā)現(xiàn)了這樣的問題:
一方面是產(chǎn)品本身“魚龍混雜”,有的產(chǎn)品似乎功能上很強(qiáng)大,但可靠性不高,實(shí)際應(yīng)用過程中常出現(xiàn)設(shè)備故障時不報警,設(shè)備正常運(yùn)行時卻會誤報的狀況。
另一方面是實(shí)施結(jié)果“中看不中用”,有的醫(yī)院監(jiān)控大屏做的很漂亮,但后臺的配置沒有細(xì)化,并不能真正監(jiān)控到日常發(fā)生的故障。如果說產(chǎn)品本身的差異需要廠商的進(jìn)一步改進(jìn),那么如何物盡其用,用好管好IT運(yùn)行監(jiān)控系統(tǒng)就是醫(yī)院信息部門的責(zé)任了。
我 院自2008年自主開發(fā)機(jī)房溫濕度監(jiān)控系統(tǒng)開始,逐步上線了機(jī)房監(jiān)控、網(wǎng)絡(luò)監(jiān)控、服務(wù)器數(shù)據(jù)監(jiān)控、虛擬化監(jiān)控等多個監(jiān)控模塊,并對界面和報警進(jìn)行了整合。 基本做到了“早于用戶發(fā)現(xiàn)故障,早于故障消滅隱患”,同時結(jié)合基于ITIL的日常IT運(yùn)維管理流程,有效地保障了信息系統(tǒng)的高可用性。
系統(tǒng)設(shè)計
根據(jù)以往的經(jīng)驗(yàn),我們將醫(yī)院信息系統(tǒng)的運(yùn)行環(huán)境包括機(jī)房環(huán)境、網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫、應(yīng)用系統(tǒng)客戶端五部分,關(guān)系如圖1所示。
圖示主要說明了兩個問題:(1)下層的運(yùn)行環(huán)境為上層的運(yùn)行環(huán)境提供支撐;(2)作為用戶界面的業(yè)務(wù)軟件客戶端位于最上層。
由 此可知,當(dāng)下層的運(yùn)行環(huán)境出現(xiàn)問題時,將逐層向上產(chǎn)生影響,如能及時發(fā)現(xiàn)和處理,就可以消除故障隱患,從而避免事故隱患蔓延到用戶界面,減少造成業(yè)務(wù)中斷 的幾率。因此,逐層分析可能產(chǎn)生故障的因素,建立一組較為全面的監(jiān)控指標(biāo)體系,是設(shè)計IT運(yùn)行監(jiān)控系統(tǒng)的關(guān)鍵。這些指標(biāo)應(yīng)包括以下方面。
1、機(jī)房監(jiān)控
醫(yī)院信息系統(tǒng)機(jī)房是服務(wù)器、網(wǎng)絡(luò)及其附屬設(shè)備運(yùn)行的環(huán)境和場所,在國家標(biāo)準(zhǔn)GB50174-2008 《電子信息系統(tǒng)機(jī)房設(shè)計規(guī)范》中,對其建設(shè)和運(yùn)行指標(biāo)有詳細(xì)的約定,其中應(yīng)進(jìn)行監(jiān)控的重點(diǎn)是配電系統(tǒng)和環(huán)境溫濕度。
(1)配電系統(tǒng)
配電系統(tǒng)包括市電供應(yīng)、不間斷電源和發(fā)電機(jī)三部分。
對市電供應(yīng)應(yīng)監(jiān)控電能質(zhì)量,主要指標(biāo)包括開關(guān)狀態(tài)、電流、電壓、有功功率、功率因數(shù)、諧波含量。
不 間斷電源就是常說的UPS(UninterruptiblePower System),其主要監(jiān)控指標(biāo)為:監(jiān)控輸入和輸出功率、電壓、頻率、電流、功率因數(shù)、負(fù)荷率;電池輸入電壓、電流、容量;同步/不同步狀態(tài)、不間斷電源 系統(tǒng)/旁路供電狀態(tài)、市電故障、不間斷電源系統(tǒng)故障;監(jiān)控蓄電池的電壓、阻抗和故障。
對發(fā)電機(jī)系統(tǒng)應(yīng)監(jiān)控:油箱(罐)油位、柴油機(jī) 轉(zhuǎn)速、輸出功率、頻率、電壓、功率因數(shù)。此外,機(jī)房的PUE( P o w e r Us a g e Effectiveness)值是評價機(jī)房能耗的一個重要指標(biāo),它表示機(jī)房總設(shè)備能耗與IT設(shè)備能耗的比值。在監(jiān)控系統(tǒng)中,我們可以通過采集到的電壓電流 數(shù)據(jù),計算出實(shí)時的PUE值。
(2)環(huán)境溫濕度
環(huán) 境溫濕度指標(biāo)是機(jī)房環(huán)境中最重要的指標(biāo),業(yè)內(nèi)有“溫度每升高10度,設(shè)備使用壽命減半”的說法,因此維持機(jī)房溫濕度恒定是對機(jī)房環(huán)境的基本要求。對空調(diào)系 統(tǒng)應(yīng)監(jiān)控開關(guān)、制冷、加熱、加濕、除濕的運(yùn)行狀態(tài);相對溫度、相對濕度、傳感器故障、壓縮機(jī)壓力、加濕器水位、風(fēng)量設(shè)置閥值,超出報警。在空調(diào)、水管、窗 戶等易產(chǎn)生水源泄露的部位,應(yīng)安裝漏水感應(yīng)裝置,并監(jiān)控其狀態(tài)。對機(jī)房環(huán)境,應(yīng)監(jiān)控房間各區(qū)域以及機(jī)柜內(nèi)部的溫度、濕度數(shù)據(jù)以及變化趨勢。監(jiān)控探頭應(yīng)放置 在被監(jiān)控設(shè)備的入風(fēng)口位置,如:對于下送風(fēng)上回風(fēng),設(shè)置冷熱通道的機(jī)房,應(yīng)監(jiān)控其冷通道頂部的溫度。
2、主機(jī)系統(tǒng)監(jiān)控
絕 大多數(shù)的主機(jī)系統(tǒng)監(jiān)控是基于SNMP協(xié)議(Simple NetworkManagement Protocol/簡單網(wǎng)絡(luò)管理協(xié)議)的。SNMP是應(yīng)用最為廣泛的TCP/IP 協(xié)議,采用了Server/ Client的模式,通過管理端與SNMP代理間的交互工作完成對設(shè)備的管理;而 MIB(Management Information Base 管理信息庫)包是解讀SNMP消息內(nèi)容的字典,MIB包以文本形式保存樹狀的代碼信息,每個分支代表一種類型的統(tǒng)計信息或狀態(tài)信息。通過SNMP代理可以 響應(yīng)管理端關(guān)于MIB信息的各種查詢,如:get,getnext,set等。被管設(shè)備還可以通過發(fā)送TRAP包的形式主動向管理端發(fā)送緊急報警信息,從 而實(shí)現(xiàn)對設(shè)備的監(jiān)控。
(1)存儲系統(tǒng)
對 于存儲系統(tǒng),除了通用的基于SNMP協(xié)議的監(jiān)控,還可以通過SMI-S協(xié)議( StorageManagement Initiative Speci?cation,主動存儲管理規(guī)范)獲取更多的設(shè)備信息。SMI-S協(xié)議是SNIA (StorageNetworking Industry Association,美國存儲網(wǎng)絡(luò)工業(yè)協(xié)會)提出的存儲管理的接口標(biāo)準(zhǔn),它使存儲管理可以真正實(shí)現(xiàn)與廠商無關(guān),從而降低管理成本,提高管理效率。當(dāng)前 主流的存儲設(shè)備廠商,如:IBM、博科、EMC、NetAPP、浪潮、 HP等都支持該協(xié)議?;赟MI-S協(xié)議,監(jiān)控軟件可以自動獲取HBA 主機(jī)、FC交換機(jī)、FC數(shù)據(jù)存儲設(shè)備以及光纖通道狀態(tài),并生成存儲拓?fù)?,以圖形化的方式實(shí)現(xiàn)對存儲設(shè)備資源的統(tǒng)一管理。
(2)服務(wù)器
對 硬件故障的監(jiān)控可以采用基于IPMI (Intelligent Platform Management Interface,智能平臺管理接口)的數(shù)據(jù)采集方式。IPMI是管理基于 Intel結(jié)構(gòu)的企業(yè)系統(tǒng)中所使用的外圍設(shè)備采用的一種工業(yè)標(biāo)準(zhǔn),該標(biāo)準(zhǔn)由英特爾、惠普、NEC、美國戴爾電腦和SuperMicro等公司制定,用戶可 以利用IPMI監(jiān)視服務(wù)器的物理健康特征,如溫度、電壓、風(fēng)扇工作狀態(tài)、電源狀態(tài)等。如用戶可以通過IBM X系列服務(wù)器的控制網(wǎng)口連接主板的集成管理模塊,收集服務(wù)器硬件物理狀態(tài)。對于服務(wù)器性能監(jiān)控最主要的3個指標(biāo)是CPU利用率、內(nèi)存利用率和文件系統(tǒng)使用 率。系統(tǒng)管理員應(yīng)經(jīng)常對以上指標(biāo)的歷史數(shù)據(jù)進(jìn)行分析,如有利用率過高的情況,應(yīng)結(jié)合應(yīng)用場景分析,及時處理。
(3)虛擬化監(jiān)控
VMware 虛擬化解決方案是當(dāng)前最常用的虛擬化技術(shù),其自帶的vCenter管理工具可以很方便的監(jiān)控和管理vSphere運(yùn)行環(huán)境。不少監(jiān)控軟件也包括類似 vCenter的虛擬化管理模塊,甚至可以通過 API接口對不同品牌的虛擬化管理平臺進(jìn)行整合,接收從虛擬化設(shè)備發(fā)出SNMP TRAP信息,生成自己的監(jiān)控界面,方便系統(tǒng)管理員進(jìn)行管理。
(4)服務(wù)與日志監(jiān)控
監(jiān) 控軟件還應(yīng)支持對操作系統(tǒng)進(jìn)程的監(jiān)控,判斷其所使用的資源比例和健康狀況,還應(yīng)對基礎(chǔ)應(yīng)用服務(wù)的核心端口、HTTP、FTP、POP3、SMTP、 DNS、NTP等服務(wù)可用性和響應(yīng)時間的監(jiān)控。日志監(jiān)控是指對windows日志、syslog日志或其他文本類型的日志監(jiān)控管理,對接收到的日志信息進(jìn) 行存儲、分析并報警。對日志的監(jiān)控主要通過關(guān)鍵字檢索或事件ID識別來實(shí)現(xiàn),日志報警應(yīng)支持邏輯判斷,設(shè)置不同的級別,對不需產(chǎn)生報警的事件進(jìn)行例外排 除。
3、數(shù)據(jù)庫監(jiān)控
保證數(shù)據(jù)可靠安全是保證信息系統(tǒng)高可用性的最終目的。
進(jìn) 行數(shù)據(jù)庫的調(diào)優(yōu)和管理數(shù)據(jù)備份是 DBA的主要職責(zé)。對數(shù)據(jù)庫的監(jiān)控主要關(guān)注可用狀態(tài)、性能和空間容量三個方面??捎脿顟B(tài)是指被監(jiān)控的數(shù)據(jù)庫是否能正常訪問,特定進(jìn)程或服務(wù)是否狀態(tài)正常; 性能指標(biāo)包括連接數(shù)是否過大、讀緩存命中率是否過低、寫緩存命中率是否過低、死鎖數(shù)量是否過大、回滾數(shù)是否過高等;空間容量是指監(jiān)測表空間和數(shù)據(jù)文件的大 小、狀態(tài)和使用率、數(shù)據(jù)庫碎片比率等。以O(shè)ralce數(shù)據(jù)庫為例,我們在實(shí)際工作中監(jiān)控了以下指標(biāo):
(1)Session數(shù)
(2)后臺進(jìn)程狀態(tài)(SMON、PMON、DBWn、LGWR、CKPT等)
(3)PGA狀況(內(nèi)存爭用比、PGA使用率、 PGA命中率)
(4)SGA狀況(Buffercache命中率、庫緩存命中率、數(shù)據(jù)字典命中率、共享池命中率、回滾段爭用比)
(5)表空間利用率、日志使用情況
另外,檢查數(shù)據(jù)備份是否成功是系統(tǒng)管理員的日常工作,常用的備份軟件有IBM的TSM、 Symantec的Veritas Netbackup等,監(jiān)控系統(tǒng)應(yīng)可集成其狀態(tài)和報警。
4、網(wǎng)絡(luò)監(jiān)控
網(wǎng)絡(luò)相當(dāng)于醫(yī)院信息系統(tǒng)的神經(jīng)中樞,各種網(wǎng)絡(luò)設(shè)備分布于各樓層配線間中,最難于管理。采用人工巡檢時,只能觀察到某個時點(diǎn)的設(shè)備通斷狀況和有無報警信息,無法實(shí)時全面的了解整個網(wǎng)絡(luò)的運(yùn)行情況。
采 用IT運(yùn)行監(jiān)控系統(tǒng),可以從以下幾個方面著手,對網(wǎng)絡(luò)運(yùn)行狀況進(jìn)行全面的監(jiān)控:通過網(wǎng)絡(luò)拓?fù)鋱D,網(wǎng)絡(luò)管理員可以直觀的查看網(wǎng)絡(luò)邏輯拓?fù)鋱D和網(wǎng)絡(luò)物理拓?fù)?圖,及時發(fā)現(xiàn)網(wǎng)絡(luò)的邏輯和物理問題。拓?fù)鋱D通過使用不同的圖標(biāo)來表示不同網(wǎng)絡(luò)對象,用不同的顏色來表示不同的設(shè)備運(yùn)行狀況。
網(wǎng)絡(luò)故 障通常會影響到一片而不是一個信息節(jié)點(diǎn),網(wǎng)絡(luò)拓?fù)鋱D上數(shù)據(jù)和信息有助于管理員快速的確定故障影響范圍,從而進(jìn)一步判斷故障產(chǎn)生的原因。在實(shí)時顯示網(wǎng)絡(luò)運(yùn)行 狀況信息的同時,運(yùn)行監(jiān)控系統(tǒng)可以將這些運(yùn)行數(shù)據(jù)(如:設(shè)備CPU、內(nèi)存利用率;設(shè)備各端口出入流量、平均包長及丟包、錯包率等)記錄下來,用于以后的數(shù) 據(jù)分析。
通過歷史曲線比對,TOP N數(shù)據(jù)分析等手段,可以了解設(shè)備的利用情況以及網(wǎng)絡(luò)性能的瓶頸。IP地址管理工具可以自動發(fā)現(xiàn)網(wǎng)絡(luò)上在用的設(shè)備的IP地址,幫助網(wǎng)絡(luò)工程師發(fā)現(xiàn)網(wǎng)絡(luò)上有哪 些IP 地址可用。通過與基準(zhǔn)表中IP地址范圍和子網(wǎng)設(shè)置信息的對比,判定IP地址的在線、未登記或非法接入狀態(tài),并以不同的圖標(biāo)進(jìn)行展示,支持IP地址登記管 理,查看在線IP地址的登記狀態(tài),根據(jù)條件批量的變更IP地址的登記狀態(tài)。
IP地址管理工具還可以自動發(fā)現(xiàn)IP地址和MAC地址的 對應(yīng)關(guān)系,建立MAC地址IP地址的綁定關(guān)系,并根據(jù)設(shè)置的策略進(jìn)行阻斷或報警。此外,有的監(jiān)控軟件還可以實(shí)現(xiàn)自動巡檢功能,定期自動采集設(shè)備運(yùn)行參數(shù), 形成巡檢報告;還有的監(jiān)控軟件可以對網(wǎng)絡(luò)設(shè)備的配置信息自動備份、批量更新配置信息;在無線網(wǎng)絡(luò)管理方面,有的監(jiān)控軟件可以圖形化的展示建筑物中的AP節(jié) 點(diǎn)和信號強(qiáng)度,掃描用戶數(shù)量、位置等,也是一個值得探索的方向。
5、業(yè)務(wù)拓?fù)湟晥D
對 IT基礎(chǔ)設(shè)施的監(jiān)控是為了保障業(yè)務(wù)軟件的運(yùn)行,監(jiān)控系統(tǒng)應(yīng)提供所見即所得的業(yè)務(wù)和資源建模能力,從業(yè)務(wù)角度出發(fā),將組成業(yè)務(wù)系統(tǒng)的IT資源按照其關(guān)聯(lián)關(guān) 系、權(quán)重等組成業(yè)務(wù)邏輯模型進(jìn)行監(jiān)控,建立從業(yè)務(wù)視角出發(fā)的監(jiān)控視圖。當(dāng)業(yè)務(wù)應(yīng)用出現(xiàn)故障時,能清晰展現(xiàn)所影響的服務(wù)及部門;每個業(yè)務(wù)服務(wù)對應(yīng)一張業(yè)務(wù)拓 撲視圖,能從客戶端、業(yè)務(wù)軟件、IT基礎(chǔ)設(shè)施不同層面展現(xiàn)關(guān)聯(lián)關(guān)系,當(dāng) IT資源產(chǎn)生異常時,能夠高亮顯示報警及故障的傳遞關(guān)系。
如 圖2所示的的OA系統(tǒng),配備有中間件和數(shù)據(jù)庫服務(wù)器兩組主機(jī),數(shù)據(jù)庫主機(jī)上又運(yùn)行著數(shù)據(jù)庫監(jiān)控,中間件主機(jī)做了Windows集群,上面還有相應(yīng)的 Weblogic的進(jìn)程。以上信息都可以以O(shè)A系統(tǒng)為索引,展示在同一業(yè)務(wù)拓?fù)湟晥D中。推而廣之,對于業(yè)務(wù)本身的一些指標(biāo),如當(dāng)日掛號數(shù)、已就診人數(shù)、處 方數(shù)、檢查檢驗(yàn)申請等也可納入業(yè)務(wù)拓?fù)鋱D,并對數(shù)據(jù)在不同業(yè)務(wù)系統(tǒng)中的流向進(jìn)行配置和標(biāo)識,這樣的從業(yè)務(wù)負(fù)載到IT基礎(chǔ)設(shè)施保障情況的一體化視圖,就可以 清晰地反映出整個醫(yī)院信息系統(tǒng)的運(yùn)營狀況。
6、報警管理
在信息部門的辦公區(qū)應(yīng)設(shè)置監(jiān)控大屏,播放IT運(yùn)行監(jiān)控系統(tǒng)的運(yùn)維門戶視圖,集中顯示信息系統(tǒng)整體運(yùn)行狀況,包括:IT資產(chǎn)統(tǒng)計、報警列表、機(jī)房環(huán)境監(jiān)控圖、服務(wù)器位置及拓?fù)洹⑷壕W(wǎng)絡(luò)拓?fù)?、?shù)據(jù)庫狀態(tài)、應(yīng)用系統(tǒng)定期作業(yè)執(zhí)行情況等。
對 于故障報警,應(yīng)包括但不限于聲光電、短信、郵件、手機(jī)App等多種方式。如:當(dāng)IT運(yùn)行監(jiān)控系統(tǒng)收到 SNMP TRAP報警信息或檢測到超過了預(yù)先設(shè)定的閥值時,會通過短信模塊向管理員手機(jī)發(fā)送短信報警,同時監(jiān)控大廳的報警燈閃爍并蜂鳴報警,運(yùn)維門戶的拓?fù)鋱D上標(biāo) 示出故障位置。故障等級設(shè)為三檔,正常、提醒和警告。系統(tǒng)通過撥測自檢,確保自身運(yùn)轉(zhuǎn)正常;當(dāng)發(fā)現(xiàn)異常數(shù)據(jù)但不影響系統(tǒng)正常使用時生成提示信息,當(dāng)判斷故 障需要緊急處理時顯示為警告。此外還需注意避免報警風(fēng)暴的產(chǎn)生,如:同樣內(nèi)容的報警30分鐘只有顯示一次,同類型的報警整合成一條等。
人防、技防要并重
正如著名的海恩法則所描述的——“每一起嚴(yán)重事故的背后,必然有29次輕微事故,300起未遂先兆,以及1000起事故隱患。”
對 于一個龐大而復(fù)雜的醫(yī)院信息系統(tǒng)體系而言,如果不借助工具,進(jìn)行事故隱患排查和早期處理似乎是個不可能完成的任務(wù),而通過IT運(yùn)行監(jiān)控系統(tǒng)可以讓系統(tǒng)管理 員可以一目了然地了解到信息系統(tǒng)各個環(huán)節(jié)的運(yùn)行狀況,圖形化的展示方式可以幫助各個專業(yè)的工程師在同一個平臺下進(jìn)行合作和管理。
對 于上面所設(shè)計和期望達(dá)到的監(jiān)控覆蓋范圍,雖然我們至今仍未能完全實(shí)現(xiàn),但系統(tǒng)投入使用以來,顯著減輕了IT運(yùn)維人員的巡檢壓力;在幾次硬件故障發(fā)生時,均 能及時報警,未造成進(jìn)一步的事故;通過對歷史數(shù)據(jù)分析,還可以再現(xiàn)事故發(fā)生的過程,排查類似隱患,避免同類情況再次發(fā)生。同時我們也意識到,在IT運(yùn)維管 理方面需要人防和技防并重,技術(shù)只是輔助手段,如果IT運(yùn)維人員責(zé)任心不強(qiáng),不能重視并及時處理報警,IT運(yùn)行監(jiān)控系統(tǒng)也不能發(fā)揮作用。
另一方面,對報警參數(shù)的配置是一個動態(tài)調(diào)整和完善的過程,需要在使用過程中,盡可能將所有軟硬件報警信息都納入其中,根據(jù)實(shí)際情況調(diào)整閾值,持續(xù)改進(jìn)。
來源:機(jī)房監(jiān)控機(jī)房環(huán)境監(jiān)控機(jī)房監(jiān)控系統(tǒng)http://www.dr4xxf.cn 本文采集于網(wǎng)絡(luò),如有問題有聯(lián)系刪除
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML
智慧機(jī)房
在線體驗(yàn)