應急處理案例-某乳制品股份公司緊急搶修
應急處理案例-某乳制品股份公司緊急搶修
事故情況:
由于建筑管道漏水,導致機房遭受大面積積水以及部分服務(wù)器和小部分存儲設備受到間接性進(jìn)水的情況發(fā)生。相關(guān)業(yè)務(wù)系統及應用暫停,情況緊急,屬重大事故。
事故發(fā)生時(shí)間為凌晨1:00。
應對情況:
接到通知后,公司啟動(dòng)應急預案。
① 由于未簽署駐場(chǎng)服務(wù),派遣專(zhuān)業(yè)工程師前往事故現場(chǎng),協(xié)助機房工作人員進(jìn)行緊急處理工作,并負責統計機房受災情況。
② 派遣專(zhuān)業(yè)工程師和庫房工作人員組成應急工作小組,前往備件庫房檢查并測試相關(guān)備機,并保持最佳狀態(tài)。
③ 事故現場(chǎng)工程師統計機房受災情況完畢后,立刻劃分受災服務(wù)器故障等級,并制定簡(jiǎn)略應急維修方案。
④ 備件庫房應急工作小組,根據現場(chǎng)工程師制定的應急維修方案攜帶備件服務(wù)器以及相關(guān)維修設備前往事故現場(chǎng)。
⑤ 指揮并協(xié)助機房工作人員對事故現場(chǎng)進(jìn)行適宜處理,使機房盡快恢復正常工作狀態(tài)。
⑥ 對故障等級低的受災服務(wù)器由專(zhuān)業(yè)工程師進(jìn)行快速維修,并恢復運行狀態(tài),從而恢復部分業(yè)務(wù)和應用的正常使用。
⑦ 對故障等級高的受災服務(wù)器由應急工作小組進(jìn)行簡(jiǎn)單包裝后帶回維修中心,進(jìn)行進(jìn)一步檢測,并加急維修。
受災統計及結果:
① 本次受災情況屬重大事故,受災服務(wù)器達到10余臺,其中情況嚴重的包含處理業(yè)務(wù)的小型機,公司存儲數據的存儲服務(wù)器以及作為臨時(shí)業(yè)務(wù)工作備份服務(wù)器的兩臺NAS網(wǎng)絡(luò )存儲和個(gè)別應用服務(wù)器。
② 由于我公司搶救及時(shí),使得部分應用于事故發(fā)生后2個(gè)小時(shí)候恢復運行。對受災嚴重的存儲服務(wù)器,進(jìn)行加急數據恢復工作,并保證了數據的完整性,使企業(yè)避免遭受更大的經(jīng)濟損失。
③ 因為本次有效及時(shí)的應對措施,和扎實(shí)的專(zhuān)業(yè)能力,使得我公司與該企業(yè)落實(shí)了長(cháng)期合作關(guān)系。
附企業(yè)機房服務(wù)器故障應急預案(簡(jiǎn)版)
1 目的
為提高處理公司服務(wù)器故障的能力,形成科學(xué)、有效、反應迅速的應急工作機制,確保公司各系統的安全和高效,最大限度地減小服務(wù)器故障對生產(chǎn)的影響,保護公司利益,特制定本預案。
2 適用范圍
本預案適用于公司局域網(wǎng)中提供公共服務(wù)的服務(wù)器發(fā)生和可能發(fā)生的故障。
3 預防機制
服務(wù)器故障預防措施包括分析風(fēng)險,建立檢測體系,準備應急處理措施,控制影響擴大。
3.1 服務(wù)器故障分類(lèi)
服務(wù)器硬件或軟件的故障;自然災害(水、火、電等)造成的物理破壞;電腦病毒等惡意代碼危害等。
3.2 具體措施
(1)建立安全、可靠、穩定運行的機房環(huán)境,防火、防雷電、防水、防靜電、防塵;建立備份電源系統。
(2)服務(wù)器采用可靠、穩定硬件,落實(shí)數據備份機制,遵守安全操作規范;安裝有效的防病毒軟件,及時(shí)更新升級掃描引擎。
4 有關(guān)應急預案
4.1 機房漏水應急預案
(1)發(fā)生機房漏水時(shí),第一目擊者應立即通知相關(guān)人員,相關(guān)人員接報后應立即前往事發(fā)地。
(2)若空調系統出現滲漏水,相關(guān)人員立即通知企管部進(jìn)行處理,并及時(shí)清除機房積水。
(3)若墻體或窗戶(hù)滲漏水,相關(guān)人員立即采取有效措施確保機房安全,同時(shí)通知企管部,及時(shí)清除積水,維修墻體或窗戶(hù),消除滲漏水隱患。
4.2 機房長(cháng)時(shí)間停電應急預案
接到長(cháng)時(shí)間停電通知后,相關(guān)人員應及時(shí)部署應對具體措施,啟動(dòng)備用電源,保證服務(wù)器正常運行。
4.3 服務(wù)器硬件故障應急預案
(1)核心服務(wù)器雙機配置,配置好備用服務(wù)器,隨時(shí)待命。
(2)發(fā)生服務(wù)器硬件故障后,相關(guān)人員應及時(shí)查找、確定故障原因,進(jìn)行先期處置。若故障服務(wù)器在短時(shí)間內無(wú)法修復,相關(guān)人員應啟動(dòng)備用服務(wù)器,保持局域網(wǎng)系統的正常運行;將故障服務(wù)器脫離網(wǎng)絡(luò ),進(jìn)行故障排除工作。
(3)服務(wù)器硬件故障預防與排除參考附件1。
4.4 服務(wù)器軟件系統故障應急預案
(1)做好服務(wù)器軟件系統的定時(shí)備份,系統崩潰后,能夠及時(shí)恢復系統。
(2)發(fā)生服務(wù)器軟件系統故障后,相關(guān)人員應檢查出現故障的原因并盡快排除。
(3)如遇服務(wù)器系統崩潰,應啟用備份系統進(jìn)行恢復。
(4)服務(wù)器軟件故障預防與排除參考附件2。
附件1:
服務(wù)器硬件故障預防與排除
1 故障預防
公司主要應用系統服務(wù)器進(jìn)行雙機配置。公司主要系統服務(wù)器擔任了供應系統,銷(xiāo)售、生產(chǎn)系統,OA系統等服務(wù)器角色,機器需要24小時(shí)運行,使用率極高,老化快。為了安全,建議配置相同硬件的服務(wù)器為備用控服務(wù)器。當使用的服務(wù)器出現不可恢復的硬件故障時(shí),馬上啟動(dòng)備用服務(wù)器,從而減小服務(wù)器硬件故障風(fēng)險。
2 故障排除
當服務(wù)器出現硬件故障,通過(guò)以下步驟排除:
(1)確定故障原因。依次查看電源、硬盤(pán)、內存、主板、處理器等,如條件許可,可使用替換法檢測各硬件。
(2)恢復固件缺省配置。比如去除第三方廠(chǎng)商備件和非標配備件;清除CMOS,恢復資源初始配置。
附件2:
服務(wù)器軟件故障預防與排除
1 故障預防
1.1 服務(wù)器初始狀態(tài)備份
安裝配置好服務(wù)器軟件系統,經(jīng)測試能夠正常投入生產(chǎn)使用后,用GHOST軟件備份好服務(wù)器系統。備份文件本機一份,光盤(pán)或移動(dòng)存儲一份。
1.2 服務(wù)器實(shí)時(shí)狀態(tài)備份
公司局域網(wǎng)中服務(wù)器的系統及相應的數據庫會(huì )周期更新一次,備份文件本機一份,光盤(pán)或移動(dòng)存儲一份。
2 故障排除
服務(wù)器軟件系統出現故障,先對服務(wù)器系統查毒,升級相關(guān)系統軟件,若故障依然存在,通過(guò)以下步驟排除:
(1)用備份系統還原服務(wù)器系統。GHOST文件還原服務(wù)器系統的初始狀態(tài),進(jìn)入“目錄服務(wù)還原模式”還原系統實(shí)時(shí)狀態(tài)。
(2)重新安裝配置服務(wù)器。若備份系統還原系統失敗,必須重新安裝服務(wù)器系統。