机房应急预案

精品范文 时间:2024-01-21 07:13:15 收藏本文下载本文

第1篇:机房应急预案

机房应急预案

随着XXX信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是信息部门目前面临的一项重要任务。

为应对机房可能发生的突发事件,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。1.1 机房突发事件分类

1.自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。2.事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。

3.人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。1.2 应急处理人员组织机构 员组织机构

1.3 应急机构人员岗位职责

1、应急总指挥职责

(1)保证在任何时间,及时协调应急行动所有涉及的岗位人员;(2)提供必须的紧急响应设备;(3)在紧急情况下全面负责紧急行动;(4)在必要时向外界求救,例如:119、110、120等。

2、应急副总指挥职责

(1)在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;(2)根据获得的应急信息下达命令。

3、各相关设备负责人职责

(1)负责尽快收集信息向应急总指挥汇报事故情况;(2)负责现场临时设备抢救和对事态的控制;(3)听从上级指挥人员的指挥。1.4 信息与网络安全突发事件处理原则

1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑信息与网络安全保障体系。

2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响。

3.分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。4.以人为本。把保障人员以及公共利益的安全作为首要任务。5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。1.5 机房应急开关机具体措施 机房各设备关闭顺序如下:

1.6 服务器及存储设备故障处理 1.6.1 排错流程

故障发生

1.6.2应急处置具体措施 服务器设备损坏应急处置措施

A、关键应用系统所在服务器设备损坏后,应立即查明原因,使用备份服务器替换损坏设备,并立即恢复应用系统正常使用;B、立即与设备提供商联系,请求派维修人员前来维修。服务器软件损坏紧急处置措施

A、迅速查找原因,尝试重启系统。使用备份进行恢复。必要时联系开发商;B、当发现服务器感染有病毒后,应立即将该机从网络上隔离出来。并启用杀病毒软件对该机进行杀毒处理,同时使用病毒检测软件对其他机器进行病毒扫描和清除工作。经技术人员确认确实无法查杀该病毒后,应作好相关记录,并迅速联系有关产品商研究解决;C、当因空调,电力等问题需要关闭所有服务器时,应遵循如下步骤: 先关闭所有应用服务器和数据库服务器,再关闭存储设备。启动所有服务器时,应先打开存储设备,再打开数据库服务器,最后打开应用服务器。

1.6.3 服务器突发情况记录 1.7 网络设备故障处理 1.7.1 网络设备排错流程 网络设备的排错流程

下面流程图是网络维护人员所应采取的排错模型,当发生网络故障时应按照此流程快速进行定位、排除故障。

1.7.2 网络系统故障突发事件分级

故障等级 故 障 现 象 1级 网络完全拥塞或设备宕机 网络或设备处理能力严重受影响,对最终客户的业务运作有严重影响

网络或设备故障对重要的客户(公司经理级或重要的部门)造成严重影响

2级 网络或设备的性能严重下降,对最终客户的业务运作产生重要影响 部分区域网络故障 一般网络节点发生故障 大部分客户的网络通讯质量下降

3级 网络或设备性能受损,但最终客户大部分业务仍可正常工作 报警出错和操作命令反常

4级 其它一般的故障,不影响系统的整体运行,不影响大部分客户的使用 1.7.3 应急措施

黑客攻击时的紧急处置措施

A、当发现网页内容被篡改、Internet接入路由器有未知用户登录或通过其他方式发现有黑客正在进行攻击时,应立即向信息部相关人员通报情况;

B、在信息部人员授权下,立即备份当时的log日志并采用端口限制方式阻断外部的入侵,观察被攻击的服务器等设备状态,同时向信息部领导汇报情况;

C、协调相关应用部门,与信息部有关技术人员一同负责被破坏系统的恢复与重建工作;

D、协助信息部人员协同有关部门共同追查非法信息来源; E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。病毒安全紧急处置措施

A、当发现计算机感染有病毒后,应立即将该机从网络上隔离出来;或从网络设备状态发现病毒爆发应采取show mac-addre sh arp定位或IP查询将病毒机器所在的网络设备端口shutdown; B、通知维护人员对该设备的硬盘进行数据备份;

C、启用杀病毒软件对该机进行杀毒处理,同时进行病毒检测软件对其他机器进行病毒扫描和清除工作; D、如发现杀病毒软件无法清除该病毒,应立即通知用户并向及信息部负责人报告,经信息部技术人员确认无法查杀该病毒并同意格式化硬盘后,作好相关记录,并格式化硬盘; E、机器恢复后重新开启网络设备的相应端口;

F、认为情况极为严重,根据突发事件级别应及时向有关上级部门汇报。

广域网线路中断紧急处置措施

A、链路出现问题后,网络维护人员应立即信息部负责人报告,沟通地方节点技术人员共同迅速判断故障,查明故障原因;

B、如属我方管辖范围,由双方技术人员立即配合予以恢复。如遇无法恢复情况,立即进行备件更换或向有关厂商请求支援;

C、如属运营商管辖范围,立即与运营商维护部门申报故障,请求修复; D、根据突发事件级别应及时向有关上级部门汇报。局域网中断紧急处置措施

A、局域网中断后,网络维护人员应立即判断故障节点,查明故障原因,并向信息部领导汇报;

B、如属线路故障,更换新线路或重新安装线路;或从最近飞线至故障设备; C、如属路由器、交换机等网络设备(光模块)故障,应立即查找是否有相关备件可以替换,或与设备提供商联系更换设备,并调试畅通;

D、如属路由器、交换机配置文件破坏,应迅速按照备份配置文件重新配置,并调试畅通;如遇无法解决的技术问题,立即向有关厂商请求支援;

E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。1.8 空调设备故障处理

若空调损坏,应第一时间通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。1.9 消防设备故障处理

一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;

人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;

人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。

1.10 电源设备故障处理

热力机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机:(1)确认所有负载均已安全关机。(2)关闭UPS负载电源。

(3)将UPS的系统启用开关切换到off 的状态。(4)将DC电池连接断路器切换到off的位置。(5)将所有电池拉出到红色电池断开线以外。(6)断开PDU上的断路器。(7)将PDU后面总输入断路器切换到断开位置。(8)将每个上行主电路断路器切换到断开位置。

第2篇:机房应急预案

中心机房突发事件应急预案

第一条

机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的 物理破坏、人为失误造成的安全事件等等。针对突发事件的预防措施如下:

1.建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘; 建立备份电源系统;加强所有人员防火、防盗等基本技能培训。

2.服务器采用可靠、稳定的硬件设备,落实数据备份机制,安装有效的防病毒软件,及时 更新升级扫描引擎;加强对局域网内所有用户和信息系统管理员的安全技术培训。

第二条

机房漏水应急预案如下:

1.发生机房漏水时,第一目击者应立即通知机房管理人员。

2.若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及 时联系设备供应方处理,同时启动备用空调,必要情况下可临时用电扇对服务器进行降温。3.若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通 知办公室,及时清除积水,维修墙体或窗户,消除渗漏水隐患。

第三条

机房火灾应急预案如下:

1.完善机房环境,确保机房具备二氧化碳灭火器;禁止携带易燃易爆物品进入机房。2.机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防 应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火灾,并定期组织灭火演习。3.一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速拨打物业管理和119火警电话。

4.等待消防车到来期间,应组织物业保安或工作人员在保证安全的前提下灭火,应急领导小组应在第一时间内集中所有二氧化碳灭火器,抓住时机,尽可能的把火扑灭。

5.配合消防部门调查事故原因,对造成的损失和起火原因做好记录,以便进行灾后总结。

第四条

雷击事故应急预案如下:

1.遇雷暴天气,机房管理人员在下班后应及时关闭所有服务器,切断电源,暂停内部计算 机网络工作。

2.雷暴天气结束后,机房管理人员应及时开通服务器,恢复内部计算机网络工作,对设备 和数据进行检查。出现故障的,事发部门应将故障情况及时报告机房管理人员。

3.因雷击造成损失的,机房管理人员应会同相关部门进行核实、报损,并在调查工作结束 后一日内书面报告领导。

第五条

设备防盗被盗或人为损害应急预案如下:

1.机房管理人员每日查看、清点设备并锁好机房大门。

2.机房管理人员每日检查录像监控服务器状态,确保监控画面正常,并检查每日录像正常性、完整性。

3.发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告相关负责人,同时保护好现场。

4.机房维护人员接报后,通知保安及公安部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

5.事发单位和当事人应积极配合公安部门进行调查,并将有关情况向机房管理人员汇报。

第六条

机房停电应急预案如下:

1.接到停电通知后,机房管理人员应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求用户在停电前停止业务、保存数据。

2.机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作半个小时,保证员工工作的数据及时保存。

第七条

通信网络故障应急预案如下:

1.发生通信线路中断、流量异常等故障后,员工应及时通知机房管理人员。

2.机房管理人员在接到报告后,迅速组织相关技术人员检测故障区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

3.应急处理结束后,机房管理人员应在一日之内提交故障分析报告,以便备案。

第八条

服务器故障应急预案如下:

1.机房管理人员每日检查服务器状态,检查邮箱服务器状态,确保系统运行的完善。

2.机房管理人员定期备份服务器数据,并将备份资料刻录成光盘或拷贝到移动硬盘。

第九条

1.发生机房突发事件后,机房管理人员应采取有效措施开展先期处置,恢复信息网络正常状态。应急处置工作结束后,机房管理人员对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。

第3篇:机房应急预案

应急处置方案

第一节 总 则

1、保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的解决。

2、最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进行诊断和维修。

3、故障应急人员高度负责的原则:当故障应急人员在节假日接到故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情况,确实无法处理障碍,部门领导必须安排好其他人员处理。

4、尽可能全面的保留故障现场的原则:当故

未完,继续阅读 >

第4篇:机房应急预案

主机运维应急预案简介

.崔志昂 上海超级计算中心 上海 201203 zacui@c.net.cn.魏玉琪 上海超级计算中心 上海 201203 yqwei@c.net.cn 引言:

高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地 为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主

机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。

1.主机和运维管理制度简介

超级计算机是功能最强、运算速度最快、存

储容量最大的一类计算机。目前只有少数国家掌握 研发技术,系统造价非常昂贵,多用于国家高科技 领域和尖端技术研究,是国家科技发展水平和综合 国力的重要标志。上海超级计算中心作为上海信息 港主体工程之一,国家和上海市政府

未完,继续阅读 >

下载机房应急预案word格式文档
下载机房应急预案.doc
将本文档下载到自己电脑,方便修改和收藏。
点此处下载文档

文档为doc格式

相关专题
热门文章
点击下载本文