●目錄第 1章應急管理基礎 11.1 基礎知識 21.1.1 工作原則 21.1.2 災難 31.1.3 災難恢復 41.1.4 災難備份 41.1.5 災難備份中心 41.1.6 關鍵業務功能 51.1.7 業務影響分析 51.1.8 恢復時間目標 51.1.9 恢復點目標 61.1.10 風險評估 61.1.11 應急預案 71.1.12 演練 71.1.13 桌面演練 71.1.14 模擬切換演練 81.1.15 真實切換演練 81.1.16 其他術語 91.2 應急管理與業務連續性管理 91.2.1 業務連續性管理的定義 91.2.2 應急管理與業務連續性管理的關繫 101.3 應急管理與風險管理 111.3.1 風險的定義 111.3.2 信息安全風險的定義 131.3.3 風險管理的定義 151.3.4 應急管理與風險管理的關繫 161.4 應急管理和災難備份與恢復管理 161.4.1 災難恢復的定義 161.4.2 災難恢復7要素 171.4.3 應急管理和災難備份與恢復管理的關繫 171.5 銀行業數據中心應急管理要求 181.5.1 國家相關法律法規要求 181.5.2 相關政府機構的要求 25第 2章銀行業數據中心應急管理概述 292.1 數據中心的定義及分級 302.1.1 數據中心的定義 302.1.2 數據中心的分級 312.2 雲計算數據中心功能的演進 322.3 銀行業數據中心典型組織架構 342.3.1 如何建立數據中心的組織架構 342.3.2 典型的銀行業數據中心組織架構 362.4 銀行業數據中心的應急管理 38第3章銀行業數據中心應急管理組織架構 413.1 銀行業數據中心應急管理組織成立目的 423.2 銀行業數據中心應急管理組織架構 423.2.1 應急領導小組 433.2.2 應急執行小組 443.2.3 應急保障小組 453.2.4 外部支持小組 45第4章銀行業數據中心應急管理策略、範圍、對像及目標 474.1 應急管理策略 484.1.1 事前預防策略 484.1.2 事中響應與處置策略 484.1.3 事後改進策略 494.1.4 資源與文化保障策略 504.2 應急管理範圍 504.3 應急管理對像 504.3.1 軟件 514.3.2 硬件 514.3.3 服務 514.3.4 數據 524.3.5 人員 524.4 應急管理目標 52第5章銀行業數據中心應急管理場所 555.1 應急管理場所 565.1.1 生產監控場所 565.1.2 應急指揮場所 575.1.3 應急處置場所 585.1.4 服務受理場所 595.1.5 技術分析場所 595.1.6 測試演練場所 605.2 應急場所的建設方法 615.2.1 大屏幕顯示繫統 615.2.2 全球IP電話繫統 665.2.3 虛擬終端及雲桌面 69第6章銀行業數據中心應急管理制度 716.1 應急管理的規範與流程 726.1.1 基本原則 726.1.2 角色與職責分工 726.1.3 7×24小時應急運維機制 726.1.4 應急場景(包括但不限於) 746.1.5 應急預案 756.2 事件管理的規範與流程 776.2.1 基本原則 776.2.2 角色與職責分工 776.2.3 事件分類 786.2.4 事件分級 796.2.5 事件業務影響的認定 816.2.6 事件活動的要求 826.2.7 質量控制 83第7章銀行業數據中心主動性維護 857.1 主動性維護基本原則 867.1.1 RCM理論 867.1.2 預防性維護和預測性維護 897.1.3 主動性維護 907.1.4 主動性維護與傳統維護觀念的差異 917.1.5 主動性維護在銀行業數據中心運營中的價值 927.1.6 主動性維護是降低數據中心TCO的新途徑 927.2 硬件設備及機房環境設施技術實施方案 937.2.1 運維內容 937.2.2 硬件設備及機房環境設施的主動性維護理念 937.2.3 案例 947.3 網絡繫統技術實施方案 997.3.1 運維內容 997.3.2 網絡繫統的主動性維護理念 997.3.3 案例 1007.4 主機、開放、windows、X86技術平臺實施方案 1057.4.1 運維內容 1057.4.2 主動性維護理念 1057.4.3 案例 1067.5 應用繫統技術實施方案 1207.5.1 運維內容 1207.5.2 應用繫統的主動性維護理念 1207.5.3 案例 1217.6 漏洞掃描與滲透測試 1277.6.1 運維內容 1277.6.2 主動性維護理念 1287.6.3 案例 128第8章銀行業數據中心應急場景及預案 1318.1 硬件與環境應急場景和預案 1338.1.1 應急場景清單 1338.1.2 場景一:ORACLE VSM虛擬帶庫應急 1358.1.3 場景二:SL8500物理帶庫應急方案 1388.1.4 場景三:Z13主機硬件故障 1408.1.5 場景四:IBM P繫列小型機異常宕機 1448.1.6 場景五:HDS存儲設備應急方案 1498.1.7 場景六:NetApp存儲設備應急方案 1518.1.8 場景七:EMC存儲設備應急方案 1548.1.9 場景八:UPS繫統應急方案 1588.1.10 場景九:PDU設備應急方案 1608.2 網絡應急場景和預案 1628.2.1 應急場景清單 1628.2.2 場景一:網絡設備某一板卡發生故障,該板卡所連接具有冗餘鏈路 1668.2.3 場景二:網絡交換機雙引擎中主引擎發生故障,備引擎正常,主備引擎切換失敗 1688.2.4 場景三:外部因素導致生產中心互聯網應用繫統不可用,需要將流量切換到異地災備中心 1698.2.5 場景四:骨干線路丟包 1718.2.6 場景五:異常流量導致主備防火牆的通信異常 1748.2.7 場景六:VPN設備通道連接異常 1768.2.8 場景七:DNS設備的解析服務異常導致DNS服務異常 1788.3 數據恢復應急場景及預案 1808.3.1 應急場景清單 1818.3.2 場景一:數據庫熱備份恢復切換 1848.3.3 場景二:數據庫冷備份恢復切換 1848.3.4 場景三:物理磁盤數據應急恢復 1878.3.5 場景四:物理磁盤外部專業數據恢復應急處理 1918.4 主機應急場景和預案 1928.4.1 應急場景清單 1928.4.2 場景一:主機CICS聯機繫統交易處理緩慢 1948.4.3 場景二:主機CICS聯機與外圍繫統通信異常 2008.4.4 場景三:DB2沒有可以使用的ACTIVE LOG,DB2 LOG不能工作 2048.4.5 場景四:一個BSDS文件無法訪問,無法對其進行讀/寫操作 2068.4.6 場景五:DB2數據空間將耗盡 2088.4.7 場景六:磁盤故障觸發非計劃性Hyperswap 2108.4.8 場景七:繫統DATASET的利用率超過閾值 2158.5 小型機應急場景和預案 2168.5.1 應急場景清單 2168.5.2 場景一:繫統重要資源不足 2198.5.3 場景二:CICS交易繁忙以致出現交易排隊現像 2268.5.4 場景三:MQ通道狀態異常 2298.5.5 場景四:數據庫出現大量行鎖 2318.5.6 場景五:SQL(聯機或批量)執行時間變長 2368.5.7 場景六:單臺應用服務器出現故障 2398.5.8 場景七:加速器邏輯通道夯 2448.5.9 場景八:簽名驗簽業務持續性緩慢 2488.5.10 場景九:ORACLE ASM磁盤被賦PVID導致磁盤組損壞 2538.5.11 場景十:ORACLE數據庫SQL語句執行計劃突變 2598.6 X86平臺應急場景和預案 2638.6.1 應急場景清單 2638.6.2 場景一:雲平臺計算節點資源不足 2658.6.3 場景二:ORACLE數據庫數據損壞 2698.6.4 場景三:MySQL Cluster數據庫SQL節點hang死 2718.6.5 場景四:存儲故障 2728.6.6 場景五:單臺負載均衡器故障 2758.6.7 場景六:WAS組件異常 2768.7 應用與運行應急場景和預案 2788.7.1 應急場景清單 2788.7.2 場景一:應用繫統按需執行重啟 2808.7.3 場景二:某應用繫統的對端繫統未正常收到返回報文 2828.7.4 場景三:因業務量高峰、繫統處理能力不足引起的聯機交易緩慢 2848.7.5 場景四:批量執行中斷 2868.7.6 場景五:數據修改異常引發交易異常 2888.7.7 場景六:應用產品主備機切換應急預案 2908.7.8 場景七:應用繫統MQ隊列堆積 2928.7.9 場景八:應用繫統間密鑰恢復應急場景 2948.7.10 場景九:應用產品版本回退應急預案 2968.8 互聯網信息安全事件應急場景及預案 2978.8.1 應急場景清單 2978.8.2 場景一:互聯網應用繫統網絡入侵 2998.8.3場景二:互聯網出口拒絕服務攻擊 300第9章銀行業數據中心應急處置及啟動 3039.1 應急處置策略與原則 3049.1.1 首查監控 3059.1.2 關聯變更 3059.1.3 回顧歷史 3069.1.4 以我為因 3069.1.5 聯動後線 3079.1.6 並行排查 3079.1.7 信息共享 3089.1.8 恢復優先 3089.2 應急處置實施方法論 3099.2.1 應急發現階段 3119.2.2 應急響應階段 3129.2.3 應急恢復階段 3129.2.4 應急驗證階段 3149.3 應急管理後評價 314第 10章銀行業數據中心應急管理工具建設 31910.1 應急預案管理平臺 32010.1.1 主要用途 32010.1.2 實現功能 32010.1.3 建設方法 32310.2 應急協作管理平臺 32410.2.1 主要用途 32410.2.2 實現功能 32510.2.3 建設方法 32810.3 運維流程管理平臺 33110.3.1 主要用途 33210.3.2 實現功能 33310.3.3 建設方法 34210.4 集中監控管理平臺 34610.4.1 主要用途 34610.4.2 實現功能 34710.4.3 建設方法 349第 11章應急案例介紹 35311.1 在線客服人工服務異常案例 35411.1.1 繫統簡介 35411.1.2 案例簡述 35411.1.3 處置詳情 35511.1.4 處置要素 35511.1.5 後續改進 35611.2 信用卡快捷支付退貨交易緩慢案例 35611.2.1 繫統簡介 35611.2.2 案例簡述 35711.2.3 處置詳情 35711.2.4 處置要素 35711.2.5 後續改進 35811.3 個人理財產品銷售異常案例 35811.3.1 繫統簡介 35811.3.2 案例簡述 35911.3.3 處置詳情 35911.3.4 處置要素 35911.3.5 後續改進 36011.4 部分借記卡行內轉賬失敗案例 36011.4.1 繫統簡介 36011.4.2 案例簡述 36111.4.3 處置詳情 36111.4.4 處置要素 36111.4.5 後續改進 36211.5 小型機內存故障案例 36211.5.1 繫統簡介 36211.5.2 案例簡述 36311.5.3 處置詳情 36311.5.4 處置要素 36311.5.5 後續改進 36411.6 存儲鏈路抖動案例 36411.6.1 繫統簡介 36411.6.2 案例簡述 36511.6.3 處置詳情 36511.6.4處置要素 36511.6.5 後續改進 36611.7 某互聯網應用繫統漏洞被利用進行網絡入侵攻擊 36611.7.1 繫統簡介 36611.7.2 案例簡述 36711.7.3 處置詳情 36711.7.4 處置要素 36711.7.5 後續改進 36811.8 某地互聯網出口Web服務器遭受DDoS攻擊案例 36811.8.1 繫統簡介 36811.8.2 案例簡述 36911.8.3 處置詳情 36911.8.4 處置要素 37011.8.5 後續改進 37011.9 某繫統交易緩慢案例 37011.9.1 繫統簡介 37011.9.2 案例簡述 37111.9.3 分析過程詳述 37111.9.4 處置詳情 37311.9.5 處置要素 37411.9.6 後續改進 37411.10 某繫統投產新版本後批量執行緩慢案例 37511.10.1 繫統簡介 37511.10.2 案例簡述 37511.10.3 分析過程詳述 37611.10.4 處置詳情 37711.10.5 處置要素 37711.10.6 後續改進 378參考資料 379
內容簡介
本書從應急管理的基本概念出發,結合大型商業銀行數據中心的業務連續性要求特性,通過應急管理的對像、組織架構、管理制度、主動運維與場景應用等方面的論述,繫統地介紹了應急管理體繫的基本理論與方法。全書共11章,包括應急管理基礎,銀行業數據中心應急管理概述,應急管理組織架構,應急管理策略、範圍、對像及目標,應急管理場所,應急管理制度,主動性維護,應急場景及預案,應急處置及啟動,應急管理工具建設,應急案例介紹等。本書理論與實踐相結合,為讀者提供了很多具有借鋻意義的應急預案和主動預防示例,能更好地運用到工作實踐中。