поддержка 24/7
21 июня 2022

Disaster Recovery Plan (DRP) — как составить и что в него включить

Автор: Сергей Драгун

Технический эксперт: Сергей Бондаренко


Какой бы надежной ни была IT-инфраструктура, невозможно на 100% застраховаться от отказов в работе ПО или оборудования. Поэтому каждая организация должна иметь план действий, помогающий как можно быстрей восстановить работу ресурсов. 

Disaster Recovery plan (DRP) — это системный подход, который последовательно описывает действия по восстановлению работоспособности IT-инфраструктуры организации в случае аварийной ситуации. 

Для составления плана в организации проводится анализ бизнес-процессов и формулируются цели Disaster Recovery.

Типы аварий 

План аварийного восстановления должен учитывать три основных вида событий, приводящих к катастрофическим последствиям. 

Природные бедствия

  • Пожары.

  • Наводнения.

  • Землетрясения.

  • Пандемия.

Инфраструктурные катастрофы

  • Отключение электричества. 

  • Пожар или прорыв водопровода.

  • Обрушение здания.

  • Проникновение злоумышленников на объект и нанесение физического ущерба.

Технологические аварии

  • Авария сервера.

  • Сбой ПО на локальном сервере. 

  • Сбой SaaS-приложения в облаке.

  • Потеря данных из-за сбоя или вируса.

  • Сбой сетевой инфраструктуры.

  • Выход из строя инфраструктуры интернет-провайдера.

Стратегии DRP

Правильно составленная стратегия включает расчет времени, которое понадобится на восстановление ключевых сервисов. Стратегия поможет предприятию быстрее справиться с инцидентами, сократить время простоя и уменьшить финансовый и репутационный ущерб. Существует четыре основных стратегии DRP.

Локальное восстановление

Так как приложения, системы и данные развернуты on-premise, стратегия восстановления должна предусматривать потерю одного или нескольких компонентов системы.

Для восстановления данных и приложений крупные компании могут использовать два географически распределенных корпоративных дата-центра. Небольшие организации используют для резервного копирования отдельный сервер. 

Аварийное восстановление в облаке провайдера 

Такой подход сокращает расходы организации, так как избавляет от необходимости вкладывать средства в резервное оборудование. Важно добавить, что за счет сильной конкуренции на рынке облачных услуг, пользователи получают недорогое и надежное решение. Вдобавок провайдеры обладают опытом и экспертизой в реализации DRP и могут проконсультировать и предложить свои варианты решения. 

Аварийное восстановление как услуга (DRaaS)

Облачные провайдеры предлагают Disaster Recovery как услугу. По сути, она является горячей резервной площадкой для аварийного восстановления ресурсов. DRaaS использует облако для предоставления пользователям копий приложений из  корпоративного дата-центра. За счет этого организации быстрее реагируют и восстанавливают критически важные приложения.

Аварийное восстановление за счет виртуализации ресурсов

Виртуализация позволяет быстро развернуть копию виртуальной машины из облака или резервного сервера. 

Что включить в Disaster Recovery Plan

Он должен содержать несколько разделов: 

  • описание и цели DRP;

  • периодичность тестирования на резервных ресурсах;

  • процедуры восстановления и перечень персонала, ответственного за реализацию плана.

Цели и параметры плана аварийного восстановления

Цель DRP — свести к минимуму негативное влияние аварии на работу организации. План может предусматривать как восстановление только базовых параметров, так и полное восстановление работоспособности. 

Перед составлением плана оценивается потенциальное влияние аварии на бизнес. Исходя из этого, определяются приоритеты и задаются параметры для ключевых показателей аварийного восстановления: RTO и RPO. 

RTO (целевое время восстановления) задает период, в течение которого система недоступна после аварии. Он указывается в минутах, часах или сутках. RTO относится к допустимому времени простоя от сбоя до восстановления. Например, организация должна вернуться к работе в течение 4 часов, чтобы избежать ущерба. 

Для определения RTO нужно ответить на вопрос: «Сколько времени займет восстановление после сообщения о сбое бизнес-процесса?»

RPO (целевая точка восстановления) определяет максимальный период, за который данные могут быть утеряны. Например, RPO допускает потерю данных в пределах одного часа. Для достижения этой цели резервное копирование должно выполняться не реже одного раза в час.

Для определения RPO нужно ответить на вопрос: «Какой объем данных может быть потерян без существенного негативного влияния на бизнес организации?»

Затем разрабатываются стратегии восстановления приложений и данных.

Персонал

В плане аварийного восстановления должен быть указан персонал, ответственный за реализацию DRP. Кроме того, должны быть предусмотрены меры на случай отсутствия на рабочем месте кого-либо из ключевых сотрудников во время аварии.

IT-оборудование

При разработке DRP организации проводят инвентаризацию и составляют перечень аппаратных и программных активов, а также всех облачных сервисов, необходимых для функционирования организации. Оценивается важность каждого актива для бизнеса, находится ли он в собственности, аренде или используется по модели SaaS. Также важно сделать инвентаризацию лицензий и проверить их работу на измененных системах, чтобы понять нужна ли повторная активация или физическое перемещение лицензионных ключей.

Кроме того, все прошлые аварии необходимо задокументировать и описать, как они устранялись. 

Процедуры резервного копирования и восстановления

В DRP указывается, как создается резервная копия каждого ресурса данных — где именно, на каких устройствах и в каких папках, а также как IT-отдел должен восстанавливать их из резервных копий.

Размещение ресурсов для аварийного восстановления

Надежный план Disaster Recovery должен предусматривать горячую площадку для аварийного восстановления. По сути, это резервный ЦОД, хранящий копии всех критически важных систем.  Организация переключается на него после отказа основного ЦОДа.

Тестирование плана

Мало составить план — его надо протестировать, чтобы подтвердить соответствие заданным параметрам RTO и RPO, выявить и исправить возможные недостатки. Тестирование необходимо проводить с определенной периодичностью. 

Существуют следующие типы тестирования:

  • кабинетные учения;

  • проверка отказоустойчивости приложений;

  • проверка отказоустойчивости инфраструктуры;

  • симуляция нарушения работы в тестовой среде;

  • симуляция нарушения работы в среде продакшн.

Важно понимать, что DRP не составляется раз и навсегда. Технологии быстро меняются, поэтому необходим регулярный аудит и корректировка плана в соответствии с текущими задачами организации.

Решения «Корп Софт» для аварийного восстановления

«Корп Софт» предлагает услугу DRaaS — аварийное восстановление как сервис.

В нее входит составление плана аварийного восстановления и его тестирование. Клиент получает резервную инфраструктуру в облаке с настройкой репликации виртуальных машин и круглосуточной техподдержкой. Кроме DRaaS, «Корп Софт» предоставляет клиентам площадку с вычислительными ресурсами для Disaster Recovery.



Загрузка ...