8 июня 2022

DraaS: как защитить свою IT-инфраструктуру

Автор: Михаил Ястребов

Любая современная компания использует IT-инфраструктуру.

От потопов, пожаров (например, в офисе соседей) и даже банального повреждения каналов связи экскаватором (да, и такое бывает) и других форс-мажорных ситуаций свою инфраструктуру защитить почти невозможно. В таком случае нельзя продолжать работу, а инфраструктура нуждается в восстановлении.

Разберём подробно, как минимизировать простой корпоративных серверов в этом случае, и какие предварительные шаги нужно сделать, чтобы быстро переключиться на резервный контур.

Представьте, что вы едете на автомобиле и у вас в баке заканчивается бензин. Вы нажимаете кнопку и продолжаете ехать на втором баке, который совершенно независим от основного и позволяет продолжить путь практически без остановки. Круто, не правда ли? С IT-инфраструктурой можно реализовать похожую безотказность.

Подобная схема называется аварийное восстановление инфраструктуры или Disaster Recovery as a Service (сокращённо DRaaS).

DRaaS – услуга, предоставляемая многими облачными провайдерами. Ваша виртуальная инфраструктура клонируется в сторонние облачные сервисы, что позволяет восстановить доступ к ней после аварии с минимальным простоем.

Это тот самый резервный бак с бензином на случай отказа основного.

Технология похожа на бэкап, но таковой не является, в инфраструктуре клиента настраивается клонирование (репликация) серверов или виртуальных машин на удалённые мощности провайдера.

Репликация – это процесс создания практически непрерывной синхронизации копий, в данном случае резервных копий ВМ. В частном случае – это копирование данных из исходного источника на удалённую платформу, сервер оператора услуги.

В зависимости от потребностей заказчика, точка репликации настраивается с разной периодичностью и может составлять от 5 минут до 24 часов.

Резервное копирование – это процесс копирования виртуальной машины в отдельное хранилище (в случае с draas копирование происходит в хранилище оператора услуги). Это позволяет восстановить данные при повреждении или утере оборудования заказчика.

Резервное копирование (бэкап) поможет вам, если ваша организация может потерпеть убытки от простоя серверов и сервисов, а время простоя будет зависеть от таких параметров как RPO и RTO.

Репликация происходит практически на лету, сохраняются только последние изменения данных, в то время как при бэкапе происходит полное копирование всех данных.

RPO (Recovery Point Objective) – это время, за которое могут быть потеряны данные в результате аварии.

Например, протёк потолок, прямо на сервер с базами 1с в 12 часов дня, а бэкап был сделан в 01:00 ночью, эта разница во времени и принимается в расчёт. В этом случае RPO для вас составит 11 часов.

RTO (Recovery Time Objective) - это время простоя, которое потребуется для возобновления работы вашей инфраструктуры, пока бэкап будет разворачиваться на новом сервере. Например, восстановление данных займет 1 час.Прибавляя 11 часов (значение RPO из предыдущего примера),мы получаем простой в 12 часов, не для каждого бизнеса такой простой не будет критичным.

Услугу DraaS всегда можно скорректировать под требования клиента, для этого необходимо составить план репликации. План репликацией строится на требованиях клиента (какие сервера и как часто они реплицируются) и объём подготовленных ресурсов под расширение данных, от этих параметров и будет зависеть стоимость услуги. В draas также используются такие понятия как rpo и rto, только в случае draas RTO сильно сокращается, так как не нужно тратить дополнительное время на развёртывание серверов. Переключение происходит по запросу клиента в течение 5-15 минут, что позволяет продолжить работу в восстановленной инфраструктуре почти сразу после сбоя основной. RPO же для каждого клиента рассчитывается индивидуально и зависит от различных факторов. Играет роль скорость передачи данных в инфраструктуре клиента через интернет, расписание резервного копирования (для каждого клиента расписание подбирается индивидуально, важно учитывать и верно рассчитать время передачи резервных копий виртуальных машин на площадку провайдера, для исключения многократной передачи копии одной вм, что способно существенно сократить скорость репликации). Как правило все расчёты делаются инженерами провайдера совместно с сотрудниками клиента. При расчёте учитывается ширина интернет-канала, выбираются оптимальные для клиента значения RPO и RTO, количество виртуальных машин заказчика, на которые данная услуга будет распространяться.

Когда draas – ваш выбор?

Ваша IT-инфраструктура является ключевым или важнейшим элементом ваших бизнес-процессов.
Каждая минута простоя приносит убытки вашему бизнесу.
Неработающие серверы заставляют вас терять данные;
Важно, чтобы ресурсы были достаточными для того, чтобы одна копия успела попасть в облако до момента, когда начинается вторая репликация.

Когда draas не ваш выбор?

Ваша инфраструктура не имеет виртуальных машин, bare metal-инфраструктура не может быть подключена к услуге draas, для этого есть BMR и обычно используется в менее критических инфраструктурах;
Ваша ит-инфраструктура не позволяет установить агента для передачи данных в облако провайдера из-за очень ограниченных ресурсов;
Ваш интернет-канал не соответствует объёму передаваемых данных, что не позволяет передавать реплики ваших ВМ в разумные сроки, в этом случае использование Draas возможно, но его эффективность будет очень низкой.

Надёжен ли draas?

Облачные провайдеры обычно предоставляют возможность регулярной запланированной проверки работы услуги, называемой учениями.

Во время учений в запланированное и согласованное заказчиком и провайдером время происходит переключение с инфраструктуры клиента на инфраструктуру провайдера, после чего клиент может проверить работу своих приложений, это делается, чтобы убедиться в целостности и работоспособности копий на стороне провайдера.

Что происходит после восстановления работоспособности инфраструктуры?

Клиент инициирует процедуру восстановления и все данные передаются обратно в инфраструктуру клиента. Все изменения, внесенные на серверах провайдера во время простоя основной инфраструктуры, будут загружены в вашу инфраструктуру.

Вот один из примеров, когда draas мог бы защитить от простоев инфраструктуру клиента:

В одном из российских ЦОДов случился пожар, во время которого для защиты от перегрева были выключены клиентские сервера, сотрудники дата-центра сделали все, чтобы избежать простоя, однако часть клиентов потеряли свои данные. Для клиентов, использующих draas в других дц ситуация не стала столь критичной.

Аналогичная ситуация была и у компании Samsung в 2014 году. В офисном здании в городе Гвачон случилось возгорание, задевшее и ЦОД самсунг, пожар повредил инфраструктуру, вследствие чего пользователи гаджетов Samsung не могли получить доступ к облачным ресурсам компании. Ситуацию спас резервный дата-центр в этом же городе и после переключения сервисов на резервный ЦОД доступ к облачным сервисам у клиентов восстановился.

Таким образом, DRaaS – возможность сократить простои вашей инфраструктуры на случай аварии и продолжать работу практически беспрерывно.

Подобные системы давно применяются в различных областях производства, науки и транспорта, а дублирующие системы на АЭС, ГЭС, в авиастроении и железнодорожных перевозках давно уже стали стандартом. Во всех критически важных структурах используются дублирующие системы, и если ваш бизнес зависит от IT, советуем задуматься о безотказности ваших систем.

Заказать DRAAS

Подробнее