Top.Mail.Ru
поддержка 24/7
поддержка 24/7

High Availability и Disaster Recovery — как связаны эти понятия и за что они отвечают

Экспертный материал

Сергей Бондаренко | Руководитель технического отдела


Ни одна система не может работать безотказно со стопроцентной надежностью. Всегда есть вероятность выхода из строя всей системы или нескольких ее компонентов. Чтобы свести вероятность простоя к минимуму, IT-инженеры используют несколько стратегий, обеспечивающих максимально возможное время безотказной работы. Одна из них — High Availability или отказоустойчивость, другая — Disaster Recovery или аварийное восстановление.

High Availability — отказоустойчивость

High Availability означает, что IT-система, ее компоненты или приложения продолжат работу даже при выходе из строя некоторых элементов. При этом время простоя окажется минимальным или его не будет вовсе. 

High Availability важна для систем, где длительный простой может привести к финансовым или репутационным потерям. Например, для онлайн-магазинов или банковских приложений. Представим, что онлайн-магазин крупного ритейлера во время новогодних распродаж сутки будет недоступен. Это приведет к огромным убыткам. А если на сутки недоступным окажется банковское приложение, то это чревато серьезным репутационным ущербом для банка. Цель High Availability не в том, чтобы на 100% гарантировать, что сбоев не будет, а свести их к минимуму. В идеале, чтобы пользователи даже ничего не заметили.

Другими словами, отказоустойчивость означает, что из-за сбоя одного компонента системы не произойдет отказа в работе всей IT-инфраструктуры. Ведь все её компоненты: серверы, маршрутизаторы, виртуальные машины и балансировщики нагрузки избыточны как на уровне сети, так и на уровне приложений. Именно это и обеспечивает высочайший уровень отказоустойчивости.

Как оценивается High Availabilit

Отказоустойчивость измеряется в процентах от времени безотказной работы за год. Большинство провайдеров услуг со сложными системами обеспечивают время безотказной работы от 99% до 99,999%.

Доступность Суммарное время простоя в году
99% 3,65 дней
99,9% 8,77 часа
99,99% 52,60 минуты
99,999% 5,26 минуты

Из таблицы видно, что уровень 99,9% предполагает почти девять часов простоя в год. В некоторых отраслях, например, банковской сфере, такой простой недопустим. Соответственно, необходим более высокий уровень отказоустойчивости.

Способы достижения High Availability

Есть несколько ключевых параметров, обеспечивающих высокую отказоустойчивость IT-инфраструктуры.

Географическая избыточность

Самый надежный способ достичь отказоустойчивости после аварии или стихийного бедствия — обеспечить географическую избыточность IT-инфраструктуры. Это достигается за счет развертывания серверов в разных регионах. Именно так делают компании, которым нужна повышенная отказоустойчивость и доступность их сервисов. Они размещают свои дата-центры в нескольких регионах и даже в разных странах и реплицируют в них свои сервисы, чтобы снизить зависимость от одной точки отказа. Поэтому в случае сбоя одного удаленного сервера или даже дата-центра работа продолжится.

Использование отказоустойчивых решений

Архитектура отказоустойчивой инфраструктуры обычно состоит из кластеров — нескольких связанных серверов с возможностью аварийного переключения между ними. Аварийное переключение — это передача нагрузки с вышедших из строя рабочих мощностей на резервные.  

Балансировка сетевой нагрузки

Балансировка улучшает доступность ключевых веб-приложений. В случае отказа одного сервера экземпляры приложений заменяются, а трафик автоматически перенаправляется на работающие серверы. Балансировка нагрузки обеспечивает не только отказоустойчивость, но и дополнительную масштабируемость инфраструктуры. 

Настройка синхронизации данных в соответствии с RPO организации

RPO — это объем данных, которые могут быть потеряны из-за сбоя без ущерба для бизнеса. RTO устанавливается в секундах, минутах или часах, в зависимости от количества изменяемых данных в системе. Для разных сервисов параметры RTO могут отличаться.

Disaster Recovery — аварийное восстановление

В отличие от High Availability, аварийное восстановление нужно на случай события с катастрофическими последствиями для IT-инфраструктуры. Причиной могут быть события природного происхождения: пожар, наводнение, землетрясение. А также технологического: авария сервера или сетевой инфраструктуры. Назначение DR — быстрое восстановление работоспособности после катастрофы.

Что нужно для аварийного восстановления

Для этого создается резервная инфраструктура, например, дата-центр где хранятся копии всех критически важных систем. В случае аварии резервный ЦОД возьмет на себя нагрузку, и работа организации продолжится.

Что такое Disaster Recovery Plan (DRP)

Исходя из задач бизнеса, каждая компания самостоятельно определяет стратегию и параметры аварийного восстановления. Для это разрабатывается Disaster Recovery Plan, где указывается максимально допустимое время для восстановления работоспособности — RTO (целевое время восстановления) и упомянутый выше RPO. В плане прописывается место для сохранения резервных копий и как они должны быть восстановлены после аварии.

Так как IT-инфраструктура со временем меняется, DRP необходимо периодически обновлять. Кроме того, регулярно нужно выполнять тесты-проверки  работоспособности DRP. О том, что такое DRP мы писали в статье.

Сравнение отказоустойчивости с аварийным восстановлением

High Availability часто путают с аварийным восстановлением — Disaster Recovery. Попробуем разобраться. 

High Availability позволяет продолжить работу при сбое одного компонента инфраструктуры, например, отказе сервера.

Аварийное восстановление позволяет продолжить работу при выходе из строя корпоративного или облачного дата-центра, например, из-за пожара. 

Другими словами, High Availability — это стратегия устранения сбоев одного или нескольких компонентов IT-инфраструктуры. Disaster Recovery — это способ справиться с катастрофическими событиями, способными уничтожить всю IT-инфраструктуру организации.

Упрощенно говоря, High Availability отвечает за живучесть IT-инфраструктуры, а Disaster Recovery — за возможность восстановить ее после катастрофы. Эти стратегии дополняют друг друга и помогают предприятию справиться с отказами инфраструктуры. Можно сравнить это с кораблём, который вышел в океан. Во время плавания команда справляется с текущими поломками и продолжает движение в порт назначения. Но однажды корабль сталкивается с айсбергом. Команда быстро понимает, что спасти его нельзя. Она забирает всё самое ценное и пересаживается в резервную инфраструктуру — шлюпки.

High Availability и Disaster Recovery в облаке провайдера

Важно понимать, что поддержка отказоустойчивости корпоративной инфраструктуры и развертывание локальных резервных мощностей для аварийного восстановления доступны лишь очень крупным корпорациям. Причина — высокая стоимость таких решений.

С другой стороны, масштабируемость, географическая избыточность, а также SLA на уровне 99,99 и выше — это стандартные характеристики публичных облаков. Клиентам облачного провайдера не нужно ломать голову, где взять мощности для обеспечения отказоустойчивости. Масштабируемые ресурсы предоставляются по запросу в нужное время и в нужном объеме, а избыточность инфраструктуры заложена еще на стадии проектирования. Кроме того, облачные провайдеры предоставляют свои мощности и готовые решения (DRaaS) для аварийного восстановления. Поэтому для большинства организаций миграция в облако — это недорогое и подходящее решение для повышения отказоустойчивости своей IT-инфраструктуры.

Заказать DRaaS

Загрузка ...