18 мая 2022

Что такое отказоустойчивость ИТ-инфраструктуры?

Автор: Яков Пономаренко
Технический консультант: Сергей Бондаренко

Сколько раз мы слышали выражения «сайт лежит» или «приложение лагает»! Мы точно знаем, что это означает недоступность определённого сервиса. Обычно это происходит в тех случаях, когда у сервиса низкий показатель отказоустойчивости. Разберёмся подробнее, как повысить этот показатель с помощью облачных технологий.

Отказоустойчивость – способность некой системы сохранять работоспособность, доступность и целостность данных при отказе её отдельных компонентов или сбоях в подсистемах.

Отказоустойчивость предполагает наличие механизмов дублирования, резервного копирования и автоматического восстановления.

Что в статье:

Почему это важно?

Из чего складывается отказоустойчивость?

Резервное копирование

Стандартизация рабочих мест и удалённое хранение данных

Безопасность

Резервный ЦОД

Регламенты и мониторинг

Заключение

Почему это важно?

Компьютеры, системы хранения данных, ERP-системы, локальные сети, почтовые серверы и доступ в глобальную сеть – эти компоненты ИТ-инфраструктуры в той или иной степени использует почти любой современный бизнес, начиная от цветочных магазинов и кофеен, заканчивая международными банками и автопроизводителями. Причём эти компоненты настолько глубоко интегрированы в бизнес-процессы, что нарушения в их работе способны парализовать работу организации, в следствие чего бизнес понесёт убытки в виде дополнительных расходов или недополученной прибыли.

Поэтому ещё на этапе планирования инфраструктуры следует задуматься, каким рискам она может быть подвержена, как от них защищена, как и с какой скоростью будет происходить процесс восстановления и куда она может «переехать», если восстановление затянется.

При планировании затрат и способов обеспечения отказоустойчивости ит-инфраструктуры, компании следует оценить, насколько быстро требуется восстановить работоспособность и насколько свежими должны быть последние резервные копии данных. Для такой оценки существует 2 показателя:

RPO (recovery point objective) – допустимая потеря данных. Это та последняя версия данных, на которую удастся «откатиться» после аварии. Чем свежее будет копия, тем лучше. Но и стоимость решений, позволяющих добиться постоянного и частого резервного копирования данных будет выше.

*
RTO (recovery time objective) – допустимое время восстановления. Чем меньше время простоя после аварии, тем лучше. Аренда резервных мощностей в ЦОДе или закупка дополнительного оборудования в собственную серверную позволяет минимизировать время простоя.

Аварийное восстановление инфраструктуры

Подробнее

Каждая организация должна соотносить расходы, которые готова нести для создания и поддержки отказоустойчивой ит-инфраструктуры, и убытки, которые могут возникнуть без определенного уровня отказоустойчивости. Иногда несколько часов простоя могут обойтись дешевле, чем избыточные траты на оборудование и его поддержку.

Из чего складывается отказоустойчивость?

Отказоустойчивость всей инфраструктуры складывается из надежности её элементов. Главный принцип отказоустойчивости – дублирование. Если какой-то ключевой элемент не задублирован, то именно он будет слабым звеном всей инфраструктуры.

Согласно глобальному обзору центров обработки данных за 2021 год, опубликованного Uptime Institute, отключение питания – самая частая причина потери работоспособности дата-центров.Защита от внезапного отключения электричества обеспечивается источниками бесперебойного или резервного питания. Это могут быть, например, аккумуляторные ИБП, которые помогут выиграть время, пока проблема будет решаться, либо же дизель-генераторы, применяемые в ЦОДах, которые способны обеспечить автономную работу инфраструктуры, пока есть запас топлива.

Сетевое оборудование и серверы тоже дублируются. Например, коммутаторы объединяют в стеки, а серверы, на которых функционирует контроллер домена, «крутятся» базы данных, почтовые серверы, DNS, DHCP-серверы – дублируются виртуально и физически.

Особенно важно дублирование систем мониторинга за периметром корпоративной сети в другой локации, т.к. выход из строя такого сервера может создать ложное ощущение, что всё в порядке.

Системы мониторинга позволяют дежурным инженерам контролировать нагрузку сети, уровень нагрузки на серверы, количество свободного места на дисках, температуру в машинных залах, состояние систем резервного питания, кондиционирования и пожаротушения.

Физическое расположение резервного оборудования зависит от требований, предъявляемых к отказоустойчивости. Так дублирующий сервер может находиться в соседней стойке, или в изолированном машинном зале на другом этаже, или в другом здании в нескольких километрах. Самый надежный подход к обеспечению отказоустойчивости дата-центров – это создание географически распределённых катастрофоустойчивых ЦОДов, которые находятся на таком удалении друг от друга, что выход из строя одного из них вследствие, например, наводнения никак не отразится на работоспособности второго.

Резервное копирование

Резервное копирование информации – ещё один способ достижения высоких показателей отказоустойчивости ит-инфраструктуры.

Валидные свежие резервные копии рабочих файлов, почтовых архивов и баз данных позволяют не тратить время на восстановление результатов сделанной ранее работы и не потерять критически важные файлы и письма.

Валидность означает пригодность для использования. Чтобы этого достичь, полезно периодически вручную проверять созданные бэкапы или настроить автоматическую проверку. Валидация может заключаться в простой проверке контрольных сумм, а также в восстановлении данных из бэкапов на какой-нибудь виртуальный сервер и ручной проверке данных.

Также полезно делать бэкапы операционных систем и конфигураций перед внесением в них изменений, чтобы в случае неполадок быстро «откатиться» обратно. Следует отличать репликацию от резервного копирования.

Репликация – это применение конфигурации на основном и резервном сервере.

Если после внесения изменений в конфигурацию основной сервер стал недоступен и спустя какое-то время произойдёт репликация на резервный сервер, то в итоге мы получим два нерабочих сервера.

Резервная копия – это именно последняя копия работоспособной конфигурации, к которой в случае проблем можно будет вернуться.

Несмотря на описанные различия, и репликация и резервное копирование – это средства обеспечения отказоустойчивости ит-инфраструктуры.

Резервные копии должны храниться максимально удалённо от оригинальных данных, чтобы аварийная ситуация в основой ит-инфраструктуре не повлияла на них. Также они должны быть защищены, чтобы только определённые сотрудники имели к ним доступ. Бессмысленно разграничивать доступ к данным в корпоративной сети, если к ним можно получить несанкционированный доступ через бэкапы.

Резервное копирование

Попробовать бесплатно

Стандартизация рабочих мест и удалённое хранение данных

Хранение рабочих файлов сотрудников и баз данных на виртуальных серверах позволяет в максимально короткие сроки продолжить работу в случае поломки компьютера сотрудника. Для этого все рабочие станции должны быть стандартизированы, включая настроенную операционную систему и предустановленный софт. В случае выхода из строя компьютера сотрудникам техподдержки достаточно заменить компьютер из резерва, после чего сотрудник сможет залогиниться на новой машине под своей учётной записью и получить доступ ко всем необходимым ресурсам, хранящимся в сети, в кратчайшее время. Использование виртуальных рабочих мест также позволит инженерам централизованно и своевременно обновлять ОС и ПО.

Безопасность

Физический доступ к сетевому и серверному оборудованию, инженерным помещениям, резервным копиям, админским учётным записям должен быть ограничен. Только доверенные люди, которые отвечают за функционирование подсистем ит-инфраструктуры, должны иметь такие доступы. Системы контроля управления доступом в сочетании с системами видеонаблюдения и охранными системами позволяют предотвратить саботаж и вывод из строя оборудования внутри периметра компании.

Анализ защищённости вашей информационной системы

Перейти

Важный вклад в обеспечение отказоустойчивости корпоративной сети вносят межсетевые экраны, IDS и антивирусное ПО. Файрволы разрешают или запрещают трафик между корпоративной сетью и интернетом или внутри корпоративной сети в соответствии с access-листами. С их помощью можно, например, запретить сотрудникам доступ на облачные хранилища вроде Google Drive, чтобы предотвратить “слив” корпоративной информации или скачивание вредоносных файлов. Для обеспечения лучшей отказоустойчивости межсетевые экраны устанавливают не только на периметре корпоративной сети, но и между различными её сегментами.

Системы обнаружения вторжений IDS анализируют трафик на соответствие заданным шаблонам и в зависимости от этого пропускают его или запрещают. Кроме этого, IDS умеют предотвращать сетевые атаки, выявляя аномалии в работе сети, будь то резкий скачок трафика или задействование нестандартных сетевых портов.

Антивирусное ПО позволяет, например, запретить чтение и запись информации на USB-накопители с помощью компьютеров пользователей, чтобы препятствовать загрузке вредоносного кода внутри корпоративной сети. Кроме этого антивирусы анализируют подозрительное поведение программ и сканируют файлы на соответствие их вирусным сигнатурам - обновляемым базам данных, в которых содержится информация об известных угрозах.

Резервный ЦОД

В случае полного выхода из строя ит-инфраструктуры компании, можно быстро переключиться на резервный ЦОД. Для этого нужно заранее позаботиться об аренде вычислительных мощностей в проверенном дата-центре или организовать собственный центр обработки данных. Второй вариант обычно выбирают крупные компании или банки в связи с тем, что развёртывание собственного резервного ЦОД сопряжено с значительными затратами на закупку оборудования, лицензий, техническую поддержку и зарплаты сотрудникам. Резервный дата-центр может функционировать параллельно, забирая часть нагрузки на себя, а также в «спящем режиме», периодически выполняя резервное копирование, и запускаясь на полную мощность только в случае выхода из строя основной ит-инфраструктуры компании.

Регламенты и мониторинг

Какой бы отказоустойчивой ни была техническая часть ит-инфраструктуры, от неё мало толку, если нет регламента ежедневного мониторинга и регламента действий в случае обнаружения проблемы.

Согласно информации, представленной Uptime Institute, человеческий фактор в той или иной степени стал причиной 79% случаев потери работоспособности дата-центров в 2021 году.

Сотрудники, отвечающие за поддержку и администрирование, а также дежурные инженеры должны иметь чёткий план действий и инструкции, чтобы не потерять драгоценное время в случае ЧП. Важно не только существование регламента «на бумаге», но и регулярная проверка знаний, а также тесты и моделирования аварийных ситуаций.

Заключение

Сегодня многие организации сильно зависят от непрерывной работы ит-инфраструктур, поэтому требования к отказоустойчивости информационных систем ужесточаются. Хороший уровень отказоустойчивости достигается комплексным подходом с помощью дублирования компонентов ит-систем, резервного копирования данных, постоянного мониторинга и соблюдения различных регламентов безопасности, администрирования и эксплуатации.

Компании предъявляют разные требования к уровню отказоустойчивости IT-инфраструктуры и готовы тратить на её обеспечение разный бюджет. Инженерам, занимающимся построением отказоустойчивых систем, необходимо найти баланс между этими двумя переменными.

По-настоящему высоких показателей отказоустойчивости критически важных компонентов ит-инфраструктуры достигают с помощью резервного дата-центра, на который можно «переехать» в случае серьёзной аварии. Некоторые компании строят целую резервную ит-инфраструктуру самостоятельно, выделяя на это значительные средства.

Однако сегодня всё больше компаний решают проблему отказоустойчивости с помощью аутсорсинга. Для этого заключают договор с облачным провайдером, который предоставляет услуги резервного ЦОДа, SaaS или Iaas. Зачастую такой подход экономически выгоднее и надёжнее, ведь вопросом отказоустойчивости занимаются узкопрофильные специалисты, обладающие большим опытом решения подобных задач.

Аварийное восстановление инфраструктуры (DRaaS)

Подробнее