Разъяснение инцидента



13.02.2018

Разъяснение инцидента

Приносим Вам наши искренние извинения за перебои в работе наших вычислительных ресурсов, которые имели место в период с 00:30 09.02.2018 по 14:00 09.02.2018 и за убытки, понесенные Вами и Вашими клиентами.

Читая негативные, эмоциональные, искренние, хотя и не всегда обоснованные комментарии в интернете, мы понимаем, что просто обязаны дать официальное объяснение по поводу произошедшего.

Суть инцидента

В период с 09.02.2018 по 12.02.2018 наши системы мониторинга зарегистрировали массовый сбой в работе территориально распределенной облачной инфраструктуры. Сбой выражался в отказе сервисной части компонентов облаков при одновременной их узловой доступности (ICMP-пакеты проходили нормально). При этом журналы событий всего сетевого оборудования не содержали сообщений об ошибках, таблицы коммутации и маршрутизации сетевого оборудования отображали корректные данные.

Проблема в основном затронула клиентов, в информационных системах которых использовались несколько взаимосвязанных виртуальных машин, находящихся в разных дата-центрах. Естественно, в первую очередь это коснулось крупных клиентов, в том числе предоставляющих собственные сервисы, что сделало проблему еще более значимой и резонансной.

Клиенты, у которых виртуальные машины размещались в одном дата-центре, продолжали работать в штатном режиме и проблем в их работе не наблюдали. Проблема была только в сетевой доступности, сами данные на серверах и СХД не пострадали, потери информации не произошло.

Причины инцидента

Проведенное нами внутреннее расследование показало, что причиной инцидента стала сетевая атака на канал связи между нашими дата-центрами.

В ходе диагностики установлено, что данные, передаваемые по инфраструктуре облаков, а также при прохождении трафика по оптическим каналам между дата-центрами, несанкционированно модифицировались (повреждались) на низком уровне. Система коррекции и фильтров безопасности не пропускала искаженный трафик, который выглядел как поврежденные пакеты. Данный факт заставил вести поиски источника проблемы от каждого коммутатора в стеке до тестирования оптической среды, а их у нас в кольце достаточное количество. Все счетчики не показывали физических проблем, которые иногда встречаются при передачи данных. Всё это потребовало значительного количества времени и усложнялось непостоянством генерации проблемы. После отключения стека нашего оборудования, размещенного в ЦОД ДатаЛайн, негативные симптомы в работе облачной инфраструктуры и ее компонентов исчезли.

Выводы

Судя по комментариям вокруг данной ситуации в различных соцсетях и СМИ, может сложиться впечатление, что мы используем один незарезервированный коммутатор, из-за чего у нас «легли» два вычислительных центра. Уверяем Вас, что это не так. Наша инфраструктура спроектирована таким образом, что не имеет незарезервированных узлов и подсистем. Мы используем отказоустойчивое серверное и сетевое оборудование ведущих производителей, что обеспечивает в первую очередь защиту, целостность и сохранность данных. К сожалению, эта нестандартная атака заставила нас потратить время и обследовать все наши коммутаторы. Наши площадки располагаются в двух дата-центрах уровня надежности Tier-3 и объединены оптическим кольцом высокой доступности. Электроснабжение, кондиционирование и каналы связи зарезервированы.

В действительности наша инфраструктура подверглась целенаправленной атаке. В настоящий момент уязвимость обнаружена. Для выявления заказчиков и исполнителей данной атаки компания CorpSoft24  обратилась с официальным заявлением в Управление К МВД РФ. Расследование инцидента продолжается. О его результатах мы обязательно сообщим.

Рензяев К.В.

Генеральный директор АО «Корп Софт»


назад к списку