Top.Mail.Ru
поддержка 24/7
поддержка 24/7

Зачем мы проводим регламентные работы?

Основной целью нашей работы является предоставление бесперебойно работающего сервиса для наших Клиентов.

Для нас словосочетание «Облачный сервис» неразрывно сопровождается словами «Надежный сервис». В это мы верим, это мы пропагандируем, это мы ежедневным трудом и многолетними усилиями доказываем нашим Заказчикам и самим себе на деле.

При выборе производителей мы отдаем предпочтение надежному проверенному отраслью оборудованию и программному обеспечению только именитых брендов.

При проектировании нашей инфраструктуры мы закладываем технические решения, которые обеспечивают отсутствие единой точки отказа, а также защиту от взаимного влияния ресурсов разных Заказчиков друг на друга.

У нас закуплено и регулярно пополняется необходимое количество запасных изделий и принадлежностей (ЗИП).

При проверке новых решений мы используем собственный полигон или полигоны наших обеспеченных партнеров.

У нас развернуто несколько систем мониторинга, которые позволяют оперативно выявить деградацию сервисов, а также в ретроспективе выявить причины неисправностей.

При эксплуатации инфраструктуры мы используем такие организационные регламенты, методы и порядки, которые нацелены на отсутствие простоев в случае возникновения единичных отказов, а также на защиту от ошибки инженера. Именно поэтому, чтобы достичь безотказной работы сервисов и гарантировать безопасную работу оборудования, не важно сетевого или вычислительного, мы регулярно проводим профилактические работы, которые иногда сопровождаются кратковременным перерывом в оказании некоторых услуг связи.

У Заказчика может возникнуть резонный, а иногда даже раздраженный, вопрос: «Зачем обновляться, если оборудование надежное, важные компоненты задублированы, все хорошо работает, все довольны?».

Действительно, а зачем? Поясним и разъясним.

Ситуации в нашей работе бывают разные. Но основные причины плановых перерывов (в сфере связи их принято называть «технологическими окнами») следующие.

  • Локализация выявленных ошибок и уязвимостей программного обеспечения оборудования. При работе оборудования под нагрузкой проявляются ошибки, которые встречаются только в определенной версии ПО и с определенными запущенными на оборудовании функциями, которые производитель устранил уже в следующих, более свежих, версиях программного обеспечения. В этом случае один из основных способов избавиться от ошибки - обновление программного обеспечения (операционных систем, firmware). Чтобы обновление программного обеспечения применилось, необходимо производить перезагрузку оборудования. Иногда, в случае обновления ПО сетевого оборудования, невозможно обойтись без кратковременного (до 5 минут) прекращения услуги связи.
  • Замена устаревшего оборудования на новое. Мы следим, чтобы в ключевых точках инфраструктуры использовалось только свежее оборудование, с запасом по производительности и портовой емкости.
  • Включение на оборудовании функций, которые не поддерживаются на установленной версии ПО. Зачем могут быть нужны новые функции? Например, в связи с тем, что количество клиентов растет, и чтобы обеспечить готовность инфраструктуры принять и обеспечить должным качеством и безопасностью всех клиентов, нужны иные, более современные функции, механизмы, чем используемые ныне.
Все плановые работы, связанные с ожидаемыми перерывами в сервисе или даже с минимальными подозрениями на перерывы, мы проводим всегда по предварительному согласованию в ночное время в выходной день.

Еще один существенный момент, что переход на резерв также может сопровождаться кратковременными простоями. Например, отключение одного BGP peer’а вызывает перестроение таблиц маршрутизации на всех маршрутизаторах, участвующих в BGP-обмене внутри автономной системы. То есть, работы в которых осуществляется плановый переход на резерв, мы также предпочитаем проводить по предварительному согласованию и в вечернее время, когда нагрузка на инфраструктуре минимальная.

В ситуациях, где это возможно, для проведения регламентных работ с серверным оборудованием и системами хранения данных мы выводим данное оборудование из эксплуатации и вводим обратно в промышленную эксплуатацию только удостоверившись в безошибочной работе обновлений. Благо технологии VMware, которые мы используем в своем Облаке, позволяют очень гибко включать или исключать из работы конкретные физические сервера без перерывов предоставления услуг для Заказчиков. Данный алгоритм действий позволяет провести работы, без влияния на качество оказываемых сервисов.

Мы очень трепетно относимся к нашим Заказчикам, проявляем искреннюю заботу о наших Заказчиках в части касающейся наших услуг. И именно поэтому мы просим с пониманием отнестись к тому, что иногда мы просим разрешить нам маленький перерыв в оказании части услуги для выполнения профилактики нашей инфраструктуры.

Загрузка ...