
Обеспечение непрерывности бизнеса
Устойчивый бизнес как стратегия
Круг вопросов, связанный с поддержкой бесперебойного функционирования IТ-сервисов, критичных для работы компании, уже давно рассматривается как неотъемлемая часть управленческих процессов.
Управление непрерывностью бизнеса (Business Continuity Management, BCM) рекомендуется рассматривать как регламентированный организационный процесс, в котором управленческое звено принимает даже больше участия, чем IТ-подразделение. Внедряя стратегию BCM впервые, организация проводит полный цикл работ от анализа уязвимостей до тестирования и поддержания в актуальном состоянии плана аварийного восстановления. Для поддержания эффективности стратегии управление непрерывностью должно стать непрерывным циклическим процессом, учитывающим изменения в бизнесе и в IТ.
Анализ организации: что защищаем?
Для разработки стратегии непрерывности необходимо определить, какие именно IТ-сервисы и данные критически важны для бизнеса, и ранжировать их по значимости. Этот процесс называется анализом влияния на бизнес (Business Impact Analysis) и включает подробный разбор бизнес-процессов и определение участвующих в них ресурсов. Чтобы достоверно определить степень критичности сервисов для бизнеса, используются основные две метрики.
Recovery Time Objective. Время, в течение которого должно происходить восстановление бизнес-функции или ресурса при наступлении нештатных ситуаций. Если сервис осуществляется внешним поставщиком, метрика может выступать как показатель SLA.
Recovery Point Objective. Целевая точка восстановления определяет объем допустимых потерь данных в случае прерывания операций. Например, допускается потеря данных за последние 15 минут. Результатом анализа влияния на бизнес является перечень критически важных сервисов с указанием целевых метрик RTO или RPO. Это позволяет определить, насколько имеющиеся возможности IТ-инфраструктуры и прикладных информационных систем соответствуют требованиям бизнеса к непрерывности.
Оценка рисков: от чего защищаем?
Чтобы реалистично оценить существующие риски, нужно рассмотреть аварийные сценарии с точки зрения статистической вероятности их наступления и возможного ущерба. Меры обеспечения непрерывности могут сильно различаться по стоимости и характеристикам обеспечения непрерывности. Вот две крайности, между которыми, как правило, находится оптимальное решение:
• Горячий сайт. Полноценный резервный ЦОД с точной репликой рабочей инфраструктуры, способный мгновенно перехватить нагрузку. Стоит дорого, но обеспечивает высокие показатели непрерывности (низкое RTO).
• Холодный сайт. Минимальный набор технических средств, поддерживает меньшую нагрузку, чем рабочая инфраструктура, вступает в строй с задержкой. Стоит дешевле, показатели непрерывности ниже.
Анализ рисков позволяет обоснованно выработать стратегию непрерывности, а затем рассчитать стоимости вариантов их реализации. Сопоставление стоимости восстановления и стоимостои простоя позволяют провести вполне достоверный экономический анализ, в результате которого можно определить наилучший вариант по стоимости и времени восстановления. Этот оптимальный вариант и должен ложится в основу плана обеспечения непрерывности.
Реализация стратегии: как защищаем?
Чтобы составить сценарий реагирования на нештатные ситуации, рассматриваются ресурсы, касающиеся всех аспектов деятельности компании. План. Работа с ресурсами в случае наступления инцидента регламентируется специальным документом — планом обеспечения непрерывности. План детализирует выбранную стратегию непрерывности и четко регламентирует порядок действий по восстановлению. Например, если в момент сбоя, согласно стратегии, нецелесообразно экономически немедленно восстанавливать в полном объеме все IТ-сервисы, можно восстановить лишь самые критичные сервисы и продолжить работу. Остальные же сервисы восстанавливаются потом, не в аварийном режиме.
Команда. За выполнение плана отвечает выделенная команда обеспечения непрерывности, внутри этой команды назначаются ответственные и определяется план коммуникации. Кому что надо доложить, кто имеет право принять то или иное решение, какие проводятся действия — все это регламентируются.
Отдельной задачей является ранжирование инцидентов. Необходимо определить, является ли инцидент угрозой непрерывности бизнеса. Если нет — он обрабатывается в штатном режиме. Если да — ситуация считается аварийной и ей занимается команда обеспечения непрерывности, приводя в действие план обеспечения непрерывности.
Ранжирование инцидентов может быть нетривиальной задачей. Если сбой основного сервера можно однозначно квалифицировать как аварию, то, например недоступность базы данных на час может являться нештатной, но не аварийной ситуацией, не требующей активации плана.
Пока гром не грянет?
Хотя зависимость бизнеса от IТ-сервисов уже достаточно велика, у многих компаний средства обеспечения непрерывности находятся на уровне простого резервного копирования. Планирование полноценного сценария аварийного восстановления, основанного на анализе влияния на бизнес, дает гораздо более взвешенный и экономически обоснованный подход. Именно такой подход должен стать неотъемлемой частью бизнес-стратегии компании.
Стандарты непрерывности
Первым в мире стандартом по управлению непрерывностью бизнеса стал Британский стандарт BS 25999, опубликованный Британским институтом стандартов (British Standards Institution, BSI). Позднее этот стандарт лег в основу международного стандарта ISO 22301, опубликованного в 2012 г. Стандарты дают четкие критерии и рекоменда ции по построению системы управления непрерывностью бизнеса и направлены на поддержание способности организаций работать бесперебойно в самых сложных и неожиданных обстоятельствах.
По материалам каталога программных и аппаратных решений и IT-услуг Softline direct.
Подпишитесь на нашу рассылку последних новостей и событий
Подписаться