Москва
Мероприятия
Блог
Корзина
Регистрация Войти
main-bg
Блог

Отказоустойчивость кластеров vSphere: практика HA и DRS

Создание отказоустойчивой и высокопроизводительной виртуальной инфраструктуры — ключевая задача для любого системного или облачного администратора. В экосистеме VMware vSphere надежность и эффективное распределение ресурсов обеспечивают два основных механизма:

  • HA (High Availability) — автоматическое восстановление виртуальных машин при аппаратных или программных сбоях.

  • DRS (Distributed Resource Scheduler) — динамическая балансировка нагрузки между хостами.


В статье вы найдете подробное практическое руководство по настройке и оптимизации работы HA и DRS с акцентом на типичные проблемы, их причины и решения. Мы также рассмотрим параметры конфигурации, влияющие на поведение этих функций, и дадим рекомендации по использованию в реальных условиях.

Что такое HA и DRS? 

Создание отказоустойчивого кластера: шаги и рекомендации

Типовые ситуации и их решение

Глубокая настройка и оптимизация

Мониторинг и диагностика

Лучшие практики

Заключение

Список сокращений

Что такое HA и DRS?

High Availability (HA)

HA (High Availability) — это технология, которая обеспечивает автоматическое восстановление виртуальных машин (ВМ) в случае выхода из строя физического хоста ESXi или потери связи с ним.

Когда хост выходит из строя:

  • Все его виртуальные машины перезапускаются на других хостах того же кластера.

  • Процесс происходит без участия человека, если политика позволяет.

Основные компоненты HA:

  • Master Host координирует действия кластера при сбое.

  • Slave Hosts следят за состоянием Master и сообщают о своих событиях.

  • Heartbeat — периодические сигналы между хостами для проверки связи.

  • Admission Control Policy гарантирует, что при сбое хоста будут доступны достаточные ресурсы для перезапуска ВМ.

Distributed Resource Scheduler (DRS)

DRS (Distributed Resource Scheduler) — это система динамической балансировки нагрузки, которая анализирует текущее использование ресурсов (CPU и память) и предлагает или автоматически выполняет миграцию виртуальных машин через vMotion для оптимального распределения нагрузки.

 Основные функции DRS:

  • Автоматический выбор хоста при запуске ВМ.

  • Периодический анализ и предложение/выполнение vMotion.

  • Поддержка правил размещения (affinity/anti-affinity).

  • Управление степенью автоматизации.

Создание отказоустойчивого кластера: шаги и рекомендации

Шаг 1: Подготовка окружения

Для корректной работы HA и DRS необходимо выполнить следующие условия:

  • Не менее трех хостов ESXi в кластере (для устойчивости к split-brain).

  • Общее хранилище данных (NFS, iSCSI, vSAN), чтобы ВМ могли запускаться на любом хосте.

  • Наличие общей сети управления (management network).

  • Хосты должны быть объединены в один кластер.

Шаг 2: Настройка HA

Чтобы включить HA:

  1. Перейдите в раздел Hosts and Clusters → Выберите кластер.

  2. В разделе Configure выберите vSphere HA.

  3. Активируйте HA и настройте:

  • Мониторинг хостов (host monitoring)

  • Мониторинг сети (network monitoring)

  • Heartbeat через datastore (datastore heartbeating)

Полезные параметры:

das.config.fdm.isolationPolicyTimeout = 5

> Сокращает время реакции на сетевую изоляцию.

das.failuredetectiontimeouts = 3

> Уменьшает количество heartbeat'ов перед объявлением сбоя.

Рекомендации:

  • Используйте Proactive HA, если ваше оборудование поддерживает hardware health monitoring (например, Dell iDRAC или HPE iLO).

  • Настройте Admission Control Policy по модели "Percentage of Cluster Resources Reserved" для гибкого резервирования ресурсов.

Шаг 3: Настройка DRS

Для включения DRS:

1. Перейдите в тот же кластер → Configure → vSphere DRS.

2. Активируйте DRS и выберите уровень автоматизации:

  • Manual – только рекомендации.

  • Partially Automated – автоматическая миграция хоста, но не ВМ.

  • Fully Automated – полная автоматизация.

Полезные правила:

  • Affinity Rules закрепляют ВМ на конкретном хосте или группе хостов.

  • Anti-Affinity Rules запрещают запуск нескольких ВМ на одном хосте (полезно для критичных сервисов).

Пример использования:

Если у вас есть кластер SQL Server Always On, вы можете создать anti-affinity rule, чтобы первичная и вторичная реплики не оказались на одном физическом хосте.

Типовые ситуации и их решение

 Ситуация   Возможная проблема  Как исправить 
 HA не реагирует на сбой   Нет heartbeat через storage или потеря сети   Проверьте настройки сети и хранилища
 DRS не балансирует нагрузку   Слишком низкий уровень автоматизации   Установите Fully Automated
 Невозможно запустить ВМ после сбоя   Admission Control блокирует запуск   Увеличьте резервирование или добавьте хосты
 Частые false positives в HA  Нестабильная сеть  Увеличьте timeout или настройте дополнительные источники heartbeat

Глубокая настройка и оптимизация

Ускорение реакции HA

По умолчанию HA может задерживать перезапуск ВМ до 15 секунд. Это связано с количеством потерянных heartbeat'ов.

Решение:

das.config.fdm.isolationPolicyTimeout = 5

das.failuredetectiontimeouts = 3

Эти параметры позволяют сократить время реакции до ~8–10 секунд.

Балансировка нагрузки DRS

DRS использует показатель imbalance metric для определения необходимости миграции.

Полезные советы:

  • Для критичных ВМ отключайте автоматическую миграцию (частично автоматизированный режим).

  • Настройте VM Overrides, чтобы отдельные ВМ игнорировали автоматическую балансировку.

  • Используйте Resource Pools для логического разделения ресурсов между отделами или проектами.

Мониторинг и диагностика

HA Monitoring

Используйте вкладку Summary кластера, чтобы видеть:

  • Количество зарегистрированных хостов.

  • Состояние Master/Slave узлов.

  • Последние события (например, сбой хоста или перезапуск ВМ).

DRS Recommendations

В интерфейсе vSphere Client просматривайте:

  • Recent Tasks — выполненные миграции.

  • Performance Tab-загрузка CPU/память на хостах и ВМ.

Инструменты:

  • PowerCLI — для массовой настройки политик.

  • vRealize Operations Manager — для прогнозирования нагрузки и анализа тенденций.

Лучшие практики

 Практика   Описание 
 Использовать не менее 3 хостов  Чтобы избежать split-brain и повысить отказоустойчивость
 Включить Proactive HA  Интегрируйте с системами мониторинга оборудования
 Настроить NUMA alignment  Для критичных ВМ с высокой нагрузкой
 Регулярно тестировать failover  Особенно перед обновлениями прошивок и драйверов
 Использовать PowerCLI или REST API   Для автоматизации настройки политик

Заключение

Настройка отказоустойчивости и балансировки нагрузки в vSphere — это комплексный процесс, требующий понимания особенностей вашей инфраструктуры и внимательного подхода к политикам. Просто включить HA и DRS недостаточно — важно правильно настроить параметры, использовать правила размещения, учитывать ограничения и следить за состоянием кластера.

Это руководство предоставляет как базовые, так и углубленные рекомендации по работе с HA и DRS, а также содержит примеры настроек и способы устранения распространенных проблем.

Список сокращений

HA (High Availability) — высокая доступность.

DRS (Distributed Resource Scheduler) — распределенный планировщик ресурсов.

VM (Virtual Machine) — виртуальная машина.

vMotion — технология миграции ВМ между хостами без простоя.

ESXi (VMware ESXi) — гипервизор.

NFS (Network File System) — сетевая файловая система.

iSCSI (Internet Small Computer Systems Interface) — протокол хранения данных.

vSAN (VMware Virtual SAN) — виртуальное хранилище.

vROps (vRealize Operations) — платформа управления и мониторинга 

PowerCLI — PowerShell-модуль для управления VMware.

Теги:

Новости, истории и события
Смотреть все
Внеочередное общее собрание акционеров ПАО «Софтлайн» состоится 14 августа 2025 года с целью принятия решений, повышающих качество корпоративного управления Компании
Новости

Внеочередное общее собрание акционеров ПАО «Софтлайн» состоится 14 августа 2025 года с целью принятия решений, повышающих качество корпоративного управления Компании

10.07.2025

«Инферит» (ГК Softline) подтвердил совместимость операционной системы «МСВСфера АРМ» 9 и семейства офисных приложений «Р7-Офис»
Новости

«Инферит» (ГК Softline) подтвердил совместимость операционной системы «МСВСфера АРМ» 9 и семейства офисных приложений «Р7-Офис»

10.07.2025

«Инферит» (ГК Softline) выпустил новую версию платформы для управления подписками BillogicPlatform
Новости

«Инферит» (ГК Softline) выпустил новую версию платформы для управления подписками BillogicPlatform

09.07.2025

ПАО «Софтлайн» объявляет о промежуточных результатах обратного выкупа и подтверждает намерение продолжать покупки акций Компании на Московской бирже
Новости

ПАО «Софтлайн» объявляет о промежуточных результатах обратного выкупа и подтверждает намерение продолжать покупки акций Компании на Московской бирже

08.07.2025

«РЖД-Технологии» автоматизируют закупочные процессы с помощью платформы ROBIN от SL Soft FabricaONE.AI (акционер — ГК Softline)
Новости

«РЖД-Технологии» автоматизируют закупочные процессы с помощью платформы ROBIN от SL Soft FabricaONE.AI (акционер — ГК Softline)

08.07.2025

Инициатива по ведению уроков информатики на базе ОС «МСВСфера» от «Инферит» (ГК Softline) в школах вошла в топ-100 лучших идей форума «Сильные идеи для нового времени»
Новости

Инициатива по ведению уроков информатики на базе ОС «МСВСфера» от «Инферит» (ГК Softline) в школах вошла в топ-100 лучших идей форума «Сильные идеи для нового времени»

07.07.2025

«Инферит» (ГК Softline) представил рабочую станцию с жидкостным охлаждением для решения ИИ-задач
Новости

«Инферит» (ГК Softline) представил рабочую станцию с жидкостным охлаждением для решения ИИ-задач

07.07.2025

«Инферит» (ГК Softline) выпустил новый сервер с жидкостным охлаждением для ИИ-задач
Новости

«Инферит» (ГК Softline) выпустил новый сервер с жидкостным охлаждением для ИИ-задач

04.07.2025

Вышел новый релиз бизнес-платформы Polymatica ЕРМ компании SL Soft FabricaONE.AI (акционер — ГК Softline)
Новости

Вышел новый релиз бизнес-платформы Polymatica ЕРМ компании SL Soft FabricaONE.AI (акционер — ГК Softline)

03.07.2025

Платформа «Клаудмастер» от «Инферит FinOps» (ГК Softline) возглавила рейтинг российских решений для управления облачными финансами
Новости

Платформа «Клаудмастер» от «Инферит FinOps» (ГК Softline) возглавила рейтинг российских решений для управления облачными финансами

02.07.2025

ГК Softline и Центр развития транспортных систем договорились о сотрудничестве в сфере цифровизации транспорта
Новости

ГК Softline и Центр развития транспортных систем договорились о сотрудничестве в сфере цифровизации транспорта

01.07.2025

Акционеры ПАО «Софтлайн» в ходе Годового общего собрания приняли ряд важных решений, направленных на создание долгосрочной акционерной стоимости Компании
Новости

Акционеры ПАО «Софтлайн» в ходе Годового общего собрания приняли ряд важных решений, направленных на создание долгосрочной акционерной стоимости Компании

01.07.2025

Академия АйТи (кластер FabricaONE.AI ГК Softline) и CoMind запускают практико-ориентированную программу обучения ИИ для бизнеса
Новости

Академия АйТи (кластер FabricaONE.AI ГК Softline) и CoMind запускают практико-ориентированную программу обучения ИИ для бизнеса

30.06.2025

ПАО «Софтлайн» стало эталоном IR-рейтинга Smart-lab
Новости

ПАО «Софтлайн» стало эталоном IR-рейтинга Smart-lab

30.06.2025

Провайдер «Инферит Облако» (ГК Softline) и компания «Береста РК» объявили о стратегическом партнерстве в сфере цифровой трансформации бизнеса
Новости

Провайдер «Инферит Облако» (ГК Softline) и компания «Береста РК» объявили о стратегическом партнерстве в сфере цифровой трансформации бизнеса

27.06.2025

 ГК Softline приобретает контролирующую долю в группе компаний Омег-Альянс
Новости

ГК Softline приобретает контролирующую долю в группе компаний Омег-Альянс

27.06.2025

Российский производитель лазерных решений VPG LaserONE (ГК Softline) принял участие в Центрально-азиатском конгрессе по эндоурологии (CEAC 2025)
Новости

Российский производитель лазерных решений VPG LaserONE (ГК Softline) принял участие в Центрально-азиатском конгрессе по эндоурологии (CEAC 2025)

26.06.2025

Bell Integrator (кластер FabricaONE.AI ГК Softline) принял участие в дискуссии на тему искусственного интеллекта в рамках ПМЭФ-2025
Новости

Bell Integrator (кластер FabricaONE.AI ГК Softline) принял участие в дискуссии на тему искусственного интеллекта в рамках ПМЭФ-2025

26.06.2025

Отказоустойчивость кластеров vSphere: практика HA и DRS
Блог

Отказоустойчивость кластеров vSphere: практика HA и DRS

11.07.2025

Без паники: как управлять ИТ-инфраструктурой без SCCM
Блог

Без паники: как управлять ИТ-инфраструктурой без SCCM

07.07.2025

ЦОД: основные компоненты, классификация и системы безопасности
Блог

ЦОД: основные компоненты, классификация и системы безопасности

04.07.2025

Критическая информационная инфраструктура: все, что нужно знать о КИИ
Блог

Критическая информационная инфраструктура: все, что нужно знать о КИИ

01.07.2025

SimpleOne HRMS: автоматизация управления персоналом для повышения лояльности сотрудников и эффективности бизнеса
Блог

SimpleOne HRMS: автоматизация управления персоналом для повышения лояльности сотрудников и эффективности бизнеса

27.06.2025

Технологии умного города: от ИИ до RPA
Блог

Технологии умного города: от ИИ до RPA

25.06.2025

ГК Softline развивает наукоемкое ПО для инженерного анализа (САЕ)
Блог

ГК Softline развивает наукоемкое ПО для инженерного анализа (САЕ)

23.06.2025

Российские облачные сервисы: преимущества, особенности и выбор
Блог

Российские облачные сервисы: преимущества, особенности и выбор

20.06.2025

VPS: что это и когда он необходим бизнесу
Блог

VPS: что это и когда он необходим бизнесу

17.06.2025

Яндекс 360: эволюция решений для цифровой трансформации бизнеса
Блог

Яндекс 360: эволюция решений для цифровой трансформации бизнеса

11.06.2025

Платформизация, безопасность ИИ и активная защита малого бизнеса — «Лаборатория Касперского» об ИБ-рынке
Блог

Платформизация, безопасность ИИ и активная защита малого бизнеса — «Лаборатория Касперского» об ИБ-рынке

09.06.2025

Генеративный ИИ в промышленности: роботы, агенты и «Индустрия 6.0»
Блог

Генеративный ИИ в промышленности: роботы, агенты и «Индустрия 6.0»

04.06.2025

Платежные терминалы: виды, безопасность и тенденции рынка
Блог

Платежные терминалы: виды, безопасность и тенденции рынка

28.05.2025

Российские антивирусы
Блог

Российские антивирусы

26.05.2025

Увеличение штрафов за нарушения в обработке и хранении ПДн с 30 мая 2025
Блог

Увеличение штрафов за нарушения в обработке и хранении ПДн с 30 мая 2025

20.05.2025

Цифровая трансформация: с чего начать
Блог

Цифровая трансформация: с чего начать

15.05.2025

Защита персональных данных: требования законодательства и способы защиты от утечек
Блог

Защита персональных данных: требования законодательства и способы защиты от утечек

06.05.2025

Как устроены цифровые двойники: этапы разработки и примеры использования
Блог

Как устроены цифровые двойники: этапы разработки и примеры использования

29.04.2025

ИТ-решения, кейсы, новости
в Telegram-канале Softline
Подписаться