
Отказоустойчивость кластеров vSphere: практика HA и DRS
Создание отказоустойчивой и высокопроизводительной виртуальной инфраструктуры — ключевая задача для любого системного или облачного администратора. В экосистеме VMware vSphere надежность и эффективное распределение ресурсов обеспечивают два основных механизма:
-
HA (High Availability) — автоматическое восстановление виртуальных машин при аппаратных или программных сбоях.
-
DRS (Distributed Resource Scheduler) — динамическая балансировка нагрузки между хостами.
В статье вы найдете подробное практическое руководство по настройке и оптимизации работы HA и DRS с акцентом на типичные проблемы, их причины и решения. Мы также рассмотрим параметры конфигурации, влияющие на поведение этих функций, и дадим рекомендации по использованию в реальных условиях.
Создание отказоустойчивого кластера: шаги и рекомендации
Глубокая настройка и оптимизация
Что такое HA и DRS?
High Availability (HA)
HA (High Availability) — это технология, которая обеспечивает автоматическое восстановление виртуальных машин (ВМ) в случае выхода из строя физического хоста ESXi или потери связи с ним.
Когда хост выходит из строя:
-
Все его виртуальные машины перезапускаются на других хостах того же кластера.
-
Процесс происходит без участия человека, если политика позволяет.
Основные компоненты HA:
-
Master Host координирует действия кластера при сбое.
-
Slave Hosts следят за состоянием Master и сообщают о своих событиях.
-
Heartbeat — периодические сигналы между хостами для проверки связи.
-
Admission Control Policy гарантирует, что при сбое хоста будут доступны достаточные ресурсы для перезапуска ВМ.
Distributed Resource Scheduler (DRS)
DRS (Distributed Resource Scheduler) — это система динамической балансировки нагрузки, которая анализирует текущее использование ресурсов (CPU и память) и предлагает или автоматически выполняет миграцию виртуальных машин через vMotion для оптимального распределения нагрузки.
Основные функции DRS:
-
Автоматический выбор хоста при запуске ВМ.
-
Периодический анализ и предложение/выполнение vMotion.
-
Поддержка правил размещения (affinity/anti-affinity).
-
Управление степенью автоматизации.
Создание отказоустойчивого кластера: шаги и рекомендации
Шаг 1: Подготовка окружения
Для корректной работы HA и DRS необходимо выполнить следующие условия:
-
Не менее трех хостов ESXi в кластере (для устойчивости к split-brain).
-
Общее хранилище данных (NFS, iSCSI, vSAN), чтобы ВМ могли запускаться на любом хосте.
-
Наличие общей сети управления (management network).
-
Хосты должны быть объединены в один кластер.
Шаг 2: Настройка HA
Чтобы включить HA:
-
Перейдите в раздел Hosts and Clusters → Выберите кластер.
-
В разделе Configure выберите vSphere HA.
-
Активируйте HA и настройте:
-
Мониторинг хостов (host monitoring)
-
Мониторинг сети (network monitoring)
-
Heartbeat через datastore (datastore heartbeating)
Полезные параметры:
das.config.fdm.isolationPolicyTimeout = 5
> Сокращает время реакции на сетевую изоляцию.
das.failuredetectiontimeouts = 3
> Уменьшает количество heartbeat'ов перед объявлением сбоя.
Рекомендации:
-
Используйте Proactive HA, если ваше оборудование поддерживает hardware health monitoring (например, Dell iDRAC или HPE iLO).
-
Настройте Admission Control Policy по модели "Percentage of Cluster Resources Reserved" для гибкого резервирования ресурсов.
Шаг 3: Настройка DRS
Для включения DRS:
1. Перейдите в тот же кластер → Configure → vSphere DRS.
2. Активируйте DRS и выберите уровень автоматизации:
-
Manual – только рекомендации.
-
Partially Automated – автоматическая миграция хоста, но не ВМ.
-
Fully Automated – полная автоматизация.
Полезные правила:
-
Affinity Rules закрепляют ВМ на конкретном хосте или группе хостов.
-
Anti-Affinity Rules запрещают запуск нескольких ВМ на одном хосте (полезно для критичных сервисов).
Пример использования:
Если у вас есть кластер SQL Server Always On, вы можете создать anti-affinity rule, чтобы первичная и вторичная реплики не оказались на одном физическом хосте.
Типовые ситуации и их решение
Ситуация | Возможная проблема | Как исправить |
HA не реагирует на сбой | Нет heartbeat через storage или потеря сети | Проверьте настройки сети и хранилища |
DRS не балансирует нагрузку | Слишком низкий уровень автоматизации | Установите Fully Automated |
Невозможно запустить ВМ после сбоя | Admission Control блокирует запуск | Увеличьте резервирование или добавьте хосты |
Частые false positives в HA | Нестабильная сеть | Увеличьте timeout или настройте дополнительные источники heartbeat |
Глубокая настройка и оптимизация
Ускорение реакции HA
По умолчанию HA может задерживать перезапуск ВМ до 15 секунд. Это связано с количеством потерянных heartbeat'ов.
Решение:
das.config.fdm.isolationPolicyTimeout = 5
das.failuredetectiontimeouts = 3
Эти параметры позволяют сократить время реакции до ~8–10 секунд.
Балансировка нагрузки DRS
DRS использует показатель imbalance metric для определения необходимости миграции.
Полезные советы:
-
Для критичных ВМ отключайте автоматическую миграцию (частично автоматизированный режим).
-
Настройте VM Overrides, чтобы отдельные ВМ игнорировали автоматическую балансировку.
-
Используйте Resource Pools для логического разделения ресурсов между отделами или проектами.
Мониторинг и диагностика
HA Monitoring
Используйте вкладку Summary кластера, чтобы видеть:
-
Количество зарегистрированных хостов.
-
Состояние Master/Slave узлов.
-
Последние события (например, сбой хоста или перезапуск ВМ).
DRS Recommendations
В интерфейсе vSphere Client просматривайте:
-
Recent Tasks — выполненные миграции.
-
Performance Tab-загрузка CPU/память на хостах и ВМ.
Инструменты:
-
PowerCLI — для массовой настройки политик.
-
vRealize Operations Manager — для прогнозирования нагрузки и анализа тенденций.
Лучшие практики
Практика | Описание |
Использовать не менее 3 хостов | Чтобы избежать split-brain и повысить отказоустойчивость |
Включить Proactive HA | Интегрируйте с системами мониторинга оборудования |
Настроить NUMA alignment | Для критичных ВМ с высокой нагрузкой |
Регулярно тестировать failover | Особенно перед обновлениями прошивок и драйверов |
Использовать PowerCLI или REST API | Для автоматизации настройки политик |
Заключение
Настройка отказоустойчивости и балансировки нагрузки в vSphere — это комплексный процесс, требующий понимания особенностей вашей инфраструктуры и внимательного подхода к политикам. Просто включить HA и DRS недостаточно — важно правильно настроить параметры, использовать правила размещения, учитывать ограничения и следить за состоянием кластера.
Это руководство предоставляет как базовые, так и углубленные рекомендации по работе с HA и DRS, а также содержит примеры настроек и способы устранения распространенных проблем.
Список сокращений
HA (High Availability) — высокая доступность.
DRS (Distributed Resource Scheduler) — распределенный планировщик ресурсов.
VM (Virtual Machine) — виртуальная машина.
vMotion — технология миграции ВМ между хостами без простоя.
ESXi (VMware ESXi) — гипервизор.
NFS (Network File System) — сетевая файловая система.
iSCSI (Internet Small Computer Systems Interface) — протокол хранения данных.
vSAN (VMware Virtual SAN) — виртуальное хранилище.
vROps (vRealize Operations) — платформа управления и мониторинга
PowerCLI — PowerShell-модуль для управления VMware.
Теги:
Подпишитесь на нашу рассылку последних новостей и событий
Подписаться