Главная
О нас
Блог
Отказоустойчивость кластеров vSphere: практика HA и DRS

Блог

Отказоустойчивость кластеров vSphere: практика HA и DRS

11.07.2025

Создание отказоустойчивой и высокопроизводительной виртуальной инфраструктуры — ключевая задача для любого системного или облачного администратора. В экосистеме VMware vSphere надежность и эффективное распределение ресурсов обеспечивают два основных механизма:

HA (High Availability) — автоматическое восстановление виртуальных машин при аппаратных или программных сбоях.
DRS (Distributed Resource Scheduler) — динамическая балансировка нагрузки между хостами.

В статье вы найдете подробное практическое руководство по настройке и оптимизации работы HA и DRS с акцентом на типичные проблемы, их причины и решения. Мы также рассмотрим параметры конфигурации, влияющие на поведение этих функций, и дадим рекомендации по использованию в реальных условиях.

Что такое HA и DRS?

High Availability (HA)
Distributed Resource Scheduler (DRS)

Создание отказоустойчивого кластера: шаги и рекомендации

Типовые ситуации и их решение

Глубокая настройка и оптимизация

Ускорение реакции HA
Балансировка нагрузки DRS

Мониторинг и диагностика

HA Monitoring
DRS Recommendations

Лучшие практики

Заключение

Список сокращений

Что такое HA и DRS?

High Availability (HA)

HA (High Availability) — это технология, которая обеспечивает автоматическое восстановление виртуальных машин (ВМ) в случае выхода из строя физического хоста ESXi или потери связи с ним.

Когда хост выходит из строя:

Все его виртуальные машины перезапускаются на других хостах того же кластера.
Процесс происходит без участия человека, если политика позволяет.

Основные компоненты HA:

Master Host координирует действия кластера при сбое.
Slave Hosts следят за состоянием Master и сообщают о своих событиях.
Heartbeat — периодические сигналы между хостами для проверки связи.
Admission Control Policy гарантирует, что при сбое хоста будут доступны достаточные ресурсы для перезапуска ВМ.

Distributed Resource Scheduler (DRS)

DRS (Distributed Resource Scheduler) — это система динамической балансировки нагрузки, которая анализирует текущее использование ресурсов (CPU и память) и предлагает или автоматически выполняет миграцию виртуальных машин через vMotion для оптимального распределения нагрузки.

Основные функции DRS:

Автоматический выбор хоста при запуске ВМ.
Периодический анализ и предложение/выполнение vMotion.
Поддержка правил размещения (affinity/anti-affinity).
Управление степенью автоматизации.

Создание отказоустойчивого кластера: шаги и рекомендации

Шаг 1: Подготовка окружения

Для корректной работы HA и DRS необходимо выполнить следующие условия:

Не менее трех хостов ESXi в кластере (для устойчивости к split-brain).
Общее хранилище данных (NFS, iSCSI, vSAN), чтобы ВМ могли запускаться на любом хосте.
Наличие общей сети управления (management network).
Хосты должны быть объединены в один кластер.

Шаг 2: Настройка HA

Чтобы включить HA:

Перейдите в раздел Hosts and Clusters → Выберите кластер.
В разделе Configure выберите vSphere HA.
Активируйте HA и настройте:

Мониторинг хостов (host monitoring)
Мониторинг сети (network monitoring)
Heartbeat через datastore (datastore heartbeating)

Полезные параметры:

das.config.fdm.isolationPolicyTimeout = 5

> Сокращает время реакции на сетевую изоляцию.

das.failuredetectiontimeouts = 3

> Уменьшает количество heartbeat'ов перед объявлением сбоя.

Рекомендации:

Используйте Proactive HA, если ваше оборудование поддерживает hardware health monitoring (например, Dell iDRAC или HPE iLO).
Настройте Admission Control Policy по модели "Percentage of Cluster Resources Reserved" для гибкого резервирования ресурсов.

Шаг 3: Настройка DRS

Для включения DRS:

1. Перейдите в тот же кластер → Configure → vSphere DRS.

2. Активируйте DRS и выберите уровень автоматизации:

Manual – только рекомендации.
Partially Automated – автоматическая миграция хоста, но не ВМ.
Fully Automated – полная автоматизация.

Полезные правила:

Affinity Rules закрепляют ВМ на конкретном хосте или группе хостов.
Anti-Affinity Rules запрещают запуск нескольких ВМ на одном хосте (полезно для критичных сервисов).

Пример использования:

Если у вас есть кластер SQL Server Always On, вы можете создать anti-affinity rule, чтобы первичная и вторичная реплики не оказались на одном физическом хосте.

Типовые ситуации и их решение

Ситуация	Возможная проблема	Как исправить
HA не реагирует на сбой	Нет heartbeat через storage или потеря сети	Проверьте настройки сети и хранилища
DRS не балансирует нагрузку	Слишком низкий уровень автоматизации	Установите Fully Automated
Невозможно запустить ВМ после сбоя	Admission Control блокирует запуск	Увеличьте резервирование или добавьте хосты
Частые false positives в HA	Нестабильная сеть	Увеличьте timeout или настройте дополнительные источники heartbeat

Глубокая настройка и оптимизация

Ускорение реакции HA

По умолчанию HA может задерживать перезапуск ВМ до 15 секунд. Это связано с количеством потерянных heartbeat'ов.

Решение:

das.config.fdm.isolationPolicyTimeout = 5

das.failuredetectiontimeouts = 3

Эти параметры позволяют сократить время реакции до ~8–10 секунд.

Балансировка нагрузки DRS

DRS использует показатель imbalance metric для определения необходимости миграции.

Полезные советы:

Для критичных ВМ отключайте автоматическую миграцию (частично автоматизированный режим).
Настройте VM Overrides, чтобы отдельные ВМ игнорировали автоматическую балансировку.
Используйте Resource Pools для логического разделения ресурсов между отделами или проектами.

Мониторинг и диагностика

HA Monitoring

Используйте вкладку Summary кластера, чтобы видеть:

Количество зарегистрированных хостов.
Состояние Master/Slave узлов.
Последние события (например, сбой хоста или перезапуск ВМ).

DRS Recommendations

В интерфейсе vSphere Client просматривайте:

Recent Tasks — выполненные миграции.
Performance Tab-загрузка CPU/память на хостах и ВМ.

Инструменты:

PowerCLI — для массовой настройки политик.
vRealize Operations Manager — для прогнозирования нагрузки и анализа тенденций.

Лучшие практики

Практика	Описание
Использовать не менее 3 хостов	Чтобы избежать split-brain и повысить отказоустойчивость
Включить Proactive HA	Интегрируйте с системами мониторинга оборудования
Настроить NUMA alignment	Для критичных ВМ с высокой нагрузкой
Регулярно тестировать failover	Особенно перед обновлениями прошивок и драйверов
Использовать PowerCLI или REST API	Для автоматизации настройки политик

Заключение

Настройка отказоустойчивости и балансировки нагрузки в vSphere — это комплексный процесс, требующий понимания особенностей вашей инфраструктуры и внимательного подхода к политикам. Просто включить HA и DRS недостаточно — важно правильно настроить параметры, использовать правила размещения, учитывать ограничения и следить за состоянием кластера.

Это руководство предоставляет как базовые, так и углубленные рекомендации по работе с HA и DRS, а также содержит примеры настроек и способы устранения распространенных проблем.

Список сокращений

HA (High Availability) — высокая доступность.

DRS (Distributed Resource Scheduler) — распределенный планировщик ресурсов.

VM (Virtual Machine) — виртуальная машина.

vMotion — технология миграции ВМ между хостами без простоя.

ESXi (VMware ESXi) — гипервизор.

NFS (Network File System) — сетевая файловая система.

iSCSI (Internet Small Computer Systems Interface) — протокол хранения данных.

vSAN (VMware Virtual SAN) — виртуальное хранилище.

vROps (vRealize Operations) — платформа управления и мониторинга

PowerCLI — PowerShell-модуль для управления VMware.

Внеочередное общее собрание акционеров ПАО «Софтлайн» состоится 14 августа 2025 года с целью принятия решений, повышающих качество корпоративного управления Компании

10.07.2025

Новости

«Инферит» (ГК Softline) подтвердил совместимость операционной системы «МСВСфера АРМ» 9 и семейства офисных приложений «Р7-Офис»

10.07.2025

Новости

«Инферит» (ГК Softline) выпустил новую версию платформы для управления подписками BillogicPlatform

09.07.2025

Новости

ПАО «Софтлайн» объявляет о промежуточных результатах обратного выкупа и подтверждает намерение продолжать покупки акций Компании на Московской бирже

08.07.2025

Новости

«РЖД-Технологии» автоматизируют закупочные процессы с помощью платформы ROBIN от SL Soft FabricaONE.AI (акционер — ГК Softline)

08.07.2025

Новости

Инициатива по ведению уроков информатики на базе ОС «МСВСфера» от «Инферит» (ГК Softline) в школах вошла в топ-100 лучших идей форума «Сильные идеи для нового времени»

07.07.2025

Новости

«Инферит» (ГК Softline) представил рабочую станцию с жидкостным охлаждением для решения ИИ-задач

07.07.2025

Новости

«Инферит» (ГК Softline) выпустил новый сервер с жидкостным охлаждением для ИИ-задач

04.07.2025

Новости

Вышел новый релиз бизнес-платформы Polymatica ЕРМ компании SL Soft FabricaONE.AI (акционер — ГК Softline)

03.07.2025

Новости

Платформа «Клаудмастер» от «Инферит FinOps» (ГК Softline) возглавила рейтинг российских решений для управления облачными финансами

02.07.2025

Новости

ГК Softline и Центр развития транспортных систем договорились о сотрудничестве в сфере цифровизации транспорта

01.07.2025

Новости

Акционеры ПАО «Софтлайн» в ходе Годового общего собрания приняли ряд важных решений, направленных на создание долгосрочной акционерной стоимости Компании

01.07.2025

Новости

Академия АйТи (кластер FabricaONE.AI ГК Softline) и CoMind запускают практико-ориентированную программу обучения ИИ для бизнеса

30.06.2025

Новости

ПАО «Софтлайн» стало эталоном IR-рейтинга Smart-lab

30.06.2025

Новости

Провайдер «Инферит Облако» (ГК Softline) и компания «Береста РК» объявили о стратегическом партнерстве в сфере цифровой трансформации бизнеса

27.06.2025

Новости

ГК Softline приобретает контролирующую долю в группе компаний Омег-Альянс

27.06.2025

Новости

Российский производитель лазерных решений VPG LaserONE (ГК Softline) принял участие в Центрально-азиатском конгрессе по эндоурологии (CEAC 2025)

26.06.2025

Новости

Bell Integrator (кластер FabricaONE.AI ГК Softline) принял участие в дискуссии на тему искусственного интеллекта в рамках ПМЭФ-2025

26.06.2025

Блог