Хранилища высокой доступности

04.09.2020 | Хранилища

Доступность описывают в процентах от общего времени, в течение которого система хранения данных нормально обслуживает запросы. Показатель 100% трудно достижим. Системы HA (High Availability) обычно имеют онлайн-доступность в диапазоне 99,9% до 99,999%. Идеальной HA считается  99,999% («пять девяток»), что соответствует приблизительно пяти минутам простоя в год.

HA можно улучшить за счет отказоустойчивости (fault tolerance). Основываясь на сложной аппаратной и программной архитектуре, все части отказоустойчивой системы работают полностью независимо друг от друга. Потеря какого-либо отдельного компонента не приводит к сбою всей системы.

RPO и RTO

Это два наиболее важных целевых параметра любого плана аварийного восстановления или защиты данных. C ними в уме компании выбирают стратегию резервного копирования данных.

RTO - время, в течение которого приложение может быть закрыто без значительного ущерба для бизнеса. Некоторые высокоприоритетные приложения могут быть недоступны только на несколько секунд, не вызывая гнева клиентов и потери бизнеса. Фактически, чем короче RTO в критически важных приложениях, тем лучше.

RPO - показатель максимально допустимого количества потерянных данных. В терминах времени это интервал между последним резервным копированием данных и аварией, утрата данных за который не приводит к серьезным потерям бизнеса. В критически важных приложениях потеря данных недопустима.

Требования к хранилищу высокой доступности

Они описываются тремя параметрами : процентом доступности, RTO и RPO.

Хранилище высокой доступности - это система хранения, которая может работать непрерывно или обеспечивает не менее 99% времени безотказной работы. Избыточность - ключевая особенность хранилища высокой доступности, поскольку она устраняет SPOF (Single Points Of Failure). Для массива хранения высокой доступности требуется как минимум два контроллера - тогда выход любого из строя не приводит к простою. Другими основными требованиями к HA являются отказоустойчивые и избыточные модульные компоненты, такие как блок питания, модули охлаждения и дублирование путей к дискам. Обновление прошивки с нулевым временем простоя системы (в фоновом режиме) сохраняет активность хранилища.

Для аварийного восстановления (disaster recovery) хранилище высокой доступности требует избыточной системы хранения. Она принимает на себя важные данные и приложения, необходимые бизнесу при частичном отключении инфраструктуры. Это также называется аварийным переключением (failover). При аварийном переключении задачи автоматически перенаправляются на резервные мощности во время плановых или внеплановых отключений.

Пользователи могут создавать свои службы высокой доступности на основе приложений. Это стоит дорого и требует отдельного рассмотрения.

К примеру, для обычного резервного копирования данных время безотказной работы может составлять 99,9%. Его RTO будет порядка 5 минут. В случае потери данных их можно отправить повторно.

Критически важные сервисы, такие как корпоративная электронная почта или крупномасштабное наблюдение, требуют 99,999% времени безотказной работы и не допускают потери данных. Если время простоя системы хранения слишком велико, хост может выйти из строя и терять пакеты ввода-вывода при слишком большом количестве повторных попыток. В это время могут быть потеряны важные электронные письма с заказами на покупку или не записаны изображения критических моментов.

В безостановочных онлайн-службах условия более строгие. Под высокопроизводительные вычисления и бесперебойное обслуживание подходят массивы AFA (All-Flash Array с защитой RAID EE и механизма C2F (Cache-To-Flash).

Сравнение хранилищ высокой доступности

Основываясь на трех показателях хранилища высокой доступности, давайте сравним хранилище с двумя контроллерами и кластер хранилища с двумя узлами.

Характеристики хранилища с двумя контроллерами (active-active): доступность не менее 99,999%, RTO <30 секунд и отсутствие потери данных RPO. Однако 2-узловой кластер хранения с активно-пассивной архитектурой не может достичь RPO = 0 из-за отсутствия C2F, а его RTO может быть больше 1 минуты. Следовательно, общий процент доступности может составлять 99,9% времени безотказной работы.

Контроллеры системы хранения архитектуры  active-active обслуживают запросы параллельно. Такая архитектура удваивает доступную пропускную способность хоста и частоту попаданий в кэш, гарантируя, что в системе не будут потрачены впустую ресурсы. Кроме того, двойной контроллер «все-в-одном» с двухпортовым жестким диском SAS является экономичным и простым в развертывании по сравнению с двухузловым кластером хранения.

По материалам QSAN