Сховища високої доступності

04.09.2020 | Сховища

Сховища високої доступності

Доступність описують у відсотках від загального часу, протягом якого система зберігання даних нормально обслуговує запити. Показник 100% важко досяжний. Системи HA (High Availability) зазвичай мають онлайн-доступність в діапазоні 99,9% до 99,999%. Ідеальною HA вважається 99,999% («п'ять дев'яток»), що відповідає приблизно п'яти хвилинам простою в рік.

Availability in nines

HA можна поліпшити шляхом відмовостійкості (fault tolerance). Ґрунтуючись на складній апаратної та програмної архітектури, всі частини відмовостійкої системи працюють повністю незалежно один від одного. Втрата будь-якого окремого компоненту не призводить до збою всієї системи.

RPO і RTO

Це два найбільш важливих цільових параметрів будь-якого плану аварійного відновлення або захисту даних. C ними в розумі компанії вибирають стратегію резервного копіювання даних.

RTO - час, протягом якого програма може бути закрита без значної шкоди для бізнесу. Деякі високопріоритетні додатки можуть бути недоступні тільки на кілька секунд, не викликаючи гніву клієнтів і втрати бізнесу. Фактично, чим коротше RTO в критично важливих додатках, тим краще.

RPO - показник максимально допустимої кількості втрачених даних. У термінах часу це інтервал між останнім резервним копіюванням даних і аварією, втрата даних за який не призводить до серйозних втрат бізнесу. В критично важливих додатках втрата даних недопустима.

Вимоги до сховища високої доступності.

Вони описуються трьома параметрами: відсотком доступності, RTO і RPO.

Availability RTO RPO

Сховище високої доступності - це система зберігання, яка може працювати безперервно або забезпечує не менше 99% часу безвідмовної роботи. Надмірність - ключова особливість сховища високої доступності, оскільки вона усуває SPOF (Single Points Of Failure). Для масиву зберігання високої доступності потрібно як мінімум два контролери - тоді вихід будь-якого з ладу не призводить до простою. Іншими основними вимогами до HA є відмовостійкі та надлишкові модульні компоненти, такі як блок живлення, модулі охолодження та дублювання шляхів до дисків. Оновлення прошивки з нульовим часом простою системи (у фоновому режимі) зберігає активність сховища.

Для аварійного відновлення (disaster recovery) сховище високої доступності вимагає надмірної системи зберігання. Вона приймає на себе важливі дані та додатки, необхідні бізнесу при частковому відключенні інфраструктури. Це також називається аварійним перемиканням (failover). При аварійному перемиканні завдання автоматично перенаправляються на резервні потужності під час планових або позапланових відключень.

Користувачі можуть створювати свої служби високої доступності на основі додатків. Це коштує дорого і вимагає окремого розгляду.

Наприклад, для звичайного резервного копіювання даних час безвідмовної роботи може становити 99,9%. Його RTO буде близько 5 хвилин. У разі втрати даних їх можна відправити повторно.

Критично важливі сервіси, такі як корпоративна електронна пошта або великомасштабне спостереження, вимагають 99,999% часу безвідмовної роботи та не допускають втрати даних. Якщо час простою системи зберігання занадто велике, хост може вийти з ладу і втрачати пакети введення-виведення при занадто великій кількості повторних спроб. У цей час можуть бути втрачені важливі електронні листи із замовленнями на купівлю або не записані зображення критичних моментів.

У безупинних онлайн-службах умови суворіші. Під високопродуктивні обчислення і безперебійне обслуговування підходять масиви AFA (All-Flash Array із захистом RAID EE і механізму C2F (Cache-To-Flash).

Порівняння сховищ високої доступності

Ґрунтуючись на трьох показниках сховища високої доступності, порівняймо сховище з двома контролерами та кластер сховища з двома вузлами.

Характеристики сховища з двома контролерами (active-active): доступність не менше 99,999%, RTO <30 секунд і відсутність втрати даних RPO. Однак 2-вузловий кластер зберігання з активно-пасивної архітектури не може досягти RPO = 0 через відсутність C2F, а його RTO може бути понад 1 хвилини. Отже, загальний відсоток доступності може становити 99,9% часу безвідмовної роботи.

Dual Controleer Storage vs 2 node Cluster

Контролери системи зберігання архітектури active-active обслуговують запити паралельно. Така архітектура подвоює доступну пропускну здатність хосту і частоту попадань в кеш, гарантуючи, що в системі не будуть витрачені даремно ресурси. Крім того, подвійний контролер «все-в-одному» з двопортовим жорстким диском SAS є економічним і простим в розгортанні в порівнянні з двовузлового кластером зберігання.

За матеріалами QSAN