Одним из наиболее эффективных способов снижения риска простоя является инфраструктура высокой доступности. Как это работает и почему это важно
В современной цифровой экономике, когда организации все больше полагаются на свою ИТ-инфраструктуру для предоставления услуг в режиме 24/7/365, простои — это кошмар. Недавно одна из крупных технологических компаний потеряла 100 миллионов долларов дохода и перевела миллионы своих пользователей к конкуренту из-за нескольких часов простоя. Для малого и среднего бизнеса (SMB) с ограниченным бюджетом и ресурсами ситуация усугубляется. Продолжительное время простоя может стать похоронным звоном для малых и средних предприятий, вынудив их уйти из бизнеса.
Что такое инфраструктура высокой доступности?
Высокая доступность (HA) — это процесс, который устраняет единые точки отказа, чтобы гарантировать, что ИТ-приложение или система могут работать на высоком уровне непрерывно, даже если один из ИТ-компонентов, от которых они зависят, например, сервер, выходит из строя. TechTarget определяет высокую доступность как «способность системы работать непрерывно без сбоев в течение заданного периода времени. HA обеспечивает соответствие системы согласованному уровню эксплуатационных характеристик».
Высокая доступность играет важную роль во многих секторах, где прерывание обслуживания даже на несколько минут может резко повлиять на результаты бизнеса, что приведет к существенным финансовым и репутационным последствиям. С этой точки зрения, высокая доступность гарантирует, что системы и приложения будут работать правильно в течение продолжительного периода времени, когда происходят случайные сбои, такие как сбой сервера или перебои в подаче электроэнергии.
Что является примером высокой доступности?
Системы высокой доступности используются во многих отраслях, где процессы должны работать непрерывно. Например, в финансовом и банковском секторе в игру вступают многие преимущества высокой доступности, что делает доступность 24/7/365 абсолютно необходимой для бизнеса в этой области. Любой простой в их услугах может иметь серьезные последствия для их репутации и бизнеса. Например, если система онлайн-банкинга или система точек продаж (POS) финансового учреждения выйдет из строя в период большого объема операций, к концу дня это будет во всех новостях, что запятнает репутацию учреждения. Между тем, непредоставление услуги приводит к неудовлетворенным клиентам и, в свою очередь, к оттоку клиентов.
Другой аналогичный вариант использования можно найти в сфере здравоохранения, где постоянная доступность электронных медицинских карт (EHR) имеет решающее значение для принятия правильных решений о лечении в операционной. Высокая доступность также имеет решающее значение для систем, которые обеспечивают жизнеобеспечение или распределение лекарств, поскольку она гарантирует, что пациенты получат необходимую им помощь.
Как измерить высокую доступность?
Высокая доступность обычно измеряется в процентной системе, где 100%-ная система означает бесперебойную работу службы, которая не испытывает сбоев или простоев без простоев . Однако, поскольку 100-процентная высокая доступность в сложных системах встречается редко, доступность службы обычно находится между 99–100 % времени безотказной работы и измеряется девятками (три девятки: 99,9 %, четыре девятки: 99,99 % и т. д.). Например, лидеры облачных вычислений, такие как Amazon, Google и Microsoft, установили свои соглашения об уровне облачных услуг (SLA) на три девятки, что составляет 99,9%.
Существует несколько показателей, участвующих в расчете доступности времени безотказной работы, например:
- Среднее время наработки на отказ (MTBF) . Среднее время наработки на отказ — это среднее время, в течение которого система или приложение остается работоспособным между двумя сбоями, которое обычно измеряется в часах. TechTarget определяет среднее время безотказной работы как « показатель надежности аппаратного продукта или компонента». Среднее время безотказной работы является критически важным компонентом для понимания доступности и надежности системы. Оценивая его, организации могут планировать непредвиденные обстоятельства, которые могут возникнуть.
- Среднее время простоя (MDT) : Среднее время простоя — это среднее время, в течение которого система остается неработоспособной.
- Целевое время восстановления (RTO) : Целевое время восстановления — это количество времени, которое организация может выдержать, прежде чем бизнес-системы и процессы должны быть восстановлены в случае аварии или сбоя. Другими словами, RTO — это время, необходимое организации для восстановления после уведомления о сбое в работе.
- Целевая точка восстановления (RPO) . Целевая точка восстановления определяет максимальный объем данных, который организация может позволить себе потерять, не понеся значительных потерь в случае сбоя.
Узнайте больше информации о том, что входит в план аварийного восстановления | ||
Что такое целевые точки восстановления (RPO) | Что такое целевое время восстановления (RTO) | Как организовать удаленное резервное копирование |
Сколько девяток означает высокая доступность?
Поскольку достичь 100% доступности практически невозможно, общепризнанный, но труднодостижимый стандарт доступности для систем аварийного реагирования составляет пять девяток, что означает доступность 99,999%, что соответствует 5 минутам и 16 секундам ежегодного простоя. Другим общепринятым отраслевым стандартом для критически важных приложений с высокой доступностью, таких как электронная коммерция, является четыре девятки, что означает доступность 99,99% и означает 52,60 минуты простоя в год.
На следующей диаграмме показано влияние различных уровней доступности (или эталонных показателей) на время простоя системы:
Уровень доступности | Среднегодовое время простоя | Пример |
---|---|---|
99% | 87 часов 40 минут | Обычный локальный сервер |
99,5% | 43 часа 50 минут | Общедоступный облачный сервис |
99,9% | 8 часов 46 минут | Общедоступная облачная служба/ SaaS (Microsoft 365) |
99,95% | 4 часа 23 минуты | Кластер высокой доступности |
99,99% | 52 минуты 36 секунд | Высокопроизводительные бизнес-системы, центры обработки данных |
99,995% | 26 минут 18 секунд | Виртуальная отказоустойчивость |
99,999% | 5 минут 16 секунд | Постоянная доступность |
ТОО Лингуа Мадре оказывает в Казахстане полный спектр услуг по поставке и технической поддержке программного обеспечения для резервного копирования, репликации и синхронизации данных. Свяжитесь с нашими экспертами для получения информации о том, чем мы можем вам помочь. | ||
Узнать больше о программном обеспечении Acronis в Казахстане | Связаться с нами |
В чем важность высокой доступности?
Высокая доступность жизненно важна для организаций, чтобы гарантировать, что их критически важные системы продолжают функционировать должным образом даже во время сбоя или аварии. Незапланированные простои будут проявляться по-разному, в том числе снижением производительности, потерей данных, ухудшением имиджа бренда и оттоком клиентов, что серьезно повлияет на будущее бизнеса. Для организаций, особенно малого и среднего бизнеса, которые полагаются на свою ИТ-инфраструктуру, время простоя часто равнозначно похоронному звону.
Каковы преимущества высокой доступности?
Однако высокая доступность приложений и систем дает бизнесу массу преимуществ, таких как:
Максимальная гибкость
В современной цифровой экономике, которая требует предоставления услуг в режиме 24/7/365, необходимы приложения и системы с высокой доступностью. Они гарантируют постоянную доступность и безопасность вашего производственного сайта.
Оптимизированное обслуживание
Незапланированные простои из-за сбоя или аварии — не единственный тип простоя, с которым могут столкнуться организации. Обновления и обновления оборудования и программного обеспечения также могут привести к простоям, которые можно упростить и свести к минимуму с помощью подхода высокой доступности. Пока их внутренние системы модифицируются, организации могут запланировать восстановление своего рабочего сервера на резервной площадке и запустить его там.
100% соглашение об уровне обслуживания
Для поставщиков управляемых услуг (MSP), которые хотят предоставлять своим клиентам высококачественные услуги, системы высокой доступности являются основным требованием. Они помогают MSP гарантировать, что сети их клиентов никогда не перестанут работать.
Безопасность данных
Постоянно поддерживая свои приложения и системы в рабочем состоянии, вы также можете гарантировать, что критически важные для бизнеса данные не будут несанкционированно доступны или украдены.
Улучшение репутации бренда и отношений с клиентами
Частая или даже редкая недоступность сервиса может привести к неудовлетворенности клиентов и их оттоку. Обеспечив постоянную доступность ваших систем, вы сможете улучшить репутацию своего бренда и повысить уровень удержания клиентов.
Как работает высокая доступность?
Чтобы внедрить инфраструктуру высокой доступности, мы должны сначала определить и устранить единые точки отказа. Несмотря на то, что всегда существует риск непредвиденного события, которое может привести к отказу сети, цель состоит в том, чтобы максимально уменьшить его и спроектировать инфраструктуру высокой доступности.
Каковы некоторые компоненты высокой доступности?
Несколько компонентов поддерживают ИТ-архитектуру высокой доступности, в том числе:
Избыточность
Оборудование, программное обеспечение, приложения и данные резервируются в высокодоступном кластере, поэтому в случае сбоя ИТ-компонента, например сервера или базы данных, другой компонент может подключиться и выполнить задачу.
Репликация
Подобно избыточности, репликация также имеет решающее значение для достижения высокой доступности. Узлы в кластере высокой доступности должны взаимодействовать и обмениваться информацией друг с другом, чтобы любой узел мог вмешаться, когда сервер или сетевое устройство, которое он поддерживает, выходит из строя.
Отказоустойчивость
Еще одним критически важным компонентом инфраструктуры высокой доступности является резервная площадка, расположенная за пределами предприятия. Он позволяет переключать сетевой трафик на резервную систему при сбое основной системы.
Балансировка нагрузки
Балансировка нагрузки также важна в кластерах высокой доступности, чтобы гарантировать, что ни один сервер не будет перегружен запросами в любое время. Балансировщики нагрузки направляют трафик и контролируют работоспособность серверов, обеспечивая доступность вашей системы независимо от того, сколько запросов к серверу вы получаете.
Каковы основные принципы обеспечения высокой доступности?
Давайте теперь рассмотрим пять основных принципов, которым необходимо следовать при проектировании систем высокой доступности:
Устранение единых точек отказа
Единичные точки отказа — это ИТ-компоненты, в случае отказа которых вся система перестанет функционировать. Представьте, что у компании есть только один сервер или одна база данных для поддержки приложения. Следовательно, сбой сервера или базы данных приведет к остановке приложения. Вот почему так важно избавиться от единых точек отказа.
Надежный кроссовер или отказоустойчивость
Избыточность и репликация также должны выполняться в высокодоступной инфраструктуре, чтобы гарантировать, что резервный компонент всегда готов заменить отказавший компонент. Это позволяет сети переключаться с одного компонента или узла на другой с нулевым временем простоя и потерей данных.
Возможность обнаружения сбоев (самовосстановление) и отказоустойчивость
Система должна иметь встроенную автоматизацию, чтобы гарантировать, что она может самостоятельно справляться со сбоями. Он должен автоматически обнаруживать сбои на уровне приложений по мере их возникновения, независимо от причин.
Обеспечение отсутствия потери данных
В случае сбоя система должна гарантировать, что никакие данные не будут потеряны.
Обеспечение как ручного, так и автоматического аварийного переключения
Во время планового обслуживания система должна иметь возможность вручную переключаться на другой ресурс и восстанавливать его работоспособность, чтобы свести к минимуму время простоя. При обнаружении сбоев он должен автоматически переключаться на хост-сайт.
Чем высокая доступность отличается от аналогичных концепций?
Высокая доступность часто путается с другими понятиями и терминами доступности данных/системы. Важно понимать различия между ними и, в некоторых случаях, то, как они дополняют друг друга.
Высокая доступность и отказоустойчивость
Хотя высокая доступность и отказоустойчивость являются подходами, направленными на обеспечение высокого уровня безотказной работы и обеспечение непрерывности обслуживания, они достигают этой цели по-разному. В то время как метод высокой доступности использует программный подход для достижения полной избыточности (кластер высокой доступности, который размещает набор кластеров вместе), отказоустойчивость вместо этого использует аппаратный подход.
Отказоустойчивая модель использует несколько систем, которые работают в тандеме для достижения полной избыточности аппаратного обеспечения. Приложения дублируются идентично, а инструкции выполняются вместе, так что в случае сбоя системы другая система вступает во владение без потери времени безотказной работы. Несмотря на то, что отказоустойчивый подход защищает ваш бизнес от отказа оборудования, адаптация к сложным сетям и системам может занять больше времени. Метод также дорог и не эффективен в случае программных сбоев.
Высокая доступность и аварийное восстановление
Хотя высокая доступность и аварийное восстановление связаны между собой, их цели различны. Высокая доступность — это стратегический подход к управлению критическими, но более типичными сбоями в ИТ-компонентах инфраструктуры, которые относительно легко восстановить. Однако аварийное восстановление ИТ — это комплексный процесс преодоления крупных ИТ-катастроф, которые могут вывести из строя всю ИТ-инфраструктуру.
Высокая доступность и избыточность
В то время как основной задачей подхода высокой доступности является реализация отказоустойчивой архитектуры для аварийного переключения в случае сбоя, избыточность направлена на устранение точек отказа программного и аппаратного обеспечения. Избыточность, по сути, является ключевым компонентом архитектуры высокой доступности.
Высокая доступность по сравнению с резервным копированием
Высокая доступность и резервное копирование — два критически важных аспекта, которые играют взаимодополняющую роль в подкреплении стратегии защиты данных организации. Чтобы свести к минимуму время простоя и максимально повысить доступность данных во время кризиса, вам необходимо иметь возможность быстро восстанавливать данные из резервной копии в рабочие системы. Таким образом, решение для автоматизированного резервного копирования, которое может быстро восстановить критически важные для бизнеса данные, необходимо для обеспечения высокой доступности ваших систем.