Дедупликация резервных копий помогает сократить расходы на хранение и использование пропускной способности сети за счет устранения повторяющихся блоков данных при резервном копировании и передаче данных.
Дедупликация помогает:
- Сокращает использование дискового пространства за счет хранения только уникальных данных
Устранение необходимости вкладывать средства в специальное оборудование для дедупликации данных - Уменьшает нагрузку на сеть, поскольку передается меньше данных, что позволяет увеличить пропускную способность для ваших производственных задач.
Однако помните, что хранилище с дедупликацией может потребовать больше вычислительных ресурсов, таких как ОЗУ и/или ЦП. В некоторых случаях традиционное хранилище без дедупликации может оказаться более экономичным, чем дедуплицированное. Перед внедрением дедупликации всегда следует анализировать свои потребности и инфраструктуру.
Проблемы с хранилищем резервных копий
Мы живем в эпоху больших данных.
В 1990 году жесткий диск персонального компьютера составлял 10 мегабайт. Теперь многотерабайтные диски стали нормой. Каждые 10 минут человечество создает столько же данных, сколько было создано с момента зарождения цивилизации до 2000 года.
Вы должны защитить и создать резервную копию всех этих данных. В противном случае ваша компания может потерять деньги, репутацию, время — весь ваш бизнес может даже закрыться.
ТОО Лингуа Мадре оказывает в Казахстане полный спектр услуг по поставке и технической поддержке программного обеспечения для резервного копирования, репликации и синхронизации данных. Свяжитесь с нашими экспертами для получения информации о том, чем мы можем вам помочь. | ||
Узнать больше о программном обеспечении Acronis в Казахстане | Связаться с нами |
Однако 75% представителей малого и среднего бизнеса, опрошенных Acronis и IDC (International Data Corporation), признают, что их данные не полностью защищены. Одной из основных причин был назван «огромный объем данных».
Например, давайте рассмотрим компанию с 400 сотрудниками, которые используют настольные компьютеры и ноутбуки. Средний ноутбук может хранить от 50 до нескольких сотен гигабайт данных на жестком диске. ПК содержат от 20 до 150 ТБ (терабайт) данных. При коэффициенте сжатия 2:1 администратору резервного копирования необходимо выделить от 10 до 75 ТБ для каждой полной резервной копии, а также иметь больше места для инкрементных и дифференциальных резервных копий. В конце концов, этой компании, возможно, потребуется приобрести до одного петабайта дискового пространства только для резервного копирования ПК.
Предположим, что эта компания инвестирует в дорогостоящее хранилище для резервных копий своих ПК. Следующая, еще более сложная задача — резервное копирование ПК в это хранилище. Сеть со скоростью 100 Мбит (мегабит) может передавать только 10 мегабайт данных в секунду. При такой скорости полное резервное копирование займет от двух до трех недель для передачи от 10 до 75 ТБ данных по 100-мегабитной сети.
Тем не менее, на каждом настольном компьютере установлена одна и та же операционная система Windows, одни и те же приложения и часто множество копий одних и тех же данных. Многократное хранение и передача одних и тех же данных в одно и то же хранилище — пустая трата времени и ресурсов. Если решение для резервного копирования передает и хранит только уникальные данные, компания может снизить емкость хранилища и требования к сети до 50 раз! Благодаря дедупликации ваша организация может реализовать эту экономию.
Что такое дедупликация резервных копий?
Дедупликация резервных копий минимизирует пространство для хранения, обнаруживая повторение данных и сохраняя идентичные данные только один раз. Дедупликация также снижает нагрузку на сеть, поскольку дубликаты ранее зарезервированных данных даже не передаются по сети в хранилище.
Когда вы включаете дедупликацию, ваше решение для резервного копирования выполняет дедупликацию резервных копий и сохраняет их в управляемом хранилище. Место хранения, в котором включена дедупликация, называется хранилищем с дедупликацией.
Дедупликация может работать на уровне файлов, подфайлов (фрагментов файлов) или блоков и обычно работает со всеми операционными системами, поддерживаемыми вашим решением для резервного копирования.
Дедупликация дает максимальные результаты при создании:
- Полные резервные копии аналогичных данных из разных источников, таких как операционные системы (ОС), виртуальные машины (ВМ) и приложения, развернутые из стандартного образа.
- Полные резервные копии систем, резервные копии которых вы ранее создавали в том же хранилище с дедупликацией.
- Инкрементальные резервные копии похожих данных из разных источников; например, при развертывании обновлений ОС на нескольких системах и выполнении добавочного резервного копирования.
- Инкрементные резервные копии, при которых данные не изменяются, но изменяется расположение данных; например, когда данные, такие как файл, циркулируют по сети или внутри одной системы и появляются в новом месте
Как работает дедупликация резервных копий?
Во время дедупликации данные резервной копии разбиваются на блоки. Уникальность каждого блока проверяется через специальную базу данных, в которой отслеживаются контрольные суммы всех сохраненных блоков. Уникальные блоки отправляются в хранилище, а дубликаты пропускаются.
Например, если в дедуплицированное хранилище резервируются 10 виртуальных машин и в пяти из них обнаруживается один и тот же блок, то отправляется и сохраняется только одна копия этого блока.
Этот алгоритм пропуска повторяющихся блоков экономит место на диске и минимизирует сетевой трафик.
Дедупликация на источнике
При выполнении резервного копирования в хранилище с дедупликацией решение для резервного копирования вычисляет отпечаток пальца или контрольную сумму каждого блока данных. Этот отпечаток или контрольная сумма часто называется хеш-значением.
Ваше решение для резервного копирования может поддерживать блоки фиксированного или переменного размера. Дедупликация блоков фиксированного размера оказалась неэффективной — при небольших размерах блоков она потребляет много оперативной памяти и ЦП; а при больших размерах блоков он обеспечивает гораздо более низкий коэффициент дедупликации.
Большинство передовых современных решений для резервного копирования обеспечивают дедупликацию блоков переменного размера, адаптируя размеры блоков для максимального коэффициента дедупликации при одновременном снижении использования ОЗУ и ЦП.
Перед отправкой блока данных в хранилище решение для резервного копирования запрашивает систему хранения, чтобы определить, хранится ли там уже хэш-значение блока. Если это так, решение отправляет только хеш-значение; в противном случае он отправляет сам блок.
Некоторые данные, например зашифрованные файлы или блоки диска нестандартного размера, не могут быть дедуплицированы. В этих случаях решение всегда будет передавать эти данные в хранилище без вычисления хеш-значений.
Дедупликация на сервере резервного копирования
После завершения резервного копирования в хранилище с дедупликацией система хранения выполняет дедупликацию на стороне хранилища. Обычно этот процесс работает следующим образом:
Блоки данных перемещаются из файла резервной копии в специальный файл — хранилище данных дедупликации — внутри хранилища. Повторяющиеся блоки сохраняются только один раз.
Хэш-значения и ссылки на блоки данных сохраняются в базе данных дедупликации, поэтому данные можно легко собрать.
В результате хранилище данных содержит ряд уникальных блоков данных. Каждый блок имеет одну или несколько ссылок из резервных копий. Ссылки записываются в базу данных дедупликации.
Восстановление
Во время восстановления агент решения резервного копирования запрашивает данные из хранилища. Система хранения считывает данные резервного копирования из хранилища, и если в хранилище данных дедупликации имеется ссылка на блок, система хранения считывает данные из него. Для агента процесс восстановления прозрачен и не зависит от дедупликации.
Удаление потерянных блоков данных
После удаления одной или нескольких резервных копий из хранилища — либо вручную, либо с помощью правил хранения — хранилище данных может содержать блоки, на которые больше не ссылается ни одна резервная копия. Эти потерянные блоки удаляются специальной запланированной задачей, запускаемой системой хранения.
Вот как это работает. Сначала система хранения сканирует все резервные копии в хранилище и помечает все блоки, на которые ссылаются, как используемые (соответствующий хэш помечается как используемый в базе данных дедупликации). Во-вторых, система хранения удаляет все неиспользуемые блоки.
Этот процесс может потребовать дополнительных системных ресурсов. Именно поэтому эта задача обычно запускается только тогда, когда в вашем хранилище накопилось достаточное количество данных.
Сжатие и шифрование
Агент резервного копирования обычно сжимает резервные копии данных перед их отправкой на сервер. Хэш-значения для каждого блока данных вычисляются перед сжатием. Это означает, что если два одинаковых блока сжаты с разными уровнями сжатия, они все равно распознаются как дубликаты.
Резервные копии, зашифрованные на стороне источника, не дедуплицируются по соображениям безопасности.
Чтобы использовать как шифрование, так и дедупликацию, ваше решение для резервного копирования должно поддерживать шифрование самого управляемого хранилища. В этом случае во время восстановления данные будут прозрачно расшифрованы системой хранения с использованием ключа шифрования для конкретного хранилища. Если носитель информации украден или получен доступ к нему неуполномоченным лицом, хранилище не может быть расшифровано без доступа к системе хранения.
Когда следует использовать дедупликацию?
Дедупликация оказывает наибольшее влияние, когда коэффициент дедупликации имеет самое низкое значение. Вот формула для расчета коэффициента дедупликации:
Коэффициент дедупликации = процент уникальных данных + (1 — процент уникальных данных) / количество машин
Это значит, что:
- Дедупликация наиболее эффективна в средах, где на каждой машине много дублирующихся данных.
- Дедупликация наиболее эффективна в средах, где вам необходимо создавать резервные копии множества похожих машин/виртуальных машин/приложений.
Кроме того, дедупликация может помочь в других сценариях, например, когда вы пытаетесь оптимизировать свою глобальную сеть (WAN).
Рассмотрим несколько типичных случаев использования.
Вариант использования 1: большая среда с похожими машинами
Среда
Необходимо создать резервную копию сотни подобных рабочих станций. Первоначально рабочие станции были развернуты с использованием решения для развертывания системы создания образов дисков.
Эффект дедупликации
Рабочие станции были развернуты из единого образа, поэтому операционная система и общие приложения, работающие на всех машинах, идентичны. В результате много дубликатов. Дедупликация еще более эффективна, потому что имеется большое количество рабочих станций.
Заключение
Дедупликация очень эффективна в этом сценарии, поскольку она минимизирует емкость хранилища и экономит затраты на хранение.
Вариант использования 2: оптимизация глобальной сети
Среда
Для сорока аналогичных рабочих станций в главном офисе требуется резервное копирование в удаленное место.
Эффект дедупликации
Мы не знаем, были ли рабочие станции развернуты из одного образа. Однако подобные типы операционных систем часто имеют много похожих файлов. Предположим, что 50 процентов данных на каждом ПК уникальны — все еще достаточно для дедупликации:
Коэффициент дедупликации = 50% + (100% – 50%) / 40 = 51,25%
Приблизительная экономия хранилища и сетевого трафика составляет 48,75% (100% — 51,25%). Это означает, что дедупликация снижает эти требования почти вдвое. Поскольку резервные копии систем хранятся в удаленном месте, подключение к глобальной сети может быть относительно медленным. Сокращение трафика вдвое дает большое преимущество.
Заключение
Дедупликация — эффективное решение в этом случае, поскольку она оптимизирует глобальную сеть.
Вариант использования 3: серверы критически важных для бизнеса приложений
Среда
Необходимо создать резервную копию пяти серверов приложений с разными приложениями. Общий объем данных составляет 20 ТБ.
Эффективность дедупликации
На серверах приложений размещаются огромные объемы данных и различные приложения. Это означает, что дубликатов будет очень мало, если они вообще будут. Кроме того, общий объем данных, подлежащих резервному копированию и обработке, очень велик.
В этом случае система хранения индексирует большие объемы данных, но из-за отсутствия дубликатов получается мало пользы. В худшем случае одна система хранения не сможет обработать все резервные копии за один день.
Заключение
Дедупликация в этом случае неэффективна. Резервное копирование в простое сетевое хранилище большой емкости (NAS) — лучшее решение.
Резюме дедупликации
Технология дедупликации резервных копий помогает сократить расходы на хранение и использование пропускной способности сети за счет устранения повторяющихся блоков данных при резервном копировании и передаче данных.
Дедупликация помогает:
- Сокращает использование дискового пространства за счет хранения только уникальных данных
- Устраняет необходимость вкладывать средства в специальное оборудование для дедупликации данных
- Уменьшает нагрузку на сеть, поскольку передается меньше данных, что позволяет увеличить пропускную способность для ваших производственных задач.
Однако помните, что хранилище с дедупликацией может потребовать больше вычислительных ресурсов, таких как ОЗУ и/или ЦП. В некоторых случаях использования (как описано выше) традиционное хранилище без дедупликации может быть более рентабельным, чем дедуплицированное. Перед внедрением дедупликации всегда следует анализировать свои потребности и инфраструктуру.