© ComNews
13.11.2017

Неизменно растущий интерес к алгоритмам эффективного хранения и обработки данных, наблюдаемый в настоящее время объясняется прежде всего, беспрецедентным их ростом. В 2016 г. в мире было создано 4 зеттабайт (1 ЗБ = 10 в 21-ой степени байт) данных. Согласно прогнозам аналитиков, к 2020 г. будет около 50 зеттабайт, а к 2025 г. уже будет создано 180. Все чаще данные генерируют машины, а классические методы анализа замещаются технологиями искусственного интеллекта. В этом контексте увеличение спроса на системы хранения данных неизбежно.

Несмотря на то, что с каждым годом объемы производимых дисков (и жёстких, и твердотельных) увеличиваются, объем данных в мире все-равно растет существенно быстрее. По этой причине на первый план выходят различные механизмы оптимизации объема хранимых данных и дедупликация (т.е. устранение повторяемых блоков данных при сохранении уникальных см. рисунок 1) является одним из самых эффективных методов.

На текущий момент большинство как российских, так и зарубежных производителей СХД уже имеют встроенные средства дедупликации данных, но их эффективность зачастую бывает недостаточна. Как показала практика, основной причиной неэффективности текущих алгоритмов является статичный блок дедупликации.

Для того чтобы решить эту проблему и повысить эффективность хранения данных, российских разработчик СХД – компания AERODISK разработала и запатентовала собственный алгоритм адаптивной дедупликации, при котором размер блока данных не фиксируется, а подстраивается под реальные границы данных.

Общепринятая дедупликация со статичным блоком делит входящие данные на равные части (блоки). Далее содержимое этих блоков сравнивается, уникальные блоки записываются (и занимают дисковое пространство), а повторные блоки не записываются, а на них только устанавливаются указатели. В итоге повторные блоки не занимают дискового пространства и за счет этого достигается оптимизация хранения. Дедупликация с адаптивным блоком не устанавливает статичный блок для входных данных, вместо этого алгоритм делит данные на части с учетом их естественных границ. Таким образом, размер блока дедупликации устанавливается в реальном времени исходя из реальных границ разделения данных. Далее также происходит процесс дедупликации, при котором сравниваются блоки данных и повторяемые блоки не записываются.

В данный момент в мире существуют только два похожих решения от крупных западных производителей, при этом применяются они только для архивных целей (резервные копии).  В отличии от западных аналогов, решение по адаптивной дедупликации от российского разработчика применяется не только для архивных задач, но и для высоконагруженных информационных систем, что делает данную разработку особенно ценной и применимой практически во всех задачах где требуется хранить и обрабатывать огромные объемы данных.

На текущий момент флагманский продукт компании - СХД AERODISK ENGINE - первая российская Hi-END СХД с лучшими показателями производительности и отказоустойчивости для ИТ-инфраструктуры любого масштаба и сложности. Адаптивная дедупликация станет достойным дополнением к функциональности текущей системы.