Сортировка мусора Как бизнесу избавляться от лишних данных и бороться с информационным ожирением
Каждый год количество накопленных человечеством данных увеличивается на 30 %. Это огромные темпы, которые постоянно требуют новых мощностей — сетей связи, дата-центров, серверов, систем хранения, площадей, электричества. Все это создается за счет ресурсов нашей планеты. Можно долго спорить о нужности всей этой информации. Но факт в том, что мы стоим перед выбором: тратить каждый год на 30 % больше ресурсов или начать относиться к накоплению данных осознанно.
Многие компании стремятся обладать огромным количеством данных, при этом не имея представления, как их использовать и где хранить. Не только фирмы, но и обычные граждане накапливают «информационный жир», то и дело жалуясь на переполненные диски компьютеров и память телефонов. Пора браться за ум, ведь нам есть у кого учиться: специалисты по облачным сервисам экономят немалые средства, оптимизируя хранилища данных. Их методы помогают тратить на складирование информации меньше электричества, тепла и денежных средств.
Температурное ранжирование
Азбучная истина: данные имеют «температуру».
Часто используемые данные, к которым необходим мгновенный доступ, — горячие. Примером могут служить статьи популярных веб-сайтов, каталоги интернет-магазинов, свежие посты лидеров мнений в соцсетях.
Данные, которые чуть реже используются и были созданы некоторое время назад, — теплые. К ним относятся уже прочитанные отчеты и планы, статистические графики и диаграммы, информационные документы.
Если данные были созданы давно и мало кто помнит, когда ими последний раз пользовались, их относят к холодным. Обычно это старые проекты, информационно устаревшие аудиты и квитанции, старые резервные копии для аварийного восстановления, разномастные архивы.
От «температуры» данных зависит способ их хранения. Горячее хранилище требует премиальных ресурсов в виде скоростных жестких дисков и быстрых интерфейсов, которые связывают отдельные диски в общую систему. Тип данных определяет технологию хранения. Так, структурированные данные удобнее хранить в блочных хранилищах: информация делится на мелкие равные части, каждая из которых имеет адрес. К структурированным данным относятся тексты СМИ, разбитые на отдельные статьи, базы бухгалтерских проводок. Данные в блочных хранилищах легко обновлять: переписывается лишь отдельный блок, в котором произошли изменения, а не файл целиком.
Примером неструктурированных данных может служить фильм. Обновить его можно, лишь заменив целиком весь файл. Но этого обычно не требуется. Подобные данные относятся к категории WORM (Write Once Read Many) — записываются единожды, но воспроизводятся многократно легионом пользователей. Для них используют объектные хранилища: на сервер загружаются целые файлы без какой-либо структуры. В частности, метод применяют стриминговые платформы вроде Spotify, Netflix или YouTube.
Для теплых данных можно использовать низкоскоростные диски большой емкости. Подойдет как объектное хранилище, так и файловое — с привычной всем пользователям каталожной структурой папок. Файловое хранилище медленнее блочного или объектного, зато ориентироваться в такой информации проще.
Холодные данные можно хранить как на недорогих медленных дисках, так и на ленточных накопителях. Когда речь идет о больших объемах информации, ленты оказываются намного компактнее, экономичнее и надежнее.
Получается, отсортировав данные по «температуре», можно удешевить систему хранения, сэкономить электроэнергию, уменьшить негативное воздействие на окружающую среду, при этом обеспечив более быстрый доступ к информации. Но это лишь вершина айсберга.
Дедупликация
Встав между двух зеркал, увидишь бесконечное количество собственных отражений. Сколько памяти нужно, чтобы их сохранить?
Допустим, популярный блогер размещает пост с актуальной смешной картинкой размером 500 кБ. Миллион человек делится этой картинкой через соцсеть или встроенный в нее мессенджер. Означает ли это, что для хранения всех этих репостов и сообщений системе потребуется 500 терабайт дискового пространства или пара стоек с серверами хранения? К счастью, нет. Сработает технология дедупликации — метод сжатия данных, при котором хранится одна копия картинки, а все посты и сообщения, в которых он упоминается, используют лишь ссылку на исходный файл.
Дедупликация уменьшает количество данных на много порядков, позволяя использовать меньше серверов, дисков, электричества и других ресурсов центров обработки данных. Особенно эффективно она работает в социальных сетях, мессенджерах, сетях обмена файлами, в публичных и корпоративных почтовых системах. Ведь пересылаем мы тем или иным способом по большей части одно и то же.
Выявление дубликатов хорошо работает на техническом уровне и гораздо хуже — на управленческом. Во многих компаниях есть люди, которые собирают или даже покупают данные, уже полученные их коллегами с другого этажа. Без систематического подхода к сбору и стратегическому управлению данными крупное предприятие может получить обратный результат: данные собирали, чтобы стать более продуктивными, а в конечном итоге собирают и дублируют их столько, что снижают эффективность работы. Американская компания KnowledgeHound построила на этой проблеме бизнес: ее специалисты помогают фирмам экономить деньги, избавляя разные подразделения от покупки одного и того же набора данных.
Переезд поближе
Даже когда мы пересылаем друг другу одну и ту же картинку, она ведь передается на наши устройства по сети?
Получается, популярный мем пролетает столько километров по проводам и радиоволнам, что можно было бы с десяток раз обогнуть Землю? Да, получается так. Но этот путь можно существенно сократить.
Для доставки контента существует технология, похожая на дедупликацию в системах хранения. Речь идет о CDN (Content Delivery Network). Чтобы не пересылать файл многократно по магистральным каналам, его дублируют на кеш-серверах, которые располагают территориально близко к предполагаемым потребителям информации. К примеру, голливудские фильмы снимают в Голливуде и кладут на американские серверы. Но российские зрители смотрят их с многочисленных локальных серверов, разбросанных по всей стране. Гонять огромные объемы трафика через океан не приходится.
Что, если фильм хотят посмотреть одновременно сотни зрителей и все они вдруг оказались в Подмосковье? В этом случае на запрос ответят сразу несколько кеш-серверов, которые разделят нагрузку между собой. Так работают технологии бродкаста и мультикаста. Они тоже помогают оптимизировать количество передаваемой информации при потреблении «тяжелого» контента, такого как телетрансляции, аудио- и видеоконференции, массовые рассылки.
Подобные решения работают не только на операторском уровне, но и на уровне отдельной компании и даже на домашнем. Если сотрудники постоянно обращаются к документам — возможно, их стоит хранить локально, а не в облаке. Если члены семьи хотят посмотреть фильм по очереди — вероятно, его стоит просто скачать.
Выходит, если обычно инженеры борются с дубликатами контента, то для ускорения его доставки они их, напротив, создают. В итоге технология бережет и ресурсы, и операторов связи, и хранителей данных (хостеров), и конечных пользователей.
Инкрементальное копирование
Еще один огромный пласт данных — результат нашей собственной заботы о безопасности.
Речь идет о резервных копиях. Допустим, у предприятия есть база данных бухгалтерской системы 1С на 1 ТБ. Это большая система, в ней каждый день происходят тысячи транзакций, и ни одну нельзя упустить. Поэтому систему настроили таким образом, чтобы каждую ночь делалась полная резервная копия базы данных. Нетрудно посчитать, что уже через 10 дней объем резервных копий превысит рабочую базу в 10 раз и достигнет 10 ТБ.
Можно, конечно, просто удалять резервные копии после определенного периода, убедившись, что они уже не нужны. Но бухгалтерия и аналитики просят хранить резервные копии глубиной в квартал, чтобы они могли «откатиться» на любой из дней в квартале. В результате копится колоссальный объем не просто холодных, а скорее ненужных данных.
К счастью, современные системы резервного копирования умеют делать не только полные копии, но и так называемые инкрементальные. В этом случае создается образ не всех данных, а только тех, которые изменились по отношению к предыдущей версии. Такой подход требует более сложного и дорогого ПО, а также специальных знаний для управления им, особенно при восстановлении данных из резервных копий. Но потенциальная экономия на количестве данных того стоит.
Гигиена данных все больше требует и внимания пользователей, и профессионального подхода. Как с уходом за зубами: мы чистим сами их утром и вечером, но периодически обращаемся к стоматологу.
, CEO компании RUSONYXУ профессиональных хостеров есть поговорка: «Клиенты делятся на тех, кто еще не делает бэкапы (резервные копии), и тех, кто уже их делает». Каждый хостер может рассказать множество историй, как порой самым нелепым образом компании теряли свои данные. После нескольких подобных случаев мы в Rusonyx стали делать технический бэкап всего хостинга. Решение было принято в 2015 году. Конечно, это потребовало огромных дополнительных ресурсов: по сути, надо было удвоить емкость всех дисковых систем. С тех пор мы постоянно следим за развитием технологий хранения данных, чтобы оптимизировать затраты. Получается, наши цели абсолютно меркантильны, но в то же время мы изо всех сил стараемся сберечь ресурсы планеты. Нам не нужна Грета Тунберг и воззвания к справедливости. Мы профессионалы, и экономия — часть нашего кода. Финансы и профессионализм — самые эффективные рычаги в борьбе за экологию. Чем больше людей будут хранить свои данные у профи, то есть в облаках, тем успешнее мы решим задачу оптимизации ресурсов на всех уровнях вплоть до планетарного.
Использованные источники: Материал опубликован в журнале «Цифровой океан» № 5, 2021, Paul Taylor / Stone / Getty Images, Nicole Bouron Flacinet / Ina / AFP / East News, Jonathan Knowles / Stone / Getty Images, Марина Амулина