
Избыточность: что делать с лишними данными?
Количество хранимой пользователями и компаниями информации увеличивается и заполняет собой огромные пространства в облаках и на жестких дисках. Вся ли эта информация критически важна?
Когда-то домашний ПК на базе процессора 80286 от Intel был оснащен жестким диском на 40 Мбайт. Его хватало для операционной системы MS DOS, рабочих файлов, приложений вроде «Лексикон» и нескольких игр, таких как Prince of Persia. Емкости было не очень много, ровно столько, чтобы постоянно держать в голове, что из хранящегося действительно нужно, а что – не очень. Причина же такой тесноты заключалась в том, что дисковое пространство было дорогим.
Со временем стоимость хранения 1 Мбайт, а теперь уж и 1 Гбайт данных стала настолько низкой, что во многих случаях оказалось проще докупить новый накопитель, нежели тратить время на анализ хранящихся данных. Просто экономически выгоднее. Да и удалишь файл, а он потом понадобится… Так бывает чаще всего.
Еще есть условно бесплатные, а зачастую просто бесплатные облачные хранилища: Google Drive, «Яндекс.Диск», OneDrive от Microsoft. И все это в совокупности развращает. Кроме того, обнаруживается огромный объем задублированной информации. И сейчас речь не о технологической дупликации, а о пользовательской. В лучшем случае это неоднократно скачанные из Интернета файлы в папке «Загрузки». В худшем – это сгенерированный контент, многократно скопированный в процессе использования в папках вида «новая папка 178», о которых давно забыто, равно как и об их содержимом. Отдельная печальная история касается того, насколько это усложняет резервирование данных, когда все эти терабайты, зачастую еще и хранящиеся на самом ПК, нужно выгрузить в бэкап или накатить обратно.
Другой вопрос, что, применительно к рядовому пользователю, речь идет о весьма незначительных суммах, затрачиваемых на работу с такой информацией, и здесь каждый сам является кузнецом свое счастья. С бизнесом ситуация немного иная.
Из отчета Databerg Report 2015 следует, что примерно 50% данных, которые хранятся в российских компаниях, являются серой зоной для IT-служб этих компаний, а примерно треть данных откровенно бесполезна.
Андрей Вышлов, старший региональный директор Veritas по России, готовившей это исследование, сообщил, что в средней организации, оперирующей объемами порядка 1000 Тбайт данных, примерно 42 млн. руб в год тратится на обслуживание этого мусора.
Особенно впечатляет тот факт, что более трети российских сотрудников считают IT-ресурсы своих компаний личными и загружают на них фотографии, копии личных юридических и идентификационных документов. Коллеги обмениваются скачанными с торрентов фильмами в корпоративной сети.
Здесь палка о двух концах. Некоторые компании считают самым страшным злом использование публичных сервисов: почты, облачных хранилищ и прочего. Отчасти они правы, если речь идет о документах ДСП (для служебного пользования): грузить такие вещи в Gmail не очень разумно. Как следствие, доступ ко всем этим ресурсам блокируется, а компания готова платить за дополнительные мощности, обеспечивающие внутренние «шары».
Это тот выбор, который бизнес делает для себя. Кто-то готов платить, кто-то просто запрещает все (это, кстати, работает хуже всего – в итоге неофициально все разрешается). Самые активные нанимают обученного человека для управления данными.
И нельзя сказать, что проблема видна и понятна только исследователям из Veritas. «Недавно был случай с одним клиентом, который арендовал дорогие серверы с очень быстрой подсистемой хранения емкостью 2 Тбайт, построенной на твердотельных накопителях (они же SSD). Речь шла о размещении на нашей инфраструктуре бизнес-критичной базы данных. Когда наши специалисты перенесли информацию и посмотрели, что именно будет храниться на недешевых SSD, то обнаружили, что сама по себе база данных (ради которой все и затевалось) занимает всего 250 Гбайт из 2 Тбайт. Все остальное – старые бэкапы и какая-то совершенно третьестепенная информация, которую хранить на SSD – неуместное расточительство. В общем, этот кейс показал, что у клиента около 70% данных на критически важных серверах оказались избыточными», – рассказал Леонид Аникин, руководитель направления облачной инфраструктуры компании Softline.
По данным Gartner, 60-80% данных, хранящихся в бизнес-приложениях, являются «статическими», это означает, что информация больше никогда не будет изменена или обновлена, то есть это данные «только для чтения». Также по данным аналитиков, объем хранящихся данных ежегодно увеличивается на 30-40%.
С одной стороны, причины этого явления связаны с бурным развитием IT-отрасли: новые приложения вытесняют старые, происходит дублирование информации как вынужденная мера плохой межсистемной интеграции, а унаследованная инфраструктура этому только способствует. С другой стороны, сказывается «привычка» бизнес-пользователей хранить терабайты информации, не задумываясь о ее нужности, а также различные государственные, отраслевые и корпоративные требования по хранению информации.
По примерным оценкам, стоимость ресурсов, затрачиваемых компаниями в регионе EMEA на хранение дублирующих, устаревших или ненужных данных, к 2020 г. может достичь 55,3 трлн рублей.