Буквально пару дней назад IBM представляло в России новый мейнфрейм - BC12. Приличная машинка, к ней никаких вопросов не возникает, очередной шаг в развитии платформы. Но поговорить хотелось бы не об этом. На встрече неоднократно звучала следующая цифра - за последние пару-тройку лет объем информации в Сети удвоился. Задумайтесь на секунду! Уже пару лет назад в Сети лежали основные произведения литературы и науки, основные фильмы и музыка, созданные за пару сотен последних лет. Откуда это удвоение? Что, цивилизация обнаружила скрытые библиотеки и музыкальные хранилища и бросилась их оцифровывать? Или народ массово начал писать в личные и общественные веб-журналы?
Нет, конечно. Ответ на вопрос «что за инфрормация валится в Сеть в количествах, равных тому, что уже в ней хранится», прост. Доступность Интернета, мощность носимых устройств и развитие средств хранения и передачи данных привели к тому, что мы порождаем данные просто потому, что существуем. Мы общаемся через Сеть - и порождаем данные. Нам нравится чье-то фото - мы щелкаем по кнопке «Like» - и порождаем данные. Мы фотографируем любимых женщин, детей, собак и машины на доступную теперь для всех цифровую камеру - и почти автоматически загружаем фото в Сеть. Мы ездим в метро, передвигаемся на автомобиле - и камеры неутомимо пишут изображение, сохраняя его на корпоративные устройства хранения данных. Мы живем - и создаем поток данных, и чем дальше, тем больший поток данных мы создаем.
Это сравнимо с тем, как наша цивилизация потребляет вещественные ресурсы - ископаемые, воду, воздух. Мы существуем - и перерабатываем вещества из одних в другие, высвобождая нужную нам для существования энергию. И часть этой энергии мы теперь тратим на создание, хранение и обработку информации.
И тут подспудно возникает новый вопрос - а как быть с ценностью информации? Информацию нельзя накапливать и хранить вечно. Она, как любая сущность, имеет как ценность и цену - это цена хранения и обработки. Цену хранения можно достаточно легко оценить, она постоянно падает, но с такими темпами роста количества информации, которые мы имеем сейчас, даже с постоянно падающей ценой хранения мы рискуем вылететь в трубу. От мусора, в том числе и информационного, нужно избавляться, освобождая ресурсы, используемые для его хранения и обработки. Это как и в вещественном мире - вторичная переработка. Однако, как и с вещественным миром, в мире инфрормации есть понятие «относительной ценности». Как и вещи, которые являются мусором для одних, и обладают ценностью для других, информация, совершенно незначащая ничего для одних, может быть ценна для других. У информации нет объективной ценности, эта ценность всегда субъективна. Как и ценность вещей, кстати. Но с вещами худо-бедно научились разбираться, вещественный мусор перерабатывают с разной степенью успешности, антиквары делают свой бизнес на том, что для кого-то является мусором, и само существование проблемы вторичной переработки отходов уже не вызывает ни у кого сомнения.
А вот с информацией все намного хуже. О проблеме определения ценности информации, выработке общественно-приемлемых подходов к определению понятия «информационный мусор» мы даже еще не подошли. Информация хранится, пока хватает ресурсов ее хранить. А потом - чистая лотерея. Ее или теряют, или преобразовывают, или перемещают куда-то. Но в головах людей мысли о том, что информация, как и нечто вещественное, должна быть окружена культурой обращения с ней, пока нет. Ценность информации определяеся хаотически и неизвестно кем (а зачастую - практически никем). Мы накапливаем, сваливаем, храним и теряем информацию как попало и где попало, неся при этом постоянные, огромные (возможно - неоценимые) потери ресурсов, вещественных и энергетических.
Я думаю, что от создания баланса между ценностью информации и ценой ее хранения и обработки зависит не только будущее ИТ-индустрии, но и общества в целом. В противном случае мы рискуем просто растратить наши ресурсы на малозначащие «лайки» и хэш-тэги, чего бы очень не хотелось.
Нет, конечно. Ответ на вопрос «что за инфрормация валится в Сеть в количествах, равных тому, что уже в ней хранится», прост. Доступность Интернета, мощность носимых устройств и развитие средств хранения и передачи данных привели к тому, что мы порождаем данные просто потому, что существуем. Мы общаемся через Сеть - и порождаем данные. Нам нравится чье-то фото - мы щелкаем по кнопке «Like» - и порождаем данные. Мы фотографируем любимых женщин, детей, собак и машины на доступную теперь для всех цифровую камеру - и почти автоматически загружаем фото в Сеть. Мы ездим в метро, передвигаемся на автомобиле - и камеры неутомимо пишут изображение, сохраняя его на корпоративные устройства хранения данных. Мы живем - и создаем поток данных, и чем дальше, тем больший поток данных мы создаем.
Это сравнимо с тем, как наша цивилизация потребляет вещественные ресурсы - ископаемые, воду, воздух. Мы существуем - и перерабатываем вещества из одних в другие, высвобождая нужную нам для существования энергию. И часть этой энергии мы теперь тратим на создание, хранение и обработку информации.
И тут подспудно возникает новый вопрос - а как быть с ценностью информации? Информацию нельзя накапливать и хранить вечно. Она, как любая сущность, имеет как ценность и цену - это цена хранения и обработки. Цену хранения можно достаточно легко оценить, она постоянно падает, но с такими темпами роста количества информации, которые мы имеем сейчас, даже с постоянно падающей ценой хранения мы рискуем вылететь в трубу. От мусора, в том числе и информационного, нужно избавляться, освобождая ресурсы, используемые для его хранения и обработки. Это как и в вещественном мире - вторичная переработка. Однако, как и с вещественным миром, в мире инфрормации есть понятие «относительной ценности». Как и вещи, которые являются мусором для одних, и обладают ценностью для других, информация, совершенно незначащая ничего для одних, может быть ценна для других. У информации нет объективной ценности, эта ценность всегда субъективна. Как и ценность вещей, кстати. Но с вещами худо-бедно научились разбираться, вещественный мусор перерабатывают с разной степенью успешности, антиквары делают свой бизнес на том, что для кого-то является мусором, и само существование проблемы вторичной переработки отходов уже не вызывает ни у кого сомнения.
А вот с информацией все намного хуже. О проблеме определения ценности информации, выработке общественно-приемлемых подходов к определению понятия «информационный мусор» мы даже еще не подошли. Информация хранится, пока хватает ресурсов ее хранить. А потом - чистая лотерея. Ее или теряют, или преобразовывают, или перемещают куда-то. Но в головах людей мысли о том, что информация, как и нечто вещественное, должна быть окружена культурой обращения с ней, пока нет. Ценность информации определяеся хаотически и неизвестно кем (а зачастую - практически никем). Мы накапливаем, сваливаем, храним и теряем информацию как попало и где попало, неся при этом постоянные, огромные (возможно - неоценимые) потери ресурсов, вещественных и энергетических.
Я думаю, что от создания баланса между ценностью информации и ценой ее хранения и обработки зависит не только будущее ИТ-индустрии, но и общества в целом. В противном случае мы рискуем просто растратить наши ресурсы на малозначащие «лайки» и хэш-тэги, чего бы очень не хотелось.
Хорошая тема.
ОтветитьУдалитьИ правильная, и своевременная.
Компании стонут от проблем управления хранением демятков терабайт данных...
Большая часть которых никому никогда не потребуется.
Про логи всяких веб серверов даже говорить не хочу, по большей своей части &овно, из которого некоторые умудряются делать деньги, однако...
Вот, к примеру, телеком и хранение CDR (Call Details Record). С одной стороны, зачастую законодательство (СОРМ). Хотя, при наличии известной доли паранои, логи вебсерверов тоже... Превращаются в данные долговременного хранения.
И вопрос стоимости хранения стоит в полный рост.
Но стоимость хранения складывается из многих параметров... Меньше всего мне интересны те составляющие, которые касаются аппаратуры.
А больше всего - софтовая составляющая.
И здесь интересный момент.
Если уже много лет назад я писал на sql.ru, что хранение таких данных в РДБМС очень дорого, и никто на это не обращал внимания, то теперь уже появились готовые коммерческие решения для хранения телекомовских данных, не использующих РДБМС, и обходящихся и дешевле, и эффективнее.
Что интересно, я до сих пор полагаю, что старушка z/OS, в целом, и VSAM (extended format & extended addressability) в частности могут быть очень выгодной и эффективной платформой для хранения всякого мусора по принуждению. Небольшая софтовая надстройка, продуманная структура....
Нет?
Гриша, ты прав в отношении того, что в цену хранения нужно обязательно учитывать и стоимость лицензий, и стоимость персонала, и амортизацию, и много всякого. Больше того, я разговаривал как-то с ценовиком, то он мне очень много интересного рассказал о том, как они считают стоимость хранения информации. Разработка методик под конкретную организацию - дело трудоемкое, но иногда (когда информация - это основной актив, и ее много) дает серьезный эффект в части бухучета.
УдалитьИ в части стоимости хранения на мейнфрейме - тоже во многом прав. Но не во всем. Дело зависит от ОС. Вот MVS делалась тогда, когда понятия СУБД не было, и масса базовых механизмов ОС были придуманы и сделаны как раз для того, чтобы программист мог комфортно хранить много данных и быстро и легко их обрабатывать. Поэтому мы и можем сейчас в обычном MVS без всяких дополнительных ухищрений хранить более 5 млн плоских наборов данных, без снижения времени доступа к данным. А есть еще всякие вкусные VSAM-ы с индексами и так далее, почти готовая СУБД внутри системы, пиши-ищи-храни что угодно.
Но, с другой стороны, MVS стоит много денег. VM дешевле, и там таких возможностей нет. Так что старушка zOS просто стоит своих денег в этом смысле. И она не так уж продуманна и не совсем небольшая. Она просто затачивалась под это, под хранение и работу с данными на базовом уровне.
Я тоже считаю, что реляционная структура избыточна и неоптимальна для хранения данных в очень и очень многих случаях. С другой стороны, оценить это сложно, ибо ценность информации может оправдывать избыточность - если это, например, принципиальная финансовая аналитика или истории болезни, где важно быстро и правильно искать данные для последующего анализа и цена этого анализа будет общественно-значима, то и плевать на цену хранения...
В общем, все неоднозначно.