суббота, 7 сентября 2013 г.

О цене и ценности информации

Буквально пару дней назад IBM представляло в России новый мейнфрейм - BC12. Приличная машинка, к ней никаких вопросов не возникает, очередной шаг в развитии платформы. Но поговорить хотелось бы не об этом. На встрече неоднократно звучала следующая цифра - за последние пару-тройку лет объем информации в Сети удвоился. Задумайтесь на секунду! Уже пару лет назад в Сети лежали основные произведения литературы и науки, основные фильмы и музыка, созданные за пару сотен последних лет. Откуда это удвоение? Что, цивилизация обнаружила скрытые библиотеки и музыкальные хранилища и бросилась их оцифровывать? Или народ массово начал писать в личные и общественные веб-журналы?

Нет, конечно. Ответ на вопрос «что за инфрормация валится в Сеть в количествах, равных тому, что уже в ней хранится», прост. Доступность Интернета, мощность носимых устройств и развитие средств хранения и передачи данных привели к тому, что мы порождаем данные просто потому, что существуем. Мы общаемся через Сеть - и порождаем данные. Нам нравится чье-то фото - мы щелкаем по кнопке «Like» - и порождаем данные. Мы фотографируем любимых женщин, детей, собак и машины на доступную теперь для всех цифровую камеру - и почти автоматически загружаем фото в Сеть.  Мы ездим в метро, передвигаемся на автомобиле - и камеры неутомимо пишут изображение, сохраняя его на корпоративные устройства хранения данных. Мы живем - и создаем поток данных, и чем дальше, тем больший поток данных мы создаем.

Это сравнимо с тем, как наша цивилизация потребляет вещественные ресурсы - ископаемые, воду, воздух. Мы существуем - и перерабатываем вещества из одних в другие, высвобождая нужную нам для существования энергию. И часть этой энергии мы теперь тратим на создание, хранение и обработку информации.

И тут подспудно возникает новый вопрос - а как быть с ценностью информации? Информацию нельзя накапливать и хранить вечно. Она, как любая сущность, имеет как ценность и цену - это цена хранения и обработки. Цену хранения можно достаточно легко оценить, она постоянно падает, но с такими темпами роста количества информации, которые мы имеем сейчас, даже с постоянно падающей ценой хранения мы рискуем вылететь в трубу. От мусора, в том числе и информационного, нужно избавляться, освобождая ресурсы, используемые для его хранения и обработки. Это как и в вещественном мире - вторичная переработка. Однако, как и с вещественным миром, в мире инфрормации есть понятие «относительной ценности». Как и вещи, которые являются мусором для одних, и обладают ценностью для других, информация, совершенно незначащая ничего для одних, может быть ценна для других. У информации нет объективной ценности, эта ценность всегда субъективна. Как и ценность вещей, кстати. Но с вещами худо-бедно научились разбираться, вещественный мусор перерабатывают с разной степенью успешности, антиквары делают свой бизнес на том, что для кого-то является мусором, и само существование проблемы вторичной переработки отходов уже не вызывает ни у кого сомнения.

А вот с информацией все намного хуже. О проблеме определения ценности информации, выработке общественно-приемлемых подходов к определению понятия «информационный мусор» мы даже еще не подошли. Информация хранится, пока хватает ресурсов ее хранить. А потом - чистая лотерея. Ее или теряют, или преобразовывают, или перемещают куда-то. Но в головах людей мысли о том, что информация, как и нечто вещественное, должна быть окружена культурой обращения с ней, пока нет. Ценность информации определяеся хаотически и неизвестно кем (а зачастую - практически никем). Мы накапливаем, сваливаем, храним и теряем информацию как попало и где попало, неся при этом постоянные, огромные (возможно  - неоценимые) потери ресурсов, вещественных и энергетических.

Я думаю, что от создания баланса между ценностью информации и ценой ее хранения и обработки зависит не только будущее ИТ-индустрии, но и общества в целом. В противном случае мы рискуем просто растратить наши ресурсы на малозначащие «лайки» и хэш-тэги, чего бы очень не хотелось.

2 комментария:

  1. Хорошая тема.
    И правильная, и своевременная.
    Компании стонут от проблем управления хранением демятков терабайт данных...
    Большая часть которых никому никогда не потребуется.
    Про логи всяких веб серверов даже говорить не хочу, по большей своей части &овно, из которого некоторые умудряются делать деньги, однако...
    Вот, к примеру, телеком и хранение CDR (Call Details Record). С одной стороны, зачастую законодательство (СОРМ). Хотя, при наличии известной доли паранои, логи вебсерверов тоже... Превращаются в данные долговременного хранения.
    И вопрос стоимости хранения стоит в полный рост.
    Но стоимость хранения складывается из многих параметров... Меньше всего мне интересны те составляющие, которые касаются аппаратуры.
    А больше всего - софтовая составляющая.
    И здесь интересный момент.
    Если уже много лет назад я писал на sql.ru, что хранение таких данных в РДБМС очень дорого, и никто на это не обращал внимания, то теперь уже появились готовые коммерческие решения для хранения телекомовских данных, не использующих РДБМС, и обходящихся и дешевле, и эффективнее.
    Что интересно, я до сих пор полагаю, что старушка z/OS, в целом, и VSAM (extended format & extended addressability) в частности могут быть очень выгодной и эффективной платформой для хранения всякого мусора по принуждению. Небольшая софтовая надстройка, продуманная структура....
    Нет?

    ОтветитьУдалить
    Ответы
    1. Гриша, ты прав в отношении того, что в цену хранения нужно обязательно учитывать и стоимость лицензий, и стоимость персонала, и амортизацию, и много всякого. Больше того, я разговаривал как-то с ценовиком, то он мне очень много интересного рассказал о том, как они считают стоимость хранения информации. Разработка методик под конкретную организацию - дело трудоемкое, но иногда (когда информация - это основной актив, и ее много) дает серьезный эффект в части бухучета.
      И в части стоимости хранения на мейнфрейме - тоже во многом прав. Но не во всем. Дело зависит от ОС. Вот MVS делалась тогда, когда понятия СУБД не было, и масса базовых механизмов ОС были придуманы и сделаны как раз для того, чтобы программист мог комфортно хранить много данных и быстро и легко их обрабатывать. Поэтому мы и можем сейчас в обычном MVS без всяких дополнительных ухищрений хранить более 5 млн плоских наборов данных, без снижения времени доступа к данным. А есть еще всякие вкусные VSAM-ы с индексами и так далее, почти готовая СУБД внутри системы, пиши-ищи-храни что угодно.
      Но, с другой стороны, MVS стоит много денег. VM дешевле, и там таких возможностей нет. Так что старушка zOS просто стоит своих денег в этом смысле. И она не так уж продуманна и не совсем небольшая. Она просто затачивалась под это, под хранение и работу с данными на базовом уровне.
      Я тоже считаю, что реляционная структура избыточна и неоптимальна для хранения данных в очень и очень многих случаях. С другой стороны, оценить это сложно, ибо ценность информации может оправдывать избыточность - если это, например, принципиальная финансовая аналитика или истории болезни, где важно быстро и правильно искать данные для последующего анализа и цена этого анализа будет общественно-значима, то и плевать на цену хранения...
      В общем, все неоднозначно.

      Удалить