Данные и системы: могут ли уроки кибернетической теории больших систем оказаться полезными при популяризации Big Data?

bdi.jpg

Big Data, "большие данные" - одно из самых популярных понятий современного компьютерного мира. Поисковик "Компьютерры" даёт 719 ссылок на связанные с ним материалы. Google предлагает 1 730 000 адресов. Концепция "больших данных" прошла большой путь за неполные пять лет.

Да, менее чем через месяц ей можно будет отмечать пятилетие. 4 сентября 2008 года в свет вышел специальный выпуск Nature "Наука петабайтной эры, посвященный тому, как повлияют на будущее наук возможности работы с большими объемами данных. А всего лишь через три года аналитики из Gartner поставили эту технологию на второе место в перечне важнейших тенденций компьютерного мира. Логика их была железной: данные увеличиваются восьмикратно за пятилетку. 80% этих данных не структурировано. (Следовательно - и не обрабатываемо традиционными методами...) А ведь если их собрать и упорядочить, то из того, что уже доступно, можно получить информацию, чрезвычайно полезную для захвата и удержания места на рынке.

Тогда Gartner'овцы отдали Big Data второе место после виртуализации. Ну а теперь эксперты Cisco, опросившие 1 800 ИТ-специалистов по всему миру, получили такой ответ: "Четверо из пяти опрошенных говорят, что для работы с Big Data понадобится облачная инфраструктура. ("Что мешает нам начать пользоваться плодами Big Data). То есть "большие данные" в развитии с технологическим преемником виртуализации.

"Большие данные" в облаках (прогноз на 2017 год); выделяется роль бизнес- применений.

Но, несмотря на интереснейшие применения Big Data, вопрос-то всё равно задаётся так? "Что мешает?.." И, может быть, кроме названных айтишниками проблем с планированием, финансами, инфраструктурой, риск-менеджментом и безопасностью (напомним, что опрос Cisco производился до шумихи, связанной со Сноуденом), есть ещё причина одна. Незаметная тем, кто находится в среде ИТ-специалистов и многое воспринимает как должное. Может быть, концепция эта и связанные с ней технологии недостаточно популяризируются? Может быть, многочисленные материалы понятны лишь специалистам? А финансисты и руководители некомпьютерных бизнесов, равно как и некомпьютерные специалисты, не слишком хорошо представляют, почему же данные "большие" и какие преимущества это даёт в практической деятельности... (По опросам весны прошлого года лишь менее половины считало термин Big Data точно определённым.)

Так смеются над размытостью терминов вокруг Big Data и их проблемами безопасности.

Давайте же попробуем ответить на эти вопросы, воспользовавшись концепциями дисциплины кибернетики, бурно развивавшейся в пятидесятые-шестидесятые годы прошлого века. Они имеют то преимущество, что давно вошли в учебные планы и достаточно широко известны. Возможно, наши рассуждения пригодятся и ИТ- специалистам - в общении с коллегами некомпьютерного профиля, при обучении молодёжи.

Три V "больших данных" - Объём, Вариативность и Скорость - известны широко.

Итак, кибернетика. Была в ней концепция больших систем. И концепция эта оказалась столь плодотворна, что даже удостоилась отдельной статьи в 3-м издании Большой советской энциклопедии. Вот с ней-то мы и попробуем соотнести наши Big Data. Которые были анонсированы в Nature, подробно описывающем биологические приложения. А вот классическим примером большой системы считался "живой организм с его системами питания, дыхания, движения, нервной и гуморальной регуляции, восстановления разрушающихся элементов (клеток) и воспроизведения дочерних организмов. Так - сразу находим нечто общее!

Дальше, всего лишь через три года, как мы видели, Gartner счёл "большие данные" вторым по актуальности бизнес-направлением. Но ведь и в большие системы включалась "торговая сеть, включающая поставщиков товаров, склады, торговые точки, персонал, финансы, учёт и отчётность, - это в советской-то энциклопедии конца 1960-х, когда ни полноценных сетей, ни рыночной дистрибуции в стране не было. То есть с самого начала мы видим параллели между теми объектами, которые пытались изучать с помощью теории больших систем, и теми, данные с которых сегодня обрабатываются методами Big Data! Не правда ли, интересно?

А дальше еще занимательней: "... с целью изучения и совершенствования Б. с. используются только такие методы, которые не игнорируют наличия тесной взаимосвязи между большим числом факторов, определяющих поведение рассматриваемой системы; учитывается большая или меньшая неопределённость поведения системы в целом и отдельных её частей как результат действия случайных факторов и участия в системе людей; принимается во внимание взаимовлияние системы и окружающей её среды; учитываются изменения во времени свойств системы и внешней среды. Такой подход эффективен при исследовании сложных технических, экономических и биологических систем, для которых оказываются бесплодными традиционные методы, основанные на поочерёдном изучении отдельных черт системы или отдельных явлений или на далеко идущем упрощении объекта рассмотрения"; ведь "совершенствование Б. с. - это же та же самая оптимизация деятельности торговой сети, для которой собирают и обрабатывают "большие данные".

А данные, которыми оперирует современный бизнес, действительно очень велики. Сеть универмагов Walmart за час обрабатывает более миллиона потребительских транзакций; ещё несколько лет назад они размещались в базе данных объёмом более 2,5 петабайт (2 560 терабайт); считалось, что это в 167 раз больше информации, чем во всех книгах Библиотеки конгресса. И вот теперь, при обработке "больших данных", как и раньше, в теории больших систем, ставятся задачи учесть многочисленные связи, присутствующие в обоих случаях. Скажем, возьмём живой объект теории больших систем. Что могли сделать с ним традиционные методы наук о жизни?

Прежде всего - описать и классифицировать. Этим занимались еще в античности, когда работать руками учёным мужам было не принято. Потом настало Новое время с его экспериментальным подходом, выражавшимся прежде всего в анатомировании. (Стандартный сюжет историй той эпохи - врачи, ворующие трупы с кладбища и принимаемые суеверными обывателями за чертей...) Появились микроскопы, и объём получаемой анатомической информации резко возрос, порождая цитологию. Потом, по мере успехов химии, стал возможен качественный анализ живой материи. Потом биохимия, анализы количественные и даже в динамике... Но - по одному, двум параметрам. А в живом организме их много больше, и все они связаны между собой. (Видите, в объекте теории больших систем уже налицо и объём, гигантское количество клеток, и изменчивость, присущая биохимическим процессам, и потребная скорость изучения, без которой жизнь утечёт мимо - практически аналоги 3 V из Big Data.) И по отдельности микроскопические наблюдения и химические анализы говорят о чём угодно, но только не о том, как организм работает в целом. Вот тут-то теория больших систем и предложила свой специфический подход. Свою собственную систему понятий. Методы формирования моделей, которые были бы достаточно сложными, чтобы описывать реальные процессы, и достаточно простыми, чтобы работать с ними на практике. Приёмы декомпозиции, позволяющие разделить систему на отдельные части, но не потерять основных связей между ними. И - противоположные им приёмы агрегатирования, состоящие в замене нескольких показателей одним, но важнейшим для решения задач анализа и оптимизации системы.

Именно тогда был предложен приём, сводящийся к тому, что для исследования большой системы надо создать её модель. Математическую, просчитываемую далее на цифровых или аналоговых (где напряжения моделировали переменные) машинах. Такая вот теория... Оставшаяся теорией: мощь тогдашних компьютерных технологий была ничтожна, несравнима со смартфоном.

А сейчас мы читаем о моделировании головного мозга. Имитация работы ста триллионов синапсов - это развитие давнишних методов теории больших систем. Ведь даже современной процессорной мощи лобовой просчёт не по силам. Налицо упрощённое моделирование, декомпозиция и агрегатирование, снижение скорости моделирования в 1 500 раз по сравнению с реальными нейронами. Но - задача, хоть и в упрощенном виде, решается.

И вот сегодняшние Big Data информационных технологий поразительно похожи на большие системы кибернетики. Только теми занималась теория (ну не было еще процессорной мощи), а "большими данными" - практика. Nature рассуждает о петабайтной науке, а у Walmart уже давно петабайтные базы. Именно благодаря такому сращиванию бизнеса и информационных технологий США лидирует, скажем, на глобальном рынке интернет-торговли.

Так вот, из баз данных универмага можно вытащить поразительно много интересного для улучшения дел в бизнесе. Только данные эти в конечном счёте необходимо свести к виду и объёму, обозримому для человека, который будет принимать решения. То есть, говоря аналогиями из биологии, не перечислять зоологу все статические и динамические данные всех клеток организма, а, выполнив декомпозицию, сказать, что есть у него мозг, сердце, печень... Выполнив агрегатирование, доложить, что пульс такой-то, а кровяное давление такое-то... И что по составу крови видно: если животному не дать сена, то оно сдохнет. Причём последнее заключение должно даваться в течение времени, пока скотина ещё жива, а не с замедлением на порядки!

Ах да, в отличие от зоолога, знающего анатомию, методы работы с Big Data не подозревают о наличии таких готовых паттернов, как сердце и почки. Они должны выяснить их существование в процессе применения: в этом сложность работы с "большими данными", но в этом и их мощь. Скажем, бухгалтерия по своим стандартам-паттернам легко перемелет цифры приходов и расходов, связанные с покупательскими транзакциями, - и определит, что Amazon во втором квартале 2013 года понёс убытки в 7 миллионов долларов, по паре центов на акцию. Но даже если транзакций в день миллионы, то это не работа с "большими данными". А вот оперативно выявить предпочтения многочисленных покупателей (изменчивые, неясные даже им самим, но отражающиеся в накопленной информации об их покупках) и скорректировать рекламные кампании, цены, ввести новый ассортимент, обратив убытки в прибыли (и всё это в ограниченное время) - это была бы работа с Большими Данными (3 V). К которой бизнес неизбежно придёт: слишком уж сложен современный мир. А аналогии, при всей их неточности, могут ему в этом помочь…

Важно лишь запомнить главное: Big Data - это те самые большие системы кибернетики. Только сделанные не из живых клеток, подобно коровам, составлявшим богатство скотоводов-масаи в традиционном обществе, а из чисел. Тех самых чисел, которые в информационном обществе породили астрономические капиталы Microsoft и Apple.

Михаил Ваннах

Компьютерра