Алгоритм, который знает, где был Бен Ладен

usamaimages.jpg

Культуромика - наука молодая. Собственно, возможность её зарождения появилась только с развитием интернета, как глобального хранилища информации - новостей, книг, очерков, результатов исследований...

Культуромическое исследование может  показать, как менялся язык с годами или узнать, сколько люди помнят о своём прошлом. А может, как в случае, о котором пойдёт речь, указать, с помощью анализа новостей разных лет, где скрывался Бен Ладен и весенние арабские революции.

Figure 14: Global geocoded tone of all Summary of World Broadcasts content January 1979-April 2011 mentioning bin Laden
Global geocoded tone of all Summary of World Broadcasts content, January 1979–April 2011 mentioning “bin Laden”. A full–resolution version of this figure is available at http://contentanalysis.ichass.illinois.edu/Culturomics20/binladen.1979-2010.1000x1000.png.

Исследование проводилось с помощью суперкомпьютера Nautilus. Он исследовал информацию, заложенную в три больших новостных базы данных. В них содержались все номера New York Times с 1945 по 2005 годы, незасекреченные данные из Summary of World Broadcasts с 1979 года по 2010 и архив статей, попавших в Google News с 2006 по 2011 годы.

Используя полученные данные, исследователь Калев Литару из Иллинойского университета в Урбана-Шампейн получил сеть общим объёмом 2,4 петабайта, в которую были включено 10 миллиардов людей, мест, вещей и действий, объединённых более чем 100 триллионами связей (выведенных из новостных источников). Учёный позволил суперкомпьютеру вычленить интересные закономерности в этом сборнике информации, которые он потом также проредил вручную. В результате, он получил прогнозы - например, насчёт национальных конфликтов и перемещения конкретных людей.

Литару обращает особенное внимание на тон, с которым источники освещают то или иное событие. Например, перед Перл-Харбором, американская служба наблюдения за новостями Foreign Boadcast Information Service составила отчёт, в котором указывалось на то, что в японском эфире начали костерить США, а призывы к миру подутихли. "Они поняли, что самое важное в новостях - не то, о чём рассказывают, а как - тон, эмоциональная окраска", - говорит исследователь.

Конечно, сам Литару не стал просматривать все источники - в его распоряжении был алгоритм, который фильтровал негативные и позитивные слова. Сначала программа выясняла плотность позитивных и негативных слов в документе и, соответственно, относила его к позитивно или негативно настроенным, а потом каждое позитивное или негативное слово сверялось со словарём, в котором каждому из них присваивался определённый рейтинг. Среднее арифметическое определяло силу общего посыла того или иного материала.

Литару удалось добиться достаточно интересных результатов - на основе полученных данных можно было предсказать революции в Египте, Тунисе и Ливии, конфликт в Сербии и побеспокоиться о стабильности Саудовской Аравии.

Но самое главное подтверждение надёжности алгоритма - обнаружение местонахождения Бен Ладена с точностью до 200 км. Хотя город Абботабад, возле которого находилось укрытие террориста, упоминался всего один раз в статьях из баз данных, он находится меньше чем в 200 км от двух других городов, которые ассоциировались с ним: Исламабадом и Пешаваром. Вообще же, в 49% статей имя Бен Ладена было связано с Пакистаном.

Литару признаёт, что его технология не дала бы точный ответ о местоположении террориста. При этом он указывает на то, что результаты работы алгоритма показывают, что найти Бен Ладена в Пакистане было в два раза вероятнее, чем в Афганистане и что пространство между Пешаваром и Исламабадом - как раз то самое место, где его стоило искать.

Почему бы Литару не предсказать что-нибудь из будущего? Вообще, как становится понятно из его слов, прежде всего учёного интересовало, работает ли его алгоритм и он лишь искал тому подтверждение. "Это исследование - вовсе не волшебная палочка, которая призвана решить все проблемы, оно лишь открывает дорогу новым разработкам, - говорит он, - Мне это видится как исследование глубин океана: мы были так поглощены созерцанием поверхности и только начинаем познавать целый мир, который скрывается под ней".

Михаил Карпов

blogs.computerra.ru