Кассовые сборы фильмов предсказывают по Википедии

ps_film_revenue_prediction_1377240467.jpg.814x610_q85.jpg

Создан алгоритм прогнозирования финансового успеха фильма на основе данных о деятельности интернет-пользователей. В статье, опубликованной в PLOS ONE, трое венгерских авторов продемонстрировали, что популярность фильма можно предсказать задолго до его выхода на экран с помощью измерения активности редакторов и читателей статьи об этом фильме в Википедии.

Исследователи неоднократно с успехом применяют анализ сетевой активности пользователей для получения различной информации. Такеси Сакаи и коллеги из Токийского университета в 2010 году предложили использовать "Твиттер" для выявления сообщений о землетрясениях. В дальнейшем один из соавторов Сакаи - Макото Окадзаки - применил семантический анализ сообщений "Твиттера" для обнаружения радуг и городских пробок. В США компьютерная система на основе "Твиттера" используется для выявления ресторанов с некачественной пищей. Лингвисты изучают блогосферу с целью выявления изменений в языке или географического распределения языков. Анализ "Твиттера" позволяет предсказывать изменения промышленного индекса Доу-Джонса с точностью до 87,6% или же результаты выборов. В других исследованиях анализируются статистика поисковых запросов в Google, количество загрузок на сайте arXiv.org, пользовательские комментарии к статьям в интернет-изданиях и другие виды сетевой активности.
Мартон Местьян, Таха Яссери и Янош Кертес  предлагают оценивать активность редакторов и количество просмотров страницы о готовящемся фильме в Википедии для оценки его будущей популярности и кассовых сборов. Для отработки методики они использовали данные о 312 фильмах, которые вышли на экраны в США в 2010 году. Разработанный ими метод анализа дает хорошие прогнозы уже за один месяц до появления картины в кинотеатрах. При анализе учитывались: количество просмотров статьи, количество пользователей, которые вносили изменения, количество самих изменений и его один показатель - коэффициент строгости, основанный на том, какое количество правок подвергаются в дальнейшем пересмотру.
Исследователи подчеркивают, что их статистический метод, независящий от языка, легко может быть применен к кинорынкам других стран и даже для прогнозирования популярности других видов продукции.
M'arton Mesty'an, Taha Yasseri, J'anos Kert'esz
Полит.ру