Нейросеть научили определять алкоголиков и курильщиков по записям и лайкам в Facebook

cat-wine-isolated-white-54689030.jpg

Группа исследователей из США разработала нейросеть, способную с высокой точностью определять по записям и лайкам, страдает ли тот или иной пользователь соцсети Facebook табачной, алкогольной или наркотической зависимостью.

Препринт статьи, посвященной исследованию, был опубликован на ресурсе ArXiv.org. Как пишет N+1, ученые предположили, что посты и лайки в соцсетях могут указывать на вредные привычки пользователей. Для проверки своей гипотезы исследователи применили алгоритм машинного обучения, натренированный с помощью трех баз данных, которые были собраны в период с 2007-го по 2012 год приложением для психологических тестов myPersonality. Первая из этих баз содержала 21 миллион записей 100 тысяч пользователей Facebook, вторая - пять миллионов лайков 250 тысяч пользователей, а в третьей хранилась информация о наличии различных зависимостей у 13,5 тысячи пользователей соцсети.
Для обучения нейросети эти наборы данных комбинировались различным образом. Как показали тесты алгоритма, после обучения нейросеть научилась уверенно распознавать наличие вредных привычек у человека. Так, вероятность курения определяется с максимальной точностью 86%, а вероятность употребления наркотиков и алкоголя определяется с точностью 84% и 81% соответственно. При этом исследователи сообщили о выявлении корреляции между содержанием постов, интересами пользователей и разного рода зависимостями. Например, применение алгоритма показало, что пьющие и курящие пользователи чаще используют слова, связанные с движением ("машина" или "идти"), в то время как слова, имеющие отношение к злости ("ненависть", "убивать") и здоровью ("клиника", "таблетки"), положительно связаны с употреблением наркотиков. Также исследование показало, что пьющие пользователи любят фильм "V - значит вендетта", а наркоманы слушают группы Radiohead, The Cure и Depeche Mode. Важно отметить, что выявленная положительная корреляция в данном случае не указывает на причинно-следственную связь, если учесть, что использованный при обучении алгоритма пересекающийся набор данных содержал информацию всего о 3508 пользователях.