Неспособность букмекеров и опросов предсказать исход референдума по вопросу о выходе Соединенного Королевства из Евросоюза заставила финансовый сектор, который предпочитает опираться на надежную информацию, искать альтернативы. И некоторые его представители утверждают, что им удалось получить хорошие результаты, анализируя данные из социальных сетей, которые, вполне возможно, были бы оптимальным инструментом прогнозирования результатов голосования 23 июня.
Компания Brevan Howard Asset Management, совладельцем которой является Алан Говард (Alan Howard), понизила риски в преддверии голосования, предварительно изучив информацию в социальных сетях при помощи искусственного интеллекта. Его макро-фонд размером в 16 миллиардов долларов увеличился на 1% процент в тот день, когда были объявлены результаты голосования. Между тем, хеджевые фонды по всему миру потеряли в среднем 1,6%. Другие фонды, как сообщает Bloomberg News, все больше инвестируют в данную технологию.
На данный момент использование «больших данных» для прогнозирования результатов голосования представляет собой скорее попытки попасть пальцем в небо. Тем не менее, результаты традиционных опросников настолько часто вводят в заблуждение, что эксперименты с использованием данных из социальных сетей заслуживают большего внимания.
Общедоступные данные социальных сетей по теме выборов и голосований кажутся не слишком серьезными. Большая часть информации получается в результате подсчета количества твитов и постов, в которых упоминается определенный кандидат или идея. В своей статье, посвященной анализу активности пользователей в Instagram, предшествовавшей референдуму, Вячеслав Полонский из Оксфордского университета отметил, что число и активность сторонников выхода Великобритании из Евросоюза намного превосходили число и активность сторонников кампании «Остаться». Анализ постов в Твиттере показал такие же результаты: кампания по выходу из Евросоюза дала толчок гораздо более активному обсуждению. Издание New York Times проанализировало данные из Facebook, и оказалось, что сторонники отделения от Евросоюза здесь тоже проявили большую активность (больше лайков, репостов и комментариев).
Хотя множество людей сегодня читает новости в основном в социальных сетях, кажущееся преимущество одной группы не всегда может помочь спрогнозировать конечный результат, потому что пользователи Твиттера, Фейсбука и Инстраграма, как правило, существуют в своего рода изоляции, взаимодействуя только с теми, кто разделяет их точку зрения.
Помимо ошибки самоотбора, вызванной гневом — несчастные люди гораздо чаще имеют склонность к отрытому выражению своих чувств — существует также ошибка самоотбора, касающаяся решения присутствовать в социальных сетях вообще (хотя в Великобритании около 33 миллионов человек пользуются Facebook).
Однако во всем этом определенно что-то есть. Андраник Тумасян (Andranik Tumasjan), профессор Мюнхенского технического университета, одним из первых опубликовал анализ того, как действия пользователей в социальных сетях коррелируют с результатами национальных выборов. В 2010 году Тумасян и соавторы отметили, что число твитов о каждой стороне кампании достаточно точно предсказало результаты парламентских выборов 2009 года в Германии. Другие исследователи позже указали на то, что предел погрешности в анализах Тумасяна был в действительности намного больше, чем в традиционных опросах.
За этим последовала более серьезная работа, которая основывалась не только на частоте упоминаний, но и на различных методах анализа настроений. Именно здесь в игру вступил искусственный интеллект: при наилучшем раскладе исследователи нанимают людей, чтобы те маркировали тысячи постов как положительные, отрицательные или нейтральные и отмечали множество других нюансов, которые разработчики исследования сочли важными. Затем при помощи этих данных искусственная нейронная сеть проходит «тренировку» до тех пор, пока не научится «оценивать» посты пользователей самостоятельно. Тем не менее, некоторые проблемы до сих пор сохраняются. В 2012 году Даниэль Гайо-Авелло (Daniel Gayo-Avello) из испанского университета Овьедо высказал свое мнение об исследованиях в данной сфере:
«Это нельзя назвать прогнозом! Я не нашел ни одной работы, которая бы предсказывала будущий результат. Все они утверждают, что спрогнозировать было возможно. То есть все это — лишь ретроспективный анализ, поэтому, разумеется, неудачные результаты получаются редко».
То же самое до сих пор можно сказать о большинстве опубликованных работ. Реальные прогнозы делать гораздо сложнее. К примеру, группа исследователей из университетов Кардиффа и Манчестера изучила посты в Твиттере, чтобы предсказать исход национальных выборов 2015 года в Соединенном Королевстве, чего не смогли сделать традиционные опросы. Однако эта группа ученых тоже не смогла выполнить поставленную задачу, несмотря на то, что они использовали чрезвычайно сложные методы анализа настроений: их анализ показал, что в Соединенном Королевстве будет подвешенный парламент, и лейбористы получат большинство мест.
В некоторых случаях анализ активности пользователей в социальных сетях показал более высокие результаты, чем опросы — но он страдает от тех же самых недостатков, что и традиционные методы исследования. К примеру, эти методы анализа привели к тому, что эксперты недооценили возможности праворадикального «Национального фронта» во Франции — партии, представители которой часто воздерживаются от публичного выражения своих чувств.
К числу других серьезных проблем относятся ошибки самоотбора и географический фактор: точные геолокационные данные нужны для того, чтобы предсказать результаты региональных партий, таких как шотландские националисты, и то, каким образом разделятся голоса на региональных выборах. Такая информация часто недоступна.
Другими словами, в этой довольно молодой (но уже активно развивающейся) области эксперты все еще работают над оптимальным алгоритмом обработки информации, полученной из социальных сетей. Тем не менее, по всей видимости, некоторые технически подкованные инвесторы уже на этом зарабатывают, совмещая традиционные методы исследования общественного мнения с анализом «больших данных».
Традиционным опросчикам стоит перенять эту технологию — она может помочь усовершенствовать методологию — и начать публиковать результаты анализа данных социальных сетей наряду с теми результатами, которые были получены посредством опросов по телефону и через интернет. С каждым днем становится все труднее делать верные прогнозы, имея лишь старый набор инструментов. В конце концов, в таких ситуациях, как британский референдум, важен каждый голос, а результаты опросов могут повлиять на явку избирателей. Новые технологии несовершенны, и пока не совсем ясно, где и как их применять, но мир меняется слишком быстро, чтобы их игнорировать.