Как работал алгоритм сбора данных с Facebook, по словам создателя

Как работал алгоритм сбора данных с Facebook, по словам создателя
фото: thenextweb

Исследователь, чей алгоритм лежал в основе анализа данных Facebook и использовался Cambridge Analytica, утверждает, что его метод не отличается от алгоритма Netflix, который свободно используется для определения рейтинга фильмов среди пользователей.


Александр Коган (исследователь из Кембриджского университета) объясняет, что несмотря на то, что его статистическая модель работала с данными Facebook для Cambridge Analytica, точность полученных результатов для избирательного таргетинга во многом зависит от множества дополнительных факторов и демографических характеристик (таких как раса, возраст, пол), а не только от информации о «лайках», поставленных пользователями тем или иным постам.

Александр Коган (фото: Neowin)

Если это действительно так, то похоже, что метод Когана для Cambridge Analytica – не точнее гаданий на хрустальном шаре. Хотя, с другой стороны, возможно, мы получили совершенно неожиданный синергетический эффект комбинации персональных данных с машинным обучением для достижения определенных (в данном случае политических) целей.

Как утверждает Коган, его алгоритм – это не личностная модель, а скорее обобщенная база социальной активности, построенная на личностных предпочтениях, сведенных в один большой коррелируемый массив, где данные пользователей и их «психографический профиль» являются лишь малой частью социально ориентированной модели.

По-видимому, новый подход «все для корреляции, не взирая на личности» создал ценный маркетинговый инструмент, даже если изначально он и не задумывался таковым.

Цели индивидуального таргетинга

Влед за откровениями, что для президентской кампании Трампа в 2016 году Cambridge Analytica использовала данные 50 миллионов пользователей Facebook для таргетированной политической рекламы, Facebook потеряла миллиарды на фондовом рынке, правительства по обе стороны Атлантики инициировали расследования по данному инциденту, а в социальных сетях все больших оборотов набирает движение, призывающее пользователей к #DeleteFacebook.

Но ключевой вопрос так и остался без ответа: действительно ли Cambridge Analytica могла эффективно манипулировать гражданами, подстраивая сообщения президентской кампании под личностные характеристики или даже под «внутренних демонов» пользователей?

И если кто-то и знает, что происходило на самом деле в Cambridge Analytica, то это только Александр Коган и Джозеф Канцлер. Именно они стоят у истоков Global Science Research – программного алгоритма, который собирал информацию о профилях более чем 270 000 пользователей Facebook и десятках миллионов их друзей, используя приложение для проверки личности под названием «thisisyourdigitallife».

Чтобы пролить свет на метод Когана, Мэтью Хиндман (доцент по связям с общественностью и средствами массовой информации Университета Джорджа Вашингтона) направил ученому запрос с просьбой рассказать об истинных целях его работы.

Мэтью Хиндман (фото: smpa)

На удивление, Коган дал вполне исчерпывающий ответ, правда он потребует небольшой предыстории.

От премии Netflix до «психометрии»

В далеком 2006 году, когда Netflix еще занималась продажей DVD-фильмов по почте, компания предложила вознаграждение в размере $1 млн тому, кто разработает лучший алгоритм по предсказанию предпочтений пользователей в кино.

Неожиданным победителем в соревновании оказался независимый разработчик программного обеспечения, работающий под псевдонимом Simon Funk. Фанк адаптировал метод «сингулярной декомпозиции» для определения рейтинга фильмов по ряду факторов – по сути, это был набор категорий, ранжируемых по степени важности.

Например, фильмы могут ранжироваться от экшн-фильмов с большим количеством активных сцен (на вершине списка) до малоактивных лент (внизу списка), что будет коррелировать с предпочтениями пользователей по степени их убывания, – написал Фанк в своем блоге.

При этом факторы – это искусственно выведенные категории, которые не всегда совпадают с ожиданиями/предположениями человека. Например, первый алгоритм Фанка для Netflix «выявил» фактор, который объединял людей, которым нравились такие фильмы, как «Перл-Харбор» и «Организатор свадеб», или которым не нравились ленты «Трудности перевода» и «Вечное сияние чистого разума». Эта модель показал как машинный алгоритм может найти корреляционную связь между группами людей и фильмами, которую человек никогда бы и не заметил.

В своем алгоритме Фанк использовал от 50 до 100 топовых факторов для пользователей, чтобы сделать достоверное предположение о том, как каждый из них оценит тот или иной фильм. И на самом деле, этот SVD-метод, еще называемый «уменьшением размерности» или «матричной факторизацией», не оказался инновационным.

Политологи утверждают, что подобные методы при опросе членов Конгресса позволяют с 90% точностью предсказать исход голосования. В психологии есть аналогичная модель «Big Five», которая используется для прогнозирования поведения больших групп людей, которых объединяют в кластеры согласно психосоматическому типу личности.

Тем не менее, модель Фанка стала большим шагом вперед для всей индустрии таргетинговой рекламы: она позволяла машинному интеллекту работать с огромными массивами данных, даже с большим количеством недостающих элементов. Например, набором данных Netflix, где типичный пользователь оценивал только несколько десятков фильмов из тысячи вариантов, содержащихся в библиотеке компании.

Интересно, что прошло уже больше десяти лет с момента проведения конкурса Netflix Prize, но SVD-метод (по оценке моделей с неявными данными) по-прежнему является инструментом прогнозирования потребительских предпочтений для большинства веб-сайтов.

Facebook знает, кого вы поддержите на выборах

В 2013 году исследователи Кембриджского университета Михал Косински, Дэвид Стиллвелл и Тор Грапел опубликовали статью о прогностической способности данных в Facebook, используя информацию, собранную с помощью онлайн-теста личности.

Тор Грапел

Их аналитическая модель была практически идентична той, что использовалась в приложении Netflix: SVD классифицировала пользователей и вещи, которые они «лайкали», по 100 топовым факторам.

Михал Косински

В документе было указано, что факторная модель, созданная на основании «лайков» пользователей Facebook, показывала на 95% более точные результаты при разграничении респондентов на черных и белых, на 93% точнее – при разграничении мужчин и женщин и на 88% точнее – при разграничении гомосексуалистов и гетеросексуалов, а в случае с политической ориентацией – 85% результативности обеспечивало разграничение республиканцев и демократов.

Дэвид Стиллвелл

Исследование вызвало большой общественный резонанс, в результате которого через пару недель Facebook по умолчанию закрыла доступ к пользовательским «лайкам».

В тоже время Коган и Канцлер в рамках сотрудничества с фирмой Cambridge Analytica начали использовать данные с Facebook для предвыборного таргетинга. Коган пригласил Косински и Стиллвелла присоединиться к его новому проекту. Но, по словам Косински, он заподозрил, что исследователи вернулись к разработке модели «лайков» Facebook и отказался от предложения. В свою очередь Коган отрицает любые обвинения на этот счет:

Все наши алгоритмические модели построены на собственных базах данных с использованием только собственного программного обеспечения.

Что же на самом деле делали Коган и Канцлер?

Если оглянуться в прошлое, то становится очевидным, что разработчики действительно собрали множество «своих» данных через приложение thisisyourdigitallife.

И теперь мы возвращаемся к ответу на вопрос, заданный Когану в электронной переписке еще в начале нашего повествования.

Мы точно не использовали SVD. Нами была разработана собственная технология – названная как «метод оценки многоступенчатого совместного возникновения». Но это не исключает возможность того, что наш алгоритм был похож на SVD или любой другой метод матричной факторизации (например, Netflix Prize или модель Kosinki-Stillwell-Graepel для Facebook), ведь ядром каждой из перечисленных моделей является принцип уменьшение размерности данных, – написал он.

Что из этого правда?

Коган утверждает, что не имеет особого значения то, какая модель используется для прогноза, важна лишь точность ее предсказаний.

Корреляция между прогнозируемыми и фактическими результатами нашей модели... составляла около 30%. Для сравнения: оценка личности по методу Big Five дает на 70-80% более точные результаты в прогнозировании.

Конечно, показатели результативности, озвученные Коганом, не могут быть точно измерены, да и посреди такого громкого скандала у каждого найдется стимул занижать свой вклад в происходящее. В подтверждение сказанного, в своем выступлении на CNN Коган еще раз отметил, что на самом деле его алгоритмы действительно «не очень хорошо работали».

Фактически, точность модели Когана кажется немного заниженной, но вполне приемлемой. Косински, Стиллвелл и Грапел сообщали о сопоставимых или немного лучших результатах, полученных на основании их рабочей модели, так же как и некоторые другие академические исследования, использующие цифровые данные для прогнозирования личностных реакций (хотя в некоторых из них было больше данных, чем просто «лайки» на Facebook).

Но, важно отметить, что добавление даже небольшого объема информации о друзьях или демографических данных пользователей, вероятно, повысит показатель точности алгоритма практически до 90%.

Например, аналогичная SVC-модель Kosinki-Stillwell-Graepe показала на 85% большую точность при «угадывании» партийной принадлежности, даже без использования какой-либо профильной информации, отличной от «лайков». Модель Когана тогда показала очень схожую или даже лучшую статистику. А добавьте к этому перечню данные о поле, расе, сексуальной ориентации и других личностных характеристиках… И тут мы уже получим более чем 90% достоверность результатов.

Но, справедливости ради стоит отметить, что эти прогнозы будут более правдоподобны для социально-активных пользователей Facebook (личностей, которых модель в основном и изучала для целей таргетинга).

Когда психография предпочтительнее демографии

Знание того, как построена модель Когана, немного проливает свет на противоречивость в заявлениях Cambridge Analytica о ее роли (или ее отсутствии) в моделировании и манипуляции личными данными.

Технически, модель Когана дает оценки для каждой переменной, характерной для любой группы пользователей. Это означает, что алгоритм автоматически присваивает баллы по шкале «Big Five» для каждого избирателя, но эти данные – результат работы модели, а не наоборот (входящая в нее информация).

При помощи этой модели Cambridge Analytica может точно сказать, кто из пользователей идентифицирован как «открытая личность», а кто – как «невротик». Но эта же модель, с такой же точностью смогла бы выявлять и «менее образованных пожилых республиканцев».

Теперь также немного прояснилась и путаница с «удалением данных Cambridge Analytica из протоколов Facebook», ведь некоторые источники утверждают, что алгоритмы таргетинга все еще циркулируют и даже развиваются в рамках платформы.

Все дело в том, что суть модели уменьшения размерности состоит в математическом представлении данных в более простой форме. Это подобно тому, если бы Cambridge Analytica сделала фотографию с очень высоким разрешением, затем уменьшила ее разрешение и размер, а потом удалила бы оригинал. Фотография все еще бы существовала, но в другом формате, как и данные модели Cambridge Analytica.

Один хлопок? Или же бурные овации? Хлопая больше или меньше, вы показываете, какой пост действительно чего-то стоит.
Комментарии