ДУШКИН Роман Викторович

Как заставить машину думать, что вы — Мила Йовович? Часть 1

Как заставить машину думать, что вы — Мила Йовович? Часть 1

Это перевод материала, опубликованного на сайте Medium.

Что такое атака оптическими иллюзиями?

В начале 2014 года Szegedy et al. (2014) смогли продемонстрировать, что минимальные изменения входных данных для систем, работающих с машинным обучением, могут стать причиной неправильного восприятия этих данных. Изменённые входные данные называются «соперничающими примерами» — они были специально разработаны и служат для того, чтобы обмануть модель.

Именно эта картинка дала старт «гонке вооружений», в которой разработчики мерились силами в том, кто кого круче обманет. Казалось бы, к примеру, метод дистилляции, — успешный и современный способ защиты, который был предложен в 2015 году (Papernot et al., 2015). Но, к сожалению, этот способ защиты пал под атакой Carlini & Wagner (C&W), которая произошла в 2016 году. Более того, 7 новых механизмов защиты, которые были приняты на ICLR в 2018 году были «уничтожены» спустя несколько дней после их принятия (Athalye et al., 2018). Это значит, что скрыться от таких атак практически невозможно.

Почему такие атаки являются опасными?

Вред от соперничающих примеров невозможно недооценивать. Давайте рассмотрим ситуацию: вы владелец дома, использующий систему распознавания лиц, как один из уровней безопасности. Злоумышленник получил доступ к системе и теперь может обмануть систему, добавив вам специального вида очки, которые могут быть распечатаны и приставлены к дужкам настоящих очков (Sharif et al., 2016).

Ещё один пример опасности соперничающих примеров — манипуляции с дорожными знаками. Например, можно наложить на знак остановки некоторые символы, которые заставят систему воспринимать его, как знак ограничения скорости (Evtimov et al. (2017)). Думаю, что результаты таких махинаций для беспилотных автомобилей очевидны.

Более того, Carlini & Wagner (2018) показали, что система распознавания речи также может быть обманута при помощи наложения шума. Наложение шума может заставить алгоритмы распознавания речи искажённо воспринимать запросы пользователей. Эта уязвимость может сделать использование речевых интерфейсов, умных домов и беспилотных автомобилей не самым приятным опытом.

Список терминов

Предлагаем рассмотреть несколько терминов, которые довольно часто применяются в области атак оптическими иллюзиями:

  • Атака белого ящика — при такой атаке злоумышленники могут получить полный доступ к желаемой модели. Таким образом они могут узнать архитектуру и параметры объекта атаки.
  • Атака чёрного ящика, которая позволяет злоумышленникам отслеживать атакуемые выходные данные модели. Атака на алгоритм машинного обучения через API является атакой чёрного ящика, так как злоумышленники могут только подставлять различные входные данные и отслеживать выходные.
  • Целенаправленные атаки — сценарии, при использовании которых нападающие искажают данные, чтобы система восприняла их так, как нужно им. Альтернативная версия этой атаки — нецелевая, которая не предназначена для определённого результата, но просто сбивает систему с толку.
  • Универсальные атаки — сценарии, когда злоумышленники преобразовывают один файл, например, изображение, после чего машина начинает путаться во входных данных. Этот вид атаки описан, например, здесь: Moosavi-Dezfooli et al. (2016).
  • Атаки с возможностью повторного использования — вредные воздействия, которые могут быть использованы для обмана нескольких моделей, обученных на одних и тех же наборах данных. Примеры: Szegedy et al., 2014; Papernot et al., 2016.

Ну а теперь давайте рассмотрим несколько методов, позволяющих злоумышленникам проводить свои атаки белого и чёрного ящика.

Как создаются соперничающие примеры?

Аддитивные возмущения, основанные на dL/dx

Это семейство атак основано на идее изменения входных данных, чтобы максимально изменить функцию потери модели. Для нейронных сетей это значит, что нужно запустить обратный процесс, который позволит вычислить функцию потери модели, относящейся к её входу. Злоумышленники заинтересованы в обнаружении путей для отправки изменённых файлов, которые могут быть неверно классифицированы системой.

Быстрый градиентный метод (FGSM)

Метод FGSM (Goodfellow et al., 2014) занимается поиском функций потерь, которые увеличиваются слишком быстро. FGSM — цель атаки белого ящика, который, после успешного взлома, может узнать архитектуру и параметры для проведения атаки. Для использования атаки злоумышленник должен иметь возможность провести обратное распространение ошибки. После вычисления градиента, можно отправлять искажённые данные.

где:

  • x' — соперничающих пример, который выглядит как x при малых значениях ϵ.
  • y — выходные данные.
  • ϵ — небольшое значение, которое отражают величину возмущения.
  • J — функция потери модели.

Созданные таким способом соперничающие примеры имеют мало чего общего с реальными аналогами. Но для этого нужно «нащупать» компромисс между небольшим уровнем возмущения, визуальным соответствием с источником, после чего можно достигнуть неправильной классификации данных.

Метод BIM

Метод BIM (Kurakin et al., 2017) — это расширение метода FGSM, в котором последний проводится несколько раз с небольшой задержкой.

где:

  • J — функция потери модели.
  • N — число повторений.
  • α — константа, контролирующая величину возмущений.
  • Функция Clip выступает в качестве гаранта нахождения соперничающего примера в качестве ϵ.

Метод (R)andom + FGSM

Здесь используются случайные возмущения, которые были отобраны гауссовским распределением, для того, чтобы высчитать функцию потери по входным данным (Tramer et al. (2017)).

где:

  • α — значение, контролирующие размер случайных возмущений.

Задача метода R+FGSM — обход защиты, полагающейся на FGSM. Градиентная маскировка нужна для того, чтобы злоумышленник не мог обнаружить точную информацию о dL/dx.

Спойлер: семь методов защиты, показанных на ICLR 2018, работали на запутывание градиентов.

Резюме

Мы уже готовим вторую часть этой статьи, которая обещает быть ещё более захватывающей и полной интересных подробностей.