Иерархия потребностей искусственного интеллекта

Иерархия потребностей искусственного интеллекта
© Dev.by

Как это обычно и бывает с быстро развивающимися технологиями – ИИ породил FOMO (синдром упущенной выгоды), FUD (неуверенность, страх перед будущим), слухи и бесконечные дебаты противоборствующих сторон на тему «за» и «против». Некоторые из них заслуживают внимания, другие – нет, но то, что индустрия машинного обучения обращает на себя внимание – не вызывает никакого сомнения. От самостоятельных стартапов до финтех-гигантов в стенах государственных учреждений – каждая команда лихорадочно работает над своей стратегией развития ИИ. Но в конечном итоге все упирается в один единственный, действительно важный вопрос: «Как необходимо построить машинное обучение ИИ, чтобы еще лучше работать над тем, что мы уже делаем?».


Специалист в области обработки данных Моника Рогати считает, что на самом деле большинство компаний просто не готовы к широкомасштабному внедрению ИИ.

Возможно, компании нанимают своего первого специалиста по базам данных лишь потому, что «того требуют современные условия ведения бизнеса», и грамотность обработки данных не является центральной точкой их корпоративной культуры. Но более распространенный сценарий: компании просто еще не построили инфраструктуру для реализации (и использования преимуществ) самых основных алгоритмов и операций в области наукоемких технологий, а тем более машинного обучения.
Моника Рогати ©YouTube
Моника Рогати ©YouTube

В своей работе Моника объясняет процесс построения рабочих алгоритмов на примере пирамиды потребностей Маслоу. Где на вершине пирамиды находится ИИ, а в основании – лежат базовые потребности (еда, вода и жилье, что в нашем случае представляет собой достоверность данных, их сбор и инфраструктуру).

Как определить базовые потребности ИИ?

Первая ступень – «Сбор данных». В основании пирамиды лежит процесс сбора данных: какая информация будет использоваться в модели, доступна ли она? Если это целевой продукт, ориентированный на реакцию пользователя, как будет проводиться регистрация юзеров в системе, отслеживаться их взаимодействие с контентом? Если это датчик/сенсор/показатель, то какие данные будут поступать через него и как? В конце концов от качественного подбора исходных данных будет зависеть глобальный процесс машинного обучения.

Вторая ступень – «Движение и хранение данных». Здесь рассматривается процесс того, как данные проходят через систему анализа: сформированы ли надежные информационные потоки/ETL, инфраструктура, проверенные источники информации? Где находится хранилище информации и насколько легко получить к нему доступ, проанализировать его наполнение?

Джей Крепс (специалист в области построения инфраструктуры данных) еще десять лет назад говорил:

Надежный источник данных – это ключ к любому анализу.
Джей Крепс ©businessinsider.in
Джей Крепс ©businessinsider.in

Следующая ступень – «Исследование и трансформация». Только получив качественный набор данных, можно не только проанализировать, но и преобразовать его. Этот процесс включает в себя также и «очистку информации» (недооцененную сторону науки о данных, которая вскоре станет предметом изучения отдельных специалистов). Только «очистка» позволит обнаружить скрытые в модели дефекты (что исходных данных недостаточно, датчики ненадежны, а изменение компонентов приводит к шаткости всей фигуры). И тут мы снова возвращаемся к тому, что основа пирамиды потребностей ИИ должна быть устойчивой.

Четвертая ступень – «Обобщение и маркировка». Когда мы научились исследовать и очищать данные, только тогда можно приступать к построению аналитической модели: определять метки для обобщения и дифференциации информации, устанавливать порог чувствительности к различным факторам и т.д. На этом этапе можно сделать небольшую сегментацию пользователей и наблюдать за развитием и работой индикаторов в различных средах. Однако, поскольку главной целью нашей работы является ИИ, то важно понимать, что все действия – это фундамент для будущей модели машинного обучения. На этом этапе уже нужно знать: что мы хотим получить, предсказать или узнать в конечном итоге.

Хорошо, мы определили базовые потребности. Что дальше?

Итак, у нас есть данные для изучения. По-видимому, теперь можно переходить на следующую ступень потребностей машинного обучения к «изучению и оптимизации»? Ответ: «Может быть», если мы разрабатываем систему для внутреннего пользования, и «Нет», если результат ориентирован на клиента.

На данном этапе нам уже понадобится хотя бы примитивная, двухкомпонентная A/B система тестирования. Она поможет воссоздать приблизительную картину результатов под влиянием тех или иных изменений алгоритма, прежде чем они затронут всех пользователей. Это самое подходящее время для формирования критериев оценки (базиса) для алгоритма обучения: например, для системы рекомендаций можно было бы выделить категорию «самое популярное», затем «самое популярное для конкретного пользовательского сегмента» и т.д. – это довольно длительный и рутинный процесс, но именно он сделает наш «стереотип персонализации» по-настоящему эффективным. И только после этого можно уже приступать к построению самых простых алгоритмов ML (например, используя логистическую регрессию или деление).

Важно также продумать возможность внедрения/изъятия новых сигналов и функций, способных повлиять на конечные результаты обучения. Интеграция новых сигналов в алгоритм (особенностей оценки, а не технических характеристик) – это именно то, что способно повысить эффективность новой системы в разы. На этом этапе стоит задержаться подольше, уделяя особое внимание точности и специфике данных, прежде чем двигаться дальше к вершине пирамиды.

Дайте нам ИИ!

Ну что ж, мы сделали это: алгоритм работает, ETL функционирует, данные организованы и очищены, у нас есть рабочие ярлыки и хороший набор функций, анализирующий правильные данные. Мы можем экспериментировать хоть каждый день, добавляя или изымая информацию, ведь базовый алгоритм отлажен от начала и до конца и уже запущен в «практическое поле».

Теперь мы стоим на пороге последней ступени и готовы получить самое лучшее во всем этом процессе – отдачу от внедрения и использования машинного обучения. В конце концов, варианта всего два: либо мы получим улучшения в производственном процессе, либо нет. В худшем случае мы просто изучим новые методы построения алгоритмов и получим практический опыт «общения», а также сможем с чистой совестью рассказывать своим инвесторам и клиентам о «внедрении ИИ на производстве». А в лучшем случае – станем частью невообразимой истории успеха процесса машинного обучения.

Подождите, а как насчет MVP, открытых библиотек данных и всего прочего в том же духе?

Запомните главное: иерархия потребностей ИИ не должна годами формироваться бессвязной инфраструктурой с нагромождением данных. Так же, как при создании традиционного MVP (минимально жизнеспособного продукта), мы должны начинать с небольшого участка алгоритма, идеально отлаживать его, прежде чем двигаться по вертикали к следующей ступени пирамиды. Всегда стоит сначала полностью отстроить свою пирамиду по-вертикали, а затем уже развивать ее, наращивая по-горизонтали.

Моника, на примере Jawbone, где она работала с данными о человеческом сне, иллюстрирует процесс создания пирамиды потребностей ИИ таким образом:

Сначала мы выбрали инструментарий, ETL, очистили данные, сформировали ярлыки, ключевые определения, метрики (сколько в среднем ночью спят люди? когда появляется дремота?). Кросс-сегментный анализ уже полностью строился на результатах, обработанных ИИ (автоматическое выявление предпосылок для сна). Позднее алгоритм был дополнен анализом дневной физической активности, характером питания, погодными условиями, тренировочным процессом, социальной активностью человека и т.д. – по одной категории за раз наша модель обрастала новыми «метками». Мы не пытались сразу построить пирамиду, охватывающую всю инфраструктуру, чтобы потом пытаться заставить ее правильно работать от начала и до конца.

Предложение инструментов машинного обучения

Подождите, а как насчет API Amazon или TensorFlow и других библиотек с открытым исходным кодом? Как относиться к компаниям, которые продают инструменты ML, или предлагают уже готовые алгоритмы, идеи, методы и функции анализа?

Да, это все потрясающе и в перспективе может оказаться очень полезным (некоторые компании могут пообещать, что тщательно настроят всю вашу пирамиду потребностей ИИ). Однако, под сильным влиянием шумихи вокруг ИИ, некоторые системы используют массивы «грязных, непроверенных» данных с пробелами в знаниях, охватывающие годы. В конечном итоге такие модели просто лишаются какого-либо смысла в практическом применении. А до тех пор, пока ИИ не научится восполнять недостаток информации самостоятельно, вам следует самим формировать прочную основу для глобальной пирамиды потребностей искусственного интеллекта, — говорит Моника Рогати.

Источник: Hackernoon

Один хлопок? Или же бурные овации? Хлопая больше или меньше, вы показываете, какой пост действительно чего-то стоит.
Комментарии