ДУШКИН Роман Викторович

Как Искусственный Интеллект меняет фотографии

Как Искусственный Интеллект меняет фотографии
© Dazeinfo

Хотите узнать, насколько хороша камера желаемого смартфона? Тогда обратите внимание на то, что производитель говорит об Искусственном Интеллекте. Это очень «хайповая» технология. За несколько лет она покорила такие вершины, что и представить сложно. И прогресс будет только набирать обороты.

Есть много примеров того, как Искусственный Интеллект меняет фотографии. Сейчас всё внимание ИИ-разработчиков уделяется программному обеспечению и процессору. А всё потому, что Искусственный Интеллект позволяет камерам определить находящийся перед ними объект.

В Google Фото показали продуктивность Искусственного Интеллекта при работе с фотографиями. Это приложение было запущено ещё в 2015 году. До этого времени гигант поисковых систем много лет использовал машинное обучение, чтобы выставлять категории изображениям в Google+. Искусственный Интеллект, использующийся в Google Фото оказался настолько мощным, что всё сообщество было поражено. Пользовательские фото-библиотеки без каких-либо меток были преобразованы в поисковые базы данных всего за одну ночь.

Google узнал много чего нового, например, как выглядит ваша кошка.

Джеймс Барехам © The Verge
Джеймс Барехам © The Verge

На DNNresearch, Google воссоздала нейронную сеть с глубоким обучением на данных, которые помечают люди. Этот процесс получил название «контролируемое обучение». Он включает в себя обучение сети при помощи миллиона изображений, которые позволяют ей находить визуальные сходства на пиксельном уровне. Таким образом нейронная сеть определяет категории изображений. С течением времени алгоритм становится всё лучше и лучше. Например, при распознавании панды алгоритм будет использовать прошлый опыт. Он попытается отыскать чёрный и белый мех и прочие схожести изображений. В дальнейшем алгоритм научился выдавать информацию по более абстрактным запросам, например «животное» или «завтрак». Эти запросы не имеют общих визуальных индикаторов, но алгоритм всё равно может их найти.

Для обучения такого алгоритма требуются вычислительные мощности и достаточное количество времени. После того, как дата-центры закончили своё дело, алгоритм может запускаться даже на бюджетных мобильных устройствах. «Грязная» работа уже выполнена, поэтому как только ваши фотографии окажутся в облаке, Google сможет применить собственные алгоритмы для анализа и категоризации всей библиотеки. Спустя год после запуска Google Фото, компания Apple презентовала возможность поиска фотографий, которая так же нуждалась в нейронной сети. Однако в политике Apple важным пунктом выступает конфиденциальность пользователей, поэтому категоризация изображений в разработке от этой компании происходит локально без отправки данных в облако. Этот процесс занимает до двух дней, и происходит в фоновом режиме.

Интеллектуальное программное обеспечение, которое управляет фотографиями – это интересно, но Искусственный Интеллект и машинное обучение могут оказать влияние на то, как камера смартфона определяет тот или иной объект. Камеры становятся быстрее, а датчики всё увеличиваются, но все мы с вами знаем, что корпус смартфонов не безграничен.

Нередко получается так, что смартфоны могут сделать снимок лучше, чем профессиональное оборудование. Конечно, до пост-обработки. Профессиональные камеры не обладают такими же фичами, что и камеры смартфонов. У последних есть процессор, обрабатывающий изображения или даже нейронный процессор.

© The Verge
© The Verge

Это аппаратное обеспечение, которое используется для вычислительных фотографий. По сути это очень широкий термин, который относится и к эффектам глубины резкости и к портретным режимам. Они используются в линейке смартфонов Google Pixel и помогают достичь невероятного качества изображений. Для вычислительных фотографий Искусственный Интеллект является основной технологией.

Apple применяет эту технологию для управления портретным режимом своих телефонов со сдвоенными камерами. DSP в iPhone применяет методы машинного обучения для распознавания людей при помощи одной камеры, в то время как вторая камера настраивает глубину резкости, размывает фон и выделяет объект. Способность распознавать людей при помощи машинного обучения не является чем-то новым. Впервые эта функция появилась в 2016 году. По сути это тоже самое, что и категоризация изображений, но только быстрее и в реальном времени. На то время это был настоящий прорыв.

Но Google – неоспоримый лидер в этой области. Доказательством этому служат три поколения Google Pixel. HDR+ режим съемки возможен благодаря сложному алгоритму, объединяющему несколько кадров в один. А машинное обучение является доказательством того, что со временем алгоритмы будут только улучшаться. Google успешно обучил свой Искусственный Интеллект при помощи огромного набора помеченных фотографий в Google Фото. Эти данные помогают камере выбирать экспозицию. Google Pixel 2 произвел впечатление на всех, показав невероятный уровень качества необработанного снимка. Некоторые даже умудряются использовать его для профессиональной деятельности.

Night Sight от Google

Технология Night Sight изменила наше представление о том, что Google делала раньше. Новая функция смартфонов Pixel позволяет сшивать длинные экспозиции вместе и применяет алгоритм машинного обучения для того, чтобы установить более точный баланс белого. Результаты этого алгоритма – невероятны. Эта функция лучше всего показала себя на Google Pixel 3, который обладает мощной аппаратной начинкой. Однако все остальные смартфоны этой линейки также поддерживают Night Sight. Google Pixel 1, который лишен оптической стабилизации изображения, выдает невероятные фотографии, и это доказательство того, что программное обеспечение очень важно для мобильных камер.

© The Verge
© The Verge

Тем не менее, аппаратное обеспечение не стоит сбрасывать со счетов. Оно может изменить многое, если будет работать в паре с Искусственным Интеллектом. Новый смартфон Honor View 20 впервые использовал датчик Sony IMX586. Это самый большой из существующих датчиков, и при 48-мегапикселях позволяет достичь наилучшее качество изображения. Но пиксели размещаются на крошечном пространстве, что вредит качеству изображения. AI Ultra Clarity от Honor превосходит своих конкурентов и позволяет полностью насладиться необычным цветовым фильтром, который раскрывает новые детали изображения. Таким образом создаются высококачественные фотографии, которые можно изучать хоть под микроскопом.

DSP изображения важны, но NPU вытеснит их с этого рынка. Huawei стала первой компанией, которая анонсировала систему, работающую на чипе с выделенным аппаратным обеспечением для Искусственного Интеллекта – Kirin 970. Но Apple A11 Bionic вышла раньше. Qualcomm – крупнейший поставщик процессоров для Android не стал использовать машинное обучение в качестве основного направления. В то время, как Google уже создала собственный чип Pixel Visual Core, который помогает решать задачи, связанные с Искусственным Интеллектом. Новейший Apple A12 Bionic обладает 8-ядерным нейронным процессором, который может решать задачи в ядре машинного обучения. Фреймворк машинного обучения Apple стал в 9 раз быстрее, чем в процессоре A11. Впервые его напрямую связали с процессором изображений. Apple сообщает, что благодаря машинному обучению камера лучше определяет фокальную плоскость, что позволяет настроить реалистичную глубину резкости.

Камера – важнейшая часть любого смартфона

Этот вид оборудования будет важен для эффективной работы машинного обучения. Не стоит забывать о том, что алгоритмы, поддерживающие Google Фото работают на мощных компьютерах с огромным вычислительным потенциалом. Большая часть подобной работы может выполняться «наперед», но работа машинного обучения на малопроизводительных смартфонах – не может быть реализована сегодня.

Google проделала огромную работу, позволяющую уменьшить затраты на обработку. В то же время, нейронные движки становятся лучше с каждым годом. Вычислительные фотографии, основанные на машинном обучении уже показывают отличные результаты.