Emil Zainetdinov

Кто лучше снимает оператор или искусственный интеллект?

Кто лучше снимает оператор или искусственный интеллект?
Pixellot – камера, наделенная искусственным интеллектом, которая способна в одиночку вести трансляцию спортивных мероприятий

Автоматизированная спортивная съемка может стать следующим достижением в вещании спортивных соревнований. В сочетании с OTT такая съемка позволит транслировать 200 миллионов спортивных мероприятий, которые не транслируются из-за ограниченных ресурсов. Для того, чтобы эта технология достигла широкого распространения качество автоматизированной съемки должно соответствовать ожиданиям зрителей.

Несмотря на то, что на рынке существует множество видов автоматизированных технологий захвата видео, эта статья будет акцентировать внимание на:

  • роботизированной съемке, более известной как PTZ – Pan Tilt Zoom. Эта технология использует роботизированную камеру для отслеживания действий, панорамной съемки и масштабирования, увеличивая изображение в определенный момент. Одна из ключевых задач программистов и производителей заключается в том, чтобы система научилась определять, когда нужно увеличить кадр. При этом PTZ-камера должна сохранять плавность движения, будто съемку ведет человек. Например, если вратарь в начале матча сильно ударил мяч, то такая камера не сможет быстро и плавно снимать его полет.
  • панорамная съемка с задержкой – для панорамной съемки используется широкоугольная камера или несколько широкоугольных камер, а затем изображения «сшиваются» вместе. Технология применяет передовые алгоритмы автоматизированного слежения для того, чтобы понимать ход игры и снимать его в панорамном режиме высокого разрешения. Но для того, чтобы искусственный интеллект успел принять решение потребуется 5-секундная задержка, которая обеспечит неотличимость от человеческой съемки. Большая часть современных высококачественных интернет-трансляций производится с задержкой в 20 секунд, поэтому особого влияния 5-секундная задержка не окажет.

Технология автоматического захвата

Панорамная камера Pixellot
Панорамная камера Pixellot

Отличаясь друг от друга своими алгоритмами, большая часть технологий автоматического захвата разделяют приведенные ниже принципы. Но каждый спорт имеет свои правила, поэтому решения требуют абсолютно разных алгоритмов:

  • автоматическое определение мяча – используется в тех видах спорта, основой которых являются мячи. К примеру, футбол, баскетбол и т.д. Чтобы заснять мяч алгоритм пытается его обнаружить и плавно следовать за ним.
  • обнаружение игрока или игроков – в более продвинутых алгоритмах автоматическое определение мяча дополняется автоматическим определением игроков. Таким образом создается наилучшее понимание происходящего на поле. Обнаружение мячей и игроков основано на способностях анализа изображения и фокусировании на объектах, которые могут представлять интерес.

Одна из проблем при обнаружении игроков связана с тем, что иногда они могут стоять по несколько секунд на одном месте. Как это происходит в футболе, когда во время пенальти игроки могут стоять по 30 секунд на одной точке. Системы искусственного интеллекта должны гарантировать, что игрок не сольется с фоном из-за отсутствия видимых движений.

Более того, алгоритм должен обладать возможностью отличать неактивных игроков, от активных, даже в тех случаях когда последние находятся далеко от мяча. Алгоритм должен уметь определять судью, который не участвует в игре.

  • Определение состояния игры – алгоритм должен определять состояние игры, основываясь на двух вышеприведенных технологиях. Состояние игры – это то, что происходит в данный промежуток времени. К примеру, угловой удар, контратака, штрафной удар и т.д. Все игровые состояния имеют свои визуальные характеристики. Понимая то, что происходит на поле, алгоритм сможет предугадать, что произойдет дальше и наилучшим образом заснять происходящее. Однако каждый вид спорта обладает огромным списком разнообразных игровых состояний, что делает подобную задачу довольно сложной для автоматизированных систем.

Чтобы обойти данную проблему системы могут быть основаны на алгоритмах глубокого обучения, которые смогут самостоятельно научиться определять угловые удары, после того, как проведут анализ данных. Возможно, таким алгоритмам понадобится 50 примеров, а возможно и больше. Если будет использоваться глубокое обучение, то программист не должен прописывать правила, которые помогут определить угловой удар. Система автоматически сможет сгенерировать собственные правила и предпринять соответствующие действия для того, чтобы точно определить состояние игры.

Используя все параметры и технологии, приведенные выше, система может принять решение о том, как и какой момент ей снимать. Ниже мы оставим изображение, где наглядно показано как это происходит. Это панорамное изображение, снятое несколькими камерами и сшитое вместе. В красный прямоугольник попадает желаемый для съемки момент. Система распознала его как атаку справа. Хочется отметить что те игроки, которые не участвуют в игре отмечаются значком «X», а для участвующих система определяет некоторые данные по типу скорость и т.д.

Основные характеристики

Чтобы качество трансляции удовлетворяло зрителя, алгоритмы должны имитировать операторскую съемку, которая отличается плавностью движений. Имитация движений штатива с подвижной головкой – лучшее решение.

Сценарии использования автоматической съемки

Сценарий 1: дополнительный мяч

Такой обычно используется в лигах низкого уровня и он не является частью игры. К примеру, второй мяч может применяться для тренировок во время матча. Если камера сфокусируется на этом мяче, то трансляция, непременно, будет испорчена. Давайте взглянем, как разные виды операторов смогут решить эту проблему:

  • живой оператор сразу же заметит, что мяч не применяется в игре.
  • роботизированные камеры могут посчитать, что второй мяч является настоящим и переключиться на него. Но когда появится настоящий мяч, камера вновь вернется к нему.
  • панорамная съемка с задержкой может исправить эту ситуацию, выявив ненастоящий мяч за время задержки.
Как работает Pixellot

Сценарий 2: непредсказуемое движение мяча

Предсказать куда отправится мяч – невозможно. Если во время того, как камера увеличила изображение на определенном моменте произойдет то, что искусственный интеллект не смог просчитать, камера просто «потеряется». Итак, рассмотрим, что может произойти в такой ситуации и какие действия предпримут операторы:

  • даже человеку может быть трудно в такие моменты. Здесь проявляется опыт того, как нужно снимать, и умение правильно перемещать камеру. Опытные операторы «понимают игру» и способны за пару мгновений принять правильное решение.
  • роботизированные камеры вряд ли смогут самостоятельно предугадывать движение мяча. Вне зависимости от того, насколько сильными алгоритмами обладают такие камеры, найти мяч они не смогут, а переход будет слишком резким и неестественным.
  • благодаря все той же задержке панорамная съемка сможет находить мяч. В этом также поможет искусственный интеллект, который во время задержки сможет обнаружить то, где находится мяч. Алгоритмическая модель сможет имитировать движения штатива с подвижной головкой.

Сценарий 3: линейные множественные одновременные действия

В этом сценарии линейное вещание может потребоваться для того, чтобы заснять несколько одновременных действий. Например, одно действие происходит рядом с мячом, а другое нет. Для вашего понимания приведем более простой пример: во время штрафного удара нужно показать как игрока, так и вратаря, готовящегося к удару.

  • человек не сможет сделать это при помощи одной камеры.
  • одна роботизированная камера также не сможет заснять два совершенно разных момента.
  • панорамная съемка благодаря задержке может заснять два действия при помощи одной камеры, создав эффект наличия нескольких камер.

Сценарий 4: нелинейные множественные одновременные действия

Бывают ситуации, когда несколько действий происходит одновременно. В таком случае одно действие показывают в реальном времени, а второе на повторе.

  • человек не сможет заснять два момента одной камерой.
  • роботизированная камера также не сможет сделать этого.
  • заснять два момента не в силах даже панорамная съемка, но повторы никто не отменял.

Итог

Панорамная съемка всего поля с незначительной задержкой в 5 секунд позволит имитировать действия человека. Помимо этого, подобное решение позволит создать эффект нескольких камер.

Компьютерное зрение в сочетании с искусственным интеллектом и глубоким обучением смогут обеспечить те же ощущения, что и операторская съемка. В некоторых аспектах такая съемка превосходит работу человека. Такие алгоритмы будут становиться только лучше, и станут поддерживать ещё больше видов спорта.