Google Omni: Новая эра ИИ-видео с плюсами и минусами
В прошлом году был проведен эксперимент по созданию дипфейк-видео плюшевой игрушки, изображающего ее на отдыхе. Тогда это казалось удивительным. Сегодня новая модель искусственного интеллекта Omni от Google, способная превращать любой ввод в любой вывод, показывает еще более впечатляющие, но порой озадачивающие результаты. Она позволяет отправить плюшевую игрушку в виртуальный сплав по реке или создать дипфейк-видео человека на фоне Эйфелевой башни. Однако, несмотря на мощь, до технологической сингулярности еще далеко.
Эксперимент, изначально направленный на воспроизведение сценария из рекламного ролика Google Gemini, показал, насколько тонкой может быть грань между безобидным развлечением с генеративным ИИ и полным хаосом. Очевидно, что инструменты для создания реалистичных видео удивительно эффективны и не требуют значительных усилий или специальных знаний. Эта тенденция активно развивается с появлением модели Omni в рамках семейства Gemini.
Содержание
Знакомство с Omni: Возможности и Улучшения
Omni представляет собой новое семейство генеративных моделей, которое, как предполагается, однажды сможет трансформировать любые входные данные — будь то фото, видео или текст — в что угодно другое. Однако на начальном этапе основное внимание уделяется созданию видео. Omni Flash — первая из этих моделей, выпущенная Google и теперь доступная на платформе для генерации и редактирования видео с помощью ИИ Flow. Пользователи по-прежнему могут использовать предыдущую модель, Veo, но Omni превосходит ее по нескольким параметрам.
С помощью Omni пользователь может загрузить видео и текстовое описание, используя их в качестве отправной точки для создания своего ИИ-генерированного ролика. Google также заявляет, что Omni при создании видео использует больше знаний о реальном мире и лучше справляется с сохранением единообразия персонажей на протяжении всего клипа. Чтобы проверить эти заявления, обозреватель вновь задействовал ИИ-персонажа по имени Бадди, чтобы отправить его в новое виртуальное приключение.
Неоднозначные Результаты Тестирования
Полученные результаты оказались крайне неоднозначными, порой озадачивающими. Некоторые видео были очень хорошими — гораздо более последовательными и соответствующими запросу, чем при тестировании Veo пять месяцев назад. Однако даже в лучших роликах, созданных Omni, встречаются неожиданные «сбои» ИИ, например, когда Бадди внезапно меняет ориентацию во время прыжка с парашютом.
Для другого видео модели Omni была предоставлена некоторая художественная свобода. В качестве запроса было предложено: «Создай монтаж, где Бадди собирается в отпуск и отправляется на круизном лайнере в тропическое путешествие. Настроение милое и игривое. Бадди упаковывает в чемодан что-то забавное, что пригодится позже в клипе». Модель сгенерировала, как Бадди пакует банку с медом; позже в клипе он тянется к ней, как к флакону с солнцезащитным кремом. Персонаж произносит «Ой-ой», когда выдавливает мед на свое копыто.
В целом, задумка была неплохой. Однако флакон с медом постоянно менялся на протяжении видео: от банки он превращался в прозрачный флакон с водой, а затем снова в сжимаемую бутылочку с медом. Заключительный кадр видео, по мнению обозревателя, выглядел хаотично, будто модель беспорядочно сгенерировала множество элементов из предыдущей последовательности.
Редактирование и Стоимость
Пользователи могут использовать текстовые запросы для внесения изменений в видео. Стоит отметить, что эта функция работает лучше в Omni, чем в Veo 3 во время предыдущего тестирования. Однако результаты с Veo были настолько плохими, что было проще генерировать новое видео с нуля при каждом желании внести изменения. Omni действительно учитывает правки, но конечный результат не всегда соответствует ожиданиям.
При попытке акцентировать внимание на мимике Бадди в сценах отдыха, результаты выглядели странно. Модель также периодически добавляла Бадди рога, которых у него нет, поскольку Бадди — олененок. Когда ИИ попросили убрать рога из одной сцены, он выполнил это, но затем добавил их во все остальные.
Стоит отметить, что эти функции не бесплатны. Генерация видео требует кредитов, от 15 до 40 за сцену, в зависимости от длины и исходных элементов. Один раунд редактирования стоит 40 кредитов. Пользователь, оформивший тарифный план AI Pro за 20 долларов США в месяц, получает 1000 кредитов. После создания примерно 20 видеороликов и нескольких правок, остаток составил 145 кредитов. Таким образом, воплощение конкретной идеи может потребовать значительных затрат кредитов и многократного взаимодействия с моделью.
Дипфейки и «Зловещая Долина»
Одна из заявленных сильных сторон Omni — добавление сгенерированных ИИ элементов в реальные видео. Поэтому вместо Бадди, обозреватель использовал собственное изображение. Начав с селфи-видео с нейтральным выражением лица, ИИ-модель попросили сгенерировать видео, где обозреватель ест тарелку спагетти, сидит в кресле самолета и стоит перед Эйфелевой башней, откусывая багет. Результаты оказались весьма впечатляющими.
В сгенерированных дипфейк-видео присутствуют признаки работы ИИ. Звук вилки, ударяющейся о тарелку с пастой, кажется слишком искусственным. На фоне видео в самолете женщина появляется дважды. Однако, несмотря на эти мелкие сбои и легкое ощущение «зловещей долины» (термин, описывающий жутковатые ощущения при виде слишком реалистичных, но все же не идеальных роботов или анимации), видео выглядят чрезвычайно убедительно.
Обозревательница показала видео с пастой своему мужу; он знал, что она тестирует инструмент для работы с ИИ-видео, но не был осведомлен, какие элементы сцены были сгенерированы. Не зная об ИИ-вмешательстве, он поверил, что она сидит перед камерой и ест пасту, отметив лишь, что тарелка выглядит незнакомо. Сам процесс поглощения пасты был достаточно реалистичным, чтобы убедить человека, который видел её в реальной жизни почти каждый день на протяжении последнего десятилетия.
Остальные дипфейки также демонстрируют различный уровень реалистичности, «достаточный для обмана в социальных сетях». Некоторые клипы с Эйфелевой башней выглядят слегка мультяшно, но один из них настолько убедителен, что может потребоваться несколько просмотров, чтобы распознать работу ИИ. Отмечается, что обозревательница распознает ИИ-копию, когда та поворачивает голову и показывает волосы, собранные в хвост. Однако другие пользователи, возможно, не заметят разницы, что вызывает определённое беспокойство.
Заключение: В Долине Реализма
По словам обозревателя, процесс тестирования вызывает некоторое утомление. Ранее, при испытании Veo 3, поражал уровень реализма, который он мог воспроизвести. В последние годы неоднократно удивляла легкость создания фальшивых людей на фальшивых фотографиях. Возможно, модель Omni должна вызывать тот же шок, и, вероятно, она его вызывает, но эффект новизны уже притупился.
Создать кинематографический шедевр с помощью ИИ все еще не так просто, как может показаться из заявлений Google. Однако Omni явно превосходит Veo по ряду параметров. Имея аккаунт Google и кредитную карту, пользователь может снять видео себя дома и с минимальными усилиями превратить его в полет на Мауи. Эксперты считают, что это еще не «преддверие сингулярности», но мы определенно находимся глубоко в «зловещей долине».
Все изображения и видео в этом материале были сгенерированы Google Gemini.

