OmniHuman-1 Beta: Инновационный прорыв в области AI Digital Humans

В современную эпоху стремительного развития технологий, технология AI digital human становится все более важной для многих создателей и бизнесов. OmniHuman-1, несомненно, является лидером в этой области. В этой статье мы рассмотрим выдающиеся характеристики OmniHuman-1 с разных точек зрения.

Потрясающие характеристики OmniHuman-1

</p> В области цифровых людей и технологии синхронизации губ AI, команда AI.TALK, используя свои глубокие знания и обширный практический опыт, создала около 300 цифровых людей. Они протестировали почти все доступные на рынке технологии цифровых людей, как открытые, так и проприетарные, накопив богатый практический опыт. После участия в бета-тестировании OmniHuman-1, команда дала этому продукту исключительно высокую оценку,

считая его лучшим продуктом AI digital human на сегодняшний день — без исключений.

Это преувеличение? Давайте рассмотрим этот пример:

Сила OmniHuman-1 заключается в его способности идеально синхронизировать губы цифровых людей в профильных видах, автоматически распознавать текст в музыке и позволять цифровым людям на основе изображений естественно двигаться и взаимодействовать с музыкальными инструментами.

Теперь давайте рассмотрим следующий фрагмент:

Четкость рта исключительно высока, и даже в сложных условиях, таких как препятствие микрофона или сложное освещение, синхронизация губ остается точной. Кроме того, персонажи могут отображать широкий спектр эмоций на лице в такт музыке. Эти возможности оставили команду в восхищении.

Прорыв в преодолении технических вызовов

Команда была создана в начале 2023 года, и за это время они познакомились и протестировали множество известных продуктов, таких как D-ID и HeyGen. Однако эти продукты все еще сталкиваются с несколькими вызовами в следующих технических областях:

Ограничения черт лица: Традиционные технологии требуют загрузки четких, не загороженных фронтальных фотографий людей. Фотографии, сделанные сбоку или под углом вверх, часто приводят к сбоям в распознавании. Даже если распознавание удается, результаты значительно ухудшаются.
Динамические ограничения: В ранних технологиях цифровых людей на основе изображений движения тела были жесткими, с движениями только головы и рта, без естественной динамики тела.
Ограничения пикселей: Традиционные методы синхронизации губ часто приводят к ухудшению пикселей вокруг рта, что негативно влияет на творческие результаты.
Ограничения ритма: Когда скорость речи в аудио слишком высока, синхронизация губ цифрового человека может стать хаотичной, что затрудняет соответствие высокочастотным движениям рта.

Появление OmniHuman-1 успешно преодолело эти технические вызовы. Он вводит мультимодальную стратегию обучения с условием движения, позволяя модели извлекать выгоду из расширения данных с смешанными условиями и решая проблему нехватки качественных данных. OmniHuman-1 поддерживает изображения любого соотношения сторон, будь то портреты, полуфигуры или полные фигуры, обеспечивая яркие и качественные результаты в различных сценариях.

Инновационная ценность OmniHuman-1

Он устраняет ограничения угла. Когда мы загружаем изображения для создания цифровых людей, платформы обычно требуют, чтобы пользователи предоставляли четкие, не загороженные фронтальные фотографии людей. Причина проста: ядро этой технологии зависит от точного распознавания черт лица. Если это не удается, появляются сообщения вроде "Не удалось распознать лицо". Поэтому фотографии, подобные приведенным ниже, определенно неприемлемы, так как боковые или углы вверх часто приводят к сбоям в распознавании. Иногда, с удачей, 45-градусный боковой угол может быть распознан, но результаты будут значительно ухудшены, с такими проблемами, как искажение рта.

Теперь давайте посмотрим на производительность OmniHuman-1 с 90-градусными боковыми профилями и углами вверх:

Синхронизация губ в обоих видео почти идеальна, сопровождаемая широким спектром естественных движений. Обратите внимание, что это не разница между сильной и слабой производительностью — это разница между возможным и невозможным.

OmniHuman-1 устраняет ограничения угла, позволяя персонажам в кино и видео "разблокировать" широкий спектр углов диалога и композиций кадров, больше не ограничиваясь прямым взглядом в камеру. Кроме того, улучшенное распознавание черт лица также повышает толерантность к нечеловеческим лицам, таким как животные. Например, 3D-стилизованный ягненок теперь может достичь базовой синхронизации губ и распознавания диалога, удовлетворяя потребности ежедневного творчества.

Кроме того, повышенная толерантность к чертам лица также отражается в распознавании различных стилей, таких как 2D аниме и стиль чернильной живописи, упомянутые ниже. Хотя другие модели также могут генерировать движения губ в этих стилях, с точки зрения полноты и динамики движений тела, OmniHuman-1 все еще остается лучшим на данный момент. Это приводит к следующему вопросу, касающемуся цифровых людей на основе изображений.

OmniHuman-1 преуспевает в динамической визуальной производительности на уровне I2V (Image-to-Video). Возьмем пример Сунь Укуна (Царя обезьян): Его распознавание лица очень точное, и когда он говорит, все его тело и окружающая среда находятся в естественном, высокоамплитудном движении. Движения головы вверх и вниз плавно интегрируются с ритмом его тела, и даже волны воды синхронизируются с его действиями, как будто управляя генерацией анимационного видео из одного изображения.

В области музыки OmniHuman-1 прошел целевую оптимизацию. В дополнение к прямому распознаванию текста в музыке, лица персонажей также могут отображать широкий спектр эмоций и поддерживать многопользовательское пение и исполнение на инструментах.

Его производительность в пикселях губ еще более удивительна. Он не только сохраняет оригинальные черты лица персонажа, но и достигает невероятно высокого уровня четкости. Например, в крупных планах анимации Фока и певицы, даже сгенерированные зубы воспроизводятся крайне естественно.

Оригинальное изображение даже не содержало зубов; они были полностью сгенерированы OmniHuman-1. Уровень детализации действительно поражает.

Следующий элемент — это распознавание пикселей, которое включает два элемента, часто мешающих синхронизации губ: сильное освещение и длинные бороды. Первое может привести к тому, что изображения с сильными контрастами света и тени не смогут быть преобразованы в видео. В Runway это вызовет сообщение "чрезмерный контраст света и тени". Например, в образце видео, пожилой человек, сидящий в машине, имеет постоянно меняющиеся тени на лице. Кроме OmniHuman-1, почти никакая другая платформа не может успешно заменить губы. Длинные бороды, с другой стороны, часто вызывают размытость вокруг рта. Однако, как видно в образцах клипов, OmniHuman-1 может почти идеально воспроизвести бороды без потери деталей.

Впечатляюще, других слов не подобрать.

Последний вызов — это проблема слишком быстрой речи. Любой, кто имеет опыт, сталкивался с этим: когда скорость речи в предоставленном аудио слишком высока, синхронизация губ цифрового человека определенно станет хаотичной. Это происходит потому, что частота кадров анимации с трудом справляется с высокочастотными изменениями движений губ, что приводит к несоответствию. Однако OmniHuman-1 также очень хорошо справился с этой проблемой. В фрагменте, где Стив Джобс говорит с чрезвычайно высокой скоростью, почти нет недостатков в синхронизации губ. Даже для рэп-музыки это не должно быть проблемой.

Существующие проблемы и будущие перспективы

Несмотря на значительные технологические достижения, OmniHuman-1 все еще имеет области для улучшения. В настоящее время OmniHuman-1 не предлагает функций тонкой настройки. Например, когда персонажи говорят, амплитуда их движений может быть слишком большой. Предлагается добавить опции для тонкой настройки амплитуды движений тела и предоставить больше вариантов действий конечностей. Кроме того, OmniHuman-1 в настоящее время поддерживает только анимацию, управляемую изображениями, и еще не поддерживает синхронизацию губ с видео. Надеемся, что эта функция будет введена в ближайшее время. Текущее ограничение в 15 секунд для генерируемого контента не является коротким, но все еще есть место для улучшения. В плане скорости генерации, на этапе внутреннего тестирования, создание одного клипа занимает примерно 15-20 минут. Надеемся, что этот процесс будет оптимизирован и станет более эффективным при официальном запуске продукта.

Заключение

С его мощными техническими возможностями и выдающейся производительностью, OmniHuman-1, несомненно, является лучшим продуктом AI digital human на сегодняшний день. Он достиг высшего уровня в толерантности черт лица, точности и эстетической привлекательности, с явными преимуществами в отдельных функциях. Его запуск, как ожидается, значительно повысит применение цифровых людей и AI музыкальных видео и принесет больше возможностей в кино и телепроизводство. OmniHuman-1 оказал революционное влияние на область AI digital human, и мы с нетерпением ждем больше сюрпризов при его официальном запуске.

Эта статья адаптирована из контента блогера Хань Цин из AITalk, с особыми благодарностями.