OmniHuman-1 Beta: Una Innovación Revolucionaria en el Campo de los Humanos Digitales de IA

En la era tecnológica de rápida evolución actual, la tecnología de humanos digitales con IA se está convirtiendo cada vez más en un punto focal para muchos creadores y empresas. OmniHuman-1 es, sin duda, un destacado en este campo. Este artículo explorará el rendimiento excepcional de OmniHuman-1 desde múltiples perspectivas.

El Impresionante Rendimiento de OmniHuman-1

</p> En los campos de los humanos digitales y la tecnología de sincronización labial con IA, el equipo de AI.TALK, aprovechando su profunda experiencia en la industria y su amplia experiencia práctica, ha creado aproximadamente 300 humanos digitales. Han experimentado con casi todas las tecnologías de humanos digitales de código abierto y propietarias disponibles en el mercado, acumulando una gran cantidad de experiencia práctica. Después de participar en las pruebas beta de OmniHuman-1, el equipo ha elogiado este producto de manera excepcional,

considerándolo el mejor producto de humano digital con IA disponible en la actualidad, sin excepción.

¿Es esto una exageración? Veamos este ejemplo:

<iframe 
    style="width: 100%; height: auto; aspect-ratio: 16/9;"  src="https://cdn.omnihuman1.org/video/0b2edmabwaaamaapygfymbtvag6ddmnqagya.f10002.mp4" 
    frameborder="0" 
    allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" 
    allowfullscreen>
</iframe>

La fortaleza de OmniHuman-1 radica en su capacidad para lograr perfectamente la sincronización labial de humanos digitales en vistas de perfil, reconocer automáticamente las letras en la música y permitir que los humanos digitales basados en imágenes se balanceen naturalmente e interactúen con instrumentos musicales.

Ahora, echemos un vistazo al siguiente segmento:

Su claridad bucal es excepcionalmente alta, e incluso en condiciones desafiantes como la obstrucción del micrófono o iluminación compleja, la sincronización labial sigue siendo precisa. Además, los personajes pueden mostrar una amplia gama de emociones faciales en sincronía con la música. Estas capacidades dejaron al equipo asombrado.

Avances en la Superación de Desafíos Técnicos

El equipo se estableció a principios de 2023, y en el camino, se han familiarizado y probado numerosos productos conocidos, como D-ID y HeyGen. Sin embargo, estos productos aún enfrentan varios desafíos en las siguientes áreas técnicas:

Limitaciones de Características Faciales: Las tecnologías tradicionales requieren subir fotos frontales claras y sin obstrucciones de las personas. Las fotos tomadas de lado o en ángulo hacia arriba a menudo resultan en fallos de reconocimiento. Incluso si se logra el reconocimiento, los resultados generados se ven significativamente comprometidos.
Limitaciones Dinámicas: En las primeras tecnologías de humanos digitales basados en imágenes, los movimientos corporales eran rígidos, con solo movimientos de cabeza y boca, careciendo de dinámicas corporales naturales.
Limitaciones de Píxeles: Los métodos convencionales de sincronización labial a menudo conducen a la degradación de píxeles alrededor de la boca, resultando en una salida borrosa alrededor de la boca, lo que afecta negativamente los resultados creativos.
Limitaciones de Ritmo: Cuando la velocidad del habla en el audio es demasiado rápida, la sincronización labial del humano digital puede desordenarse, dificultando la coincidencia con los movimientos bucales de alta frecuencia.

La aparición de OmniHuman-1 ha superado con éxito estos desafíos técnicos. Introduce una estrategia de entrenamiento híbrido condicionado por movimiento multimodal, permitiendo que el modelo se beneficie de la expansión de datos de condiciones mixtas y abordando la escasez de datos de alta calidad. OmniHuman-1 admite entradas de imágenes de cualquier relación de aspecto, ya sean retratos, imágenes de medio cuerpo o de cuerpo completo, entregando resultados vívidos y de alta calidad en varios escenarios.

El Valor Innovador de OmniHuman-1

Elimina las restricciones de ángulo. Cuando subimos imágenes para crear humanos digitales, las plataformas generalmente requieren que los usuarios envíen fotos frontales claras y sin obstrucciones de las personas. La razón es simple: el núcleo de esta tecnología depende de reconocer con precisión las características faciales. Si falla, aparecerán mensajes como "No se puede reconocer la cara". Por lo tanto, fotos como las siguientes definitivamente no son aceptables, ya que los ángulos de lado o hacia arriba a menudo conducen a fallos de reconocimiento. A veces, con suerte, un ángulo de 45 grados podría ser reconocido, pero los resultados generados se verán significativamente comprometidos, con problemas como bocas distorsionadas siendo comunes.

Ahora, echemos un vistazo al rendimiento de OmniHuman-1 con perfiles de 90 grados y ángulos hacia arriba:

La sincronización labial en ambos videos es casi perfecta, acompañada de una amplia gama de movimientos naturales. Tenga en cuenta que esto no es una diferencia entre un rendimiento fuerte y débil, es una diferencia entre lo posible y lo imposible.

OmniHuman-1 elimina las restricciones de ángulo, permitiendo que los personajes en la producción de cine y video "desbloqueen" una amplia gama de ángulos de diálogo y composiciones de toma, ya no limitados a enfrentar directamente la cámara. Además, la mejora en el reconocimiento de características faciales también aumenta la tolerancia para caras no humanas, como animales. Por ejemplo, un cordero en estilo 3D ahora puede lograr una sincronización labial básica y reconocimiento de diálogo, satisfaciendo las necesidades de la creación diaria.

Además, la mayor tolerancia para las características faciales también se refleja en el reconocimiento de diferentes estilos, como los estilos de anime 2D y de tinta mencionados a continuación. Si bien otros modelos también pueden generar movimientos labiales en estos estilos, en términos de integridad y la dinámica de los movimientos corporales, OmniHuman-1 sigue siendo el mejor en la actualidad. Esto lleva al siguiente problema respecto a los humanos digitales basados en imágenes.

OmniHuman-1 sobresale en el rendimiento visual dinámico a nivel de I2V (Imagen a Video). Tomemos el ejemplo de Sun Wukong (el Rey Mono): Su reconocimiento facial es altamente preciso, y cuando habla, todo su cuerpo y el entorno circundante están en un movimiento natural de alta amplitud. El movimiento de arriba y abajo de su cabeza se integra perfectamente con el ritmo de su cuerpo, e incluso las ondas de agua se sincronizan con sus acciones, como si impulsaran la generación de un video animado a partir de una sola imagen.

En cuanto a la música, OmniHuman-1 ha sido optimizado específicamente. Además de reconocer directamente las letras en la música, las caras de los personajes también pueden mostrar una amplia gama de emociones y apoyar el canto y la interpretación de instrumentos de varias personas.

Su rendimiento de píxeles labiales es aún más asombroso. No solo conserva las características faciales originales del personaje, sino que también logra un nivel de claridad increíblemente alto. Por ejemplo, en los detalles de primer plano de la animación de Fok y una cantante femenina, incluso los dientes generados se reproducen de manera extremadamente natural.

La imagen original ni siquiera tenía dientes; fueron generados completamente por OmniHuman-1. El nivel de refinamiento de los detalles es verdaderamente asombroso.

Lo siguiente es el reconocimiento de píxeles, que involucra dos elementos que a menudo interfieren con la sincronización labial: iluminación fuerte y barbas largas. La primera puede hacer que las imágenes con contrastes intensos de luz y sombra fallen en la generación de video. En Runway, aparecería el mensaje "contraste excesivo de luz y sombra". Por ejemplo, en un video de muestra, una persona mayor sentada en un automóvil tiene sombras constantemente cambiantes en su rostro. Además de OmniHuman-1, casi ninguna otra plataforma puede reemplazar con éxito los labios. Las barbas largas, por otro lado, a menudo causan borrosidad alrededor de la boca. Sin embargo, como se ve en los clips de muestra, OmniHuman-1 puede reproducir casi perfectamente las barbas sin pérdida de detalle.

Impresionante, no hay otras palabras para describirlo.

El desafío final es el problema de hablar demasiado rápido. Cualquiera con experiencia lo ha encontrado: cuando la velocidad del habla en el audio que proporcionas es demasiado rápida, la sincronización labial del humano digital definitivamente se desordenará. Esto se debe a que la tasa de fotogramas de la animación lucha por coincidir con los cambios de alta frecuencia en los movimientos labiales, resultando en una falta de coincidencia. Sin embargo, OmniHuman-1 también ha abordado este problema muy bien. En el segmento con Steve Jobs hablando a un ritmo extremadamente rápido, casi no hay fallas en la sincronización labial. Incluso para la música rap, no debería ser un problema.

Problemas Existentes y Perspectivas Futuras

A pesar de sus avances tecnológicos significativos, OmniHuman-1 aún tiene áreas de mejora. Actualmente, OmniHuman-1 no ofrece ninguna función de ajuste fino. Por ejemplo, cuando los personajes hablan, la amplitud de sus movimientos puede ser demasiado grande. Se sugiere que se agreguen opciones para ajustar la amplitud de los movimientos corporales y proporcionar más opciones para las acciones de las extremidades. Además, OmniHuman-1 actualmente solo admite animaciones impulsadas por imágenes y aún no admite la sincronización labial de video. Se espera que esta función se introduzca pronto. La limitación actual de 15 segundos para el contenido generado no es corta, pero aún hay margen de mejora. En términos de velocidad de generación, durante la fase de pruebas internas, toma aproximadamente 15-20 minutos generar un solo clip. Se espera que este proceso se optimice y se haga más eficiente cuando el producto se lance oficialmente.

Resumen

Con sus fuertes capacidades técnicas y su rendimiento sobresaliente, OmniHuman-1 es, sin duda, el mejor producto de humano digital con IA disponible actualmente. Ha logrado un rendimiento de primer nivel en la tolerancia de características faciales, precisión y atractivo estético, con claras ventajas en funciones individuales. Su lanzamiento se espera que impulse significativamente la aplicación de humanos digitales y videos musicales con IA y traiga más posibilidades a la producción cinematográfica y televisiva. OmniHuman-1 ha tenido un impacto transformador en el campo de los humanos digitales con IA, y esperamos más sorpresas cuando se lance oficialmente.

Este artículo está adaptado del contenido del bloguero Han Qing de AITalk, con agradecimientos especiales.