OmniHuman-1 Beta: AI 디지털 휴먼 분야의 획기적인 혁신

미래를 경험하세요: OmniHuman-1이 AI 디지털 휴먼 혁신을 재정의합니다

Digital-Human.webp 오늘날 빠르게 발전하는 기술 시대에서 AI 디지털 휴먼 기술은 점점 더 많은 크리에이터와 기업들의 관심사가 되고 있습니다. OmniHuman-1은 이 분야에서 확실히 두드러지는 존재입니다. 이 글에서는 OmniHuman-1의 뛰어난 성능을 여러 각도에서 탐구해 보겠습니다.

OmniHuman-1의 놀라운 성능

</p> 디지털 휴먼과 AI 립싱크 기술 분야에서 AI.TALK 팀은 깊은 업계 전문 지식과 풍부한 실무 경험을 바탕으로 약 300명의 디지털 휴먼을 만들었습니다. 그들은 시장에서 이용 가능한 거의 모든 오픈소스와 독점 디지털 휴먼 기술을 실험하며 풍부한 실무 경험을 쌓았습니다. OmniHuman-1의 베타 테스트에 참여한 후, 이 팀은 이 제품에 대해 매우 높은 평가를 내렸습니다.

이를 현재 시장에서 최고의 AI 디지털 휴먼 제품으로 간주하며, 이에 견줄 만한 제품이 없다고 생각합니다.

이것이 과장일까요? 다음 예시를 살펴보겠습니다: Digital-Human-Piano.jpg

OmniHuman-1의 강점은 프로필 뷰에서 디지털 휴먼의 립싱크를 완벽하게 구현하고, 음악의 가사를 자동으로 인식하며, 이미지 기반 디지털 휴먼이 자연스럽게 흔들리며 악기와 상호작용할 수 있게 하는 데 있습니다.

이제 다음 영상을 살펴보겠습니다:

입술의 선명도가 매우 높으며, 마이크가 가려지거나 복잡한 조명 조건에서도 립싱크가 정확합니다. 또한, 캐릭터들은 음악에 맞춰 다양한 표정을 보여줄 수 있습니다. 이러한 능력은 팀을 놀라게 했습니다.

기술적 도전 과제 극복의 돌파구

이 팀은 2023년 초에 설립되었으며, 그 과정에서 D-ID와 HeyGen과 같은 수많은 유명 제품들을 익히고 테스트했습니다. 그러나 이러한 제품들은 여전히 다음과 같은 기술적 영역에서 몇 가지 도전 과제에 직면해 있습니다:

  • 얼굴 특징 제한: 전통적인 기술은 개인의 명확하고 가려지지 않은 정면 사진을 업로드해야 합니다. 측면이나 위쪽 각도로 찍은 사진은 종종 인식 실패를 초래합니다. 인식이 간신히 이루어져도 생성된 결과는 크게 훼손됩니다.
  • 동적 제한: 초기 이미지 기반 디지털 휴먼 기술에서는 몸동작이 경직되어 머리와 입만 움직이며 자연스러운 몸동작이 부족했습니다.
  • 픽셀 제한: 전통적인 립싱크 방법은 종종 입 주변의 픽셀 저하를 초래하여 입 주변이 흐릿하게 출력되어 창의적 결과에 부정적인 영향을 미칩니다.
  • 리듬 제한: 오디오 음성 속도가 너무 빠를 때, 디지털 휴먼의 립싱크가 혼란스러워져 고주파 입동작을 맞추기 어렵습니다.

OmniHuman-1의 등장은 이러한 기술적 도전 과제를 성공적으로 극복했습니다. 이는 다중 모드 동작 조건 혼합 훈련 전략을 도입하여 모델이 혼합 조건 데이터 확장의 혜택을 누리게 하고 고품질 데이터의 부족 문제를 해결했습니다. OmniHuman-1은 초상화, 반신, 전신 이미지 등 어떤 종횡비의 이미지 입력도 지원하며 다양한 시나리오에서 생생하고 고품질의 결과를 제공합니다.

OmniHuman-1의 혁신적 가치

이것은 각도 제한을 없앱니다. 우리가 디지털 휴먼을 만들기 위해 이미지를 업로드할 때, 플랫폼은 일반적으로 사용자에게 개인의 명확하고 가려지지 않은 정면 사진을 제출하도록 요구합니다. 그 이유는 간단합니다: 이 기술의 핵심은 얼굴 특징을 정확하게 인식하는 데 있습니다. 만약 실패한다면 "얼굴을 인식할 수 없음"과 같은 메시지가 나타납니다. 따라서 아래와 같은 사진은 확실히 받아들일 수 없으며, 측면이나 위쪽 각도는 종종 인식 실패를 초래합니다. 때로는 운이 좋아 45도 측면 각도가 인식될 수도 있지만, 생성된 결과는 크게 훼손되며 입이 왜곡되는 등의 문제가 흔합니다.

Digital-Human-face.jpg Digital-Human-face2.jpg

이제 OmniHuman-1의 90도 측면 프로필과 위쪽 각도에서의 성능을 살펴보겠습니다:

두 영상에서의 립싱크는 거의 완벽하며, 다양한 자연스러운 동작이 동반됩니다. 이것은 강한 성능과 약한 성능의 차이가 아니라 가능한 것과 불가능한 것의 차이임을 유의하십시오.

OmniHuman-1은 각도 제한을 없애 영화 및 비디오 제작에서 캐릭터가 다양한 대화 각도와 샷 구성을 "잠금 해제"할 수 있게 하며, 더 이상 카메라를 정면으로 바라보는 데 제한되지 않습니다. 또한, 개선된 얼굴 특징 인식은 동물과 같은 비인간 얼굴에 대한 내성도 향상시킵니다. 예를 들어, 3D 스타일의 양은 이제 기본적인 립싱크와 대화 인식을 달성하여 일상적인 창작의 요구를 충족시킬 수 있습니다.

또한, 얼굴 특징에 대한 내성 증가는 아래에서 언급한 2D 애니메이션과 수묵화 스타일과 같은 다양한 스타일의 인식에도 반영됩니다. 다른 모델들도 이러한 스타일에서 입동작을 생성할 수 있지만, 완전성과 몸동작의 동적 측면에서 OmniHuman-1은 현재까지 최고입니다. 이는 이미지 기반 디지털 휴먼에 대한 다음 문제로 이어집니다.

OmniHuman-1은 I2V(Image-to-Video) 수준에서의 동적 시각적 성능에서 뛰어납니다. 손오공(Monkey King)의 예를 들어보겠습니다: 그의 얼굴 인식은 매우 정확하며, 말할 때 그의 전체 몸과 주변 환경이 자연스럽고 높은 진폭의 동작을 보입니다. 그의 머리의 상하 움직임은 몸의 리듬과 완벽하게 통합되며, 물결도 그의 동작과 동기화되어 마치 단일 이미지에서 애니메이션 비디오 생성을 이끌어내는 것 같습니다.

음악 측면에서 OmniHuman-1은 특화된 최적화를 거쳤습니다. 음악의 가사를 직접 인식하는 것 외에도, 캐릭터들의 얼굴은 다양한 감정을 표시할 수 있으며 다중 인물 노래와 악기 연주를 지원합니다.

입술 픽셀 성능은 더욱 놀랍습니다. 이는 캐릭터의 원래 얼굴 특징을 유지할 뿐만 아니라 매우 높은 수준의 선명도를 달성합니다. 예를 들어, Fok의 애니메이션과 여성 가수의 클로즈업 디테일에서 생성된 이빨조차 매우 자연스럽게 재현됩니다.

Digital-Human-mouce.jpg Digital-Human-mouce2.jpg 원본 이미지에는 이빨이 없었습니다; 이빨은 전적으로 OmniHuman-1에 의해 생성되었습니다. 디테일의 정교함은 정말 놀랍습니다.

Digital-Human-mouce3.jpg Digital-Human-mouce4.jpg Digital-Human-mouce5.jpg

다음은 픽셀 인식입니다. 이는 립싱크를 방해하는 두 가지 요소인 강한 조명과 긴 수염을 포함합니다. 전자는 강한 빛과 그림자 대비가 있는 이미지가 비디오 생성에 실패하게 할 수 있습니다. Runway에서는 "과도한 빛과 그림자 대비"라는 메시지가 나타납니다. 예를 들어, 샘플 비디오에서 차 안에 앉아 있는 노인의 얼굴에는 끊임없이 변화하는 그림자가 있습니다. OmniHuman-1 외에는 거의 다른 플랫폼이 입술을 성공적으로 대체할 수 없습니다. 긴 수염은 종종 입 주변을 흐리게 만듭니다. 그러나 샘플 클립에서 볼 수 있듯이, OmniHuman-1은 거의 완벽하게 수염을 재현하며 디테일의 손실 없이 이를 수행합니다.

인상적입니다. 이를 설명할 다른 단어가 없습니다.

마지막 도전 과제는 말이 너무 빠른 문제입니다. 경험이 있는 사람이라면 누구나 이 문제를 겪었을 것입니다: 제공한 오디오의 음성 속도가 너무 빠를 때, 디지털 휴먼의 립싱크는 확실히 혼란스러워집니다. 이는 애니메이션 프레임 속도가 고주파 입동작 변화를 맞추기 어렵기 때문에 발생합니다. 그러나 OmniHuman-1은 이 문제도 매우 잘 해결했습니다. Steve Jobs가 극도로 빠른 속도로 말하는 세그먼트에서 립싱크에는 거의 결함이 없습니다. 랩 음악의 경우에도 문제가 되지 않을 것입니다.

현재 문제와 미래 전망

상당한 기술적 발전에도 불구하고, OmniHuman-1은 여전히 개선할 부분이 있습니다. 현재 OmniHuman-1은 어떤 미세 조정 기능도 제공하지 않습니다. 예를 들어, 캐릭터가 말할 때 그들의 동작 진폭이 너무 클 수 있습니다. 몸동작의 진폭을 미세 조정하고 팔다리 동작에 대한 더 많은 선택지를 제공하는 옵션을 추가할 것을 제안합니다. 또한, OmniHuman-1은 현재 이미지 기반 애니메이션만 지원하며 비디오 립싱크는 아직 지원하지 않습니다. 이 기능이 곧 도입되기를 바랍니다. 현재 생성된 콘텐츠의 15초 제한은 짧지 않지만 여전히 개선의 여지가 있습니다. 생성 속도 측면에서, 내부 테스트 단계에서는 단일 클립을 생성하는 데 약 15-20분이 소요됩니다. 제품이 공식 출시될 때 이 과정이 최적화되고 더 효율적으로 이루어지기를 바랍니다.

요약

강력한 기술력과 뛰어난 성능으로, OmniHuman-1은 현재 시장에서 최고의 AI 디지털 휴먼 제품임에 틀림없습니다. 이는 얼굴 특징 내성, 정밀도, 미적 매력에서 최상위 성능을 달성했으며 개별 기능에서도 명확한 이점을 가지고 있습니다. 이의 출시는 디지털 휴먼과 AI 뮤직 비디오의 응용을 크게 촉진하고 영화 및 TV 제작에 더 많은 가능성을 가져올 것으로 기대됩니다. OmniHuman-1은 AI 디지털 휴먼 분야에 게임 체인저적인 영향을 미쳤으며, 공식 출시될 때 더 많은 놀라움을 기대합니다.

이 글은 AITalk의 한 청 블로거의 내용을 각색한 것으로, 특별히 감사드립니다.