Image reproduite avec l'aimable autorisation de Metaverse Entertainment

Faites la connaissance de MAVE:, un groupe virtuel de K-pop créé avec MetaHuman et l'Unreal Engine

Jinyoung Choi |
1 juin 2023
Metaverse Entertainment est une entreprise de production de contenu multimédia née du mariage de la technologie de Netmarble F&C et de la sensibilité de Kakao Entertainment. Elle possède les compétences et les infrastructures nécessaires à la production de films et de séries, à la création de contenu très divers comme les effets visuels et les humains virtuels ainsi qu'à leur exploitation dans divers travaux artistiques.
Le groupe virtuel de K-pop MAVE: a sorti son premier clip fin janvier 2023. Après ce lancement, il a fait sa première apparition dans Show! Music Core, l'une des plus célèbres émissions musicales de la télévision sud-coréenne, pour lancer un mouvement d'ampleur dans le domaine. MAVE: a fortement marqué les esprits grâce à ses personnages et leurs animations réalistes, mais surtout grâce à sa musique entraînante. Au moment de rédiger ce Coup de projecteur, le clip de MAVE: compte 21 millions de vues et la vidéo de son concert live, 3 millions. MAVE: communique avec ses fans à travers plusieurs canaux, notamment les émissions de télévision et les réseaux sociaux.

Nous avons échangé avec Sung-Ku Kang, le directeur technique de Metaverse Entertainment, afin de découvrir comment l'entreprise a utilisé l'Unreal Engine et MetaHuman pour créer des humains numériques réalistes et proposer du contenu sur plusieurs plateformes dans des délais serrés.
 

Q : Je suppose que la première étape a été de créer les membres du groupe MAVE:. Quels étaient vos objectifs dans la création des personnages numériques ?

Pour les quatre membres virtuels du groupe MAVE:, l'objectif était de créer des personnages convaincants, singuliers dans leur apparence et d'en faire une première mondiale. Pour créer un personnage séduisant, l'apparence ne suffit pas ; il faut prévoir toute une gamme d'expressions du visage pour s'adapter à différentes situations. Nous avons donc axé notre travail sur la définition et le développement d'un pipeline et des technologies capables de remplir ces objectifs.

Q : Il paraît que vous avez utilisé MetaHuman pour créer vos personnages. Pourquoi ce choix ?

Comme je l'ai dit, en plus d'une apparence séduisante, le charisme d'un personnage nécessite diverses expressions du visage détaillées et adaptées à toutes les situations. Cependant, la création et la modification de ces expressions sont chronophages et chères, parce qu'elles impliquent d'importants travaux de modélisation et de squelettage et de nombreux cycles d'itération et de vérification. La technologie MetaHuman d'Epic Games, peaufinée grâce à plusieurs décennies d'expérience dans la création d'humains numériques, s'est donc imposée à nous. C'était l'une des pierres angulaires dans le pipeline de création des personnages.

Grâce au squelette facial de MetaHuman, nous avons pu créer facilement les expressions du visage souhaitées et les mutualiser entre les personnages. Nous avons également effectué beaucoup de recherche et développement (par exemple, pour améliorer le contrôle des squelettes) en nous appuyant sur le livre blanc Rig Logic: Runtime Evaluation of MetaHuman Face Rigs, proposé par Epic Games. En outre, le haut niveau de compatibilité avec des outils externes (comme Audio2Face de NVIDIA, l'application Live Link Face pour iPhone, Faceware et FACEGOOD) nous a permis d'appliquer les animations aux MetaHumans et de réduire considérablement le temps effectif de production grâce au partage des topologies de maillage sous-jacentes, des UV, des structures articulaires et des commandes.

Q : Pourquoi avoir opté pour l'Unreal Engine avec MetaHuman ?

Lors de la planification du projet MAVE:, nous avons beaucoup réfléchi à son positionnement et aux activités auxquelles le groupe virtuel participerait. La productivité de la création des contenus était un aspect essentiel à prendre en compte. Bon nombre de ces activités nécessitent la production de beaucoup de contenu, ce qui implique une bonne efficacité. Sans quoi, la qualité visuelle en aurait pâti. Nous avons donc choisi l'Unreal Engine pour son efficacité, mais aussi pour la qualité de son rendu en temps réel. Nous avons utilisé l'Unreal Engine pour multiplier les activités de MAVE: dans divers domaines. Nous avons notamment créé un clip transmédia en peu de temps et des vidéos pour les réseaux sociaux. De plus, des émissions et des publicités pour la télévision sont prévues.

Les réseaux sociaux constituent un canal important pour susciter l'engagement du public et tisser des liens. Pour les favoriser, il faut créer beaucoup de contenu de grande qualité et sous des formes diverses. Parmi tous les outils disponibles, nous avons donc opté pour l'Unreal Engine. Grâce à ce moteur, nous avons créé différents types de contenus, notamment des images photoréalistes et des vidéos qui suscitent l'engagement des fans à travers plusieurs plateformes sociales.

Q : Pouvez-vous décrire le pipeline de création des personnages de MAVE: ?

L'équipe de création de MAVE: se compose de talents issus de plusieurs domaines, notamment du cinéma et du jeu vidéo. Ils connaissaient différents outils de création de contenu numérique selon leur spécialité. Par exemple, les membres de l'équipe qui viennent du jeu vidéo sont à l'aise avec le rendu en temps réel et ceux des médias et du divertissement sont experts en production vidéo. Nous avons donc défini un pipeline sur mesure pour favoriser au maximum les synergies dans l'équipe.

Le pipeline comprend un volet planification et un volet création des personnages. La création est divisée en sous-étapes, notamment la modélisation, la création des expressions du visage, le squelettage, la création des cheveux et l'étalonnage corporel.

La planification désigne la conception de l'apparence de chaque personnage. Ce processus a été mené en étroite collaboration avec les experts de Kakao Entertainment, qui sont très expérimentés dans la planification de groupes de K-pop à succès. Néanmoins, les membres des groupes de K-pop habituels sont sélectionnés parmi de jeunes artistes et leur apparence est définie par le maquillage et le stylisme. Dans le cas d'un groupe virtuel, nous devons créer des humains virtuels entièrement nouveaux et convaincants, pas seulement dans leur apparence, mais aussi dans les détails de leurs expressions du visage, leurs mouvements, leurs manières de s'exprimer, etc.

Pour combler cet écart et fournir à l'équipe de planification un contexte de travail aussi proche que possible de leurs conditions habituelles, l'équipe de production a défini un pipeline qui exploite un réseau GAN pour générer automatiquement des images cibles et modifier ou combiner manuellement des vecteurs propres. Grâce à ce système, l'équipe de planification a pu sélectionner un personnage existant, puis modifier ses paramètres d'après le plan, plutôt que de définir son apparence depuis zéro. Cette équipe nous a aidés en prodiguant son expertise dans la formule qui caractérise un groupe de K-pop à succès, qu'elle a peaufiné au fil des ans.
 
Image reproduite avec l'aimable autorisation de Metaverse Entertainment
Composition d'image créée à l'aide d'un réseau GAN

Comme les modèles faciaux sont directement influencés par le style des personnages, nous avons travaillé avec des stylistes experts en vêtements et en coiffures de K-pop afin de définir des looks réussis avant de passer à l'étape de modélisation des visages. En numérisant une personne réelle, nous aurions obtenu une apparence réaliste beaucoup plus vite. Néanmoins, en procédant ainsi, plusieurs problèmes se posent, comme la difficulté de trouver une personne qui possède exactement le physique recherché et les questions de droits à l'image. Nous avons donc créé les visages de MAVE: avec des outils de modélisation.
 
Image reproduite avec l'aimable autorisation de Metaverse Entertainment
Les modèles 3D de MAVE:

Lors des étapes de création et de modification des expressions du visage, nous avons utilisé notre propre outil, qui analyse le modèle et génère automatiquement 800 expressions en exploitant les informations sur l'emplacement et la taille de chaque zone, sur les mouvements musculaires, etc. Ce processus ressemble aux fonctionnalités qui génèrent automatiquement les expressions de visage sur un maillage type simple, comme le plug-in Mesh to MetaHuman. Nous avons développé notre propre outil, parce que le plug-in Mesh to MetaHuman n'était pas encore disponible, mais il nous a ensuite beaucoup aidé dans les modifications nécessaires de l'algorithme et la définition d'un pipeline automatisé.

Pour compléter les expressions communes, nous avons créé une fonctionnalité qui permet de singulariser les expressions du visage de chaque personnage. L'ajout de ces nouvelles expressions nécessitait un squelettage approprié. L'Unreal Engine a automatiquement généré des Control Rigs paramétrés pour chacun des personnages.
Image reproduite avec l'aimable autorisation de Metaverse Entertainment
Processus de suppression des rides qui apparaissent quand les sourcils sont levés, les yeux fermés et les pupilles baissées.
Les cheveux ont été créés avec les outils XGen de Maya. L'Unreal Engine génère leur rendu en temps réel sous la forme de structures capillaires dont la qualité est incroyable. Cela nous a fait gagner beaucoup de temps. Cependant, nous ne pouvions parfois pas utiliser ces structures, car nous avions besoin de gagner encore en performance. Pour gérer ces cas, nous avons créé un outil qui transforme une structure capillaire en carte. Nous avons optimisé le flux de travail grâce à l'automatisation, afin d'éliminer les tâches manuelles dans la modification ou l'application des cheveux, par exemple la nécessité de créer une ressource pour faire le lien lors du remplacement des cheveux.

Nous avons également automatisé l'étape d'étalonnage corporel et utilisé des dizaines de formes d'étalonnage pour modifier le volume correspondant à une pose. Nous avons développé un algorithme de résolution pour éviter les problèmes qui peuvent survenir lorsqu'on utilise le solveur RBF (Radial Basis Function) de Maya, notamment l'impossibilité d'appliquer une arborescence à une interpolation ou la probabilité accrue de soucis morphologiques dans un haut niveau de détails.

Pour générer des réactions réalistes des vêtements et des accessoires, nous avons exploité le système physique, la simulation des tissus et les nœuds AnimDynamic de l'Unreal Engine, parmi d'autres solutions diverses. L'équipe a également utilisé la prise en charge de DMX par l'Unreal Engine pour créer un décor spectaculaire.
 
Image reproduite avec l'aimable autorisation de Metaverse Entertainment
Gauche : avant l'application de la forme d'étalonnage pour interpoler la forme de la main. Droite : après l'application de la forme d'étalonnage.

Q : Il doit être difficile de s'organiser pour créer un décor réaliste qui porte l'émotion d'un groupe virtuel de K-pop. Comment ça s'est passé ?

Pour créer un clip à la sensibilité typique de la K-pop, nous avons fait appel à un réalisateur qui a déjà tourné des clips de K-pop réels, à un directeur de la photographie, à des opérateurs Louma ainsi qu'à une troupe de vraies danseuses de K-pop. Nous avons essayé de recréer un décor identique à ceux utilisés sur les tournages réels afin que l'équipe de production puisse montrer tout son potentiel. Dans cette optique, nous avons bâti un centre de 20 x 20 x 8 m dédié aux effets visuels afin d'effectuer la capture des mouvements dans un espace aussi vaste qu'un plateau de tournage de clip. Il est agencé de manière à capturer les performances des actrices et à faciliter les déplacements de l'équipement de tournage. Cela a permis de recréer le dynamisme des effets de caméra par la suite.

Vêtues de combinaisons MoCap, les actrices ont exécuté les chorégraphies et nous les avons filmées comme dans un véritable spectacle musical. Les données de suivi issues des caméras, qui exploitent Mo-Sys StarTracker, ont directement été exploitées pour créer la performance virtuelle finale au sein de l'Unreal Engine, en apportant un grand réalisme. Les angles des caméras et les déplacements des actrices ont été prévisualisés dans l'Unreal Engine pour que le résultat soit vérifié tout de suite sur place, puis l'enregistrement était effectué dans Vicon Shogun et l'UE simultanément.

Le tournage a suivi le même processus que pour un clip réel de K-pop, c'est-à-dire que la performance des quatre membres a été capturée en même temps. Nous avons effectué un premier montage à partir des données de capture de mouvement issues des caméras, puis nous avons nettoyé ces données dans les prises modifiées. Ainsi, nous avons pu concentrer nos efforts sur les prises présentes dans la version finale. Nous avons pu capturer des mouvements plus naturels parce que ce travail a été effectué avec de véritables actrices.
 

Q : Quels sont les contenus à venir pour MAVE: et comment voyez-vous l'avenir de Metaverse Entertainment ?

En tant que célébrités virtuelles issues de l'Unreal Engine, les membres de MAVE: préparent du contenu encore plus impressionnant, qui les démarqueront des autres groupes de K-pop. Nous y travaillons dur ; ne ratez pas ces sorties !

Nous prévoyons de proposer nos contenus sur d'autres marchés, notamment le cinéma, les séries et le jeu vidéo. Nous envisageons aussi de nous développer grâce à nos expertises des humains virtuels et du Métavers. Dans ces projets, nous aurons besoin de l'Unreal Engine en tant que base solide pour différents médias, notamment le contenu en temps réel adressé aux fans, le contenu interactif et d'autres à venir.

Pour suivre MAVE:, connectez-vous à son site officiel et ses réseaux sociaux.

    Obtenez l'Unreal Engine dès maintenant !

    Procurez-vous l'outil de création le plus ouvert et le plus avancé au monde.
    L'Unreal Engine est prêt à l'emploi, avec toutes les fonctionnalités et un accès complet au code source.