Bild mit freundlicher Genehmigung von Metaverse Entertainment

MAVE:, die virtuellen K-Pop-Stars, realisiert mit Unreal Engine und MetaHuman

Jinyoung Choi |
24. Mai 2023
Metaverse Entertainment entstand aus der Kombination der Technologien von Netmarble F&C und der Sensibilität von Kakao Entertainment. Das Unternehmen produziert Multimediainhalte und verfügt über die Möglichkeiten und Infrastruktur, um Filme und Dramen zu produzieren, eine große Bandbreite an Inhalten wie VFX und virtuelle Menschen zu erstellen und diese IPs für verschiedene Medieninhalte zu nutzen.
Die virtuelle K-Pop-Band MAVE: veröffentlichte Ende Januar 2023 ihr erstes Musikvideo. Nach der Veröffentlichung hatte sie ihr Debüt bei "Show! Music Core", einer der führenden Musiksendungen in Südkorea, und schlug ein neues Kapitel in dem Genre auf. MAVE: zog enorme Aufmerksamkeit auf sich, weil die Charaktere so realistisch und glaubwürdig animiert wurden. Ihre tolle Musik tut ihr Übriges. Als dieser Artikel verfasst wurde, hatte das Musikvideo von MAVE: über 21 Millionen Aufrufe und ihr Live-Debüt auf der Bühne war über 3 Millionen Mal angesehen worden. MAVE: kommuniziert auf verschiedenen Wegen mit den Fans, etwa in TV-Auftritten und in den sozialen Medien.

Wir sprachen mit Sungkoo Kang, Director und CTO von Metaverse Entertainment, darüber, wie das Unternehmen die Unreal Engine und MetaHuman eingesetzt hat, um authentische digitale Menschen zu erschaffen, und in so kurzer Zeit Multimediainhalte für verschiedene Plattformen produzieren konnte.
 

F: Ich gehe davon aus, dass bei der Erschaffung von MAVE: zunächst die Bandmitglieder erstellt wurden. Welche Ziele hatten Sie bei der Schöpfung der digitalen Charaktere?

Unser Ziel war es, eine vierköpfige, virtuelle Gruppe namens MAVE: mit ansprechenden Charakteren zu erstellen. Jeder Charakter sollte dabei ein komplett neues Aussehen haben, das es so auf der Welt noch nicht gegeben hat. Bei der Erschaffung attraktiver Charaktere darf man sich aber nicht nur auf das Aussehen konzentrieren. Verschiedene Gesichtsausdrücke, die zu unterschiedlichsten Situationen passen, sind ebenfalls sehr wichtig. Wir haben uns darauf konzentriert, Pipelines und Technologien zu entwickeln, die das bewerkstelligen können.

F: Wie ich hörte, haben Sie MetaHuman für die Erstellung der Charaktere genutzt. Können Sie uns die Gründe dafür erläutern?

Wie bereits gesagt, ist neben einem attraktiven Aussehen auch eine detaillierte Mimik, die zu unterschiedlichen Situationen passt, wichtig für die Glaubhaftigkeit eines Charakters. Die Entwicklung und Anpassung der Mimik ist aber eine zeitaufwendige und teure Arbeit, weil dafür Rigging und Modellierung nötig sind und iterative Revisionen und Überprüfungen durchgeführt werden müssen. Aus diesem Grund war die MetaHuman-Technologie von Epic, die mit Hilfe jahrzehntelanger Erfahrung in der Erstellung digitaler Menschen entwickelt wurde, die perfekte Wahl. Sie war ein essenzieller Bestandteil bei der Entwicklung der Pipelines für unsere Charaktere.

Mit den Gesichts-Rigs von MetaHuman konnten wir ganz einfach die Gesichtsausdrücke erstellen, die wir benötigten, und sie bei der Animation aller Charaktere einsetzen. Wir konnten uns so auch auf Forschung und Entwicklung konzentrieren (zum Beispiel die Verbesserung der Rig-Steuerung), da wir uns auf das Whitepaper Rig Logic: Runtime Evaluation of MetaHuman Face Rigs von Epic Games beziehen konnten. Zudem besteht eine sehr hohe Kompatibilität zu externen Werkzeugen wie NVIDIAs Audio2Face, der App „Live Link Face“ für iPhone, Faceware und FACEGOOD. Das ermöglichte es uns, MetaHuman-Animationen besser anzuwenden und die Produktionszeit durch die Wiederverwendbarkeit der grundlegenden Mesh-Topologie, UV-Joint-Struktur und Steuerung drastisch zu senken.

F: Warum haben Sie sich neben MetaHuman auch für Unreal Engine entschieden?

Bei den Planungen zu MAVE: haben wir uns viele Gedanken zur Realisierung unseres Projekts gemacht und welche Aktivitäten unsere virtuelle Band durchführen sollte. Die Produktivität unserer Inhalte hatte dabei den höchsten Stellenwert für uns. Bei vielen Aktivitäten müssen bestimmte Inhalte produziert werden, was sehr hohe Produktionseffizienz erfordert. Andernfalls hätten wir wohl Kompromisse bei der visuellen Qualität eingehen müssen. Wir entschieden uns daher nicht nur aus Effizienzgesichtspunkten für Unreal Engine, sondern auch wegen der Echtzeit-Rendering-Qualität des Systems. Dank der Unreal Engine konnten wir die Grenzen der Aktivitäten von MAVE: aufbrechen und zum Beispiel medienübergreifende Musikvideos in kurzer Zeit produzieren, Aktivitäten in sozialen Medien durchführen und TV-Sendungen und Werbeclips erstellen.

Soziale Medien sind ein wichtiger Bereich für den Aufbau und die Pflege von Beziehungen. Damit das Erfolg hat, sind verschiedene Formen hochwertiger Inhalte nötig. Auch deshalb haben wir die Unreal Engine anderen Systemen vorgezogen. Mit dem Einsatz der Unreal Engine konnten wir verschiedenste Inhalte erstellen, darunter fotorealistische Bilder und Videos, mit denen wir unsere Fans auf unterschiedlichen Plattformen begeistern können.

F: Welche Art der Pipeline kommt bei den Charakteren von MAVE: zum Einsatz?

Das Entwicklerteam von MAVE: besteht aus talentierten Leuten mit unterschiedlichsten Hintergründen und Erfahrungen, etwa im Bereich Gaming und Filmproduktion. Das bedeutet, die Teammitglieder hatten abhängig von ihrer Spezialisierung bereits verschiedene DCC-Werkzeuge genutzt. Teammitglieder aus dem Gaming-Bereich kannten sich beispielsweise schon sehr gut mit Echtzeit-Rendering aus. Leute aus dem Bereich Multimedia & Entertainment verfügten über Expertise bei der Videoproduktion. Wir entwickelten daher eine besondere Pipeline, um die Synergien der Teammitglieder zu maximieren.

Die Pipeline besteht aus der Charakterplanung und der Charaktererstellung. Zur Charaktererstellung gehören die Detailschritte Modellierung, Mimikerstellung und Rigging, Haarerstellung und Körperkalibrierung.

In der Charakterplanung haben wir das Aussehen der Charaktere entworfen und geplant. Der Prozess fand in enger Abstimmung mit den Experten von Kakao Entertainment statt, die über viel Erfahrung in der Bandplanung erfolgreicher K-Pop-Bands verfügen. Für traditionelle K-Pop-Bands werden die Mitglieder aber aus bestehenden Talentpools ausgewählt und ihr Aussehen wird mit Make-up und Styling perfektioniert. Für virtuelle Bands mussten wir aber virtuelle Menschen erschaffen, die komplett neuartige und attraktive Personen sind. Das durfte sich nicht nur auf das reine Aussehen beschränken. Mimik, Bewegungen, Spracheigenheiten und so weiter waren dabei ebenfalls extrem wichtig.

Um diese Lücke zu schließen und um eine Arbeitsumgebung bereitzustellen, die der Originalumgebung des Planungsteams so nahe wie möglich kommt, entwickelte das Produktionsteam eine Pipeline auf Basis eines GAN-Netzwerks, um automatisch Zielbilder zu erstellen und Eigenvektoren manuell zu modifizieren oder zu kombinieren. Das ermöglichte es dem Planungsteam, einen bestehenden Charakter auszuwählen und dessen Parameter anzupassen, um bestimmte Planvorgaben zu erfüllen. Eine umständliche und langwierige Neuentwicklung des Charakteraussehens entfiel somit. Das Planungsteam half uns mit Einblicken und Informationen zur Erfolgsformel von K-Pop-Bands, die sie über die Jahre entwickelt hatten.
 
Bild mit freundlicher Genehmigung von Metaverse Entertainment
Bildzusammenstellung unter Verwendung eines GAN-Netzwerks

Das Gesichtsmodell wird direkt vom Stil eines Charakters beeinflusst. Wir haben daher mit professionellen Stylisten zusammengearbeitet, die sich mit Outfits und Frisuren von K-Pop-Bands bestens auskennen, um erfolgversprechende Stile zu ermitteln. Erst danach haben wir uns an die Modellierung der Gesichter gemacht. Hätten wir eine reale Person gescannt, dann hätten wir schneller ein realistisches Aussehen erstellen können, allerdings gibt es damit einige Probleme. Einerseits ist es sehr schwierig, eine Person zu finden, die unsere Anforderungen genau erfüllt, und dann ist da die Problematik mit den Rechten am Porträt. Wir haben die Gesichter von MAVE: daher mit 3D-Modellierungswerkzeugen erschaffen.
 
Bild mit freundlicher Genehmigung von Metaverse Entertainment
3D-Modellierung von MAVE:

Bei der Erstellung und Anpassung der Mimik kam unser eigenes Werkzeug zum Einsatz. Dieses analysiert das Modell und generiert automatisch etwa 800 Gesichtsausdrücke, wobei Parameter wie Position und Größe eines Bereichs, Muskelbewegungen und so weiter berücksichtigt werden. Der Prozess ist vergleichbar mit Funktionen, die automatisch Gesichtsausdrücke erzeugen, wenn Sie einen grundlegenden Mesh-Typ eingeben, wie zum Beispiel das Plugin Mesh to MetaHuman. Wir haben unser eigenes Werkzeug entwickelt, weil das Plugin „Mesh to MetaHuman“ zu dem Zeitpunkt noch nicht verfügbar war. Das Plugin half uns allerdings enorm bei der Anpassung des Algorithmus und der Entwicklung der automatisierten Pipeline.

Wir haben zudem eine Funktion entwickelt, die neben den Standard-Gesichtsausdrücken auch spezielle Gesichtsausdrücke erstellt, die die individuellen Charaktereigenschaften widerspiegeln. Die Einbindung dieser neuen Gesichtsausdrücke erforderte das richtige Rigging. Dafür haben wir in Unreal Engine automatisch Control Rigs erstellen lassen und sie für die Charaktere angepasst.
Bild mit freundlicher Genehmigung von Metaverse Entertainment
Prozess zur Entfernung von Fältchen, wenn Augenbrauen hochgezogen werden, Augen geschlossen werden, Pupillen nach unten blicken
Die Haarbasis wurde mit dem XGen-Werkzeugsatz von Maya erstellt. Das Haar-Rendering in Unreal Engine nutzt Strähnen, findet in Echtzeit statt und bietet eine extrem hohe Qualität. Das hat uns viel Zeit erspart. Allerdings konnten wir nicht immer Strähnen einsetzen, da wir manchmal noch bessere Performance brauchten. Für diese Fälle haben wir ein Werkzeug entwickelt, das die Haarsträhnen in Karten umwandelte. Wir haben unsere Arbeitsabläufe mit Automatisierung optimiert, um möglichst viele manuelle Aufgaben bei der Modifizierung und Anwendung von Haaren zu eliminieren, etwa die Notwendigkeit, Bindungs-Assets erstellen zu müssen, wenn sie im Haaraustauschprozess nicht existierten.

Wir setzen auch bei der Körperkalibrierung auf Automatisierung und nutzen Dutzende von Kalibrierungsformen, um die Formen basierend auf Posen anzupassen. Wir haben einen neuen Solver-Algorithmus entwickelt, um Probleme beim Einsatz des Radial Basis Function Solvers (RBF) von Maya zu umgehen. Das schloss auch fehlende Möglichkeiten zur Anwendung von Hierarchien für die Interpolation und die erhöhte Wahrscheinlichkeit der Entstehung unerwünschter Körperformen bei der Anwendung sehr detaillierter Einstellungen ein.

Darüber hinaus haben wir die Physik, Kleidungssimulation und AnimDynamic-Knoten der Unreal Engine sowie eine Reihe weiterer Anwendungen eingesetzt, um natürlich wirkende Bewegungen von Kleidung und Accessoires zu erstellen. Das Team konnte dank der Unterstützung für DMX in der Unreal Engine auch eine spektakuläre Bühne erschaffen.
 
Bild mit freundlicher Genehmigung von Metaverse Entertainment
Links: Vor der Anwendung der Kalibrierungsformen für die Interpolation der Handform. Rechts: Nach der Anwendung der Kalibrierungsform.

F: Es muss schwierig gewesen sein, eine realistische Bühne zu organisieren und zu erstellen, die die typischen Emotionen vom K-Pop auch durch die virtuelle Band rüberbringen. Wie lief das ab?

Wir arbeiteten mit einem Regisseur zusammen, der Erfahrung mit der Aufnahme von K-Pop-Musikvideos hat. Dann hatten wir auch einen Kameraführungsexperten mit an Bord, ein Grip-Team, Jib-Operators und eine richtige K-Pop-Tanzgruppe, um ein Musikvideo zu erstellen, das die Essenz des K-Pop einfängt. Wir haben auch versucht, eine Bühnenumgebung nachzubilden, die traditionellen Bühnen und Bühnenumgebungen in nichts nachsteht. Damit sollte das K-Pop-Produktionsteam perfekt arbeiten können. Dafür bauten wir ein 20 m x 20 m x 8 m großes VFX-Zentrum, in dem wir Motion Capture in einer Umgebung durchführen konnten, die so groß wie ein richtiges Musikset war. Dabei haben wir aber nicht nur die Bewegungen der Tänzer eingefangen, sondern auch die Bewegungen der Filmausrüstung, um später die packende Kameraführung für unser Musikvideo nachbilden zu können.

Die Tänzer haben ihre Choreografie in MoCap-Anzügen durchgeführt und wir haben sie dabei gefilmt, als wäre es eine echte Live-Aufführung. Die Kameradaten, die wir mit Mo-Sys StarTracker erfasst haben, wurden direkt in der finalen virtuellen Darbietung in der Unreal Engine eingesetzt, wodurch sie sehr überzeugend wirkte. Die Kamerawinkel und Bewegungen der Tänzer landeten als Vorschau direkt in der Unreal Engine, sodass wir uns das Resultat unmittelbar ansehen konnten. Die Aufnahmen fanden dann simultan mit Vicon Shogun und Unreal statt.

Die Aufnahmen wurden genauso durchgeführt, wie es für K-Pop-Musikvideos üblich ist: Alle vier Bandmitglieder wurden gleichzeitig aufgenommen. Zuerst haben wir Abschnitte von den Motion-Capture-Daten von den Kameraaufnahmen geschnitten und dann das Motion Capture basierend auf den Schnittdaten bereinigt. So konnten wir uns auf die Teile konzentrieren, die am Ende in der finalen Version landen würden. Wir konnten damit natürlichere Bewegungsabläufe erschaffen, weil unsere Arbeit auf den Bewegungen echter Menschen beruhte.
 

F: Erzählen Sie uns doch noch etwas zu den kommenden Inhalten von MAVE: und der Zukunft von Metaverse Entertainment.

MAVE: sind virtuelle Stars, die von der Unreal Engine enorm profitieren. Wir bereiten eine Reihe bahnbrechender neuer Inhalte vor, die die Gruppe von anderen K-Pop-Bands absetzen wird. Wir stecken all unsere Anstrengungen in das Projekt. Sie können sich schon auf tolle neue Sachen freuen!

Wir planen, unsere Aktivitäten mit unseren IP-Inhalten auf andere Bereiche auszuweiten, etwa Filme, Serien und Spiele. Gleichzeitig wollen wir auch unsere Besonderheiten weiter ausbauen, also virtuelle Menschen und das Metaverse. Dafür brauchen wir Unreal Engine, um eine leistungsfähige Grundlage zu haben, die vielseitige Inhalte ermöglicht, einschließlich Echtzeit-Fandominhalte, interaktive Inhalte und neue Medien.

Besuchen Sie die offizielle Webseite und die Kanäle in den sozialen Medien für Neuigkeiten rund um MAVE:.

    Sichern Sie sich die Unreal Engine noch heute!

    Sichern Sie sich das offenste und fortschrittlichste Werkzeug der Welt.
    Die Unreal Engine wird mit allen Funktionen und vollem Zugriff auf den Quellcode geliefert und ist sofort einsatzbereit.