Image Courtesy of Metaverse Entertainment

Meet MAVE: - Unreal Engine と MetaHuman を使って制作されたバーチャル K-POP スター

Jinyoung Choi |
2023年5月24日
Netmarble F&C の技術と Kakao Entertainment の感性が融合して誕生した Metaverse Entertainment は、映画やドラマ、VFX からバーチャル ヒューマンといったワイドレンジのコンテンツを開発し、IP をさまざまなコンテンツへと拡張するための能力とインフラストラクチャを備えたマルチメディア コンテンツ制作会社です。
バーチャル K-POP バンド「MAVE:」のデビュー作となるミュージック ビデオが 2023 年 1 月末に公開されました。MAVE: は、そのリリース後に韓国で最も人気のある音楽番組のひとつである「Show! Music Core (ショー! K-POP の中心)」への出演を果たし、このジャンルにおけるニューウェーブを生み出しました。MAVE: は、その非常にリアルなキャラクターと現実味あふれるアニメーションに加えて、「彼女たち」が歌い上げるキャッチーな楽曲により、一躍注目を集める存在となりました。このスポットライト記事を執筆している時点で、MAVE: のミュージック ビデオは 2,100 万ビューを記録し、そのライブ ステージでのデビュー パフォーマンス ビデオは 300 万ビューを達成しています。MAVE: は、TV 番組やソーシャル メディアを含む多岐にわたる方法でファンと交流しています。

当社では、Metaverse Entertainment の CTO を務めるディレクターの Sungkoo Kang 氏に、この非常にリアルなデジタル ヒューマンの開発に、Metaverse Entertainment が Unreal Engine と MetaHuman をどのように活用したのか、そして、複数のプラットフォーム向けのコンテンツを短期間でどのように制作したのかについてお話を伺いました。

 
Q:MAVE: の開発にあたってはそのグループ メンバーの制作が最初のステップだったと思いますが、デジタル ヒューマンを制作した際の目標はどのようなものでしたか?

4 人のメンバーからなるバーチャル グループ、MAVE: の開発にあたって、私たちはとても魅力的なキャラクターをそれぞれ作り上げることを目標としていました。この世界のどこにも存在しない、まったく新しいアピアランスを備えたキャラクターです。そういった魅力的なキャラクターを生み出すには、単にそのアピアランスだけに注目するのではなく、さまざまな状況に対応するためのワイドレンジなフェイシャル表現が必要になります。そのため、私たちはパイプラインおよび技術の構築と開発に焦点を当てました。

Q:キャラクターの制作には MetaHuman を利用したとお聞きしましたが、その理由を教えてください。

先ほど申し上げたとおり、魅力的なアピアランスとともに、さまざまな状況に対応する幅広い、きめ細やかなフェイシャル表現を持たせることが、現実味のあるキャラクターに仕上げる点で重要になります。しかし、そうしたフェイシャル表現を作成して調整する作業は、非常に時間がかかるだけでなく、費用も高額になりがちです。常にリギングやモデリングを行って、リビジョンや検証を何度も繰り返す必要があるためです。そのため、数十年にも及ぶデジタル ヒューマン制作の実績に基づいて開発された Epic の MetaHuman 技術が、当社にとってのパーフェクト ソリューションだったのです。それが、キャラクターのパイプラインを構築するためのもっとも重要な部分でした。

MetaHuman フェイシャル リグを利用することで、必要なフェイシャル表現を簡単に作成し、アニメーションをキャラクター間で共有することができました。また、Epic Games による「MetaHuman Creator のフェイス リグの技術について」ホワイト ペーパーを参考にすることで、リグ コントロールの向上といった R&D 作業に集中することができました。加えて、NVIDIA の Audio2Face や iPhone 向けの Live Link Face アプリ、Faceware、FACEGOOD といった外部ツールとの高度な互換性により、MetaHuman アニメーションを適用して、基礎となるメッシュ トポロジ、UV、ジョイント構造、各制御機能を共有することで、実際のプロダクション時間を大幅に削減できました。

Q:MetaHuman に加えて Unreal Engine の使用を決定した理由は何ですか?

MAVE: を計画していた際に、このプロジェクトをどのように位置付けるか、そしてこのバーチャル バンドにどのような活動をさせるかについて、非常に多くの検討を重ねました。コンテンツの生産性が最も重要な検討事項でした。多くの活動は多くのコンテンツ プロダクションを意味しており、効率性の高いプロダクションがどうしても必要になります。それがなければ、ビジュアル品質を犠牲にすることになります。そのために Unreal Engine を選択しましたが、それは効率性のためだけではなく、Unreal Engine が提供するリアルタイム レンダリング品質が必要であったためです。ソーシャル メディアでの活動や出演予定の TV 番組/CM での利用が可能なトランスメディア ミュージック ビデオを短期間で制作するなど、さまざまな分野での MAVE: の活動範囲を広げるために Unreal Engine を活用しました。

ソーシャル メディアはファンとのつながりを構築してエンゲージメントを強化するうえで重要なチャンネルであり、そこではさまざまな形態やボリュームの高品質コンテンツが必要になります。これが、当社がさまざまなツールの中で Unreal Engine を選択した理由です。Unreal Engine を利用することで、複数のソーシャル プラットフォームにまたがってファンのエンゲージメントを得るためのフォトリアルな画像や動画など、さまざまな形態のコンテンツを制作できました。

Q:MAVE: の各キャラクターを制作する際にはどのようなパイプラインを使用しましたか?

当社の MAVE: 制作チームはゲームや映画といった業界での経験を持つ優秀な人材で編成されており、それぞれのメンバーは自分の専門分野に応じて多様な DCC ツールを使っていました。たとえば、ゲーミング業界での経験を持つメンバーはリアルタイム レンダリングについて深く理解しており、M&E 業界からのメンバーは動画メディア プロダクションにおける豊富な実績を持っています。そのため当社では、こうしたメンバー同士のシナジー効果を最大限に高めるための特殊なパイプラインを構築しました。

このパイプラインは、キャラクターのプランニングと制作という 2 つのパートで構成されています。キャラクターの制作は、モデリング、フェイシャル表現の作成、リギング、ヘア (髪) の作成、ボディ キャリブレーションといった細かなステップに分けられます。

キャラクターのプランニングは、それぞれのキャラクターのアピアランスをデザインする段階です。このプロセスは、K-POP バンドのプランニングにおいて豊富な経験を持つ、Kakao Entertainment からの専門家たちとの密接なコラボレーションを通じて実施されました。従来の K-POP バンドでは、メンバーは現存する候補者グループから選抜されて、メンバーのアピアランスはメイクアップとスタイリングによって整えられます。しかし、バーチャル バンドについては、魅力的なアピアランスだけでなく、豊かできめ細かなフェイシャル表現、動き、スピーチ パターンなどを実現できるバーチャル ヒューマンを新しく作成する必要があります。

このギャップを埋めて、プランニング チームが使い慣れている作業環境にできるだけ近い環境を提供するために、プロダクション チームは、GAN ネットワークを利用してターゲット イメージを自動生成し、固有ベクトルを手動で調整したり、組み合わせたりするためのパイプラインを構築しました。これにより、プランニング チームは、キャラクターのアピアランスをゼロの状態から作成するのではなく、既存のキャラクターを選択して、そのパラメータを計画に合わせて調整することができました。プランニング チームが長年培ってきた K-POP バンドの成功の方程式に関するインサイトを共有できたことは、本プロジェクトの大きな成功要因です。
 
Image Courtesy of Metaverse Entertainment
GAN ネットワークを活用したイメージ合成

フェイシャル モデルはキャラクターのスタイルに直接影響されるため、私たちは、フェイスを定義するステップでのモデリングに進む前に、K-POP バンドのコスチュームとヘア スタイルを担当してきた経験を持つプロのスタイリストたちと協力し、成功しうるスタイルを決定しました。実際の人間をスキャンすれば、リアルなアピアランスをより迅速に作成できますが、それには私たちが求めているルックスの人材を見つけることの難しさや、肖像権に関する事項といった問題も伴います。そのため、MAVE: のメンバーの顔はモデリング ツールを使って作成したのです。
 
Image Courtesy of Metaverse Entertainment
MAVE: の 3D モデリング

フェイシャル表現の作成と調整のステップを終えた後は、顔の各部の位置やサイズ、筋肉の動きなどに関する情報を使用しつつ、モデルを分析して約 800 ものフェイシャル表現を自動生成する当社独自のツールを使用しました。このプロセスは、基本的なメッシュ タイプを入力することでフェイシャル表現を自動生成する機能 (Mesh to MetaHuman プラグインなど) と似たものです。当社がこの独自のツールを開発したのは、その時点で Mesh to MetaHuman プラグインがリリースされていなかったことが理由ですが、必要に応じてアルゴリズムを調整して自動化パイプラインを構築するうえでとても役立ちました。

また、当社では、標準的なフェイシャル表現に加えて、キャラクターの個性を反映するユニークなフェイシャル表現をカスタマイズするための機能も開発しました。こうした新しいフェイシャル表現を加えるには適切なリギングが必要であったため、Unreal Engine でコントロール リグを自動生成し、キャラクター向けにそれらを設定しました。
Image Courtesy of Metaverse Entertainment
眉が上がる、目を閉じる、瞳孔が下がるなどの際に生じるシワを取り除くプロセス
ヘアの基礎は Maya の XGen ツールセットを使って作成しました。グルームを使った Unreal Engine のヘア レンダリングはリアルタイムながらも品質は非常に高く、多くの時間を削減することもできました。しかし、さらに高いパフォーマンスが必要であることからグルームを使用できない場面もありました。そのような状況に向けて、私たちはグルームベースのヘアをカードへと変換するツールを開発しました。当社では、ヘア スワッピング プロセス時にバインディング アセットがない場合にそれを作成するなど、ヘアの調整や適用時における手動作業を省くために、自動化を通じてワークフローを最適化しました。

また、ボディ キャリブレーション ステップにも自動化を取り入れて、ポーズに応じて形状を調整するための多数のキャリブレーション形状を活用しました。私たちは、補間に階層を適用できないことや、詳細な設定の適用時に意図しないボディ形状になる確率が高くなるなど、Maya の放射基底関数 (RBF:Radial Basis Function) ソルバを使用する際に起こりうる諸問題を回避するために、新たな解決アルゴリズムを開発しました。

加えて、Unreal Engine の 物理クロス シミュレーションAnimDynamic ノード、さらに他のさまざまなソリューションを活用して、クロスとアクセサリーの自然な反応を表現しました。また、当社のチームは Unreal Engine の DMX サポート も活用して、壮観なステージを作り出すことに成功しました。
 
Image Courtesy of Metaverse Entertainment
(左) 手の形状を補間するためのキャリブレーション形状を適用する前、(右) キャリブレーション形状を適用した後

Q:K-POP のエモーションとバーチャル バンドを組み込んだリアルなステージを構成して表現することはとても難しいと思いますが、どのような感じでしたか?

私たちは、K-POP の感性を取り入れたミュージック ビデオの制作にあたり、実際に K-POP ミュージックを監督した経験のあるディレクター、撮影監督、グリップ チーム、ジブ オペレーター、K-POP ダンス チームと協力しました。また、従来のプロセスや環境で使用されるステージ環境に似た環境を再現してチームに提供したことで、K-POP プロダクション チームはその力をフルに発揮することができました。この努力の一環として、20m x 20m x 8m の大規模な VFX センターを構築して、実際のミュージック ビデオのセットと同じ広さの空間内でモーション キャプチャを実行し、後にミュージック ビデオでの優れたカメラワークを再現できるように、俳優のパフォーマンスだけでなく、撮影機器の動きまでもキャプチャするように構成しました。

俳優たちはモーキャップ スーツをまとった状態でパフォーマンスを行い、私たちはそれを現実世界でのライブ ミュージック パフォーマンスと同じように撮影しました。Mo-Sys StarTracker を使ってトラックされたカメラ データは、Unreal Engine での最終的なバーチャル パフォーマンスに直接使用され、リアルな感覚を生み出すことに大きく貢献しました。カメラのアングルと俳優のモーションは Unreal Engine 内でプレビューできたため、その結果を現場で即座に確認し、Vicon Shogun と Unreal で同時に記録することができました。

レコーディングについても実際の K-POP ミュージック ビデオと同じ方法で行い、4 名のメンバーのパフォーマンスを同時にキャプチャしました。まず現場のカメラを使って得たモーション キャプチャ データを含むカットを編集し、次に編集済みのカットに基づいてモーション キャプチャのクリーニングを行いました。その結果、最終版で実際に使用される部分に焦点を当てることができました。この作業は実際の人間の動きに基づくものであったため、より自然な動きを実現できました。
 

Q:今後予定されている MAVE: のコンテンツと、Metaverse Entertainment の今後について教えてください。

MAVE: については、Unreal Engine を活用したバーチャル セレブリティとして、他の K-POP グループとは一線を画す、まったく新しいレベルのコンテンツを準備中です。当社では全員一丸となって取り組んでいますので、当社からの最新情報にぜひご注目ください。

当社では、映画やドラマ、ゲームにおける当社の IP を活用することでビジネス分野でのさらなる拡大を図りつつ、バーチャル ヒューマンやメタバースといった専門性の面でもさらに拡張を続けていく予定です。リアルタイムのファンダム コンテンツやインタラクティブなコンテンツ、新規メディアを今後も提供するうえで、Unreal Engine は当社に欠かせない重要なツールであり続けるでしょう。

MAVE: の最新情報については、公式 Web サイトソーシャル チャンネル をご覧ください。

    今すぐ Unreal Engine をダウンロードしましょう!

    世界中でもっともオープンで高度な作成ツールを入手しよう。
    Unreal Engine にはあらゆる機能とソースコードへのアクセスが含まれており、ただちに開発に利用できます。