1枚の画像からVTuberとして使える画像をAIで生成するという猛者が現れた。
恐るべき技術
2月4日、Twitterで妙なツイートを見つけた。
「一枚の画像でVTuberになれるシステム(v2)を作りました」と書かれたツイートが、私のタイムラインに拡散されてきたのである。
https://twitter.com/dragonmeteor/status/1357093243989626880
ツイートからその中身を見てみると、どうもGoogleでソフトウェアエンジニアとして働くプラムック・カンガーンさんが1枚のキャラクター画像から多彩な表情を作り上げることができるシステムを開発したとの事。
普通、VTuberとして2D画像を利用するような場合、動きのパーツをいくつか準備し、一定のルールに従ってパーツを連携させて使用するLive2D(とFaceRig)のようなソフトウェアが必要なわけだが、カンガーンさんが作ったシステムで同じような事がたった一枚の画像で可能になるというのである。
で、リンクされていた動画を見てみると…確かに動いている。
これはある意味スゴイ事ではなかろうか?
これをシェアウェアのような形で出せば、Live2Dを駆逐する事も可能かもしれない。
Live2D用画像を販売しているクリエイターにも大打撃を与えそうな感じである。
日本語サイト
https://pkhungurn.github.io/talking-head-anime-2/index-ja.html
(現在リンク切れ)
AIならではの問題
ただ、一件完璧なシステムのような本システムだが、まだ問題がないわけではない。
いつくかある問題で致命的なのは、GPU負荷がとても大きい事である。
これはパターンを生成する時にGPUの演算を必要とする為であるが、その処理が最適化されていないのだろう。まぁ、まだ実験的な状態なので、これは今後洗練させていけば負荷は下がってくるハズだ。
もう一つの問題は、キャラクターの肌色で人型と認識しているところがあるので、肌色でない画像で試すと、とんでもない結果が待っているという事。つまり、人型でないのもダメ、という事である。
VTuberのモデルになるキャラクターは人型とは限定されないので、人型でないと使えないというのは残念である。深層学習を繰り返す事で人型でないキャラクターでも可能になる日がくると良いが、それは結構大変な課題ではないかと思う。
他にもまだいくつか問題はあるのだろうが、システムとしてはかなり完成度も高く、今後の発展が期待されるのは間違いない。
わざわざパーツを作って動かしているLive2Dの事を考えると、本システムは実に画期的である。
VTuberならば…
て、このシステムを見てキャラクターをカメラ映像とリンクさせて動かす、という事に再び興味を持ち始めた。
ただ、ビジュアルという面で言えば私はLive2DなりFaceRigを使うしかないが、一番の問題はやはり声である。
声を変調させるソフトウェアもいろいろあるが、有名なのは「恋声」である。
一度使ったことがあるが、とにかく遅延が酷くて使いにくかった。
そこで以前、これに対応する為にRolandのVT-4を購入した。
そして実際に使ってみて、その奥深い世界に驚愕した。
VT-4は確かに遅延はなく、リアルタイムで利用する上では確実に使える機材だという事はわかっている。
問題は、ピッチとフォルマントの変更だけで望む声を作るのが難しいのである。
これは実際に試してみないとわからない。
だが、使っているだけでも楽しいのも事実なので、VTuberに興味のある人は、まずVT-4を試してみるというのも良いのではないかと思う、
その上で、ビジュアルとしてカンガーンさんのシステムが一般でも使えるような時代になれば、好きな画像で試してみればよいだろう。
おそらく、気合いさえあればカンガーンさんはそう遠くない内にいろいろな改良をしてくるのではないかと思う。
もしカンガーンさんのシステムが進まないのなら…その時はFaceRigもしくはその後継ソフトでやるのも手である。
少なくとも、VT-4を使った声の変更は新しい何かが見えてくるものだと思う。
で、私はというと…
いろいろ試したい気持ちはあるんだけどね(-_-;)
|