「ヴィエ」の生みの親であるバーバパパさんと考える生成AIの可能性

「人間だったらそんなことはしないだろう」という「人が想像する不気味なデザイン」を超えてくる部分も期待していますね。—バーバパパさんとの対談の一部抜粋

最近は生成AIの話題が新聞やニュースで盛り上がっております。

ですが、ただ「テクノロジーが進化する」だけではなく、「AIと人間がどう一緒に素晴らしいことを達成するか」を考えるのも大切ではないでしょうか。

今回は、ネットで話題になった音楽&映像作品「ヴィエ」の生みの親で、Stable Diffusionなどの最新技術をどんどん取り入れてるマルチクリエイターのバーバパパさんと対談して、「作品にどうAIを使えばいいか」「AIを用いて人間の創造性をどう引き出せばいいか」について、テクニカルな部分も含めて楽しくお話やご質問させていただきました。

*ヴィエとはYoutubeで、4200万回以上再生され、ヒカキンさんにカバーされた有名な作品です。

*ヒカキンさんによるカバー作品

インタビュアーは私、Stability AI JapanのコミュニティマネージャーのNero(根路銘 啓)です。よろしくお願いします。

ーNero(根路銘 啓)の経歴ー

NHKでも紹介されたAI画像コンテスト、AI画像展を主催しました。
画像生成AIのプロダクトを開発して、ピッチコンテストで賞をもらったりしました。

この対談を通じて、新しい技術と人間の共創がどうすごいパフォーマンスを発揮するのか、そしてその可能性の限界は何なのかという興味深いテーマを一緒に探っていきましょう。

今回は事前に用意した質問に加えて、ディスコードの皆さんからも質問をいただきました。質問を下さった方、ありがとうございました。
また今回の対談を記念して、6月11日(日)の夜20時からバーバパパさんとのトークイベントを行いますので、興味があれば是非ご参加下さい。
詳細はこのnoteの最後に記載しております。

私たちのディスコードはこちら
http://discord.gg/uCXFcuyfQx

では、対談スタートです!


Nero:こんにちは、どうぞよろしくお願いします。Stability AI JapanのNeroです。今回は、いくつかのテーマごとにご質問やお話が出来たらなと思います。
バーバパパ:
よろしくお願いします。

——バーバパパさんはStable Diffusionや3D、音楽などのさまざまなツールを活用して作品を制作しているとのことですが、どのような具体的なプロセスで制作されているのでしょうか?
バーバパパ:
そうですね、基本的に音楽を作って、それに合わせてBlender等で踊るモーションやアニメーション、カメラのセッティングを行って作っています。
画像生成AI自体を自身の作品に組み込み始めたのが結構最近なので、どのようなプロセスで組み込んでいくかと言った点はこれから考えていこうかなと思っております。
Nero:
音楽から作られることが多いのですね。
バーバパパ:
でも、Stable Diffusionという技術を使ってみたいとか、そういう新しい技術を試したいと言った目的で作ることもありますね。
Nero:
なるほど、例えば、映画でいうコマ割りみたいなのを作られることはあるのでしょうか?また動画編集ソフトはどういったものを作っていらっしゃるのでしょうか?
バーバパパ:
コマ割りは基本は作らないのですが、タイミング合わせるのが難しい時に使うことがあります。動画ソフトはAviutlを使っています。
Nero:
ちなみに大体一つの作品はどれくらいの時間をかけて制作されているのでしょうか?
バーバパパ:
作品によってまちまちですが、2週間~4週間くらいですね。

——バーバパパさんの制作された作品の中で、画像生成AIを活用した作品は「AIにおまかせ」などがありますが、こちらではどういったツールを使用されているのでしょうか?また制作手順等についてお聞きできたら幸いです。
バーバパパ:これは、「Deforum」というStable Diffusionで動画が作れるGoogle Colabで動くプログラムで作りました。

*制作手順に関してご説明いただきました。

①最初に、Blenderで字面と箱を置き、カメラモーションのための簡単な動画を作る(下記のサンプル画像参照)
②その動画をImg2Imgののようなイメージで一枚一枚、Stable Diffusionで変換する&アップスケール(Deforumを使用)
③最後にそれぞれの変換後の画像を繋ぎ合わせて出力


——今回は特別に画像もお見せいただきました

変換前のサンプル

変換前のサンプル

変換前のサンプル

Stable Diffusionで変換後のサンプル

Stable Diffusionで変換後のサンプル

Nero:なるほど、全てAIで出力しているのではなく自前の技術を用いて、カメラモーション等を設定した上で、AIによる仕上げをおこなっているのですね。そういった部分が差別化やオリジナリティのためにも重要かもしれませんね。非常に参考になります。
ちなみに難しかった部分はどのあたりでしょうか?
バーバパパ:
プロンプトを練るのがしんどかったですね。本当はもっと(時間経過と共に)中身を変えたかったのですがそれがあんまり上手くいかなかったですね。あと、当初はこのような技術が出始めで、情報があまりなかったので、手探りで色々やっていました。とりあえずプロンプトをいっぱい書いて色々試してみました。
Nero:
一枚一枚アップスケールされたとのことですが、かなり時間かかりませんでしたか?
バーバパパ:
そうですね、プログラミングを使って全て一度にやったのでそこまで時間かかりませんでした。それよりも元動画の書き出しの方が時間かかりましたね。10時間とか15時間とかかかりました。
Nero:
そんなにかかるんですね。ありがとうございます。

——Stable Diffusionを用いて作品制作を行う中で、魅力的だなと思った部分はございますか?
バーバパパ:
上手く行かない部分もいくつかあったのですが、それを差し置いてもシーンが変化する部分に関してはダイナミックな変化が得られたなと考えています。カメラワークが変化すると同時にプロンプトも変えているのですが、その二つが組み合わさって、カメラワークが一貫しているのに別の世界になるといったところが魅力的だなと感じました。これを人力で自分のCGでやろうとしたらどれくらい大変だろうと思いましたね。
またこのクオリティのオブジェクトの配置をやると結構時間かかるけど、AIだったらプロンプト制御でできるというのもメリットとしてあると思います。上手いところ補完してくれるというのが強いところですね。

——パルフロムという動画ではMidjorneyやStable Diffusionで制作された背景を用いて、自然に3Dキャラクターを動かしていると思うのですが、技術的なコツなどあれば教えてください。

バーバパパ:AIで生成された画像のパースをとって、そこに3Dキャラクターを配置してます。また、背景と3Dキャラクターが馴染むように上からエフェクトをかけたり、色調整を行ったりしています。
(パースとは紙の上に適切な線を引くことで適切な遠近感を保持できる技法のこと)

Nero:AIで生成した後も、パースを取ったりかなり色々な点で微調整されているのですね。一枚絵で、3Dモデルを動かすことは難易度が高いので、興味がある人にとっては参考になったかと思います。

——Stable Diffusionなどの画像生成AIを実際の作品に活用することで、人間のアーティストが持つ直感とか創造性というのは強化されることはありましたか?

バーバパパ:基本的に自分の中の頭にあるものを表現するというのがメインなので、今の所はないですね。ですがこれから思いつきもしない生成物がAIによって生み出されたときに、そこから逆算して作品を作るといったとこはあるかもしれません。
Nero:
確かに画像生成AIで作品を生成していると、人体のバランスがおかしかったり腕が何本も生えていたり「よく分からないが、愛嬌がある謎生物」が生成されることもありますね。(笑)

よく分からないが、愛嬌がある謎生物の例-Nero作

バーバパパ:そうですね。今の画像生成AIではどんどん綺麗な方向にモデルが改善されることが多いですが、変わった写真とか人間の想像できない不気味な生物とかの進化も面白いかなと思います。
Nero:
変な画像が出力された時に普通は「失敗しちゃった!」ってなりますが見方を変えると、人間の想像圏外の作品というだけで、芸術としては間違ってないのかも知れません。
腕は2本だって考えるのではなく、AIにとっては腕は3本生えているものなんだと捉えることも、生成AIと芸術の可能性を考える上では重要かも知れませんね。
バーバパパ:
その辺りの、「人間だったらそんなことはしないだろう」という「人が想像する不気味なデザイン」を超えてくる部分も期待していますね。

——新しい技術を学習するというのは難しいと思いますが、どのように学習して、実際の作品に活かしているのでしょうか?

バーバパパ:まずは色々なものに興味を持つことですね。twitterとかで最先端の人を追って初心者向けの記事を読んだりしてキャッチアップしています。「AIにおまかせ」ではぐにゃぐにゃしたイメージで作りたかったのですが、難しかったので色々調べたりして、生成したフレームとその前のフレームをブレンドさせて繋ぎ目を滑らかにする手法を実験したりして繰り返していました。
色々実験して新しい技術や難しい点をどんどん対処していくということですね。
「クリエイターズは勝負に出る」ではDreamBoothでオリジナルキャラクターの画像を10枚くらい学習させて独自のモデルを作って、それを使いました。

2:03あたり。オリジナルキャラクターのモデルを作成して、実際の作品に応用したとのこと

バーバパパ:最初の頃は新しい技術を実際に試した後に、どのような仕組みで動いているかを学習したりしていたのですが、最近は移り変わりが早すぎるので、チュートリアルなどを見てやり方を勉強しています。
Nero:仕組みから学習すると難しいですし、結構時間がかかるとは思うのですが、なぜなぜそこまで学ぶモチベーションを継続できるのですか?
バーバパパ:
もちろん学習コストはかかりますが、細かい部分を学習していくということがクオリティに匹敵すると思っています。

——バーバパパさんの作品の特徴として、特別な世界観があげられると思いますが、どのようにしてアイディアを思いついているのでしょうか?

バーバパパ:人と話しているときとか歩いている時ですかね。でも一番多いのがお風呂に入っている時ですね。
Nero:
分かります、僕もお風呂に入っている時とかにアイディアが思い浮かぶことが多いですね。あとトイレとか!
バーバパパ:トイレは全然ないですね。
Nero:
トイレはあまり無いのですね(笑)
あとすごい聞きたかったことがあって「夢で見たアイディア」をそのまま作品にしたこととかはあったりしますか?
バーバパパ:「思い出してEDMにしました」は夢の内容だったと思います。厳密にはこうでは無いのですが、コンテナがいっぱい乗っている夢をみて、車に乗りながらあれ大丈夫かな?って思った夢でした。
Nero:
確かに、言われてみるとすごい夢っぽいですね。また後で見返したくなって来ました。貴重なお話しありがとうございます。

——対談終了
Nero:
本日は対談させていただき誠にありがとうございました。生成AIという括りで色々なテーマでお話させていただきましたが、勉強になることが多かったです。最後に、この記事を読まれた皆さんに何か一言あればお願いします。
バーバパパ:
僕自身、経験が浅くてこれといったことは言えませんが、思いついたらとにかく試してみることですね。
「Just do it !!」
ってあるじゃないですか。あれやと思いますね。
Nero:
バーバパパさんの行動力と実行力はすごいですね。是非見習っていきたい部分です。どうもありがとうございました。


改めて、バーバパパさん貴重なお時間いただきありがとうございました。
作品に対する考え方や技術的な細かい部分に関して幅広いことをお聞き出来たかと思います。
バーバパパさんのチャンネルはこちらです。この対談で興味を持った方は是非、覗いてみて下さい。

バーバパパさんのYoutube

【告知】
今回の対談を記念して、バーバパパさんとの『トークイベント』を行います。
Stable Community Japanというディスコードコミュニティで、6月11日(日)の夜20時からバーバパパさんとのトークイベントを行います。
誰でも参加可能で、リアルタイムで質問も出来ますのでお気軽にご参加下さい。

ディスコードサーバーはこちら


ちなみにStable Community Japanというディスコードコミュニティでは皆さんに有益な情報や最新情報も発信しております。

今後もどうぞよろしくお願いします。

Previous
Previous

Clipdrop、究極のアスペクト比エディタ Uncrop をリリース

Next
Next

秋葉拓哉がStability AIにシニアリサーチサイエンティストとして参加しました