Stability AIは6月26日、画像生成AIの最新モデル「Stable Diffusion XL」を発表しました(「画像生成AI『Stable Diffusion』最高性能の新モデル『SDXL 0.9』一般的なPCで実行可能」)。パラメーター数がオリジナルのStable Diffusionの9億から23億へと大幅に拡大され、描写力が飛躍的に上昇したモデルです。正式版のSDXL 1.0が7月18日に公開予定とあり、あらためて注目されています。ベータ版にあたるSDXL 0.9は先行して、有料課金サービス「DreamStudio」と、Discordでの公開を開始していました。Discordでは1人無料で1回出力可能で、いまもリアルタイムで生成画像が見える状態です。その後SDXL 0.9は研究用に公開されて、ダウンロード可能になりました。
大きな違いは「2回生成する」こと
SDXLがこれまでのStable Diffusionの仕組みと決定的に違うのは、1回の画像生成で2回生成するプロセスを取っていることです。
プロンプトが画像として生成されるデータセットが「ベース(Base)」と「リファイナー(Refiner)」の2種類に分かれるんですね。なぜこんなやり方をするかというと、2種類のクリップ(画像とテキストとの紐付けのこと)で学習をさせているようなんです。一度、プロンプトを通じてデータセットで生成した画像データを、さらに別のデータセットを使って精度を上げていくという仕組みになっています。
SDXL動作プロセス解説図。入力されたテキストプロンプトは、ベースで一度生成された後、リファイナーでふたたびその画像と組み合わされ、同じプロンプトで再度生成される(Stability AIの説明より)
ComfyUIを使って作成したSDXLのサンプル例。左側がベースで、右側がリファイナーで生成された画像(記事中の生成画像はすべてSDXL 0.9で筆者作成)
実際に、10日にいち早くSDXLに対応した「ComfyUI」というアプリでSDXL 0.9を動かしてみました。ComfyUIはノードベースのGUIに特徴があり、生成を処理する手順を、割と自由に設計できるところに特徴があります。オープンソースで開発が続けられており、Stable Diffusionを動かす有力なアプリの一つです。
ComfyUIではどのように作業が進むのかを見ることができるのですが、生成が開始されると入力したプロンプトが、2つのサンプラー(生成機)に送られます。最初のサンプラーがベース(Base)と呼ばれるデータセットを使って、一度画像を生成して出力した後、もう一つのサンプラーから、リファイナー(Refiner)に入れて、画質を引き上げる仕組みになっていることがわかります。画像の基本サイズも512×512ピクセルから1024×1024ピクセルに大きくなりました。
ただし、そのぶん生成のために要求するスペックが上がっていて、NVIDIA GeForce RTX 20シリーズ以上、ビデオメモリー8GB以上が環境として求められます。
ComfyUIの画面。SDXLが処理できるように設定されている。右下にベースが出力され、右上にリファイナーが出力される
出力できる画像の幅は大幅に広がっていることはすぐに実感できます。たとえば猫とか、ジャングルを進む探検隊、香港の未来の町並み、ブロンズに金の液体をかける……といった思いつく限りの単語を適当に英訳してプロンプトにしてみたのですが、過去のものとは違い、複雑なプロンプトを組まなくても様々な画風が出てきました。特に学習データに偏りがあったと言われるv1.5で出てこなかった東洋人風の顔や、いわゆるアニメ風の二次元の画像もかなり出してくれます。これは相当様々なテクニックが探索されることになるのではないかと思えます。
SDXL作例。適当に文章を作って、英訳してプロンプトにするだけで、かなり複雑な絵が出てくる。実写風からアニメ風まで出力の幅も広い
ただ、指はやっぱりぐちゃっとするんですよね。技術レポートでも明確に書かれていましたが、やっぱり「指問題」は解決が難しいと。「微細なディテールの合成に特化した、さらなるスケーリングとトレーニング技術の必要性を示唆」しているとしており、原因については「手や類似の物体が写真に非常に高いばらつきで写り、その場合にモデルが実際の3D形状や物理的限界の知識を抽出することが困難であることが考えられる」としていました。このあたりはv1.5でも広がったControlNetなどを使うといった、別のテクニックで補うことになる気がしますね。
「性的画像が出にくい」のはv2.1と同じ
Stability AIは、SDXLのデータセットを何から学習したのか明らかにしていません。ドイツの非営利団体LAIONが収集した画像データセットを使っていることが権利的に問題視されていることもあり、今回は学習データ元については明かさない方針にしたものと見られます。
学習元のデータについてはかなりオプトアウトで減らしたと言われています。オプトアウトを進める団体の発表によると画像投稿サイトをドメインごとすべてオプトアウトにする機能がついたので、5月時点で1億4000枚以上は減らしているとしています。そういった影響もあってか、性的画像は出にくくなりました。「足を開いて性器を見せる」などと露骨な指定をしても、まったく出ません。
「足を開いて性器を見せる」とプロンプトに指定したケース。まず生成されない
実は、昨年11月にリリースされたStable Diffusion v2.0のときから既に「性的画像が出にくくなった」という指摘はあったんですね。Stable Diffusion v1.5で「性的画像が出やすい」という批判を受けたため、学習データを除外したり、アルゴリズム的な工夫をしたとも言われています。ただ、そのためにv2.0では人体の学習量が足りないと言われており、人物の画像は腕や足や指がぐちゃぐちゃになりやすい傾向があります。良くも悪くも性的な画像にはヌード画像が多く含まれていて、人体の形状について学習しやすかったようなんです。そのためv2.0はその後にユーザーが追加学習を進めたデータセットでも、人体はきちんと出ない傾向があり、今だにv1.5よりも品質が低いといわれます。
一方のSDXLは、少なくとも人体の描写は全体的にはきちんと出ています。学習データ量を増やすことで補っているようで、新バージョンが出たのに、あまり流行らないという状況は起こらないのではと思っています。
また、同社のCEOのEmad Mostaque氏により、LoRAといった追加学習機能やControlNetといった構図などをコントロールする仕組みへの対応が完了していること、WebUIといったStable Diffusion動作用に普及している環境でも動作が確認されていることがアナウンスされています。v2.0系では中途半端な対応で人気が出なかったという背景もありましたが、SDXLについては環境をしっかり対応してローンチを迎えるように準備を進めているようです。
ビジネスモデルは「サブスク」と「ライセンス」の2本軸?
問題はStability AIが、SDXLでどうやって儲けていくのかということですね。昨年10月に1億100万ドル(約140億円)の資金調達をした後、追加の資金調達に苦戦しており、6月に2500万ドル(約30億円)未満の転換社債を発行したと報じられています。
1つあるのはサブスクリプションです。SDXLが対抗馬として意識したのはMidjourney。オープンソースタイプにもかかわらずほぼ互角に戦えることを目指しており、技術レポートでは互角に達したとしています。
日本では意外に感じるかもしれませんが、アメリカのGoogleトレンドを見ると、関心度としてはMidjourneyの方が上なんです。ローカル環境のユーザーが多い日本ではStable Diffusionが人気なんですが、アメリカではクラウドのほうがコストが低く、高品質な画像が出るということもあってか、Midjourneyのほうが人気を集めています。
日本におけるGoogleトレンド「Stable Diffusion」「Midjourney」「SDXL」のトレンド比較。昨年末からずっとStable Diffusionの人気度が高い
同じくアメリカ。昨年末からずっとMidjouneyの人気度が高い。ただし、アメリカは人口比で日本の約3倍。検索件数が日本と比べて少ないわけではない
そう考えるとStable AIの最新のStable DiffusionモデルをDream Studioのようなサブスクリプションモデルに誘導したいという気持ちがあるのではないかと思います。SDXLは標準的な動作環境がNVIDIA GeForce RTX 20シリーズ以上、ビデオメモリーも8GB以上というかなり厳しい仕様なので、SDXLが使えるならお金を払ってクラウドサービスを使ったほうがいいと考えるユーザーも出てくるんじゃないかということですね。ただ、現状は10ポンド(約1400円)で約1000枚のプランしかないので、月額30ドルで使い放題のプランも用意しているMidjourneyに比べると見劣りする面もあります。こうした面の改善があるかは注目です。
もう1つは企業に対してライセンスを出していくのかなというところです。SDXLは積極的に他社との提携を進めているようです。
たとえばAI動画生成サービスのピカラボ(Pika Labs)は、SDXLを使った動画を生成していますが、Stablity AI社から技術提供を受けて共同制作をしているようなんですね。
こうした生成AIの動画生成は大きく成長が始まっている分野ですが、これをローカルでやろうとすると計算パワーをすさまじく食い、20秒程度の動画を作るだけでも2時間はかかるため、なかなか一般人には手が出ないと思います。そうなればローカルのPCでは生成が難しいので、クラウドに課金させる形でSDXLの採用を進めることで、収益を分配するようなビジネスモデルにしたいんじゃないかと。
ただ、今のところオープンソースであるがゆえに、多くのユーザーは無料で構築できる環境に流れてしまい、Stability AIは確実な収益源を持っていないため、ビジネスモデルは不安定です。
今後はオープンソースならではの“派生展開”に注目
一方、Stable Diffusion v1.5以上の普及を目指す上で、重要なのはSDXLそのものというより、リリースされた後に周辺環境が整ってくることなんですよね。「DreamStudio」の人気がないのも、カスタム化などが全然できなかったためだとも思えます。
メジャーなStable Diffusionの動作環境であるA1111 WebUIは、フォーク環境(派生環境)で正式対応が始まっています。ControlNetもおそらくは正式リリース後に順次組み込まれてくるでしょう。現状は要求スペックが高くv1.5ほど簡単ではないとはいわれていますが、追加モデルも開拓されていくのではないでしょうか。
ただし、Stable Diffusionの人気を高める要因になったLoRAといった追加学習データについては、これまでv1.5やv2.0用に作られてきたデータとの互換性はありません。そのためあらためて作り直しになります。まだ、簡単な方法の開発は模索されている最中ですが、Redditユーザーの報告によると、これまで5000枚の画像を学習させても出なかった画風の学習が、わずか100枚を使った学習で出せるようになったとの報告も出ています。それだけ、SDXLの潜在的な能力が高いことを示していると思われます。ただビデオメモリーなど要求されている仕様は上がっており、追加学習に実行環境よりもさらにハードウェアスペックが求められそうです。
OSのバージョンアップのようなもので、新バージョンのリリースに伴う課題はたくさんありますが、オープンソースの強みを生かして新たな様々なノウハウが発見され、作られて、SDXLの潜在的なクオリティーが、登場してくると思われます。SDXL 0.9は思いのままの画像を作るにはまだ難しいですが、性能は高そうなのでいじりがいはありそうだなという感想です。2022年8月に最初のリリースから約1年で、大きく世界のあり方を変えてしまった画像生成AIのひとつですが、今回の進化はどんな影響を与えていくことになるのでしょうか。
筆者紹介:新清士(しんきよし)
1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。