従来モデルから大幅に進化
文字から文字を生成する対話型AI「ChatGPT」や「Google Bard」とあわせて、文字から画像を生成する「画像生成AI」にも注目が集まっています。
ChatGPTやBardに質問(指示文)を投げかけると、まるで人間のように自然な文章で回答が生成されます。それと同じように、画像生成AIはテキストで伝えたイメージを、まるで人間が描いたような画像として描画するのが特徴です。
画像生成AIのサービスは次々と登場しており、生成される画像は本当に人間が描いたイラスト、もしくは写真のような仕上がりとなり、とても自動的に生成されたとは思えないレベルにまで達しています。
そうした画像生成AIの中で、本記事で紹介するのが「Stable Diffusion XL」(ステイブル・ディフュージョン・エックスエル:SDXL)です。複雑なパターンや特徴を学習する能力の指標となるパラメータ数は23億とされ、従来モデル(Stable Diffusion 2.1)よりも短いキーワードで詳細な画像や構図の生成が可能になったと公表されています。
まずはその実力を見てください。以下はStable Diffusion XLに「Cute cat at home」(家にいるかわいい猫)というキーワードを与え、生成した画像です。
Stable Diffusion XLで「Cute cat at home」(家にいるかわいい猫)の画像を生成しました。パッと見では写真のように見えます。
このレベルの画像が自動生成できてしまうとは驚きです。Stable Diffusion XLは、公開元のStability AI社のWebサービスである「DreamStudio」のほか、子会社であるInit ML社のWebサイト「Clipdrop」でデモ版を試すことができます。
DreamStudioではアカウントの作成が必要になるため、本記事ではログイン不要のClipdropで、Stable Diffusion XLを試す方法を紹介します。
Stable Diffusion XLのデモ版
動画で操作方法を見る
※BGMが流れます。音量にご注意ください。
Stable Diffusion XLで画像を生成する
1キーワードと画像のスタイルを指定する
Clipdropのサイトにアクセスすると、Stable Diffusion XLのキーワード入力欄が表示されるので、キーワードを入力しましょう。ここでは例として「Cute cat at home」(家にいるかわいい猫)と入力しました。生成する画像のスタイルも指定可能で、ここで[Photographic]を選択しました。[Generate]をクリックします。
画像生成中にPRO版の案内が表示されますが、[Skip]をクリックしてしばらく待ちます。
2画像を拡大表示する
入力したキーワードから4枚の画像が生成されました。任意の画像をクリックします。
3画像をダウンロードする
選択した画像が拡大表示されました。[Download HD]をクリックすると、画像のダウンロードが始まります。
Clipdropのツールで画像を加工する
Clipdropのサイトには、Webブラウザーで完結するさまざまな画像加工ツールも用意されています。ノイズの除去や背景の削除、画像の合成など、画像編集アプリを使って自力では作業するには面倒な処理が集まっており、重宝するはずです。
Clipdropのサイトを日本語に翻訳した状態です。自力では面倒な処理をブラウザーだけで完結できます。
どのツールも、ブラウザーに画像をドラッグ&ドロップするだけで直感的に使えます。Stable Diffusion XLで生成した女性の画像を例に、切り抜きの処理を試してみましょう。
1画像をドラッグ&ドロップする
ここでは[Remobe background](背景の消去)を選択しました。画面中央の点線に囲まれている箇所に画像をドラッグ&ドロップします。
2背景を消去する
画面に表示されるハンドルをドラッグするだけで作業は完了します。切り抜き後の画像は[Download]をクリックしてダウンロード可能です。
HINT英語のキーワード作成に便利な「DeepL翻訳」
画像生成AIに限らず、英語への翻訳や英語のWebサイトを閲覧するときに重宝するのが「DeepL翻訳」です。無料で利用可能で、アカウントを作成することで長文の翻訳も可能です。
ブラウザーに追加できるアドオンもあり、使い勝手の良いツールなので、翻訳する機会が多い方はぜひ使ってみてください。
DeepL翻訳
翻訳したいテキストを入力すると、画面右側に翻訳結果が表示されます。選択・コピーして利用しましょう。言語は自動検出されますが、[英語(US)]をクリックして切り替えることもできます。