Stable Diffusionで画像生成の世界に足を踏み入れた話

2024-07-14 (最終更新: 2025-10-11)

はじめに

ChatGPTを日常的に使い、プログラムコードや検索に頼る日々を送る私にとって、画像生成は未知の領域でした。
Stable Diffusionの名前はよく耳にするものの、画像生成の必要性を感じず、導入するまでには至りませんでした。
しかし、最近になって画像生成にも興味を持つようになり、ついにStable Diffusionに挑戦してみることに。

Stable Diffusionとは？

Stable Diffusionとは、テキストから画像を生成するAIモデルの一つです。プロンプトと呼ばれる言葉を入力することで、思い描いたイメージの画像を生成することができます。
まるで魔法のように、イラスト経験がなくても美しい画像を生み出せるのが魅力です。

Stable Diffusion導入に必要なもの

Stable Diffusionを導入するには、以下の要件を満たす必要があります。

CPU: 最新のモデルを使う場合は、Intel Core i5以上、またはAMD Ryzen 5以上が推奨されます。
RAM: 8GB以上、16GB以上が推奨されます。
HDD: 100GB以上の空き容量が必要です。
GPU: 画像生成にはGPUが必須です。NVIDIA GeForce GTX 1060 6GB以上が推奨されます。Apple SilliconではM1/M2/M3でも利用可能

Linuxへの導入方法

今回の記事では、pyenvを利用しDebian12を対象とします。

pyenvとvenvを使って、安定した環境を構築する必要があります。

pyenvのインストール: ターミナルで以下のコマンドを実行します。

curl -L https://github.com/pyenv/pyenv-installer/raw/master/bin/pyenv-installer | bash

Pythonのインストール: ターミナルで以下のコマンドを実行します。
```
pyenv install 3.10
pyenv global 3.10
```

venvの作成: ターミナルで以下のコマンドを実行します。

mkdir ~/sd-webui; cd $_

python3 -m venv .venv
source .venv/bin/activate

必要なパッケージのインストール: ターミナルで以下のコマンドを実行します。
```
pip install --upgrade pip
```
Stable Diffusionのコード取得:
~/sd-webui内でターミナルで以下のコマンドを実行します。
```
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
```
Stable Diffusionの実行: ターミナルで以下のコマンドを実行します。
他のクライアントPCからも接続したいので、--listenを付加します。（ローカルPCのみの場合は不要)
```
./webui.sh --listen
```

これで、LinuxでもStable Diffusionが起動し、画像生成の準備が整いました。
ブラウザで http://サーバーのIPアドレス:7860 にアクセスしてみましょう。

最初の画像生成

Stable Diffusionを起動したら、まずは簡単な画像生成を試してみました。

モデルを選んで、プロンプトに"1 girl"とだけ入力し、Generateを押すと、画像が生成されます。

無事に、画像が生成される事が確認できたので、モデルを変更したり、詳細なプロンプトを入力していくと段々とリアルな画像が生成されていくのは楽しいですね。

まとめ

Stable Diffusionは、テキストから画像を生成するAIモデルで、誰でも簡単に美しい画像を生成できます。
この記事では、Linuxへの導入方法、最初の画像生成までの手順を解説しました。
ChatGPTで培ったスキルを活かして、Stable Diffusionの世界に挑戦してみてはいかがでしょうか。

macやLinuxにStable Diffusionをインストールした後に、知ったのですが、Stable Matixを利用すると、本記事で紹介した面倒なインストール作業が必要なく、ダウンロード・インストールするだけで利用が可能になります。

ちなみに、冒頭のアイキャッチイラストもSDで作成しました。