みなさんはリアル系の画像生成の際にどのCheckpointを使用していますか?
私のPCはビデオメモリ(VRAM)が8GBと画像生成AIを楽しむには心もとないスペックのため、FluxやChroma、Z-imageのようなPCスペックが求められるリアル系の主流(だと私は思っている)のCheckpointを使用できません。
ベーシックなSDXLのCheckpointやPonyで生成すると、私の低スペックPCでも画像の生成はスムーズなのですが、今度は指などの細かい部分のクオリティや、人体構造の違和感を感じることが多々あります。
色々試行錯誤した結果、IllustriousのCheckpointをうまく使うことで、妥協できるクオリティの画像が生成できるようになりました。とは言っても、Flux等を使える環境がある方はそちらを使った方が高クオリティかと思います。
私なりのリアル系画像を満足いくクオリティで仕上げるためのテクニックや、私が使用するおすすめのモデルなどをご紹介します。
まずはセミリアルが得意なCheckpointでリアルさは追及せず生成する
いきなりリアル系Checkpointを使って生成してみると、「もっとこの部位は強調したいのに」「イラストの誇張表現がないとつまんないな」「リアル系Checkpointはこのパーツがうまく生成できないな」と感じるものが生成された経験はないですか?
写真と見間違うかのようなリアルさは欲しいけど、実際には存在しないような人体構造、例えばめちゃくちゃ巨乳でダイナマイトボディな人物であったり、その体勢は現実的には厳しいよね?みたいなポーズをさせたりしたい。リアルとイラストのいいとこ取りのようなイメージを生成したいときは、私はまずはリアルさは求めずに満足いく構図のイメージを生成します。
後々リアルにすることを考え、頭身が低くデフォルメされていたり、アニメ塗りのあまりにも現実離れしたイメージではなく、立体感のある画風でイラストとリアルの中間、2.5次元(セミリアル)なイメージの生成が得意なCheckpointを使って生成します。
私はこの工程ではIllustrious(イラストリアス)のCheckpointを使用します。誇張表現と人体構造の違和感のなさのバランスが私的には最適であることと、Illustriousの後継のような立ち位置であるNoobAIのCheckpointは扱いが個人的には難しい印象があります。慣れなんでしょうけどね。
なぜIllustriousのCheckpointを使うの?
プロンプトだけでは生成が難しい理想のイメージを生成するときに多くの方がLoRAを活用するかと思うのですが、IllustrioutのCheckpointを使用すると、LoRAの選択肢が多いというのもIllustriousを使用する理由のひとつです。
Illustriousを使いたい大きな要因のひとつは、自然言語での記述ではなく、タグ形式の1単語ごとのプロンプト形式であることです。
自然言語形式は、「一人の男性が夜の公園を歩いている」のような、文章になっている形式のプロンプトのことで、文脈があることでAIにも状況を把握させやすいらしいです。(だと思っている、違ったらごめんなさい)
ですが、定型文を記憶しておくのが大変ですし、目的のイメージが生成できなかった際のプロンプトの書き換えをどうすればよいかの正解がわかりにくいです。(私の場合は)
先ほどの「一人の男性が夜の公園を歩いている」をタグ形式で記述すると、「1boy,male focus,walking,park,night」とカンマ区切りの単語で(単語ではないプロンプトもある)記述ができるので、頭の中のイメージをとにかく単語化して並べれば、目的のイメージを生成しやすいと感じています。
弱点としてはタグごとのつながりがないので、複数人を画像内に生成するときはごちゃまぜになってしまうことが多いです。また、AIが理解していないタグは当然ながら生成できません。(自然言語の場合だとどうかは私の知識がなく比較できておりません。)
おすすめの2.5次元系IllustriousのCheckpoint「iLustMix」
バージョンによって印象が若干異なります。私はV3を使用していますが、のちのちリアル系Checkpointに変更して絵柄を変えてしまうので、お好みのバージョンを使っていただければよいかと思います。
基本的には最新バージョンを使っておいた方が対応しているプロンプトが多いなどの恩恵はありそうな気はします。
img2imgでベースモデルを変更して少しずつリアルに寄せていく
セミリアルなイメージで思い描くものが生成できたら、その画像をimg2imgの参照画像として、ベースモデルをリアル系のCheckpointに変更し、少ないノイズで少しずつリアルに見えるように書き換えていきます。
少ないノイズで少しリアル感が足された画像を参照画像に差し替えて、さらにimg2imgで書き換える、ということを何回か繰り返します。
ノイズを強く書き換えてしまうと、リアル系モデルが本来生成が苦手であろうイラストの誇張表現が弱まってしまったり、細かな部分の破綻が起きやすいです。手間ではありますが、少しずつリアルに変化していく様を楽しみながら、少ないノイズで何度か生成を繰り返しましょう。
Before→Afterのサンプル


セミリアルイラストからリアルイラストにimg2imgで変化させたもののサンプルです。
どうでしょうか?並べてみるとイラストの誇張表現のある体型のままリアルな質感がプラスされているかと思います。
このイメージはセミリアルなイメージを参照画像にノイズを0.3に設定してimg2imgで生成、生成された画像を参照にしてノイズを0.3に設定してimg2imgで生成、さらに同様の流れを2回繰り返したものになります。
このイメージでも薬指や小指がだいぶ怪しい感じになってきており、やりすぎると細部が崩れてきます。ノイズは0.3でも多いかもしれませんが、少ないと変化がその分なくなり、試行回数が増えることになります。バランスを見ながらチャレンジしてみてください。
おすすめのリアル系Illustriousモデル「Babes Illustrious By Stable Yogi」
リアル系モデルといえばこの方のモデルが断然おすすめです。