8GMのVRAMしかないPCを使用している私ですが、FluxやZ-Imageのローカル生成は諦めていました。基本的には2次元イラストを生成して楽しんでいるので、IllustriousやNoobAIでの十分満足のいくクオリティのものが生成できていたのであまり不満を感じることはありませんでした。
先日Animaが登場し、当初触ってみたときは、良さそうだけど、まだIllustriousやNoobAIのほうが扱いやすいなという印象であまり使用しませんでした。
ですが、ほんの数週間触れていない間に様々な派生モデルが登場したりCivitaiのオンラインジェネレートが使用可能になったりと環境が整い、また改めて生成をしてみるととても使いやすく、一気に気に入ってしまいました。
ローカルでの生成もStable diffusion Web UI Forge NEOでの生成が可能で、今は完全にAnimaの環境に移行しつつあります。
AnimaがIllustriousよりも特に優れていると感じる点は、「”文字”をきちんと生成できる」点と、「自然言語でのプロンプト記述が可能」という点だと個人的に感じました。
文字の生成については、Fluxなどのモデルではできていることでしたが、私のような低スペックPCでも動くモデルでそれが実現できるものはAnimaが私の中では初めてだったので少し感動しましたw
Danbooruタグでの記述はこれを生成したいときはこのプロンプトを書くという明確な正解があって私には合っており、自然言語でのプロンプトは記述の仕方の正解がわからないので苦手意識があったのですが、少し使ってみると、Danbooruタグで起こりがちだった、「画像に生成したいものは含まれているが、そこじゃない~!」みたいな地味なストレスが解消される使い勝手で非常に助かるなと感じました。
同一プロンプトを使用して生成したIllustriousとAnimaの画像の比較
屋外で腕組みをする毛深いメガネマッチョ男子を生成してみます。
次にお見せするのはTxt2Imgの一発出し画像になります。
Danbooruタグプロンプト
Illustrious
(WAI-illustrious-v17)

Anima
(WAI-Anima(pw3)-v1)

masterpiece, best quality,score_9, score_8, score_7,
BREAK 1boy, male focus, cowboy shot, muscular, huge pectorals, thick neck, thick arms, crossed arms, short sleeves, very short hair, black hair, black eyes, huge eyebrows, beard stubble, smirk, sweat, white shirt, brown, micro shorts, from below, arm hair, leg hair, hairy, glasses, outdoors, blue sky, lens flare, depth of field, blurry background, blurry foreground, anaglyph,chromatic aberration,
自然言語プロンプト
Illustrious
(WAI-illustrious-v17)

Anima
(WAI-Anima(pw3)-v1)

masterpiece, best quality,score_9, score_8, score_7,
A cowboy shot focusing on a muscular boy with huge pectorals, thick neck, and thick arms. He has short, very short hair, black hair, and black eyes with huge eyebrows. His beard stubble is visible, and he sports a smirk. He wears a white shirt with micro shorts, and his crossed arms reveal arm hair. His legs are hairy as well. He wears glasses and stands outdoors under a blue sky, with lens flare and chromatic aberration adding to the effect. The scene has a blurry background and foreground, creating a depth of field. The image has an anaglyph style for added visual interest.
Danbooruタグの場合でも自然言語の場合でも、Animaモデルで生成した画像のほうが、プロンプトの再現性が高いように感じました。(画像の内容やモデルの種類、バージョンによっても違うとは思います)
特にAnimaの画像は私のお気に入りの加工、chromatic aberrationの影響が強くでていますね。
そもそも今回の検証でIllustriousでも自然言語でイメージが生成できたことが驚きでした。(タグ形式じゃないと認識されないと思っていた)
それぞれの良さがあり、どちらを使うべきというものはないですが、現状はAnimaのほうが柔軟性があるような気がしますし、新しいモデルでどんどん改良が進むと思うので、しばらくはAnimaを試していこうと思っています。
自作のIllustrious用LoRAのAnima版のトレーニングもどんどん進めていきたいです。
