画像生成AIの基本と活用法
ほんの数年前に登場した画像生成AIは、今ではすっかり当たり前のものとなりました。いまや幼児向けの学習教室でも、AI学習に使われはじめています。こうなると学生も大人も、もう知らないではすまされません。
幸い現在では、よく使われているAIツールのほとんどに、画像生成の機能が標準で組み込まれています。どのAIツールにも数カ月おきに新たな機能が追加され、画像生成の機能も進化しています。
あと
by あぶらげ とんび
初心者におすすめの画像生成AI
Copilot/DALL-E 3
WindowsパソコンのCopilotやOffice 365に組み込まれており、特段の準備なく使えます。社会人の方におすすめです。
Gemini/Imagen 3
AndroidタブレットやChromebookの標準となっており、学生の方々になじみがあります。
X/Grok 3
X(旧Twitter)のサイドバーから利用できます。2024年末から無料アカウントでも使えるようになりました。
Stable Diffusion
オープンソースで商用利用可という寛大な条件で無償公開され、様々なサービスやツールに組み込まれています。
画像生成の枚数制限と仕組み
枚数制限について
無料・無課金の場合には、画像の品質や一日・ひと月に生成できる枚数に制限があります。お試し程度で一日数枚生成する程度なら気にすることはありませんが、制限を確認したい場合は 画像生成 枚数制限 [AIツール名] (1か月以内)のように検索すると確認できます。
例外として、Stable Diffusionの場合には、自分のパソコンにツールをインストールすることにより無制限に画像生成を行える方法もありますが、高性能なパソコンが必要です。
画像生成AIの仕組み
画像生成AIの仕組みは、おおまかには2つの部分で構成されています。利用者から見えているオモテ側の画面の部分は、ユーザー・インタフェース(UI)と呼ばれます。
見えていないウラ側の仕組みは、サービス、モデル、エンジン、APIのように表現されることがあります。
基本的な使い方は、どのような画像生成AIでも同じです。利用者が画面で、どのような画像が欲しいのかプロンプトなり設定なりで指示をすると、ウラ側の仕組みがプロンプトや設定を解釈し、画像を生成して画面に表示します。
各AIツールのインターフェース比較
Copilot・Gemini
チャットのような画面で対話的にプロンプトを入力します。質問や会話の流れの中で画像生成の指示を出すことができます。
X (Grok)
サイドバーにあるGrokボタンを押してから、チャットのような画面でプロンプトを入力したり、ボタンで設定を変更したりします。
Fooocus (Stable Diffusion)
プロンプト入力と画像表示だけの画面が中心にあり、細かい設定は別のタブで行う画面となっています。
Automatic (Stable Diffusion)
プロンプト入力や設定をまとめて行える画面が中心にあり、細かい設定は別のタブで行う画面となっています。
プロンプト・エンジニアリングの基本
理想的な画像の生成
欲しい画像が少ない回数で生成される
プロンプトの工夫・改良
スタイル、撮影距離、アングル、ライティングの指定
脳内イメージの言語化
具体的な指示の追加
簡潔なプロンプト
基本的な指示のみ
画像を生成するさいに、利用者がAIに与える指示は、プロンプトと呼ばれています。プロンプトでの指示が丁寧であればあるほど、欲しい画像が生成される可能性が高まります。回数制限がある場合には、少ない回数で成功させる必要もあります。
プロンプトが簡潔なものだった場合、あなたが脳内で勝手に想像している出来上がりイメージとは、あまり合致しない画像が出力されることでしょう。
欲しい画像を生成してもらうためには、あなたの脳内のイメージを文字に言語化して、プロンプトに含めて指示する必要があります。
リアリティの調整テクニック
写実的な表現
現実世界に近いリアルな画像
アニメ調・デフォルメ
現実感を和らげた表現
アイコン・線画
抽象的で簡略化された表現
題材によっては、誤解や不快感を与えないように、具体的・写実的な表現を避け、イラストやアイコンのような抽象的な表現に代替すべき場合があります。例えば、不快な内容を表現する場合、デフォルメされたアニメ調やアイコンのような線画にするよう指示することで、ショックを和らげることができます。
逆に、表現力やリアリティを高めるために、スタイル、撮影距離、アングル、ライティングにこだわりたい場合もあります。これらも、それぞれプロンプトで指示すれば、だいたいは反映されます。丁寧に指示すればするほど、欲しい画像が得られる可能性が高まります。
プロンプト拡充・補完の機能
簡潔なプロンプト入力
基本的な指示のみ
AIによる拡充・補完
詳細な指示に自動変換
最適化された画像生成
美しい結果の出力
プロンプトを調整し、細かく指示するのには時間がかかります。また写真や絵が趣味でもない限り、そもそもどういう用語で指示をすればよいかわからないので、それを調べ、覚えるところからの勉強になります。
その手間を省くため、いくつかの生成AIのツールでは、よく使われるスタイル、撮影距離、アングル、ライティングを指定できるような設定ボタンが用意されています。ボタンを押すだけで、ウラ側の仕組みのほうで、プロンプトを追記したり書き換えたりして、プロンプト・エンジニアリングを代行してくれます。
一貫性のある画像生成の課題
動画生成AIの活用
一貫性のある映像から画像を切り出す
画像の部分加工
Stable Diffusionでの限定的な編集
360度画像生成
視点を変更した一貫性のある風景
3Dモデル生成
ポーズ変更可能な立体モデル
画像生成AIにおいて現在、大きな課題となっているのは、一貫性の乏しさです。複数の画像を連続で生成させたとしても、同じ人物・物体・背景が出力されることはほとんどありません。多くのツールで、画像生成のさいに、文章のプロンプトに加えて画像をアップロードできますが、特に無料版では、編集や加工は出来ない現況にあります。
この課題に対する決定打はまだありませんが、いくつかの代替策があります。例えば、動画生成AIを使って一貫性のある映像を生成し、その中からカットを切り出す方法や、3Dモデル生成ツールで人物や物体の立体モデルを作成する方法などがあります。
各ツールの特徴と使い分け
画像生成AIを気軽に楽しむために
まずは触ってみよう
難しく考えるよりも、まずは「Copilot」や「Gemini」など、普段お使いのスマホやパソコンに最初から入っているアプリで試してみるのがおすすめです。特別な準備はほとんどいりません。
プロンプトはちょっとしたコツ
AIにどんな画像が欲しいかを伝える「プロンプト」は、最初は簡単な言葉で大丈夫です。「夕焼けの海」とか「かわいい猫」のように、思いつくままに入力してみてください。慣れてきたら、色や雰囲気など、少し詳しく伝えてみると、よりイメージに近い画像が出てくるかもしれません。
色々な作風を試す
同じお願いでも、AIによっては写真のようなリアルな画像を出したり、イラストのような可愛い絵を出したりと、得意な表現方法が違います。色々試して、それぞれのAIの個性を楽しむのも面白いでしょう。完璧を求めすぎず、色々な試行錯誤を楽しみながら、気長に付き合っていくのが大切です。
Made with