ChatGPTとGemini、どちらも画像生成は十分実用レベル。でもブログのアイキャッチで詰まりやすいのが「画像内の日本語テキスト(謹賀新年など)が文字化けする問題」です。僕はこの対策として、ChatGPTで“文字以外”、Gemini 3 Pro(Nano Banana Pro)で“文字”、最後にChatGPTで“合成”する二刀流ワークフローで回しています。
ChatGPTで画像生成するときの小ワザ:いきなり作らず、まず“プロンプト化”する

僕はChatGPT(GPT Image 1.5)で画像生成を頼むとき、最初から完璧な指示を投げません。
- ざっと日本語で要件を書く
- ChatGPTに英語プロンプト(または整理された指示)を作らせる
- そのプロンプトを微調整して最終指示にする
この「プロンプト化」だけで、構図や雰囲気の成功率は上がります。ただし、日本語テキスト入りだけは、ここを丁寧にやっても“崩れる時は崩れる”のが悩みどころでした。
ここが本題:僕の“二刀流ワークフロー”がいちばんラクだった
僕はChatGPTのサブスクリプションに入っていて、Plusユーザーです。だもんで、必然的にChatGPTを使う機会が多いのでそう感じすぎるのかも知れませんが、ChatGPTで日本語込みで一発生成を狙うほど、文字化け→やり直し→微修正→また崩れる、のループに入りがちです。そこで僕は、作業を分割しました。
二刀流ワークフロー(結論:これが安定)

で、日本語込みで一発で思ったような画像を生成しようとすると、日本語が化けてしまって何度もやり直すことがあるので、作業を分けることにしています。
ここで、無料では回数制限はあるものの、Gemini 3 ProのNano Banana Proを活用しています。手順はこんなところです。
- ChatGPT(GPT Image 1.5)で“文字なし”のベース画像を作る(構図・光・人物・背景を優先)
- Gemini 3 Pro(Nano Banana Pro)で“文字だけ”の画像を作る(日本語の正確さ最優先)
- ChatGPTの画像編集で、ベースに文字画像をマージして完成
2点目がポイントです。
このやり方にしてから、いわゆる「謹賀新年が謎文字になる」「『で』が崩れる」みたいな事故の“戻り作業”が減りました。Nano Banana Proは公式にも「高度なテキストレンダリング」を特徴として掲げているので、文字用途に寄せるのは筋が良いと感じています。
Nano BananaとNano Banana Proで、文字の出来が違うと感じた話(比較の注意点あり)
同じGemini系でも、(僕の環境だと)文字レンダリングの安定感が違うと感じました。比較するときは、同じプロンプトで、できれば別チャットで試すのがおすすめです。
テストに使ったプロンプト(面倒なので簡易版)
謹賀新年 2026年 午年
上記文字だけのゴージャスな画像を生成してください。
まずはNano Banana。

画像はこんな感じで漢字なのかなんなのか、よくわかりませんが独創的で雰囲気は出ていますがデタラメです。
続いてNano Banana Pro。プロンプトは同じです。無料ユーザーは画像生成できる枚数に非常に制限があるので丁寧に…。

僕の体感では、Pro側の方が「それっぽい雰囲気」だけでなく「文字として成立」しやすかったです。(※もちろん、環境・タイミング・モデル更新で結果は変わり得るので、断定ではなく体験談として受け取ってください)
比較検証するときは“チャットを分ける”のがコツ
これは地味に重要で、同じチャットで失敗を引きずると、後続の出力が不安定に感じることがありました。検証時は、モデルごとにチャットを分ける方が再現性が上がります。
ChatGPTの失敗例:一度に全部盛りすると崩れやすい
先日「第76回紅白歌合戦」の記事用アイキャッチを作ったとき、まさに沼りました。
「ブログの女性」(ウチのブログではこの女性を定着させることにしました。便宜上「ブログの女性」と呼んでいます。)の表情や写真感は良かったのに、文字(紅白歌合戦・幾田りら)が崩れて何度もやり直し。
原因はシンプルで、欲張っていました。参考までに失敗した画像がこちら。

つまり大事なのは、どの組み合わせで、どこまでAIに任せるかの設計です。
- 写真っぽさ/構図 → ChatGPTが強い場面が多い
- 日本語文字の正確さ → 文字専用に切り出すと安定しやすい
この“役割分担”がハマると、作業が一気に軽くなります。
ちなみに少しフォローすると
ChatGPTがGeminiに比べて劣勢なような書き方もしましたが、日本語だけの指示なら実はそうでもない気がしました。Geminiへのプロンプトと同じで画像生成させたところ、Nano Banana Proに引けを取らない画像が生成されました。やはり、組み合わせることによって混乱するのか…?

まとめ:画像生成は「用途で使い分け」がストレス最小だった
いまのところ僕は、どちらか一方に決め打ちするより、用途で使い分ける方がストレスが少ないと感じています。
ブログのアイキャッチのように、「雰囲気のいい写真」+「誤字ゼロの日本語テキスト」を同時に求めるほど、戻り作業が発生しがちです。
そこで僕は、
- ChatGPTで“文字なしのベース画像”を作って絵作りに集中
- Gemini側で“文字だけ”を正確に作る
- 最後にChatGPTの画像編集で合成して完成
という二刀流ワークフローに落ち着きました。これで「謹賀新年が謎文字になる」「『で』が崩れる」みたいな事故が減って、制作が安定しています。
2026年は各社とも日本語テキスト精度や編集機能がさらに進化しそうなので、アップデートが来たら同条件で再検証して追記していく予定です。
