AI生图新王诞生！“纳米香蕉🍌”—— Nano-Banana

2025年8月30日 1,592

最近，LMArena这个AI届的“蒙面歌王”迎来了一个新的挑战者——Nano Banana。看到这个名字的第一眼，我就在想，什么模型会取个这种名字啊，有点搞笑，头脑一热取的吗？但它的实际表现，一点也不好笑。

这个名不见经传的模型，在匿名对战中屡屡获胜，对其他模型，可以说是“降维打击”，它击败了 GPT-4o，击败了 Qwen-Image-Edit，击败了所有能叫得上名字的顶级 AI 模型，稳稳地坐在了第一名的宝座上。

不久之后谷歌正式宣布：那个在社区中引起轰动的神秘冠军"Nano Banana"，正是他们最新发布的 AI 图像模型：Gemini 2.5 Flash Image！

我也在第一时间进行了体验，于是才有了这篇文章。为什么我认为它是“新王”呢，主要有以下几个优势

优势

AI 绘图的最大挑战之一，便是如何让同一个主体在不同场景、姿态、服装下保持高度一致，同时又能灵活修改局部细节。

比如你好不容易让它画出了一张满意的图片，想让它修改一下，或者生成这个角色在不同场景下的图片。但结果每次生成的都不一样。但 Gemini 2.5 Flash Image 彻底解决了这个问题。

以下是我做的一些测试，我先让它生成了一个角色，如下图所示

然后，我期望还是这个角色，换一个背景。

这效果真是绝了！这意味着什么？你终于可以用 AI 来创作连环画、制作系列海报，甚至为你的品牌设计一个一致的虚拟代言人了！

它是真的“懂你”，“懂这个世界”的。

我通过上面的测试，发现我竟然能够像聊天一样让它帮我生成图片、修改图片。不像之前的“提示词”，每次都是像抽卡赌运气一样，如果不满意，只能重新调整“提示词”，让它重来。

后续随着我深度的体验，我发现其他模型常犯的错误，比如光影不对、人物手指等细节不对之类的问题，在它这都能解决。它不只是在模仿像素，而是真的"理解"它在画什么。

你甚至可以让它将你画的草图、线稿图，生成一张实际效果图。比如我在网上随便找的一个线稿图。

那么要怎么用好Gemini 2.5 Flash Image的生图能力呢？最核心的是要掌握一个基本原则：

描述场景，而非简单罗列关键词。该模型的核心优势在于其深度语言理解能力。用叙述性、描述性的段落进行提示，几乎总能比零散的词汇列表生成更优质、更具连贯性的图像。若想生成逼真的图像，可以使用摄影术语。提及相机角度、镜头类型、光照效果以及细节描写，这些都有助于引导模型生成更具照片真实感的结果。

除了Gemini的官方指南，Google DeepMind的产品经理也给出了一份提示词建议。

首先是构建高效提示词的6个要素：使用 Gemini，即使是一两句话的简单输入也能获得不错的结果。但为了获得最佳效果并解锁更细致的创意控制，可以在提示词中考虑包含以下要素：

然后他给出了模型的几个具体使用技巧：

保持角色一致性
Gemini 可以在不同的姿势、光线和环境下保持人物或角色的外貌一致，甚至可以将同一角色应用到新的风格和材质上。
精准定向修改
借助更新后的图像编辑功能，你可以对照片进行快速且高度精确的修改。这非常适合从产品效果图到完善个人照片的各种场景。
融合概念与创意构图
尝试将两个或多个创意融合到同一幅引人注目的图像中。你可以提示 Gemini 先生成两张图像，然后以富有想象力的方式将它们的主体和环境结合在一起
风格迁移
通过应用新的风格、色彩方案或纹理，完全改变图像的氛围和美学，同时保持原始主体不变。
运用逻辑与推理进行复杂生成
给 Gemini 一个简单的概念，让它运用推理能力来构建细节。这对于需要理解现实世界关系或流程的内容创作非常有用。