AI生图新王诞生!“纳米香蕉🍌”—— Nano-Banana
最近,LMArena这个AI届的“蒙面歌王”迎来了一个新的挑战者——Nano Banana。看到这个名字的第一眼,我就在想,什么模型会取个这种名字啊,有点搞笑,头脑一热取的吗?但它的实际表现,一点也不好笑。
这个名不见经传的模型,在匿名对战中屡屡获胜,对其他模型,可以说是“降维打击”,它击败了 GPT-4o,击败了 Qwen-Image-Edit,击败了所有能叫得上名字的顶级 AI 模型,稳稳地坐在了第一名的宝座上。
不久之后谷歌正式宣布:那个在社区中引起轰动的神秘冠军"Nano Banana",正是他们最新发布的 AI 图像模型:Gemini 2.5 Flash Image!
我也在第一时间进行了体验,于是才有了这篇文章。为什么我认为它是“新王”呢,主要有以下几个优势
优势
图片一致性非常强
AI 绘图的最大挑战之一,便是如何让同一个主体在不同场景、姿态、服装下保持高度一致,同时又能灵活修改局部细节。
比如你好不容易让它画出了一张满意的图片,想让它修改一下,或者生成这个角色在不同场景下的图片。但结果每次生成的都不一样。但 Gemini 2.5 Flash Image 彻底解决了这个问题。
以下是我做的一些测试,我先让它生成了一个角色,如下图所示
然后,我期望还是这个角色,换一个背景。
这效果真是绝了!这意味着什么?你终于可以用 AI 来创作连环画、制作系列海报,甚至为你的品牌设计一个一致的虚拟代言人了!
指令理解和执行能力逆天
它是真的“懂你”,“懂这个世界”的。
我通过上面的测试,发现我竟然能够像聊天一样让它帮我生成图片、修改图片。不像之前的“提示词”,每次都是像抽卡赌运气一样,如果不满意,只能重新调整“提示词”,让它重来。
后续随着我深度的体验,我发现其他模型常犯的错误,比如光影不对、人物手指等细节不对之类的问题,在它这都能解决。它不只是在模仿像素,而是真的"理解"它在画什么。
你甚至可以让它将你画的草图、线稿图,生成一张实际效果图。比如我在网上随便找的一个线稿图。
提示词
那么要怎么用好Gemini 2.5 Flash Image的生图能力呢?最核心的是要掌握一个基本原则:
描述场景,而非简单罗列关键词。该模型的核心优势在于其深度语言理解能力。用叙述性、描述性的段落进行提示,几乎总能比零散的词汇列表生成更优质、更具连贯性的图像。若想生成逼真的图像,可以使用摄影术语。提及相机角度、镜头类型、光照效果以及细节描写,这些都有助于引导模型生成更具照片真实感的结果。
这里可以阅读一下官方的文档:https://developers.googleblog.com/en/how-to-prompt-gemini-2-5-flash-image-generation-for-the-best-results/
除了Gemini的官方指南,Google DeepMind的产品经理也给出了一份提示词建议。
首先是构建高效提示词的6个要素:使用 Gemini,即使是一两句话的简单输入也能获得不错的结果。但为了获得最佳效果并解锁更细致的创意控制,可以在提示词中考虑包含以下要素:
- 主体(Subject):图像中是谁或是什么?要具体描述。比如:一位面无表情、眼睛发蓝光的机器人咖啡师;戴着小巫师帽的蓬松三花猫。
- 构图(Composition):画面如何构图?比如:特写镜头、广角镜头、低角度拍摄、人像构图。
- 动作(Action):画面中发生了什么?比如:正在冲泡咖啡、施展魔法、在田野中奔跑的瞬间。
- 场景(Location):画面发生在何处?比如:火星上的未来咖啡馆、杂乱的炼金术士图书馆、金色时光下的阳光草地。
- 风格(Style):整体美学或艺术风格是什么?比如:3D 动画、黑色电影风格、水彩画、照片写实风格、1990 年代产品摄影。
- 编辑指令(Editing Instructions):用于修改现有图像时,要直接且具体。比如:把男子的领带改为绿色、移除背景中的汽车。
然后他给出了模型的几个具体使用技巧:
- 保持角色一致性
Gemini 可以在不同的姿势、光线和环境下保持人物或角色的外貌一致,甚至可以将同一角色应用到新的风格和材质上。 - 精准定向修改
借助更新后的图像编辑功能,你可以对照片进行快速且高度精确的修改。这非常适合从产品效果图到完善个人照片的各种场景。 - 融合概念与创意构图
尝试将两个或多个创意融合到同一幅引人注目的图像中。你可以提示 Gemini 先生成两张图像,然后以富有想象力的方式将它们的主体和环境结合在一起 - 风格迁移
通过应用新的风格、色彩方案或纹理,完全改变图像的氛围和美学,同时保持原始主体不变。 - 运用逻辑与推理进行复杂生成
给 Gemini 一个简单的概念,让它运用推理能力来构建细节。这对于需要理解现实世界关系或流程的内容创作非常有用。
使用入口
界面简洁,跟使用其他模型一样,通过对话式进行
一些案例
更换背景
因为它的一致性非常强,因此,你可以直接给它一张图片,让它帮你更换一个背景。
一键换装
消除路人甲
打造专属角色
电商产品图制作
修图
比如你拍的一些风光图
穿搭展示
还可以“逆向”,反着来。
图片创意生成
发挥你的创意,将多张图片进行合成、再创造。
还有一些案例,这里就不一一展开了,具体可以自行探索,用途非常多。
老照片修复
风格转换
动物拟人化
其他链接
顶级邪修倾囊相授!藏师傅教你速通Nano Banana:
空空如也!