AI生图新王诞生!“纳米香蕉🍌”—— Nano-Banana

    1,275

最近,LMArena这个AI届的“蒙面歌王”迎来了一个新的挑战者——Nano Banana。看到这个名字的第一眼,我就在想,什么模型会取个这种名字啊,有点搞笑,头脑一热取的吗?但它的实际表现,一点也不好笑。

这个名不见经传的模型,在匿名对战中屡屡获胜,对其他模型,可以说是“降维打击”,它击败了 GPT-4o,击败了 Qwen-Image-Edit,击败了所有能叫得上名字的顶级 AI 模型,稳稳地坐在了第一名的宝座上。

不久之后谷歌正式宣布:那个在社区中引起轰动的神秘冠军"Nano Banana",正是他们最新发布的 AI 图像模型:Gemini 2.5 Flash Image!

图像

我也在第一时间进行了体验,于是才有了这篇文章。为什么我认为它是“新王”呢,主要有以下几个优势

优势

图片一致性非常强

AI 绘图的最大挑战之一,便是如何让同一个主体在不同场景、姿态、服装下保持高度一致,同时又能灵活修改局部细节。

比如你好不容易让它画出了一张满意的图片,想让它修改一下,或者生成这个角色在不同场景下的图片。但结果每次生成的都不一样。但 Gemini 2.5 Flash Image 彻底解决了这个问题。

以下是我做的一些测试,我先让它生成了一个角色,如下图所示

测试图1

然后,我期望还是这个角色,换一个背景。

测试图2

这效果真是绝了!这意味着什么?你终于可以用 AI 来创作连环画、制作系列海报,甚至为你的品牌设计一个一致的虚拟代言人了!

指令理解和执行能力逆天

它是真的“懂你”,“懂这个世界”的。

我通过上面的测试,发现我竟然能够像聊天一样让它帮我生成图片、修改图片。不像之前的“提示词”,每次都是像抽卡赌运气一样,如果不满意,只能重新调整“提示词”,让它重来。

示例图1

示例图2

后续随着我深度的体验,我发现其他模型常犯的错误,比如光影不对、人物手指等细节不对之类的问题,在它这都能解决。它不只是在模仿像素,而是真的"理解"它在画什么。

你甚至可以让它将你画的草图、线稿图,生成一张实际效果图。比如我在网上随便找的一个线稿图。

线稿图示例

提示词

那么要怎么用好Gemini 2.5 Flash Image的生图能力呢?最核心的是要掌握一个基本原则:

描述场景,而非简单罗列关键词。该模型的核心优势在于其深度语言理解能力。用叙述性、描述性的段落进行提示,几乎总能比零散的词汇列表生成更优质、更具连贯性的图像。若想生成逼真的图像,可以使用摄影术语。提及相机角度、镜头类型、光照效果以及细节描写,这些都有助于引导模型生成更具照片真实感的结果。

这里可以阅读一下官方的文档:https://developers.googleblog.com/en/how-to-prompt-gemini-2-5-flash-image-generation-for-the-best-results/

除了Gemini的官方指南,Google DeepMind的产品经理也给出了一份提示词建议。

首先是构建高效提示词的6个要素:使用 Gemini,即使是一两句话的简单输入也能获得不错的结果。但为了获得最佳效果并解锁更细致的创意控制,可以在提示词中考虑包含以下要素:

  1. 主体(Subject):图像中是谁或是什么?要具体描述。比如:一位面无表情、眼睛发蓝光的机器人咖啡师;戴着小巫师帽的蓬松三花猫。
  2. 构图(Composition):画面如何构图?比如:特写镜头、广角镜头、低角度拍摄、人像构图。
  3. 动作(Action):画面中发生了什么?比如:正在冲泡咖啡、施展魔法、在田野中奔跑的瞬间。
  4. 场景(Location):画面发生在何处?比如:火星上的未来咖啡馆、杂乱的炼金术士图书馆、金色时光下的阳光草地。
  5. 风格(Style):整体美学或艺术风格是什么?比如:3D 动画、黑色电影风格、水彩画、照片写实风格、1990 年代产品摄影。
  6. 编辑指令(Editing Instructions):用于修改现有图像时,要直接且具体。比如:把男子的领带改为绿色、移除背景中的汽车。

然后他给出了模型的几个具体使用技巧:

  1. 保持角色一致性
    Gemini 可以在不同的姿势、光线和环境下保持人物或角色的外貌一致,甚至可以将同一角色应用到新的风格和材质上。
  2. 精准定向修改
    借助更新后的图像编辑功能,你可以对照片进行快速且高度精确的修改。这非常适合从产品效果图到完善个人照片的各种场景。
  3. 融合概念与创意构图
    尝试将两个或多个创意融合到同一幅引人注目的图像中。你可以提示 Gemini 先生成两张图像,然后以富有想象力的方式将它们的主体和环境结合在一起
  4. 风格迁移
    通过应用新的风格、色彩方案或纹理,完全改变图像的氛围和美学,同时保持原始主体不变。
  5. 运用逻辑与推理进行复杂生成
    给 Gemini 一个简单的概念,让它运用推理能力来构建细节。这对于需要理解现实世界关系或流程的内容创作非常有用。

使用入口

网址:https://gemini.google.com

界面简洁,跟使用其他模型一样,通过对话式进行

界面截图

一些案例

更换背景

因为它的一致性非常强,因此,你可以直接给它一张图片,让它帮你更换一个背景。

更换背景示例

一键换装

一键换装示例

消除路人甲

消除路人甲示例

打造专属角色

专属角色示例

电商产品图制作

电商产品图示例

修图

比如你拍的一些风光图

风光修图示例

穿搭展示

穿搭展示示例

还可以“逆向”,反着来。

逆向示例

图片创意生成

发挥你的创意,将多张图片进行合成、再创造。

创意合成示例

还有一些案例,这里就不一一展开了,具体可以自行探索,用途非常多。

老照片修复

风格转换

动物拟人化

其他链接

顶级邪修倾囊相授!藏师傅教你速通Nano Banana:

https://mp.weixin.qq.com/s/dIrEIIRXRpdEOPK2sj0DBw

消息盒子
# 您需要首次评论以获取消息 #
# 您需要首次评论以获取消息 #

只显示最新10条未读和已读信息