2025年8月26日,谷歌发布了其最新的图像生成和编辑模型Gemini 2.5 Flash Image,被网友誉为“最强图像模型”。Gemini 2.5 Flash Image的核心亮点包括:角色一致性:为模型提供参考图像,它便能生成新的视觉内容,在不同的姿势、光照、环境或风格中保持角色、主体或对象的相似性。例如,用户仅需上传一张自拍,就能生成从50年代到00年代的六张写真,每张都有当时的年代风格,但用户的面貌并没有出现明显的偏离。提示编辑:支持通过自然语言进行目标化转换和精确的局部编辑。比如可以模糊图像背景、去除T恤上的污渍、从照片中移除整个人物、更改主体姿势、为黑白照片上色等。原生世界知识:受益于Gemini的全球知识,能够理解现实世界的深层语义。例如,它可以理解手绘的各类画面,并解答用户提出的各类问题,还能根据图像内容预测未来的变化,如看到气球飞向仙人掌时,能生成气球破碎的画面。多图像融合:能够理解和融合多张输入图像,可以将某个对象放入场景中,使用配色方案或纹理重新设计房间风格,并通过单个提示融合图像,最多可以融合三个输入中的不同元素。在LMArena盲测中,Gemini 2.5 Flash Image成绩一骑绝尘,盲测了500多万场,获得超250万选票,以171分优势领先第二名flux - 1 - knotext - max,取得了LMArena竞技场历史上最大的Elo分数领先优势。此外,Gemini 2.5 Flash Image的价格为每百万输出token 30.00美元,每张图片为1290个输出token,即每张图片约0.039美元,约合人民币0.28元,远低于OpenAI的0.19美元/张的价格。
|
|