跳到正文

在图像编辑领域,Qwen 团队推出的 Qwen-Image-Edit 将强大的文本渲染与图像编辑能力结合在一起,为开发者提供了精确、稳定且高质量的编辑体验。q

Qwen-Image-Edit 简介#

Qwen-Image-Edit 基于 20B 规模的多模态基础模型能力演进而来,面向“图像编辑”场景进行了专项优化。它的核心目标是通过自然语言指令,对输入图像完成两类关键任务:其一是“语义级编辑”,例如改变视角、风格迁移、IP 创作与角色变体等,强调在保持角色与场景语义一致性的前提下进行大幅度创作;其二是“外观级编辑”,例如替换局部元素、移除杂物、修改目标颜色与纹理等,强调未编辑区域尽量完全不变、边界自然且无明显修补痕迹。

在处理流程上,模型将输入图像同时送入语义控制分支与外观控制分支:语义分支侧重全局理解与连贯性,确保角色形象、场景关系与叙事逻辑稳定;外观分支则更关注细节与保真度,通过低层次纹理与结构信息约束编辑范围,使得“该变的地方准确改变,不该动的地方保持稳定”。这套双通道协同机制,帮助模型在“创作自由度”与“画面保真度”之间取得有效平衡。

Qwen-Image-Edit 在文本编辑方面表现尤为突出,能够直接对图像中的中英文文本进行增、删、改等精准操作,并尽可能保留原有的字体、字号与视觉风格,使得替换后的文字与图像上下文自然融合。典型应用包括海报文案替换、店招字样修改、图标与按钮文案统一、某个字符的颜色或细节调整等,具备较高的实用价值。

从实际体验来看,Qwen-Image-Edit 同时覆盖“高层次语义创作”与“低层次精细修图”的需求:当你需要改变风格或视角,它能保持角色一致性与画面语义连贯;当你需要严谨的工业化编辑,它也能尽量避免对未编辑区域的干扰,适合成批量、高一致性的生产流程。对于内容创作者、设计团队与开发者而言,这种“既能创作、又能修图”的综合能力,可以显著提升从灵感探索到交付落地的效率。

关键能力#

快速上手#

以下示例展示了如何安装依赖并使用 QwenImageEditPipeline 进行编辑推理。

Terminal window
pip install git+https://github.com/huggingface/diffusers
# 基于 ModelScope 提供的管线进行推理示例
# 说明:请确保已正确安装 PyTorch 与可用的 CUDA 环境(如使用 GPU)
import os
from PIL import Image
import torch
# 从 ModelScope 加载编辑管线
from modelscope import QwenImageEditPipeline
# 加载预训练模型
pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
print("pipeline loaded")
# 推荐在支持的设备上使用 bfloat16 并切换到 GPU
pipeline.to(torch.bfloat16)
pipeline.to("cuda")
# 开启进度条显示
pipeline.set_progress_bar_config(disable=None)
# 读取输入图像并转换为 RGB
image = Image.open("./input.png").convert("RGB")
# 文本提示:例如把小兔子的颜色改为紫色并添加闪光背景
prompt = "Change the rabbit's color to purple, with a flash light background."
# 组装推理输入参数
inputs = {
"image": image, # 输入图像
"prompt": prompt, # 文本提示
"generator": torch.manual_seed(0), # 随机种子,保证复现
"true_cfg_scale": 4.0, # CFG 强度
"negative_prompt": " ", # 负面提示
"num_inference_steps": 50, # 采样步数
}
# 执行推理并保存结果
with torch.inference_mode():
output = pipeline(**inputs)
output_image = output.images[0]
output_image.save("output_image_edit.png")
print("image saved at", os.path.abspath("output_image_edit.png"))

以上示例适合作为入门参考,你可以按需调整步数、CFG 与提示词以权衡速度与质量。

实战技巧与建议#

适用场景示例#

结语#

Qwen-Image-Edit 将“语义理解”和“外观保持”合二为一,并提供了对中英文文本的精准编辑支持,适合创作者、设计师与开发者搭建高效的图像编辑工作流。