skills.video logo
Z.ai
Z-Image

Z-Image

Z-Image 的核心功能

高质量创意生成

官方仓库将 Z-Image 描述为 Z-Image-Turbo 的基础模型,更强调高质量生成和审美表现,适合需要更强基础能力的图像合成任务。

Prompt

Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights.

结果

结果图片 1

更强的多样性与可控性

README 明确强调 Z-Image 在多样性和可控性方面的定位,特别适合需要持续探索不同构图与视觉方案的创作流程。

Prompt

Given that chickens and rabbits are in the same cage, there are a total of 35 heads and 94 feet. Find the number of chickens and rabbits.

结果

结果图片 1

更广的风格范围与负面提示词支持

官方仓库表示 Z-Image 覆盖广泛艺术风格,并强烈建议在基础模型中结合负面提示词,以更好地移除不需要的内容并控制构图。

结果

结果图片 1

Official rendering showcase

如何在 skills.video 中使用 Z-Image AI 图片 模型

01

选择 Z-Image 模型

前往创建页面,并在下拉列表中选择这个模型。

02

输入详细 Prompt

描述你想要的场景、风格和运动效果,并按需调整设置。

03

下载你的结果

点击创建,生成完成后即可下载或分享。

常见问题

什么是 Z-Image?
Z-Image 是 Tongyi-MAI 的 Z-Image 系列基础生成模型。官方将其描述为 6B 参数的图像生成模型,强调高质量输出、良好审美、多样性与可控性。
Z-Image 和 Z-Image-Turbo 有什么区别?
根据官方仓库,Z-Image 是更偏基础能力和高质量生成的模型,而 Z-Image-Turbo 是蒸馏后的快速版本,更强调低延迟。
Z-Image 支持哪些分辨率?
官方建议范围大致为 512×512 到 2048×2048 的总像素面积,并支持任意长宽比。
Z-Image 推荐的生成参数是什么?
官方建议 guidance scale 大致为 3.0 到 5.0、推理步数约 28 到 50,并强烈建议配合 negative prompts 使用;同时说明 cfg_normalization false 更适合一般风格化,true 更适合写实。
Z-Image 支持 negative prompts 吗?
支持。官方 README 明确表示,在基础 Z-Image 模型中,negative prompts 对获得更好控制效果是强烈推荐的。
Z-Image 使用什么架构?
项目说明中写明,Z-Image 使用 Scalable Single-Stream DiT(S3-DiT)架构,把文本、视觉语义 token 和图像 VAE token 融合到统一输入流中。