全部 AI 模型，开箱即用

浏览我们支持的全部视频、图片、音频与文本模型，快速找到适合你工作流的选择并更快开始创作。

AI 视频模型

增强视频分辨率、清晰度和细节，适合低清片段修复和高清交付。

Seedance 2.0 是字节系最新一代电影级视听生成模型。它把更强的语义理解、导演级运镜、真实物理反馈、原生音轨以及多镜头连续性融合在一次生成里，让每条视频都像成片一样完整。

面向复杂视觉任务，突出世界知识、本地化、品牌一致性和精细创意控制。

通过 muyu-fal 调用 ai-route 的 Midjourney V7 生图模型，支持提示词和可选参考图。

OpenAI GPT-Image 是 OpenAI 的图像生成与编辑产品线，强调更强的指令遵循、高质量图像输出、自然语言图像编辑能力，以及更稳定的图中文字渲染。

增强图像分辨率与纹理细节，适合低清素材修复和高清放大。

xAI Grok Imagine 图片模型，支持文生图和参考图编辑。

豆包 Seedream 5.0 Pro 图片生成，通过 Fal-compatible 图片网关调用。

即梦 Seedream 4.6 图像模型，面向高质量视觉创意、精细编辑和风格化生成。

ElevenLabs TTS 是 ElevenLabs 的文本转语音模型系列，强调自然音色、清晰可懂度与更有表现力的语音输出，适用于内容生产与产品化场景。

MiniMax TTS 是 MiniMax 的文本转语音模型系列，覆盖质量优先和速度优先两种工作流，支持多语言语音合成与细粒度参数控制。

Qwen TTS 是通义系的文本转语音模型系列，支持预设音色与声纹风格工作流，并可通过解码参数对语音输出进行细粒度控制。