Vozo Help Center

创建项目

要开始，请导航到您的 工作台 并点击 口播视频生成 - 从照片开始。这将打开上传对话框，您可以拖放图片文件或点击上传。您可以通过多种方式输入音频：

文字转语音

如果您有脚本并希望从文本生成语音，请选择此选项。

1

选择语言和声音

从下拉菜单中选择您想要的语言和声音。如果您对列出的声音不满意，请点击 “从库中选择更多” 以探索更多选项。

使用克隆声音：点击 “从库中选择更多 > 克隆声音 > 克隆新声音” 并按照说明上传或录制音频以创建自定义声音。

2

输入脚本

输入您的脚本，然后点击播放按钮进行预览。

上传音频

如果您已经有音频文件，请选择此选项直接上传。

预览和下载

视频生成后，您可以直接在项目页面预览结果。要下载视频，请点击右上角的 下载/导出 按钮。

常见问题

导出视频使用什么分辨率和编码？

分辨率: 以 720p 导出。系统会根据输入图像自动选择最合适的宽高比，并以固定分辨率输出。可能的分辨率包括：
- 16:9 → 1248×704
- 4:3 → 1120×832
- 1:1 → 960×960
- 3:4 → 832×1120
- 9:16 → 704×1248
- 21:9 → 1504×640
帧率: 固定为 25fps
编码: H.264
比特率: 通常约为 1100 kb/s，根据内容动态变化在 1000–2000 kb/s 之间

图片生成口播的费用是多少？

请参阅 AI 工具的点数使用规则页面以获取详细定价规则。

最后修改于 2026年2月10日

创建新音频的变体使用新音频创建变体

⌘I