真人声音训练40分钟音频训练出和真人一样的声音

真人声音训练出和真人90%相拟的声音。

人声克隆训练应用领域：

智能设备/机器人播报的语音内容，如智能客服机器人、智能音箱、数字人等。

音视频创作中需要将文字转为语音播报的场景，如小说阅读、新闻播报、影视解说、配音等。

酷虎数据人人声训练软件操作界面

任务状态：SUCCEEDED 代表训练成功并可以使用。

任务状态：RUNNING代表正在训练。

任务状态：PENDING代表等待。

任务状态：UNDER_REVIEW代表等待人工审核。

人声定制常见问题

真人声音训练需要多少录音数据？

默认要求至少需要40分钟的高质量录音数据，建议使用1~2小时的录音数据，更多的录音数据将有利于合成质量更高的模型。

定制声音训练是否支持训练多个风格的模型？

当前不支持多风格模型训练，同时也不建议在一批录音数据中包含多种风格。如您需要训练多个风格的模型，可以按照风格区分为多个模型进行训练。

定制声音训练完的模型采样率是多少？

训练完的模型采样率统一是16KHz。

定制声音训练可以训练多少个模型？

每个主账号下，默认拥有10个模型训练的配额。如需扩充数量，可以删除不再使用的测试模型以恢复配额，或联系对接人获取额外配额。

定制声音训练模型训练是否会有升级？

是的。为了提升最终模型质量，我们会不定期优化基础模型与训练过程，并公布相关优化点，您可以持续关注最新公告，获取最新信息。基础模型或训练过程优化后，您可以选择重新训练生成新模型，或继续使用原模型。