ISSN 1009-5624 CN 10-2021/TQ    主管:中国乐凯集团有限公司    主办:北京乐凯科技有限公司

中国知网全文收录期刊
万方数据库收录期刊
RCCSE中文学术期刊
维普资讯网/超星域出版 全文收录
中国核心期刊(遴选)数据库收录期刊
首页 > 刊期 > 2025 > 5期 > 记录:数据与存储
基于 X⁃codec 探究不同特征下的语音生成效果
何应来

【摘要】为探究 X⁃codec 对大语言模型音频生成性能的影响,本研究基于 LibriSpeech 数据集分析语料特征(时长、音色)对基于 X⁃codec 的大语言模型(large language model,LLM)在音频生成任务中的表现。 相似性目标( similarity objective,Sim⁃O)得分和全体平均意见得分(user test mean opinion score,UTMOS)指标测定结果表明:当语料时长超过 10 s(即长语料)且音色为男声时,Sim⁃O 得分和UTMOS 在算术平均数上均显著高于相应特征分类中的其他组,同时在标准差上均显著低于相应特征分类中的其他组。 因此,男声的长语料更有可能使应用了 X⁃codec 的 LLM 性能达到最佳状态。 本研究结果可为优化音频编解码器设计提供理论支持。


【关键字】X⁃codec;大语言模型;相似性目标;全体平均意见得分
【PDF】