信息记录材料

首页 > 刊期 > 2025 > 5期 > 记录：数据与存储

基于Ｘ⁃ｃｏｄｅｃ探究不同特征下的语音生成效果

何应来

【摘要】为探究Ｘ⁃ｃｏｄｅｃ对大语言模型音频生成性能的影响，本研究基于ＬｉｂｒｉＳｐｅｅｃｈ数据集分析语料特征（时长、音色）对基于Ｘ⁃ｃｏｄｅｃ的大语言模型（ｌａｒｇｅｌａｎｇｕａｇｅｍｏｄｅｌ，ＬＬＭ）在音频生成任务中的表现。相似性目标（ｓｉｍｉｌａｒｉｔｙｏｂｊｅｃｔｉｖｅ，Ｓｉｍ⁃Ｏ）得分和全体平均意见得分（ｕｓｅｒｔｅｓｔｍｅａｎｏｐｉｎｉｏｎｓｃｏｒｅ，ＵＴＭＯＳ）指标测定结果表明：当语料时长超过１０ｓ（即长语料）且音色为男声时，Ｓｉｍ⁃Ｏ得分和ＵＴＭＯＳ在算术平均数上均显著高于相应特征分类中的其他组，同时在标准差上均显著低于相应特征分类中的其他组。因此，男声的长语料更有可能使应用了Ｘ⁃ｃｏｄｅｃ的ＬＬＭ性能达到最佳状态。本研究结果可为优化音频编解码器设计提供理论支持。

【关键字】Ｘ⁃ｃｏｄｅｃ；大语言模型；相似性目标；全体平均意见得分

【PDF】