ISSN 1009-5624 CN 10-2021/TQ 主管:中国乐凯集团有限公司 主办:北京乐凯科技有限公司
【摘要】在语音识别系统中,语音信号与噪声的叠加使得传统方法难以有效进行语音识别。 针对这一问题,本研究提出一种基于Transformer 的长短期记忆(long short⁃term memory,LSTM)架构的语音去噪方法,该方法结合 Transformer 的多头注意力机制和 LSTM 的时序建模能力,能够有效地从混合语音信号中去除背景噪声;语音去噪模型采用自适应学习率进行训练优化,基于 WSJ0-Mix 数据集的评估结果表明:基于 Transformer⁃LSTM 架构的语音去噪方法在信噪比、信号失真比和感知语音质量评估等指标上均优于传统的梯度下降方法,表明 Transformer⁃LSTM 架构能够在语音去噪任务中提供更为精确的信号恢复和噪声抑制能力,也充分验证了该方法在语音去噪任务中的有效性和优越性。