信息记录材料

首页 > 刊期 > 2023 > 4期 > 综合：探索与发现

语音激活检测方法的分析和比较

尹文昊，李晓松，齐彦西，任泓宇

【摘要】语音激活检测（voice activity detection,VAD）是语音信号处理中的一个重要任务，旨在识别出语音信号中的语音段和非语音段。本文将通过实验分析和比较几种目前主流的 VAD 算法，包括基于多特征流（multiple feature streams,MFS），基于长短时记忆网络（long short-term memory,LSTM)，基于集成深度神经网络（deep nueral network,DNN），基于自适应上下文注意力机制（adaptive context attention model,ACAM）的方法。综合来看，MFS 模型简单、易于部署。当检测目标为含噪声时应尽可能采用深度模型，计算资源充足时可以采用 DNN 模型，反之则可以采用 ACAM 模型，它在损失了很少的精度下，将参数数目大幅压缩。

【关键字】语音激活检测；长短时记忆网络；集成深度神经网络；注意力机制