融合Mel频谱图与MFCC的鸟鸣声纹建模方法研究
周紫璇,刘琰(通信作者),马文翀,袁可如
【摘要】针对鸟鸣声纹识别中存在的数据不平衡、环境噪声干扰、声纹复杂性以及小样本学习等问题,本文提出了一种融合对数梅尔频率(Log⁃Mel)频谱图与梅尔(Mel)频率倒谱系数(MFCC)的鸟鸣声纹建模方法。首先,利用Log⁃Mel频谱图获取鸟鸣声的时频结构特征,准确捕捉动态变化;其次,利用 MFCC提取更加紧凑的特征,增强对背景噪声和环境变化的适应性;最后,开展了通过声纹识别鸟类的实验。实验结果表明:融合Log⁃Mel频谱图与MFCC的鸟鸣声纹建模方法有效提升了特征表达的完整性和区分度,在鸟鸣声的识别中表现出卓越的准确率和鲁棒性。
【关键字】鸟鸣声识别;对数梅尔频率(Log⁃Mel)频谱图;频率倒谱系数(MFCC);特征融合;VGG;16卷积神经网络;生态监测;数据增强
【PDF】