ISSN 1009-5624 CN 10-2021/TQ 主管:中国乐凯集团有限公司 主办:北京乐凯科技有限公司
【摘要】循环神经网络(Recurrent Neural Network,RNN)具有记忆特性,在自然语言处理领域中具有很广阔的应用。RNN 及其变体网络已经被成功地应用于许多任务,特别是当数据中具有某些时间依赖性的时候。但是,由于 RNN 往往无法训练,多次循环以后,多数情况下梯度基本接近于消失,仅较少概率会发生梯度爆炸。针对 RNN 在实践中遇到的困难,出现了长短期记忆(Long Short-Term Memory,LSTM)网络,它因为可以保持信息的持久保存而受到广泛重视,针对 LSTM 结构的改造工作也相继发生,于是产生门控循环单元(Gated Recurrent Unit,GRU)。对 RNN 常见变体作了介绍,并以机器翻译为例,采用 seq2seq模型,分别来验证 RNN、GRU 和它们加注意力机制后的性能,在 Multi30k 数据集上的实验结果证明,GRU 性能优于 RNN,加入注意力机制后的 RNN 模型和 GRU 模型在性能上优于原始 RNN 模型和 GRU 模型。