信息记录材料

首页 > 刊期 > 2022 > 4期 > 记录：数据与存储

基于双向门控循环单元模型的机器翻译的研究

马林

【摘要】循环神经网络（Recurrent Neural Network，RNN）具有记忆特性，在自然语言处理领域中具有很广阔的应用。RNN 及其变体网络已经被成功地应用于许多任务，特别是当数据中具有某些时间依赖性的时候。但是，由于 RNN 往往无法训练，多次循环以后，多数情况下梯度基本接近于消失，仅较少概率会发生梯度爆炸。针对 RNN 在实践中遇到的困难，出现了长短期记忆（Long Short-Term Memory，LSTM）网络，它因为可以保持信息的持久保存而受到广泛重视，针对 LSTM 结构的改造工作也相继发生，于是产生门控循环单元（Gated Recurrent Unit，GRU）。对 RNN 常见变体作了介绍，并以机器翻译为例，采用 seq2seq模型，分别来验证 RNN、GRU 和它们加注意力机制后的性能，在 Multi30k 数据集上的实验结果证明，GRU 性能优于 RNN，加入注意力机制后的 RNN 模型和 GRU 模型在性能上优于原始 RNN 模型和 GRU 模型。

【关键字】循环神经网络；长短期记忆；门控循环单元