ISSN 1009-5624 CN 10-2021/TQ 主管:中国乐凯集团有限公司 主办:北京乐凯科技有限公司
【摘要】汉语句式分类是自然语言处理(NLP)领域的重要基础任务,对于机器翻译、智能问答及情感分析等下游应用具有支撑作用。 然而,现有研究主要集中于单一句式的识别,对多句式分类问题关注较少。 在实际语境中,汉语句子常呈现多句式嵌套或混合现象,其分类需解决句式边界模糊、上下文依赖复杂及标注数据稀缺等挑战,现有方法在此类场景下的性能显著下降。 针对上述问题,本文提出一种融合双向编码器表示(BERT)与双向长短期记忆(BiLSTM)网络的汉语句式分类方法,通过层次化语义建模,实现全局与局部特征的互补优化,并首次系统地探索了多句式分类任务。 本文基于自建汉语多句式数据集展开实验,对比了包括支持向量机(SVM)、文本卷积神经网络(TextCNN)在内的 6 类基线模型。 结果表明:BERT⁃BiLSTM 模型在多句式分类任务中 F1 值高达 93.89%,相比其他模型准确率提升 5%以上,说明本文模型具有更好的句式分类效果。