ISSN 1009-5624 CN 10-2021/TQ 主管:中国乐凯集团有限公司 主办:北京乐凯科技有限公司
【摘要】本文基于《税法》教材文本数据,研究了税务领域知识图谱构建过程中的实体关系抽取方法。 针对现有中文分词工具将税务专业词汇切分过于零碎的问题,本文采用了基于信息熵和互信息的新词发现算法,建立税务领域专业词汇表,根据专业词汇分词实现数据预处理。 面对现有实体关系抽取算法及标注策略难以应对税务文本“多实体、多关系”特点的问题,本文提出一种新的“类型-关系-位置(entity type⁃relation⁃entity position,TRP)”标注策略,并设计了与标注策略对应的实体关系联合抽取模型,该模型使用连接词向量与位置向量的综合输入特征,引入注意力机制,添加了条件随机场(conditional random fields,CRF)层,实验证明,该方法相较传统方法在实验数据上取得了更高的准确率及F1值。