ISSN 1009-5624 CN 10-2021/TQ    主管:中国乐凯集团有限公司    主办:北京乐凯科技有限公司

中国知网全文收录期刊
万方数据库收录期刊
RCCSE中文学术期刊
维普资讯网/超星域出版 全文收录
中国核心期刊(遴选)数据库收录期刊
首页 > 刊期 > 2024 > 8期 > 综合:探索与发现
基于文本的税务领域知识图谱构建方法研究
熊孟娜

【摘要】本文基于《税法》教材文本数据,研究了税务领域知识图谱构建过程中的实体关系抽取方法。 针对现有中文分词工具将税务专业词汇切分过于零碎的问题,本文采用了基于信息熵和互信息的新词发现算法,建立税务领域专业词汇表,根据专业词汇分词实现数据预处理。 面对现有实体关系抽取算法及标注策略难以应对税务文本“多实体、多关系”特点的问题,本文提出一种新的“类型-关系-位置(entity type⁃relation⁃entity position,TRP)”标注策略,并设计了与标注策略对应的实体关系联合抽取模型,该模型使用连接词向量与位置向量的综合输入特征,引入注意力机制,添加了条件随机场(conditional random fields,CRF)层,实验证明,该方法相较传统方法在实验数据上取得了更高的准确率及F1值。

【关键字】实体关系联合抽取;标注策略;税务;知识图谱