信息记录材料

首页 > 刊期 > 2024 > 8期 > 综合：探索与发现

基于文本的税务领域知识图谱构建方法研究

熊孟娜

【摘要】本文基于《税法》教材文本数据，研究了税务领域知识图谱构建过程中的实体关系抽取方法。针对现有中文分词工具将税务专业词汇切分过于零碎的问题，本文采用了基于信息熵和互信息的新词发现算法，建立税务领域专业词汇表，根据专业词汇分词实现数据预处理。面对现有实体关系抽取算法及标注策略难以应对税务文本“多实体、多关系”特点的问题，本文提出一种新的“类型－关系－位置（ｅｎｔｉｔｙｔｙｐｅ⁃ｒｅｌａｔｉｏｎ⁃ｅｎｔｉｔｙｐｏｓｉｔｉｏｎ，ＴＲＰ）”标注策略，并设计了与标注策略对应的实体关系联合抽取模型，该模型使用连接词向量与位置向量的综合输入特征，引入注意力机制，添加了条件随机场（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ，ＣＲＦ）层，实验证明，该方法相较传统方法在实验数据上取得了更高的准确率及Ｆ１值。

【关键字】实体关系联合抽取；标注策略；税务；知识图谱