摘要:文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源.针对金融科技领域中文本数据 存在重叠关系、训练数据缺乏标注样本等问题,提出一种融合主动学习思想的实体关系联合抽取方法.首 先,基于主动学习,以增量的方式筛选出富有信息量的样本作为训练数据;其次,采用面向主实体的标注策 略将实体关系联合抽取问题转化为序列标注问题;最后,基于改进的BERT-BiGRU-CRF模型实现领域实 体与关系的联合抽取,为知识图谱构建提供支撑技术,有助于金融从业者根据领域知识进行分析、投资、 交易等操作,从而降低投资风险.针对金融领域文本数据进行实验测试,实验结果表明,本文所提出的方法 有效,验证了该方法后续可用于金融知识图谱的构建.
关键词:领域文本;领域知识图谱;实体关系联合抽取;主动学习;序列标注
引 言
隨着海量数据处理和人工智能技术的快速发展,以数据密集型为主导的研究范式为推动各领域
数字化转型提供了新的研究思路.知识图谱(Knowledge Graph, KG)作为一种用图模型描述知识和建 模世界万物之间关联关系的方法,通过一系列形如〈头实体,关系,尾实体〉的三元组对知识进行结 构化表示[1],为跨领域知识融合提供了解决方案.近年来,在搜索引擎、推荐计算和智能问答[4]等 KG下游应用的驱动下,以及DBpedia[5]、YAGO[6]和Freebase[7]等跨领域知识库的诞生,研究人员对 从非结构化数据源特别是文本数据中挖掘高质量的领域知识产生了极大兴趣[8].例如,随着金融科技 进入智能时代,面对大规模、多来源、不规则的金融文本数据,通过构建金融领域KG能够高效利用 各个数据之间的联系,实现金融与信息科技深度融合,为预测市场趋势、支持政府监管市场、防范金 融风险提供智能化解决方案[9].
实际上,大量的文本数据是KG构建和领域知识更新的来源,如何有效地从文本数据中抽取实体 和关系,是KG构建、更新和推理的重要基础.例如,金融领域对数据依赖性较大,对数据分析的准确 性要求很高,股票的价格可以视作市场对金融新闻和事件的反映,通过有效分析相关金融新闻和事件 文本数据,并将其表征为结构化知识,能够直观有效地展示金融领域覆盖实体之间关联对股票价格的 影响,对用户做出明智的投资决策至关重要.从这个角度来说,只有高质量的金融知识图谱中的知识 有实际应用价值.因此,本文研究从领域文本数据识别命名实体和联合抽取实体关系的方法,为领域 KG的构建和增量更新提供技术支撑.
领域文本数据是对特定领域知识的描述和记录,具有以下特点.
(1)领域文本数据的标注样本极其缺乏,对数据的标注往往需要专家的指导和协助,导致标注语料 库的构建成本极高.因此,如何以尽可能少的标注样本量实现模型训练,是本文研究面临的挑战.
(2)领域文本数据中实体分布密度高且实体间存在重叠关系.数据实例围绕主实体展开具体描述, 如一个金融数据实例描述一家公司的创始人、股东、注册地址等信息,一个公司实体同时与创始人、 股东等实体存在关系.因此,如何有效地抽取领域文本数据中实体和实体间的重叠关系,是本文研究 面临的另一个挑战.
主动学习算法[10]旨在针对模型主动参与样本选择的情形,优先标注并训练那些相对有价值的样 本,从而达到以尽可能少的标注样本量达到模型预期性能的目标.为了从领域文本数据中选取待标注 样本,本文提出一种基于主动学习的待标注数据采样方法,用以筛选出富有信息量的样本,从而降低 标注成本.
为了有效地抽取实体和实体间的重叠关系,本文提出一种考虑主实体的序列标注策略,将实体关 系联合抽取问题转化为序列标注问题.基于双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)[11]可同时获取上下文信息并存储记忆,从而被广泛地应用于基于序列标注的实体 关系联合抽取任务;但是基于BiLSTM改进的双向门控循环单元(Bidirectional Gated Recurrent Unit, BiGRU)[12]不仅具备长时序依赖能力和更快的运行效率,而且简化了 BiLSTM复杂的结构.为缓 解BiGRU模型在訓练过程中出现的过拟合问题以及梯度爆炸问题,本文通过改进BiGRU提出 BiGRU*.首先提出TaLU激活函数替换传统GRU的双曲正切(tanh)激活函数,从而解决因tanh函 数的软饱和性而导致的梯度消失问题;其次,结合层标准化(Layer Normalization, LN)技术,使模型 在没有发生严重梯度爆炸的情况下提高网络性能,从而获得改进的GRU*,最后使用BERT-BiGRU*- CRF序列模型来对金融领域文本数据集进行实体关系联合抽取.
综上所述,本文的工作主要包括以下几个方面.
(1)针对垂直领域数据缺乏的问题,融合主动学习思想,提出一种基于主动学习的待标注数据采样 方法.通过评估样本的价值与样本的相似性来选择标注样本,从未标注数据池中增量地采样出富有信 息的样本.
(2)通过将实体识别和关系抽取两个子任务联合起来,并将其建模为序列标注,提出一种基于 BERT-BiGRU*-CRF的实体关系联合抽取模型,用于对垂直领域文本的实体和关系同时进行抽取.
(3)基于金融领域和少数民族领域文本数据对本文提出的方法进行实验测试和性能分析,实验结 果表明,本文提出的基于BERT-BiGRU*-CRF的实体关系联合抽取方法,效果均优于其他传统的序 列标注模型.
1相关工作
传统的实体关系抽取一般采用流水线方法,该方法将命名实体识别和关系抽取分成两个独立的 子任务,在实体识别已经完成的基础上直接进行实体之间的关系抽取.例如,文献[13]和文献[14]首 先识别文本中的实体,然后抽取出文本中实体之间的关系.尽管流水线方法更加灵活且易于建模,但 实体识别阶段产生的错误将传播到关系抽取阶段,影响关系抽取的性能,将实体识别与关系抽取分开 执行,忽略两个子任务之间的联系,若识别到的实体间不存在语义关系,无法剔除冗余实体对.
相比传统的流水线方法,实体关系联合抽取方法采用一个联合模型同时识别出实体和关系类型. 根据建模对象不同,实体关系联合抽取方法分为参数共享和序列标注两类.参数共享方法是分别对实 体和关系进行建模,例如,Miwa等[15]采用参数共享的方式来对实体和关系进行联合提取,将BiLSTM 与树状LSTM用于文本的建模任务,BiLSTM完成对实体的提取,树状LSTM实现对于关系的分类, 通过两个模型的互相堆叠来实现参数的共享.序列标注方法将实体与关系联合抽取任务转换成序列 标注问题,基于实体关系的联合标注策略进行建模,直接得到实体-关系三元组.例如,Zheng等[16]首 次提出一种特殊的标注方案,将实体关系联合抽取问题转化为序列标注问题,并在通用领域的知识抽 取中取得了较好的效果,但无法解决重叠关系问题.为了能更好地解决可能存在的实体关系三元组重 叠问题,Zeng等[17]提出了一种基于复制机制的端到端神经网络模型,采用了一种编码器解码器架构 的实体关系抽取模型,首先完成对关系的提取,然后通过复制机制,依次复制主实体和客实体,解决了 实体关系重叠的问题,但该模型未考虑实体对之间存在多种关系的问题.
主动学习是一种用于机器学习的训练数据筛选方法,相较于人工操作,它只需花费较少的时间即 可自动找到富有信息量的样本来构建更好的数据集,进而以较低的标注代价实现模型较高的性能.研 究者们依据不同的样本选择标准开发出一系列主动学习的方法,Houlsby等[18]提出了一种贝叶斯不一 致主动学习算法,其中采样函数通过训练样本关于模型参数的互信息来进行不确定性度量.Tang等[19] 提出一种自定步长的主动学习方法,该方法一方面考虑了样本的信息量和代表性,选取的样本对模型 的改进具有较高的潜在价值;另一方面,利用样本的易用性,使模型能够充分利用样本潜在价值.近年 来,随着深度学习模型的发展,主动学习也应用于序列标注任务.Tran等[20]针对Twitter数据进行命 名实体识别问题,提出了一种将自学习和主动学习相结合的方法,降低了标注成本.Shen等[21]通过将 主动学习与一种基于深度学习的轻量级命名实体识别模型相结合,减少25%的训练数据量.虽然上述 方法在解决样本标注问题上取得了很大进展,但这些方法往往只关注低置信度的不确定样本,未能综 合考虑样本的价值与代表性.
推荐阅读:面向人工智能的电子信息工程专业建设研究