摘要:命名实体识别(Named Entity Recognition, NER)作为自然语言处理的基本任务之一,一直以来都 是国内外研究的热点.随着金融互联网的快速发展,迄今为止,金融领域中文NER不断进步,并得以应用 到其他金融业务中.为了方便研究者了解金融领域中文NER方法的发展状况和未来发展趋势,进行了一 项相关方法的研究和总结.首先,介绍了 NER的相关概念和金融领域中文NER的特点;然后,按照金融领 域中文NER的发展历程,将研究方法分为基于字典和规则的方法、基于统计机器学习的方法和基于深度 学习的方法,并详细介绍了每类方法的特点和典型模型;接下来,简要概括了金融领域中文NER的公开数 据集和工具、评估方法及其应用;最后,向读者阐述了目前面临的挑战和未来的发展趋势.
关键词:自然语言处理;中文命名实体识别;金融领域
引 言
在日常生活中,隨着科技的进步和互联网的快速发展,网页新闻、研报、论坛、公众号、微博等信 息不断实时更新,使得网络信息量呈爆炸式增长,海量的结构化、半结构化、非结构化文本数据为自 然语言处理任务提供了数据来源,并促进自然语言处理技术的快速发展.面对结构各异、信息冗杂的
文本数据,如何提取出关键性的有价值信息,是一项有意义的科研工作,信息抽取技术便应运而生.命 名实体识别作为信息抽取的子任务之一,是指从文本中识别出实体及其类别,这些实体类型包括人 名、地名、机构名、专有名词和时间等.同时,作为自然语言处理中的关键技术之一,命名实体识别为 其他自然语言处理任务,诸如信息检索、知识问答系统、文本摘要、知识图谱、关系抽取等奠定了基 础,因此得到国内外科研工作者的广泛关注.
命名实体识别的研究可以追溯到1991年,Rau[1]最初开展的是从文本中识别并抽取企业名称的工 作,随后有研究者将专有名词也加入有待识别实体.美国NIST自动内容抽取(Automatic Content Extraction, ACE)评测中根据实体在文本中的引用把它分为命名性指称、名词性指称和代词性指称. “命名实体”(Named Entity, NE)这一术语是在MUC-6中提出的,是针对ACE中的“名词性指称”称 呼,后来MUC-6组织了 NERC这项评测任务,即命名实体识别和分类(Named Entity Recognition and Classification, NERC).人们将人名、地名和组织机构名这3类实体进一步细化,例如,将地名细 化为洲、国家、城市、州、自然景观区域等.在计算自然语言学习会议(Conference on Computational Natural Language Learning,CoNLL)评测会议中扩大了专有名词的范围,如书籍名、电影名、产品 名、医药名等[2]. NER发展至今,已经衍生了许多解决该任务的方法,模型效果也在逐渐提升,研究语 言包括但不限于英语、中文、阿拉伯语、德语、法语等.NER的应用已经渗入商业、金融、电子病历、 网络安全、生物医学、军事、生态治理、农业等多种垂直领域中.
自21世纪初期,我国金融科技行业逐渐由手工转为互联网金融信息化,人工智能技术与金融业 务不断融合,许多学者投入通过命名实体识别将文本和金融业务中的实体信息关联起来的科研工作 中,其科研成果为用户提供了更优质的金融智能化服务[3].相比于通用领域中文NER,金融领域中文 NER除了人名、地名、机构名的识别以外,还包含属于专业领域的金融实体,如金融公司名、公司名 简称、金融产品名称、金融项目名称、金融专业名词等.金融领域中文NER的新挑战在于3点.其一 是组织机构名的识别:金融文本中的组织机构名长度变化大,并且机构名实体中经常含有人名、地名 和未登录词,构成嵌套实体问题;对于同一个机构的表达方式多样,从全称中抽取个别字组成新的不 同简称,甚至有一些网络昵称,如腾讯的昵称为“鹅厂”;金融领域的组织机构名的命名规则变化多样, 没有统一的格式进行约束.其二是金融术语的识别:金融术语是一种复杂类型实体并且存在较多的新 实体,常用的分词工具难以较好地切分专业名词的边界;金融文本中经常出现中文、英文和数字混合 组成的实体名;术语的口语化表述方式造成歧义识别;领域性含义的实体,如轨道、杠杆、板块等.其 三是缺乏实体丰富且有质量的金融领域数据集供实验研究.随着互联网日新月异的变化,金融实体的 数量也在不断大量增长,并且金融实体在文本中内容分散、数据稀疏、无结构化等特点,使得通用领 域的NER模型直接应用在金融领域中文NER数据集上的效果不显著,需要根据金融文本特征探索 新方法.
近年来,有不少文献对NER的国内外研究方法进行了梳理.Li等详细整理了针对英文语料的 NER方法,尤其是基于深度学习的模型;李嘉欣等问详细整理了针对中文语料的NER方法;Nadeau 等[6]主要介绍了统计学习方法在NERC中的應用.在金融领域中,中文命名实体识别作为金融文本的 其他自然语言处理任务的基石,用科学技术促使金融业务变得更加智能化.然而,针对中文命名实体 识别在金融领域中应用的综述几乎没有,这促使本文进行一项有关金融领域中文命名实体方法的调 查,阐述相关技术的研究现状,梳理并总结现有科学技术在金融领域中文NER中的效果,以发现金融 领域中文NER仍然存在的问题以及其他可探索的研究方法.
本文深入调查了中文命名实体识别在金融领域中的应用.首先介绍NER的有关概念及其在金融 领域中的特点,然后将金融领域中文NER方法分为3大类:基于规则和字典的方法、基于统计机器学 习的方法、基于深度学习的方法.基于深度学习的方法按照模型的训练模式分为单任务学习和多任务 联合学习,对金融领域中文NER公开数据集和工具进行简单介绍,之后详细阐述有关的评估方法.此 外,本文还搜集了金融领域命名实体识别的应用,最后介绍金融领域中文NER仍然面临的挑战和未 来的发展方向,并对本文做出总结.
1概念
首先介绍NER的有关概念,包括NER的定义、NER的标注方法、金融领域中文NER的特点.
1.1 NER的定义
NER,即命名实体识别,是指从非结构化的自然语言文本中识别出具有特定意义的实体并将这个 实体归为预先设定好的类别中实体通常代表一个具体的事物,通用领域中的实体主要包括人名、地 名、机构名、专有名词、时间、日期和货币等.
NER的形式化定义是指给定一段文字序列(叫,奶,..+,叫),识别出1组元组1个 元组代表1个实体,其中叫表示1个输入的字或词,is表示实体的开始下标,ie表示实体的结束下标, 尤表示实体的类型[4].如图1所示是1个NER任务示例,对给定的序列通过NER识别输出4个实体, 分别是“一·季度”(Time)、“上海”(Location)、“北京"(Location)和“浙江"(Location).
通常把传统的NER当作序列标注任务处理,即每个字都被打上一个对应的标签.根据实体之间 的嵌套关系,衍生出嵌套NER任务'如“上海市人民政府”是一个机构实体,但“上海市”是一个地名 实体.根据实体所属的类别集合,又衍生出细粒度实体分类任务[9],实体所属的类别之间具有层级关 系.例如,人名实体按照行业分为教育工作者、医者、艺术家等,教育工作者按照职称又分为教授、副 教授、研究员等.而本文不对后两者做过多介绍,主要关注的是传统的NER任务.
1.2 NER的标注方法
最常见的标注方法有BIO、BIOES、BMES,方法中各个字符所代表的含义如表1所示.
1.3金融领域中文NER的特点
金融领域是一个具有高度专业性的领域,很多词汇不能从字面意思理解,需要结合金融的背景和 语境去理解其背后的特殊含义,自然语言处理的所有子任务在金融领域中都有一个独特的理解方式. 金融具有成本低、效率高、覆盖面广、风险高的特点,命名实体识别作为自然语言处理最基础的任务 之一,识别效果严重影响下游任务的效果,所以在金融领域中,命名实体识别结果是否准确间接决定 着金融经济产业链的效益.相对于通用领域的中文NER,本文总结了金融领域中文NER的主要特点 并将其归为3大类.
(1)文本数据量大,内容复杂,更新快.金融经济发展迅速,互联网金融的时代下,每日不断更新大 量的实时新闻,文本内容质量参差不齐,不同来源的报道表述格式不一,而且里面还会出现大量冗余 信息,使得很难全部识别出其中的实体.
(2)异常的表达方式,专业名词多.
a)金融是一个专业背景强的领域,金融领域的术语往往有着特殊的含义,即使是人工,有时候也 需要具有专业背景的人员才能理解,比如产品实体“对冲基金”“白骑士”等,分词工具难以准确分词.
b)高频存在不规则的实体缩写,如“中国农业银行股份有限公司”是一个公司名,而“农业银行” “农行”两个简称也是一个公司名.
推荐阅读:碳金融相关外文文献研究及对双碳目标的建议