摘 要: 新型冠状病毒肺炎在全球的迅速蔓延,让我们深刻意识到突发公共卫生危机中应急医疗和社会治理之外,应急知识和语言服务的重要性。以词表开发和术语管理等形式提供的术语支援是应急语言服务的一种重要方式和途径,是保障精确沟通、顺畅传播的必要条件。文章从应急语言服务视角出发,利用 Sketch Engine 语料库工具,从 COVID-19 语料库中提取出 364 条新冠肺炎英语单词术语和 176 条多词术语,以期助力于新冠疫情的防控。从本次新冠肺炎专题词表的开发实践中,文章总结出以目的为导向的学术词表制作流程,并提出学术词表的后续研究方向,为应急语言服务中的术语支援提供参考。
关键词: 应急语言服务; 新冠肺炎; 医学英语; 术语表; 语料库
本文源自李龙兴; 王宪,中国科技术语 发表时间:2021-03-31《中国科技术语》杂志,于1985年经国家新闻出版总署批准正式创刊,CN:11-5554/N,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:探讨与争鸣、术语与翻译、术语探源等。
引言
2019 年年底突发的新冠疫情让我们深感突发公共卫生事件中应急服务的重要性。抗疫期间,关于应急语言服务的实践和理论研究都大为增加,在教育部语信司的指导下,以国家语委科研机构为骨干的语言学界及相关行业火速推出《抗击疫情湖北方言通》和《疫情防控外语通》,为抗击疫情的医护人员及相关群体提供语言应急服务,该领域的研究内涵也大为丰富。比如疫情防控中的医患沟通、疾病命名、多语言信息发布、抗疫语言翻译服务、新闻宣传用语、谣言防控等[1]。王立非等梳理了应急语言服务的概念、研究现状与机制体制建设[2]; 滕延江从应急语言服务视角出发,明确了应急语言服务的学科属性,提出应急语言服务研究的十大研究课题与三个研究范式[3]。
以词表开发和术语管理等形式提供的术语支援是应急救灾管理中语言应急的主要方式和途径之一,清晰、一致的术语是快速沟通、顺畅交流的必要条件,尤其是在生命受到威胁时更为关键[4]。陶源、赵浩在应急语言能力视角下讨论了新型冠状病毒及新型冠状病毒肺炎的术语命名问题[5]; 叶其松从术语学角度对新型冠状病毒命名进行了探索和思考[6]; 殷健以新冠术语为例,从国家文化安全视角探讨了术语的命名、翻译与传播[7]; 曾江霞以新冠病毒相关术语翻译为例,对多模态大数据语境下的科技术语翻译标准进行了分析[8]。目前,对新冠肺炎医学术语词表的制作和研发的探讨相对较少,现有词表还不够完善,制作方法和流程不够透明。因此本文在梳理借鉴以往学术词表制作的经验基础上,从语言应急角度出发,基于 Sketch Engine 平台 COVID -19 医学语料库探索专题术语表的制作及其在应急医疗语言服务等方面的应用,以期助力疫情防控。
1 学术词表
1.1 词表研究
词汇是理解的一个主要前提条件和影响因素[9],在语言学习和应用中起着举足轻重的作用,词汇学习的广度和深度还对写作的准确性和质量有直接影响[10]。为了服务英语词汇的教与学,West 较早开 发 了 通 用 英 语 词 表 ( General Service List, GSL) [11],列出了英语中常用的 2000 个词族( word family) 。学术英语词汇是词汇学习的难点[12],在学术英语学习中占有重要地位,开发各类英语词表也成为学术英语研究的重要任务和热点问题[13]。Coxhead 基于 350 万词的人文、商业、法律、科学四个领域的学术文本语料库开发出学术单词表 ( Academic Word List,AWL) [14],共包含 570 个词族。AWL 排除了通用英语词表 GSL 中的词汇,采用了词族的方式,没有对单词词形进行还原( lemmatisation) ,也没有进行词性标注。AWL 词表的出现激发了大量后续研究和诸多学科的学术英语词表开发,是当代影响最为广泛的学术英语词表。Gardner 和 Davies 基于 120 多万词的当代美国英语语料库( COCA) ,采用全新方法开发了学术词汇表( Academic Vocabulary List,AVL) [15],包含 3015 个学术英语单词。AVL 未将通用英语词表中的高频词排除在外,而是通过频次比率( ratio) 的方法,要求收录单词在学术文本中的频次是其在非学术文本中的 1.5 倍,以保证收录的单词是真正的高频学术词汇。考虑到有些高频词在通用英语与学术英语中的词义可能完全不同,AVL 没有采用词族方法收录词汇,对所有单词进行了还原处理和词性标注。
1.2 医学词表研究
医学词汇的难度和重要性使得医学英语词表成了学术英语词表研究的一个重要分支。Wang 等从 109 万词的医学论文语料库中提取开发了医学英 语 学 术 词 表 ( Medical Academic Word List, MAWL) [16],共收录 623 个词族。Lei 和 Liu 大致采用 AVL 的方法,利用 270 万词的医学学术英语语料库和 350 万词的医学英语教科书语料库开发了医学 英 语 词 汇 表 ( Medical Academic Vocabulary List,MAVL) [17]。与 MAWL 不同的是,MAVL 设置了最低频次标准( minimum frequency) ,即收录在 MAVL 的单词频次至少为 28.57 次每百万词( PMWs) ,以 确 保 收 录 的 单 词 为 高 频 词。MAVL 比 MAWL 更短,但覆盖的医学英语词汇却更广。Lei 和 Liu 在编写 MAVL 的研究启示中提到,医学这一大学科还有很多细分的领域,未来的研究可以考察医学具体某个领域中的词汇使用,并制作特定专业领域的医学词表[17]。如 Hsu 基于中医英语教材语料库开发了中医英语学术词表[18]。
总体而言,当前学术词表的开发和研究还存在以下主要问题或争议。第一,在词汇收录形式上存在争议,包括对词族、词形还原和词性标注的选择。多数学术词表以词族形式收录,经过归纳后的词表看似规模较小,但实际单词量并不少。比如 AWL 表面看只有 570 个词族,实际上包含了 3100 多个不同词形的单词。并且同一个词族的词汇意义可能并不一致,词性和同形( 音) 异义词等情况也没有考虑,这会导致学术词表选词不全或不准确,从而降低词表的信度和效度[19]。第二,在学术词表与通用词表的关系上,即学术词表在排除还是保留通用词汇高频词方面有较多争议。通用高频词汇与学术词汇会有交叉,难以将二者明确区分。一律排除通用词汇表的词汇会使一些具有特殊学术意义的词汇不被收录; 若保留又会使词表稍显冗长( 如 AVL 包含 3015 个学术英语单词) ,或收入大量简单的与通用英语重合的词汇( 如 MAVL 收录的 819 个医学英语单词中含有 313 个 GSL 中的通用英语词汇,如 ability、age、 care、cause、change、high) ,从而使得学科专业性和针对性被削弱。第三,上述各类词表的研究大多是对单词词表的研究,对多词表达的研究较少,学术词汇的多词表达研究也较为缺乏。有少数学者进行了学术英语多词表达的研究,并呼吁未来进行更多学术语言多词表达的研究[20-22]。
由于上述问题的存在,虽然已有上述多种学术英语词表或医学英语词表可供选择,但在 COVID19 应急医疗服务中针对性不强,使用效率不高。英语作为医学国际交流和研究通用语,我们有必要快速开发出专业的、针对性强的 COVID-19 专题英语术语表,为世界各地抗疫一线的科研工作者和相关工作人员节约宝贵时间,助力疫情防控和新冠肺炎相关研究,以便在与新冠病毒的赛跑中挽救更多生命。语料库工具 Sketch Engine 的关键词功能在提取术语和多词表达上作用强大,能同时解决上述三个问题。下文将探索新冠肺炎学术英语术语表 ( COVID-19 Word List) 制作的工具、语料来源、流程、应用及启示。
2 语料库工具 Sketch Engine 及 COVID-19 医学语料库
2.1 语料库工具 Sketch Engine
词汇速描系统是第四代语料库检索工具的代表[23-24],实现了语料库在线检索并提供以下核心功能: 词汇速描( word sketch) ,词汇差异速描( word sketch difference) ,类义词( thesaurus) ,索引行( concordance) ,词表( wordlist) ,关键词( keywords) ,多词表达( n-grams/multiword expressions,MWEs) 等( 图 1) 。该系统已被广泛用于词典学、语言研究与教学、语篇分析、翻译研究等领域[25],也是关键词研究[26]和词汇语义研究[27-28]的有力工具。下面将主要介绍在制作词表或术语表中常用到的关键词功能。
过去的学术词表制作通常先从学术语料库中提取高频词,再对比通用词表进行筛选。Sketch Engine 的关键词功能则是通过一次性比较两个语料库找出一个语料库相对于另一个语料库的独特或典型的词汇,通过这些词可以了解该语料库的内容或主题,因此该功能尤其适用于寻找关键词或提取术语。参照语料库的选择可以决定提取出的备选词汇与专题的相关性。以制作 COVID-19 专题词表为例,若以通用英语语料库作为参照,则词表可能会出现大量通用医学常用语,与专题的直接相关性没有以医学英语语料库作为参照得到的词表强。而选择 Sketch Engine 中的其他医学语料库做参照,能提高 COVID-19 医学词表的针对性和应急性,减少词表使用者可能已知的大量通用医学词汇。关键词的术语提取功能对聚焦语料库( focus corpus) 的规模要求不高,但规模越大的语料库覆盖的术语更多[29],参照语料库( reference corpus) 的规模则是越大越好[30]。Sketch Engine 平台的 COVID-19 语料库和其他医学语料库的规模足以满足本专题词表制作的要求。
关键词功能的检索结果分为 keywords 和 terms 两部分。keywords 是在聚焦语料库中出现频率高于参照语料库的单词词条( single word items) ,可根据需要选择以词元( lemma) 或单词( word) 等形式显示,并可区分大小写; terms 是在聚焦语料库中出现频率高于参照语料库的多词词条( N-grams/ MWEs) 。也就是说关键词功能可根据研究者需要选择词汇的展示形式,并同时实现单词术语和多词术语的提取,解决词表制作耗时低效、多词术语制作难度高成果少的问题。由此可见,Sketch Engine 是一款非常适用于在紧急情况下提供应急术语服务的语料库工具。第 4 部分将详细介绍 Sketch Engine 用于 COVID-19 学术英语单词术语表和多词术语表的制作。
2.2 医学语料库
1) 医学语料库建设应用现状
虽然近年来各类语料库的建设、应用和研究如火如荼,但是医学语料库资源依然相对欠缺。国内最近的医学语料库建设成果主要有冯欣等建立的 MedAca 医学学术英语语料库[31],作为学术英语语料库( Database for English for Academic Purposes) 的医学子库,文本来自 2012 至 2017 年间在临床医学领域的国际学术期刊上发表的优秀论文全文及其摘要,共计 5 041 631 个形符( tokens) ; 而李文和杨炳钧建立的现代医学英语书面语语料库规模仅有约 200 万词,文本时间为 2000 年以后[32]。大部分医学语料库规模较小,缺乏统一的建设规范和标准,部分语料库语料来源较为陈旧,无法反映日新月异的医学研究,难以体现医学英语的全貌。
2) COVID-19 医学语料库
COVID-19 语料库文本来自 COVID-19 开源研究数据库( COVID-19 Open Research Dataset,CORD19) 。该数据库旨在支持与新冠肺炎相关的研究工作,由经同行评议的论文组成,并随着新研究的发表而不断更新,反映新冠肺炎防治的最新科学进展。截至 2020 年 5 月 2 日,该数据库收录了大约 57 000 篇新冠肺炎相关的学术论文,是新冠肺炎研究宝贵的一手资料。该语料库在 Sketch Engine 语料库平台上供开放使用,可访问 http: / /ske.li /covid_19 进行语料库检索及相关研究。该语料库规模庞大,总词数为 224 061 570,形符数为 280 762 172,按照论文的不同部分划分为摘要库、附件库和正文库三个子语料库,其规模和构成如表 1 所示。
3) 参照语料库: Open Access Journals-Medicine
提取 COVID-19 语料库中的关键词需要一个参照语料库。为了增强所提取备选术语的专业性和相关性,本文将在 Sketch Engine 平台的 Open Access Journals( DOAJ) 语料库下建立医学子语料库( DOAJMedicine) 作为参照。DOAJ 由各个领域的开源期刊论文构成,涵盖领域包括科学、技术、医学、社会科学、人文科学等。该语料库有规模大、时效性强、元信息丰富等特点,总共 26 亿词,其中约 99%的文本发表年份在 2000 至 2017 年之间,保留了包括期刊名称、国别、发表年份、出版社等丰富的元信息,便于根据不同需要创建子语料库。DOAJ-Medicine 语料库总形符数 175 136 014,约占整个语料库的 5. 2%。 COVID-19 语料库和 DOAJ-Medicine 语料库均为上亿词级的语料库,并且还在不断扩充,在医学语料库中规模位居世界前列。两个语料库语料时效性强,可在同一平台进行检索操作,具有很强的可比性和可参照性,是制作词表的理想语料库。
3 COVID-19 术语表制作
3.1 术语表制作的目的和原则
如前文所述,我们制作术语表的目的是提供应急语言服务,特别是服务在抗疫前线的医护人员、研究人员、医学师生、外宣、媒体等相关人员,满足其阅读文献资料、撰写学术论文、教学研究或宣传报道等需求。该词表的大部分受众是有一定专业医学知识和医学英语基础或较高文化水平的专业人士。根据该目的,我们制定了入选术语表的两个基本原则: 一为实现入选术语在相关文献中有较高的覆盖率,入选术语必须是 COVID-19 研究中的高频词; 二为提高词表的专业度,减少词条数量,减轻使用者负担,入选术语需在满足高频的前提下与主题有较强的相关性。
3.2 语料库检索方案和词条收录标准
在两条原则的指导下,我们制定出具体的检索方案,设定术语的收录筛选标准。首先需要确定术语的来源语料库。如前文提到 COVID-19 语料库分为摘要库、附件库和正文库三个子语料库。摘要是对一篇论文精练的总结概括,与主题相关性最强,涵盖了一篇论文最核心的关键词汇,选择摘要库作为聚焦语料库可使检索出的备选词条更具相关性,减少人工筛选的工作量。摘要库 6 946 594 个形符的规模也远远超过前文提及的大部分医学语料库全库,可以保证相当数量的术语产生。先后用 COVID-19 全库、摘要库和正文库尝试检索后的结果也证实摘要库提取的术语与主题相关性最强。结合 Sketch Engine 的功能特征,我们在关键词功能中检索备选术语时进行了如图 2 的设置。首先从 COVID-19 语料库中选择摘要子库( only abstract) , “focus on”的设置保持系统默认值 1( 该设置偏向 rare,即检索的词将聚焦在通用语言或参照语料库中罕有或较少使用的词汇,该设置更适用于术语提取) ,最小频率设置为 10,随后选择“at least one alphanumeric”,即检索的词汇短语中至少含有一个字母或数字,例如 16-year-old,3D。两个术语表的参照语料库均为 DOAJ 医学子语料库,最大候选词项数均设置为 2000,单词术语以 lemma 形式显示。
通过检索得出的两个词表中各有 2000 个备选词条,将检索结果保存为 Excel 表格。图 3 展示出关键性值( keyness score) 位于前 10 位的备选单词术语词条。我们在对词条进行浏览观察以后,根据相对频率( relative frequency) 和关键性值两个数值进行一轮自动筛除,然后在第二轮进行逐条阅读人工筛除。就收录术语的相对频率最低值而言,单词和多词表达有所不同。Coxhead 在制作 AWL 时,限定入选词汇须在其 350 万词的语料库中出现 100次或以上( 即 28.57 PMWs) [14]。Lei 和 Liu 亦沿用了这一最低频率标准,收录到 MAVL 的单词频率至少为 28.57 次每百万词[17]。对多词表达而言,前人采用的最低出现频率各不相同,从 10 到 40 次每百万 词 不 等[21]。 Biber、Johansson、Leech 等[33], Simpson-Vlach 和 Ellis [20] 使 用 10 次 每 百 万 词; Biber 和 Conrad [34],Hyland [35],Liu [21]选择 20 次每百万词; Biber、Conrad 和 Cortes [36]则采用了 40 次每百万词的标准。基于上述研究及对备选术语的观察,本文采用的收录术语最低频率标准是: 单词 28. 57 次每百万词以上,多词表达 20 次每百万词以上。初步满足这一标准的单词术语有 586 条( 关键性值介于 3.61 ~ 523.09) ,多词术语有 232 条( 关键性值介于 3.38~227.58) 。
关键性值是 Sketch Engine 用于判断某个词条在聚焦语料库相对于参照语料库的特别性的一个数值,起到的作用相当于 Gardner 和 Davies 开发 AVL 时使用的收录单词标准中的频次比率[15]。关键性值越高表明该词在聚焦语料库中越突出,因此更能反映聚焦语料库的特征或者更有可能是术语。至于选择哪一个关键性值作为入选术语的标准,目前罕有研究或者没有统一标准。结合本文术语表的目的,考虑到术语表应有的适度规模,本文决定采用的标准为: 单词术语的关键性值大于 5,多词术语的关键性值大于 3.5。满足上述最低频次标准和关键性值两个标准的备选单词术语和多词术语分别有 448 条和 230 条。
接下来第二道程序是对备选词条逐一进行人工检查,排除语料库工具自动识别产生的少量错误和无关词汇。筛选整理术语时遵循以下原则: ( 1) 无关词汇直接排除。比如 full text 出现频率约 46 PMWs,关 键 性 值 为 16. 6,但 是 通 常 出 现 在 Publisher/Free Full Text 中,指论文全文,是与 doi、 publisher、copyright holder、biorxiv preprint 等类似的论文出版相关词汇,与主题无关。另外,由于部分论文摘要以法语写成,或者有法语翻译,因此一些高频法语词如 une、dans、des、est 等也出现在备选词表中,需排除。( 2) 与 COVID-19 相关,但是广为人知或专业性不强,如地名( China、Chinese、Korea、 Wuhan、Taiwan、Saudi Arabia、Singapore、Beijing) 或其他简单的普通名词( background、entry、winter、 threat、disaster、re-use、tourism、traveler) 等,也进行相应排除。( 3) 多词表达中部分因短语识别和分割等错误形成的词条需要排除,如 i interferon、 syndrome virus。( 4) 在备选多词表达中会有长短不一、部分重叠的短语,在收入术语表时会根据医学常识排除一部分,收录最常见的术语作为主体,并用括号表示其他必要的形式,在词表排序时以主体术语的频率计算。比如 respiratory syndrome、acute respiratory syndrome、severe acute respiratory syndrome、 severe acute respiratory syndrome coronavirus、acute respiratory syndrome coronavirus 等形式在备选词表中均有出现,在正式术语表中会以 severe acute respiratory syndrome ( coronavirus) 的形式出现,并按 228.6 PMWs 的频率排序。( 5) 不确定的词条通过 Sketch Engine 检索结果页面的索引行查看词条在聚焦语料库中的上下文,并以权威医学词典作为参照并咨询医学专业人士,确定为 COVID-19 相关的医学术语才收录。
3.3 COVID-19 术语表
经过上述步骤筛除、整理并参考医学专业人士意见,COVID-19 术语表制作便完成了。成形的 COVID-19 术语表分为两部分,其中单词术语表含 364 个单词,多词术语表含 176 个多词表达,分别呈现在表 2 和表 3 中,并按照词频高低分为三个等级。MAVL 中包含的 ability、age、change、high、 number 等常见的或医学特征不明显的词汇很少或几乎没有被收录到 COVID-19 专题术语表内。词条的精简使得术语表使用者能专注于与主题高关联度的术语学习和应用,节约时间,符合应急语言服务讲求效率的要求。当然,本术语表也未将个别简单的通用英语词汇排除在外,比如常见的 bat、 pig、cat、dog 等,因为该动物类词汇与病毒的起源、传播和影响可能有极大关联,若这些词汇被排除,为保持标准的一致性,则次常见的 calf、camel、cattle、poultry、ferret、wildlife、livestock、macaque 等表示动物的词汇也可能被排除在外,无法客观反映事实。
备选术语表到正式术语表的单词和多词术语的人工筛除率分别为 18.75%和 23.48%。备选多词术语筛除率稍高是因为有部分自动切分错误的短语和部分重叠的词条。相比其他语料库词表制作方式,Sketch Engine 更高效,人工干预更少。与前文提到的通用英语、学术英语和学科术语词表开发相比,Sketch Engine 开发的专题术语表更具有针对性,更适用于应急语言服务,是可靠的术语挖掘和应急术语服务工具。
4 结语
词表的开发始终需要考虑使用者的需求和词表的目的以确定收词的词频范围和针对性。没有能满足所有需求、适用于所有用途的词表。本文以新冠疫情防控中的应急语言服务为出发点,明确了对 COVID-19 术语表的需求及本术语表的制作目的,确 定 词 表 制 作 的 原 则 和 方 案,使 用 Sketch Engine 语料库工具及其丰富的医学语料库资源高效地完成了新冠肺炎学术英语词表的制作。在此次词表制作实践基础上,我们总结出以目的为导向的词表制作流程,该流程包括五个步骤: ( 1) 分析使用需求以确定词表目的; ( 2) 根据目的决定词表制作的原则; ( 3) 根据原则指导制定可操作的词条筛选的量化和质化标准; ( 4) 参考相关领域专业人士意见,检验和修正词表; ( 5) 公布词表。后续的词表开发可以以此流程为指引,使词表制作流程标准化、规范化,如开发 COVID-19 高频医学缩略语词表,并提供缩略语的全称及释义等作为本词表的补充,为世界各地医护工作者和其他相关人士提供全面的新冠肺炎英文词表支援服务。此外,词表的应用反馈以及修订完善等后续工作还需要持续关注。与各学科领域专业人士和词表使用者在术语表的开发、应用与研究方面的合作还需加强,以便对专题词表的实际使用情况进行调查,对使用效果进行评价,在此基础上不断对词表进行完善和修订,为未来其他词表的开发制作提供借鉴。
本专题术语表的制作对英语词表的类别划分也有借鉴意义。Nation 和 Webb [37]将英语词汇分成四个级别,一级为以 GSL [11]为代表的高频词,二级为以 AWL [14]为代表的学术词汇,三级为各个学科的术语词汇,四级为低频词。这种词汇划分的标准较为混乱,有时以词汇使用频率为标准,有时以使用领域为区分。结合本文 COVID-19 专题词表的开发实践,我们将词表分为四个类别: 第一类为通用词表,第二类为通用学术词表,第三类为各学科的术语词表,第四类为专题词表。这一词表的类别划分形成了一个自下而上、不断细化的词表开发路线图,也是词汇学习一般路径的真实反映。
和术语命名一样,术语表的制作是一项基础工作,是很多其他应急服务的前提,比如术语标准化、应急医疗口笔译服务、翻译术语库建设、机器翻译、学术词汇教学与科研等。术语命名和术语表开发及其后续应用和研究构成国家应急术语能力,是国家应急语言能力建设的重要环节和重要组成部分,值得学术语言研究者、词表开发者以及应急语言服务供求双方的高度重视。