摘要 近年来,深度学习在一些具有挑战性的高难度问题中取得了巨大的成功,这其中就包含深度学习在医学图像分析中的应用。率先提出并采用三维卷积神经网络从核磁共振图像中自动检测大脑微出血。为了减少肺结节自动检测中的假阳性,设计了考虑多级上下文信息的三维卷积神经网络框架,并进一步提出了一种新颖高效的三维神经网络,配备了三维深度监督机制,从而全面解决了三维网络优化难点和医学训练样本不足的挑战。对深度学习的成功应用涵盖了广泛的医学图像模式,包括组织病理学成像、超声成像、MR/CT 成像和皮肤镜成像等。同时,虚拟现实在临床中的应用也取得了长足进步,基于虚拟现实的手术模拟成为一种经济且有效的临床培训手段。通过医学成像、运动追踪、物理模拟、触觉反馈和视觉呈现的智能集成来构建逼真的虚拟环境,从而实现提供外科手术专业培训的目标。主要介绍了使用深度学习进行医学图像分析的最新工作,以及开发的基于虚拟现实的一系列手术模拟系统。
关键词 医学影像;手术模拟;人工智能;深度学习;虚拟现实
王平安, 光学与光电技术 发表时间:2021-11-17
1 人工智能:深度学习在医学图像分析中的应用
1.1 简介
医学图像涵盖很多种,包括超声图像、CT 图像、核磁共振图像(MRI)、组织病理学图像、内窥镜及皮肤镜图像等,如图 1 所示。计算机辅助诊断主要是通过对上述医学图像进行处理,结合计算机的分析计算,辅助发现病灶,提高诊断的准确率。计算机辅助诊断能够减轻医务人员的工作负担,节约医学图像处理和诊断的时间,减少误诊发生的几率,并能使诊断结果更好地可视化。
近几年来深度学习得到了很好的发展,其中以深度学习为基础构建的 AlphaGo 系统更是成为了人工智能的典型代表。在图像辨识方面,深度学习也得到了很好的应用。深度学习方法由多个层组成,学习具有多个抽象层次的数据特征,当具有很好的训练数据集的时候,能够很好地完成辨识推理的任务。医学图像是众多图像中的一种,因此也能通过深度学习进行相关处理和分析。但是医学图像与普通图像存在一些差别。首先,医学图像不像普通图像那样有着很好的训练数据集,医学图像一般没有对应的准确标注,因为医生没有太多时间对大量的医学图像一一进行标注;其次,医学图像很多都是三维甚至是四维,与一般的二维图像的处理存在差别;此外,医学图像之间的差异性较大,对于算法的泛化能力提出了更高的要求;最后,医学图像对于诊断结果的准确性有着比普通图像辨识更高的精度要求。
1.2 病理组织学图像分析
主要介绍病理组织学图像中腺体的分割。腺体的形态是病理学家用来评估腺癌恶化程度的常用指标,而病理组织学图像中腺体的精确分割是实现这种量化评估的关键步骤。通过对病理组织学图像进行腺体的分割就能获得比较准确的数据从而对相应的疾病进行诊断,如是否患有癌症,癌症到达了怎样的程度。在腺体分割中存在的挑战是腺体的结构存在着很多种变化,而且病理组织学图像的数据量很大,图像中还往往存在着不同腺体间的重叠。为解决以上问题,我们 提 出 了 一 种 有 效 的 Deep Contour-Aware Network(DCAN)。在这个网络中,来自分层结构的多级上下文相关特征利用辅助监督来实现对于腺体的精确分割。该网络不仅可以精确地输出腺体的概率地图,而且也可以同时描绘出清晰的轮廓,进一步提高了腺体分割的性能。 DCAN 如图 2 所示。
利用上述提出的算法,我们参加了 MICCAI 2015 的腺体分割挑战,使用官方提供的数据进行相关分析,最终在腺体的分割和识别方面获得了第一的好成绩。
在病理组织学图像分析方面,我们还做了乳腺癌有丝分裂细胞的自动检测。乳腺癌是一种致死率很高的癌症,在女性中的发病率很高。在乳腺癌的检测中,有丝分裂细胞的数目可以作为衡量发病与否以及病情程度的一个量化指标。目前乳腺癌病理检测中的有丝分裂细胞数目主要是通过人工去识别和计数,非常费时费力,对于有丝分裂细胞的自动识别还是存在很大的挑战。首先,有丝分裂细胞图像之间在形态上有着很大的差异性,而且在图像中是属于稀疏分布的;同时,有些细胞的形态与有丝分裂细胞的形态很类似,很容易造成混淆;此外,对于整个有丝分裂细胞的识别计数过程需要很快速地完成。为了解决上述问题,我们提出了一种快速而精确地检测有丝分裂细胞的方法,Deep Cascaded Convolutional Neural Network,如图 3 所示。该网络由两部分组成,第一部分是构建粗略的检索模型来筛选候选对象,第二部分是利用很好的分辨模型实现对有丝分裂细胞的辨识。我们使用上 述 模 型 对 ICPR 2012 及 ICPR 2014 的 MITOSIS 数据集进行了测试,发现该方法取得了综合最好的效果。
1.3 三维核磁共振图像分析
上面介绍的病理组织学图像分析是对于二维医学图像的处理,接下来介绍对于三维医学图像的处理。大脑微出血(Cerebral Microbleeds, CMBs)可能是很多脑部疾病的一种早期症状,对于 CMBs 的检测能够实现对于很多脑血管疾病以及神经退化性疾病的一种早期诊断。对于 CMBs 的检测,怎么从三维 MR 图像中把微出血的位点找出来?我们首次将三维的卷积神经网络(3DCNN)引入到医学图像的处理中,针对 3DCNN 构建了一个级联框架,以此来提高检测精度的同时降低计算负担,如图 4 所示。我们首先开发了一种 3D Fully Convolutional Network (FCN)策略来检索最可能的 CMBs 候选,然后利用一个训练好的 3DCNN 分辨模型来区分 CMBs。相比于传统的滑动窗口策略(Sliding Window Strategy),我们提出的 3DFCN 策略可以去掉大量的冗余计算,极大地提速整个检测处理的进程。我们构建了一个有着 320 容量 MR 扫描的大数据集,进行了大量的实验来验证我们提出的上述算法,获得了 93.16% 的检测灵敏度,比之前的相关算法或者是 2DCNNs 方法都取得了更显著的效果。
1.4 三维 CT 图像分析
延续大脑微出血检测的研究,我们又进行了基于 CT 图像的肝脏自动分割研究。CT 图像中肝脏的自动分割,在计算机辅助肺癌诊断与治疗中有着很重要的作用,同时也是一个很大的挑战。为解决肝脏分割的问题,我们改进了大脑微出 血 检 测 中 的 算 法 ,并 提 出 了 3D Deeply Supervised Network(3D-DSN),用来对对比增强 CT 得到的医学图像进行肝脏的图像分割。3DDSN 的系统架构如图 5 所示。3DDSN 利用了一个完全卷积架构的优势,从而实现有效的端对端的学习和推断。更重要的是,我们在学习的过程中引入了一个深度监督机制,以此来克服潜在的最优化难题,从而获得更快的收敛速度和更好的 辨 识 能 力 。 我 们 用 公 开 数 据 集 MICCAISLiver07 进行了测试,发现该方法相比于其他方法在能够取得好的辨识结果的同时有着快得多的处理速度。
1.5 基于超声图像的前列腺图像分割
前列腺癌是导致男性死亡的重要癌症,在美国 2010 年公布的数据中显示,前列腺癌是美国发病率最高、致死率第二的癌症。对于前列腺癌的诊断和治疗中的一大重点就是需要对前列腺的医学图像进行很好的分割,而人工分割是非常费时费力的。在前列腺癌的诊断中,超声扫描是最常规的一种诊断手段,但是对于超声图像进行前列腺分割则充满了挑战,因为超声图像中边界不完整的问题很明显而且超声图像充满了噪声。在估计缺失的边界时,先验知识起着很大的导引作用,但是传统的形状模型经常受制于手工描述符,在配准过程中会丢失局部信息。
对此,我们提出了一种新的框架,这种框架可以无缝地整合特征提取和形状先验探测,从而用连续的方式估计出完整的边界。该框架分为三个主要模块,第一,将静态的 2D 前列腺超声图像转化为动态序列,然后通过连续的探测形状先验预测前列腺形状。根据经验,我们提出了用 Recurrent Neural Networks(RNNs)来学习形状先验,这个模块能够有效地处理边界不完整性。第二,为了减少不同序列化方法导致的误差,提出了一个多角度融合策略来整合不同角度得到的预测形状。第三,进一步将 RNN 核植入一个多量程的自动上下文方案中以成功改善形状预测的细节。
经过大量的数据测试,我们发现在前列腺超声图像中对于前列腺边界的描绘,我们的方法取得了比其他几种先进方法更好的效果,而且该方法的普适性更好,能够很方便地用于其他医学图像中边界描绘的问题。具体分割的结果如图 6 所示,其中红色的标识是真实的边界,绿色的标识是我们算法自动识别的边界,两者能够达到很高的重合度。
1.6 皮肤镜医学图像分析
皮肤镜又称皮表透光显微镜,其本质是一种可以放大数十倍的皮肤显微镜,其功能和眼科用的眼底镜、耳鼻喉科用的耳镜一样,是用来观察皮肤色素性疾患的利器。近年来世界各地的皮肤科医师投入相当多的精力在皮肤镜的研究上。有研究表明,皮肤镜对恶性黑色素瘤诊断的专一性可以达到 98%,甚至比临床诊断还要高。皮肤镜是一个相当方便、非侵入性、诊断率高、值得信赖的工具。通过皮肤镜获取医学图像,再结合计算机辅助诊断,可以更高效地协助医生实现对恶性黑色素瘤的有效诊断。通过皮肤镜获取的黑色素瘤相关图像如图 7 所示。
皮肤病灶的低对比度、黑色素瘤之间大的形态差异、黑色素瘤和非黑色素瘤之间高度的相似性以及皮肤镜获取的图像中大量的噪声,这些因素使得皮肤镜下黑色素瘤的自动识别非常具有 挑战。为了克服这些挑战,我们提出了一种新的用 非 常 深 度 的 Convolutional Neural Networks (CNNs)来实现辨识黑色素瘤的新方法。相比于传统的方法,我们的深度网络超过了 50 层,能够获取更丰富的信息从而实现更准确的识别。我们应用了残量学习来应对网络深度过深带来的退 化 和 过 拟 合 问 题 ,并 且 构 建 了 一 个 Fully Convolutional Residual Network(FCRN)来实现皮肤病灶的精确分割,然后我们很好地将用于分割的 FCRN 和用于分类的残量网络整合成一个二阶的架构。这种架构使得用于分类的特征是基于分割后的结果而不是基于最原始的数据,使得分类能够得到更准确的效果。我们用此方法参加 ISBI2016 皮肤病灶识别挑战赛,在 25 支参赛队伍中获得了第一名。
2 虚拟现实:现代医学中的手术模拟
2.1 简介
随着现代医学的进步,微创手术技术迎来了快速的发展。微创手术因为患者创伤小,并发症危险小而且恢复速度快广受患者和医生的欢迎。但是微创手术相比于普通手术对医生提出了更高的操作要求,这也使得微创手术的事故发生率居高不下。微创手术事故率较高的原因主要是因为目前对于医生的微创手术训练手段存在很大的局限性。如果医生在尸体上进行微创手术的训练则存在尸体数量有限、无动态特征等弊端;如果在动物上进行微创手术的训练则存在解剖结构有差异,不能理解并发症等问题;如果在病人身上进行微创手术的训练那对病人的伤害是很大的,而且也无法重复进行训练。
虚拟手术的出现很好地弥补了上述存在的问题。利用虚拟现实技术营造逼真的手术环境,可以降低训练成本,在同样的手术环境用户可以进行各种不同的手术训练,而且可以让用户反复进行训练。由于是在虚拟的环境中进行训练,此种训练方式安全可靠,不存在对患者造成伤害等问题。不过虚拟手术的实现需要集合多种关键技术,包括:医学图像处理技术、软组织建模及形变仿真技术、复杂医学数据实时可视化技术、实时逼真力反馈技术以及系统的集成、评价和验证。接下来介绍我们在上述关键技术中取得的若干研究进展。
2.2 虚拟现实中的若干关键技术
基于非局部低秩超声图像去噪技术。图像的噪声很大程度上影响三维建模的准确度,为此我们利用引导图像提高相似区域查找的准确度,提 出 Truncated Weighted Nuclear Norm 和 Structured Sparsity 来更有效地实现低秩化。去噪的同时还能保留图像的细节,比现有方法更能提高图像分割和后续三维建模的准确性,如图 8 所示。
腰椎间盘 MR 图像自动定位与分割技术。我们构建了多尺度图像分割网络-基于多模态的随机像素点去除技术。设计了多尺度多通道的 3D 卷积神经网络,极大提升了定位和分割准确率。采用基于多模态的随机像素点去除技术,抑制了过拟合问题并提高了准确率。我们技术达到的定位误差为 0.36 mm,分割结果能够达到 91.34% 的准确率,如图 9 所示。
血管血流建模与仿真技术。因为手术中一定会见到很多血管,因此血管和血流的建模就极其重要。我们构建了基于平滑粒子流的血流仿真,能够达到很好的效果。还构建了基于血管生长模型的肝脏及肝脏肿瘤血管生长仿真,此外还实现了血管网络的三维几何建模,如图 10 所示。
基于生物力学原理的大尺度软组织形变建模技术。如图 11 所示,在手术场景仿真中,要实现对人体器官组织在复杂的交互环境下产生的形变过程中的交互和力学反应进行逼真的模拟。在交互作用方面要进行手术器械与软组织的交互,进行软组织与软组织的交互;在力学反应方面,通过嵌入网格来进行形变建模,自动生成针对多组织(肿瘤、血管、器官组织)数据的嵌套六面体网格;在真实性方面,基于 Patch Green Coordinates 的插值通过 Patch 分块处理,获得更加平滑的插值效果,并使之体积守恒。
软组织与手术器械的触觉交互建模技术。在软组织形变方面,我们主要是使用了混合几何模型,其中力学形变的模型与用作渲染的表面网格相对独立,如图 12 所示。使用了基于点的形变模型,尤其在拓扑结构发生变化(大尺度形变)的情况下,可以实现高效的对可形变模型进行仿真。在接触建模方面,实现了软组织-软组织的交互、手术器械-软组织的交互以及多频率视触觉仿真方法的交互。
复杂边界条件下交互式剪切视触觉仿真技术。我们在表面进行几何建模,保持切痕与切割路径的一致以及体积守恒。在里面进行物理建模,与表面几何建模独立,避免计算的不稳定性。此外,我们还提出了适用于混合几何模型的表面网格重建方法以及拓扑结构改变过程中混合几何模型更新方法,如图 13 所示。
三角网格的平滑优化技术。医学数据进行三维手术场景的重建时,由于数据的噪声,会不可避免地生成一些规则的网格和瑕疵,严重影响手术场景渲染的效果和模型的真实感。为此,我们联合信息互补的点法相域和面法相域进行滤波,检测模型的特征边缘信息,还利用加入边缘和质心约束的拉普拉斯变换进行网格的平滑优化,从而使得在平滑过程中不丢失模型的重要几何特征,很好地保持了体积不变性,如图 14 所示。
基于逐段圆柱形状假设的血管网格曲面高质量中心线提取技术。血管中心线是血管建模的重要依据,也是血管介入手术交互的重要信息,但高质量的提取难度很大,血管的拓扑结构复杂,存在细小分支及血管病变(如血管瘤)等,目前的方法大多基于体数据,效果并不好。我们提出了基于类圆柱假设的串联离散几何处理算法,首先进行网格分割,然后旋转对称轴再进行主元分析,从而可以有效提取具有复杂拓扑结构和几何结构(血管瘤)的血管中心线,如图 15 所示。
流体模拟中细节增强技术。在烟雾模拟中存在数值耗散问题,忽略网格分辨率以下的涡流计算,从而导致小尺度特征信息丢失。在液体模拟中存在拉伸不稳定性问题,边界粒子支持域不完整造成粒子分布不均,影响数值稳定。为此我们通过对局部流体粒子进行光滑粒子流体力学(SPH)湍流建模,可有效恢复流体在网格分辨率以下的湍流细节,保证仿真场景内的涡量守恒。通过对流体粒子邻域分析处理,使所有粒子满足数值计算紧支撑的条件,同时引入粒子分布调整机制,可有效防止细流破裂,实现具有丰富细节的液体模拟,如图 16 所示。
2.3 全息增强现实导航——肝脏穿刺增强现实导航
在综合上述技术的基础上,结合人机交互接口设计,我们实现了全息增强现实导航——肝脏穿刺增强现实导航,如图 17 所示。当肿瘤位于肝脏内部,医生是无法通过肉眼直接对肿瘤进行观测的。如果通过传统的超声/CT 这样的 2D 影像导航方式将严重依赖医生的经验,手术往往耗时较长。目前我们结合 Hololens 首次实现了柔性 体(腹 部 体 模)穿 刺 增 强 现 实 导 航 ,以 往 Hololens 仅应用于骨科医疗手术导航,尚不能应用在柔性体手术的导航。我们首先构建异构腹部体模解剖模型,然后实现体模穿刺过程中的形变预测,进而实现术中场景动态跟踪配准。传统 CT 引导下肝脏体模穿刺的平均精度是 8.52 mm,我们实现的增强现实引导肝脏体模穿刺的平均精度为 3.23 mm,使得手术精度大大提高。
3 总 结
在医学图像分析的计算机辅助诊断中,深度学习起到了非常大的作用,不论是对病变部位的识别和检测,还是对肿瘤和解剖结构的分割都能实现很好的效果。同时基于深度学习的计算机辅助诊断对于提高临床医生的工作效率和准确率有着很大的潜力,有望成为临床医生的好帮手,既减轻医生的工作负担又提高诊断的准确率。但是目前还存在很多挑战,还有很多未知的事情需要去探索,需要来自计算机科学、工程学以及临床医学相结合的多学科交叉人才的合作与努力。
虚拟手术作为虚拟现实技术在临床医学中的应用,未来将为手术培训模式的转变提供坚实的技术支持,更将为手术计划、术中引导等临床应用提供新手段、新方法。与计算机辅助诊断技术一样,虚拟手术技术的发展也需要医生、生物工程学者、计算机学者等多领域专家密切交流与合作。在未来的发展中,人工智能与虚拟现实技术将结合起来,增强现实与机器人技术也将融合起来,这些技术的融合与实现将能很好地提升目前临床医学中的诊断、治疗、手术规划以及手术的执行。