第6章《可解释人工智能导论》，电子工业出版社

第6章
生物医疗应用中的
可解释人工智能
本章内容
基因编辑系统优化设计中的可解释人工智能
生物医疗应用中的
可解释人工智能
医学影像中的可解释性
第6章生物医疗应用中的可解释人工智能
6.1.1 基因编辑系统背景介绍
基因编辑（gene editing）或基因组编辑（genome editing），是指一种能够在活体基因组中进行DNA插入、
删除或修饰的生物工程技术[2]。而CRISPR-Cas基因编辑系统是最新的基因编辑技术。
CRISPR-Cas系统来源于细菌的适应性免疫系统，其生物学作用是对目标DNA或RNA进行切割破坏以保护细菌，
其构成是CRISPR（Clustered Regularly Interspaced Short Palindromic Repeats）序列和Cas蛋白，前者识别
目标DNA，后者切割破坏目标。
1. Cas蛋白，图中的红色部分；
2. 目标DNA，图中的蓝色部分；
3. 向导RNA，图中的黄色部分。由2个部分组成，其一
为左侧和目标DNA配对结合的部分，长度20bp，作用为
识别并结合目标DNA；其二为前者右侧的序列，这部分
序列其结构支撑作用；
4. PAM（protospacer adjacent motif）序列，又称
前间区序列邻近基序，图中的橙色部分，长度为3bp，
位于目标DNA上紧邻着向导RNA与目标DNA的结合部。
6.1.2 基因编辑系统优化设计可解释AI模型构建
尽管CRISPR-Cas基因编辑系统是一种强大的生物工程工具，它效率和准确性仍然被多种因素所制约，而在这其
中向导RNA处于关键性的地位。向导RNA与目标DNA的结合是基因编辑中最为重要的一步，它的效率直接影响
整体基因编辑效率。而向导RNA与非目标DNA的结合将导致基因编辑发生在错误的位置，又称脱靶效应（off-
target effect），直接降低系统的准确性。
目前的优化思路就在于预测目标区域中潜在的向导RNA序列的效率及其在非目标区域的脱靶概率，然后从其中挑
选效率高且脱靶概率低的向导RNA作为实际操作对象进行基因编辑。下面以DeepCRISPR模型举例。
DeepCRISPR模型预测任务：
1. 给定向导RNA，预测其在目标区域的效率，可以是分类任务（效率高、中或低），也可以是回归任务（发生反
应的向导RNA数量占该向导RNA总数量的比例）；
2. 给定向导RNA，以及非目标区域的DNA序列，预测其在该区域的反应概率，可以是分类任务（发生概率高、
中或低），也可以是回归任务（在该区域发生反应的向导RNA数量占该向导RNA总数量的比例）
DeepCRISPR模型构建：
基于预训练框架（Pre-training & Fine-tuning），利用无标记样本训练的自动编码器作为预训练模型，然后加
入标记样本在预测模型中进行参数调整，从而得到最终模型。
1. 预训练模型架构为基于卷积层的去噪自
动编码器，预训练目标为最小化解码器
（Decoder）输出与编码器（Encoder）
输入之间的差别，输入数据为全基因组中
的所有潜在向导RNA，共6.8亿条；
2. 效率预测模型使用了预训练的编码器参
数，后进行微调得到最终模型；
3. 脱靶频率预测模型的两个输入端均使用
了预训练的编码器参数，后对模型的整体
参数进行微调得到最终模型。
DeepCRISPR模型预测结果的解释： 1. 第22号和23号位置对鸟嘌呤G具有压倒
性的偏好；
2. 第17到20号位置更偏好胞嘧啶C或鸟嘌
呤G，反映了C-G配对具有3个氢键，较A-T
的2个氢键更加稳定；
3. 全部位置均对Dnase具有偏好性，反映
了CRISPR-Cas基因编辑发生于染色质稀疏
区域；
4. RRBS整体表现为非偏好性，且第18号
到21号位置表达出强烈的抗拒性，原因在
于DNA甲基化会使得降低DNA的活性，阻
止向导RNA与目标DNA的配对起始。
6.2 医学影像中的可解释性：研究现状
医学影像分析的可解释性研究更侧重于面向医生、患者和监管人员，在认知负担内解释和使用医学先验知识。
6.2.2 可解释胸片诊断
CXR因其具有辐射低、成像快、成本低、普及度广的优点，成为肺部疾病筛查最常用的方法，但是与些同时，
临床医师要面临着大量CXR阅片工作。
6.2.2 可解释胸片诊断
通过神经网络实现对CXR的成分分解和骨成分抑制，为医师提高更清晰的肺内部结构，以供医师进行临床诊
断，不仅可以提高网络疾病分类的准确率，还可以为医师提供骨抑制后的CXR作为临床诊断依据，在一定程
度上提高了CXR的疾病分类的可解释性。
6.2.2 可解释胸片诊断：融入解剖结构的骨抑制可解释性胸片诊断[1]
融入三维解剖学空间信息，实现CXR的分解。
[1] Han Li et al. “High-Resolution Chest X-Ray Bone Suppression Using Unpaired CT Structural Priors” in IEEE TMI
6.2.3 具有自适应性的通用模型学习
不同器官的位置、组织结构特点以及疾病诊断需求的差异，实际场景中获取的医疗影像数据在模态、尺度与
维度等方面都存在较大差异。自适应能力是针对差异性而设计的，所以模型中的自适应性是一种具有可解释
性的表达。
共性特征表达W0用于共享知识和共享计算；差异特征表达Wt用于捕获个性任的差异性。
6.2.3 具有自适应性的通用模型学习：混合专家和适配器
在面对来自不同任务的训练数据时，通用模型在训练过程中，不仅要把握不同子分布数据的特点，亦需从分
布差异中揭示数据之间的关联。
模型需要在了解数据间差异与相似的基础上，利用这些知识促进自身学习，以期更好的性能表现
6.2.3 具有自适应性的通用模型学习：通用特征点检测网络[1]
单个通用网络能同时从头部、手和胸部三个部位的X光影像中检测不同的特征点。
[1] Heqin Zhu, et al. “You only Learn Once: Universal Anatomical Landmark Detection” in MICCAI 2021

第6章《可解释人工智能导论》，电子工业出版社

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

第6章《可解释人工智能导论》，电子工业出版社

Uploaded by

Copyright:

Available Formats

第6章

You might also like