You are on page 1of 14

第6章

生物医疗应用中的
可解释人工智能
本章内容

基因编辑系统优化设计中的可解释人工智能

生物医疗应用中的
可解释人工智能

医学影像中的可解释性
第6章 生物医疗应用中的可解释人工智能
6.1.1 基因编辑系统背景介绍
基因编辑(gene editing)或基因组编辑(genome editing),是指一种能够在活体基因组中进行DNA插入、
删除或修饰的生物工程技术[2]。而CRISPR-Cas基因编辑系统是最新的基因编辑技术。
CRISPR-Cas系统来源于细菌的适应性免疫系统,其生物学作用是对目标DNA或RNA进行切割破坏以保护细菌,
其构成是CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)序列和Cas蛋白,前者识别
目标DNA,后者切割破坏目标。

1. Cas蛋白,图中的红色部分;
2. 目标DNA,图中的蓝色部分;
3. 向导RNA,图中的黄色部分。由2个部分组成,其一
为左侧和目标DNA配对结合的部分,长度20bp,作用为
识别并结合目标DNA;其二为前者右侧的序列,这部分
序列其结构支撑作用;
4. PAM(protospacer adjacent motif)序列,又称
前间区序列邻近基序,图中的橙色部分,长度为3bp,
位于目标DNA上紧邻着向导RNA与目标DNA的结合部。
第6章 生物医疗应用中的可解释人工智能
6.1.2 基因编辑系统优化设计可解释AI模型构建
尽管CRISPR-Cas基因编辑系统是一种强大的生物工程工具,它效率和准确性仍然被多种因素所制约,而在这其
中向导RNA处于关键性的地位。向导RNA与目标DNA的结合是基因编辑中最为重要的一步,它的效率直接影响
整体基因编辑效率。而向导RNA与非目标DNA的结合将导致基因编辑发生在错误的位置,又称脱靶效应(off-
target effect),直接降低系统的准确性。
目前的优化思路就在于预测目标区域中潜在的向导RNA序列的效率及其在非目标区域的脱靶概率,然后从其中挑
选效率高且脱靶概率低的向导RNA作为实际操作对象进行基因编辑。下面以DeepCRISPR模型举例。

DeepCRISPR模型预测任务:

1. 给定向导RNA,预测其在目标区域的效率,可以是分类任务(效率高、中或低),也可以是回归任务(发生反

应的向导RNA数量占该向导RNA总数量的比例);

2. 给定向导RNA,以及非目标区域的DNA序列,预测其在该区域的反应概率,可以是分类任务(发生概率高、

中或低),也可以是回归任务(在该区域发生反应的向导RNA数量占该向导RNA总数量的比例)
第6章 生物医疗应用中的可解释人工智能
DeepCRISPR模型构建:
基于预训练框架(Pre-training & Fine-tuning),利用无标记样本训练的自动编码器作为预训练模型,然后加
入标记样本在预测模型中进行参数调整,从而得到最终模型。
1. 预训练模型架构为基于卷积层的去噪自
动编码器,预训练目标为最小化解码器
(Decoder)输出与编码器(Encoder)
输入之间的差别,输入数据为全基因组中
的所有潜在向导RNA,共6.8亿条;
2. 效率预测模型使用了预训练的编码器参
数,后进行微调得到最终模型;
3. 脱靶频率预测模型的两个输入端均使用
了预训练的编码器参数,后对模型的整体
参数进行微调得到最终模型。
第6章 生物医疗应用中的可解释人工智能

DeepCRISPR模型预测结果的解释: 1. 第22号和23号位置对鸟嘌呤G具有压倒
性的偏好;
2. 第17到20号位置更偏好胞嘧啶C或鸟嘌
呤G,反映了C-G配对具有3个氢键,较A-T
的2个氢键更加稳定;
3. 全部位置均对Dnase具有偏好性,反映
了CRISPR-Cas基因编辑发生于染色质稀疏
区域;
4. RRBS整体表现为非偏好性,且第18号
到21号位置表达出强烈的抗拒性,原因在
于DNA甲基化会使得降低DNA的活性,阻
止向导RNA与目标DNA的配对起始。
第6章 生物医疗应用中的可解释人工智能
6.2 医学影像中的可解释性:研究现状
医学影像分析的可解释性研究更侧重于面向医生、患者和监管人员,在认知负担内解释和使用医学先验知识。
第6章 生物医疗应用中的可解释人工智能
6.2.2 可解释胸片诊断
CXR因其具有辐射低、成像快、成本低、普及度广的优点,成为肺部疾病筛查最常用的方法,但是与些同时,
临床医师要面临着大量CXR阅片工作。
第6章 生物医疗应用中的可解释人工智能
6.2.2 可解释胸片诊断
通过神经网络实现对CXR的成分分解和骨成分抑制,为医师提高更清晰的肺内部结构,以供医师进行临床诊
断,不仅可以提高网络疾病分类的准确率,还可以为医师提供骨抑制后的CXR作为临床诊断依据,在一定程
度上提高了CXR的疾病分类的可解释性。
第6章 生物医疗应用中的可解释人工智能
6.2.2 可解释胸片诊断:融入解剖结构的骨抑制可解释性胸片诊断[1]
融入三维解剖学空间信息,实现CXR的分解。

[1] Han Li et al. “High-Resolution Chest X-Ray Bone Suppression Using Unpaired CT Structural Priors” in IEEE TMI
第6章 生物医疗应用中的可解释人工智能
6.2.3 具有自适应性的通用模型学习
不同器官的位置、组织结构特点以及疾病诊断需求的差异,实际场景中获取的医疗影像数据在模态、尺度与
维度等方面都存在较大差异。自适应能力是针对差异性而设计的,所以模型中的自适应性是一种具有可解释
性的表达。

共性特征表达W0用于共享知识和共享计算;差异特征表达Wt用于捕获个性任的差异性。
第6章 生物医疗应用中的可解释人工智能
6.2.3 具有自适应性的通用模型学习:混合专家和适配器
在面对来自不同任务的训练数据时,通用模型在训练过程中,不仅要把握不同子分布数据的特点,亦需从分
布差异中揭示数据之间的关联。

模型需要在了解数据间差异与相似的基础上,利用这些知识促进自身学习,以期更好的性能表现
第6章 生物医疗应用中的可解释人工智能
6.2.3 具有自适应性的通用模型学习:通用特征点检测网络[1]
单个通用网络能同时从头部、手和胸部三个部位的X光影像中检测不同的特征点。

[1] Heqin Zhu, et al. “You only Learn Once: Universal Anatomical Landmark Detection” in MICCAI 2021

You might also like