公众平台如何做网站/厦门seo
发表年份:2017
论文地址:下载论文
1、项目背景
对特定主要组织相容性复合体(MHC)结合的候选肽进行计算机扫描,可以加快基于肽的疫苗开发。近些年基于机器学习的方法通过训练大量的实验数据取得成功,但是这些机器学习方法无法识别局部聚类相互作用(这种相互作用可以协同稳定肽的结合)。基于DCNN的方法可以从二维图中捕捉局部信息,肽-MHC相互作用如果被编码到图像阵列(ILA)数据中,DCNN就可以建立预测肽-MHC结合的预测模型。
算法流程图
2、数据集详情(来源、组成等)
训练数据集:BD2009和BD2013数据和Binder数据;数据集下载地址:下载数据集。
采用HLA-A和HLA-B的非肽结合数据生成泛特异性预测模型。对于肽结合亲和力的二元分类,将IC50(半最大抑制浓度)小于500nM的肽设置为结合物。
训练数据集包括118174个结合数据,包括74个等位基因:37个HLA-A(72551)和39个HLA-B(45623)。
3、特征工程处理方式
将肽结合数据编码成ILA数据,ILA数据的W和H分别表示HLA分子的接触残基数和肽的氨基酸数。其中肽和MHC分子之间的接触点对应于ILA中的一个“像素”,对于每个像素,将其接触位点氨基酸对的物理化学性质赋给其通道(C)。其中肽的氨基酸数采用11个理化分值中的9个作为氨基酸的理化性质值,排除了2个高度相关性的分值。通道C大小为18,表示氨基酸对在接触部位的物理化学分数之和。采用NetMHCPan中提出的34个HLA-I接触残基,因此最终的ILA数据格式为:W×H×C=34×9×18。
4、模型架构的设计
采用simonyan和zisserma提出的DCNN体系架构,如下图所示。
由3个卷积块(每个包含2个卷积层)和3个全连接层组成,并且卷积层都采用3×3的滤波器,这样可以捕捉更小的细节信息,滤波器的数量依次为32、64、128。在训练过程中为了避免过拟合,采用dropout,并且采用ReLU激活函数进行数据的非线性变换。
训练过程:采用留一法(leave-one-out)和5倍交叉验证进行DCNN训练。在留一法中,ILA数据被分成76个等位基因亚群,而5倍交叉验证中,ILA数据被分为5个等位基因亚群。每一轮交叉验证,保留一个子集作为测试DCNN的验证集,其余作为训练数据。交叉验证会出现重复的子集,留一法交叉验证76次,5倍交叉验证5次。当连续15次训练和验证的损失没有改变就停止训练。训练过程采用Keras实现。
采用从IEDB网站下载的预测工具进行基准测试。(这个工具与DCNN采用的训练数据相同)。
5、模型的评估指标
采用F1分数,即精度和召回率的调和平均值,被用于量化预测性能。当F1分数为1时达到最佳值,为0时表现最差。
6、识别由DCNN识别的信息性像素
采用高分辨率DeepLIFT方法寻找信息像素。
7、总结
DCNN在HLA-A3等位基因的肽结合预测方面更加可靠,有助于识别分子结合结构中的局部聚焦模式。但是深度学习任务需要大量的训练数据,利用DCNN构建可靠的预测模型并不容易。当训练数据有限时,可采用生成对抗网络和迁移学习技术生成更加可靠的绑定预测模型。