原始样本集获取
(1)正例样本获取:UniProt蛋白质序列数据库,该数据库中的蛋白序列冗余性低、蛋白质功能解释完备,并且该网站是自由开放的,研究者可免费下载所需的蛋白质序列。本研究中所使用的原始正例样本(共15765条数据),即噬菌体病毒蛋白条数,就在该数据库中下载得到。
(2)反例样本获取:(原理)获取噬菌体病毒蛋白(正例)样本集后,在所有PFAM家族中将正例所在的PFAM家族排除,剩余的即为非噬菌体病毒蛋白所在家族,最后抽取剩余各个家族中最长的一条蛋白序列组成反例样本集。
点击here下载
去冗余(CD-Hit)后的样本
CD-hit去冗余,就是相似序列的聚类。 基本原理就是将数据集中的蛋白序列按降序排列,将最长的序列作为第一类,然后将第二长的蛋白序列与其进行相似性对比, 如若二者相似度大于所设置的中断阈值,则将此二者划为一类。否则,第二长的即形成新的类。
(1)正例(中断阈值设置为0.8)
(2)反例(中断阈值设置为0.4)
点击here下载
提取的特征文件
(1)188维
点击here下载
(2)400维
点击here下载
© Xiaoqing Ru-2018