数据

原始样本集获取

(1)正例样本获取：UniProt蛋白质序列数据库,该数据库中的蛋白序列冗余性低、蛋白质功能解释完备，并且该网站是自由开放的，研究者可免费下载所需的蛋白质序列。本研究中所使用的原始正例样本（共15765条数据），即噬菌体病毒蛋白条数，就在该数据库中下载得到。

(2)反例样本获取:(原理)获取噬菌体病毒蛋白（正例）样本集后，在所有PFAM家族中将正例所在的PFAM家族排除，剩余的即为非噬菌体病毒蛋白所在家族，最后抽取剩余各个家族中最长的一条蛋白序列组成反例样本集。

去冗余（CD-Hit）后的样本

CD-hit去冗余，就是相似序列的聚类。基本原理就是将数据集中的蛋白序列按降序排列，将最长的序列作为第一类，然后将第二长的蛋白序列与其进行相似性对比，如若二者相似度大于所设置的中断阈值，则将此二者划为一类。否则，第二长的即形成新的类。

(1)正例（中断阈值设置为0.8）

(2)反例（中断阈值设置为0.4）