原始样本集获取
(1)正例样本获取:UniProt蛋白质序列数据库,该数据库中的蛋白序列冗余性低、蛋白质功能解释完备,并且该网站是自由开放的,研究者可免费下载所需的蛋白质序列。本研究中所使用的原始正例样本(共15765条数据),即噬菌体病毒蛋白条数,就在该数据库中下载得到。
(2)反例样本获取:(原理)获取噬菌体病毒蛋白(正例)样本集后,在所有PFAM家族中将正例所在的PFAM家族排除,剩余的即为非噬菌体病毒蛋白所在家族,最后抽取剩余各个家族中最长的一条蛋白序列组成反例样本集。
点击here下载