代码使用说明: 1号代码: 输入是:从Uniprot数据库中下载的cytokine(正例)序列(fasta格式),文件名为:uniprot-cytokine.fasta,输出是这些cytokines所属的PFAM家族号,文件名为:pfamID.txt。 -------注意!由于某些cytokines是同源的,同属一个家族,拥有相同的家族号,所以输出文件中有重复的PFAM家族号。(例如有多个PF00001); 2号代码: 输入是:上一步所得的有重复的PFAM家族序号,文件名为:pfamID.txt,输出是删除相同的PFAM家族号后,得到的无重复的cytokine家族号,文件名为:un_pfamID.txt; 3号代码: 输入是:无重复的cytokine所属的PFAM家族号和全部蛋白质PFAM家族(fasta格式),其文件名分别为:un_pfamID.txt和PF_all(文件夹),输出是全部蛋白质PFAM家族中cytokine 家族号对应的蛋白序列--------注意!输出文件名仍是PF_all(文件夹),即在全部蛋白质PFAM家族中抽出了与cytokine家族号对应的序列,将输出文件更名为posfamily; 4号代码: 输入是:无重复的cytokine所属的PFAM家族号和全部蛋白质PFAM家族(fasta格式),文件名分别为:un_pfamID.txt和PF_all(文件夹),输出是全部蛋白质PFAM家族中非cytokine 家族号对应的蛋白序列(非细胞因子(反例))---------注意!输出文件名仍是PF_all(文件夹),即在全部蛋白质PFAM家族中删除了与cytokine家族号对应的序列,保留了剩余,将输出文 件更名为negfamily; 5号代码: 输入是:全部正例序列,即posfamily,输出为每个正例家族中最长序列的蛋白质,文件名为:pos.fasta; 6号代码: 输入是:全部反例序列,即negfamily,输出为每个正例家族中最长序列的蛋白质,文件名为:neg.fasta; 7号代码:(此代码使用两次,正反例各一次,) 输入分别是:pos.fasta和neg.fasta,输出是pos.arff和neg.arff,即提取特征之后得到arff文件。----------注意!此代码在运行时要手动输入输入文件路径和输出文件路径, Java configuration---Arguments----Program arguments,在这里输入路径,两个路径之间用空格隔开。