蛋白质分类主要是根据蛋白质序列(一个字符串)对蛋白质进行分类,比如属于哪种结构、是否属于酶、是否会结合DNA等等。用的是机器学习中的分类算法,结合一些序列特征提取技巧。这个工作可以为机器学习研究提供一个原始的训练,有助于理解机器学习分类的整个流程;同时这个工作和自然语言理解中的文档分类也极其相似,很多相关技术都可以相互借鉴。

我写的一个流程文档可供参考

 

我的工作基础(仅列举了SCI3区以上的论文):

1.       利用不平衡分类策略解决DNA-binding的蛋白的识别,这是一个本科毕业设计,这个学生后来保了。

Li Song, Dapeng Li, Xiangxiang Zeng, Yunfeng Wu, Li Guo*, Quan Zou*. nDNA-prot: Identification of DNA-binding Proteins Based on Unbalanced Classification. BMC Bioinformatics. 2014, 15:298. (Web Server)(SCI, IF2013=2.672)

 

2.       利用集成分类和层次分类的方法预测蛋白质的折叠模式,这个工作主要是一个本科生利用大三的暑假完成的,这个学生后来去了美国的东北大学读研。

Chen Lin*, Ying Zou, Ji Qin, Xiangrong Liu, Yi Jiang, Caihuan Ke, Quan Zou*. Hierarchical Classification of Protein Folds Using a Novel Ensemble Classifier. PLoS One. 2013, 8(2):e56499. (Web Server)(SCI, IF2010=4.411)

 

3.       利用SVMRF识别多功能酶,这个工作的第一作者是生物系的研究生,该同学也因为这篇论文获得了国家奖学金。

Xian-Ying Cheng, Wei-Juan Huang, Shi-Chang Hu, Hai-Lei Zhang, Hao Wang, Jing-Xian Zhang, Hong-Huang Lin, Yu-Zong Chen, Quan Zou*, Zhi-Liang Ji*. A global characterization and identification of multifunctional enzymes. PLoS One. 2012,7(6):e38979.(Web Server) (SCI, IF2010=4.411)

 

4.       利用集成分类方法识别膜蛋白和预测膜蛋白的种类,这个工作是一个硕士生花了2个月完成的,该同学也因为该论文获得了国家奖学金。另外,本论文是该期刊他引次数最多的论文。

Quan Zou, Xubin Li, Yi Jiang, Yuming Zhao, Guohua Wang. BinMemPredict: a Web server and software for predicting membrane protein types. Current Proteomics. 2013, 10(1): 2-9 (Web Server) (SCI, IF2011=3.179)Most cited article of the journal

 

5.       利用集成分类方法识别细胞因子,这是一个硕士生的工作。该同学是外专业调剂的,读研的时候不会编程序,也因为这篇论文获得了国家奖学金,毕业论文得了优秀。

Quan Zou, Zhen Wang, Xinjun Guan, Bin Liu, Yunfeng Wu, Ziyu Lin. An Approach for Identifying Cytokines Based On a Novel Ensemble Classifier. BioMed Research International. 2013, 2013:686090 (Web Server) (SCI, IF2011=2.436)