蛋白质分类主要是根据蛋白质序列(一个字符串)对蛋白质进行分类,比如属于哪种结构、是否属于酶、是否会结合DNA等等。用的是机器学习中的分类算法,结合一些序列特征提取技巧。这个工作可以为机器学习研究提供一个原始的训练,有助于理解机器学习分类的整个流程;同时这个工作和自然语言理解中的文档分类也极其相似,很多相关技术都可以相互借鉴。
我写的一个流程文档可供参考
我的工作基础(仅列举了SCI3区以上的论文):
1. 利用不平衡分类策略解决DNA-binding的蛋白的识别,这是一个本科毕业设计,这个学生后来保研了。
Li Song, Dapeng Li, Xiangxiang Zeng, Yunfeng Wu, Li Guo*, Quan Zou*. nDNA-prot: Identification of
DNA-binding Proteins Based on Unbalanced Classification. BMC Bioinformatics.
2014, 15:298. (Web Server)(SCI,
IF2013=2.672)
2. 利用集成分类和层次分类的方法预测蛋白质的折叠模式,这个工作主要是一个本科生利用大三的暑假完成的,这个学生后来去了美国的东北大学读研。
Chen
Lin*, Ying Zou, Ji Qin, Xiangrong Liu, Yi Jiang, Caihuan Ke, Quan Zou*. Hierarchical
Classification of Protein Folds Using a Novel Ensemble Classifier. PLoS One.
2013, 8(2):e56499. (Web Server)(SCI,
IF2010=4.411)
3. 利用SVM和RF识别多功能酶,这个工作的第一作者是生物系的研究生,该同学也因为这篇论文获得了国家奖学金。
Xian-Ying
Cheng, Wei-Juan Huang, Shi-Chang Hu, Hai-Lei Zhang, Hao Wang, Jing-Xian Zhang, Hong-Huang Lin, Yu-Zong Chen, Quan Zou*,
Zhi-Liang Ji*. A global characterization and identification of multifunctional
enzymes. PLoS One.
2012,7(6):e38979.(Web Server) (SCI,
IF2010=4.411)
4.
利用集成分类方法识别膜蛋白和预测膜蛋白的种类,这个工作是一个硕士生花了2个月完成的,该同学也因为该论文获得了国家奖学金。另外,本论文是该期刊他引次数最多的论文。
Quan Zou, Xubin Li, Yi Jiang, Yuming Zhao, Guohua Wang. BinMemPredict: a Web
server and software for predicting membrane protein types. Current Proteomics.
2013, 10(1): 2-9 (Web Server) (SCI,
IF2011=3.179)Most cited article of the journal
5.
利用集成分类方法识别细胞因子,这是一个硕士生的工作。该同学是外专业调剂的,读研的时候不会编程序,也因为这篇论文获得了国家奖学金,毕业论文得了优秀。
Quan Zou, Zhen Wang, Xinjun Guan, Bin Liu, Yunfeng Wu, Ziyu Lin. An Approach for Identifying Cytokines Based On a Novel Ensemble Classifier. BioMed Research International. 2013, 2013:686090 (Web Server) (SCI, IF2011=2.436)