查看: 2431|回复: 0

[求助] 基于中文分词技术的蛋白质序列分析

[复制链接]
论坛徽章:
0
发表于 2015-6-21 21:28 | 显示全部楼层 |阅读模式
最近在做毕业论文,题目是蛋白质序列分类。最近看了一篇论文,讲到了用分词技术处理蛋白质序列。首先使用k-gram(k<4)找出序列中最常出现的氨基酸组合建立词典,然后使用词典对序列进行分词处理,统计出分词后不同词出现的频率组成一个向量作为序列的特征向量,然后对这些向量使用传统的机器学习算法(例如SVM,NN等等)进行分类。现在我想使用R语言实现第一步词典的建立,但是在编程方面遇到了困难。不知道R语言是否适合做这方面的处理。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-7-19 14:01 , Processed in 0.210497 second(s), 27 queries .