查看: 2709|回复: 1

基因进化速率的R脚本

[复制链接]
论坛徽章:
2
R研习者中级
日期:2012-04-29 00:26:34Oracle研习者初级
日期:2012-10-11 01:39:11
发表于 2012-3-19 22:21 | 显示全部楼层 |阅读模式
本帖最后由 寇强 于 2012-3-19 22:21 编辑

其实这个是去年公选课的作业,还是贴出来吧。实验室正在做的是一个SNP calling的模型,但不方便说,原因大家都懂的http://dl.dbank.com/c0v7pgk36j
附件里有两个文件:
第一个文件(human_chim_monkey_slim.fas),是从Human Genome中随机选取的大约2000个基因的CDS(coding region)在三个物种Human,chimpanzee和Monkey中的同源序列的alignment。注意:在这一文件中,一个基因的CDS按照exon被分成了几份,每一份都有这个exon在不同物种间的序列的alignment。而序列的文件名含义如下:

>NM_203342_hg19_1_17 54 0 0 chr1:29320001-29320054+

其中”NM_203342”是Reference ID,代表基因的名字。
hg19则代表了物种,hg19是human,指这一序列是human的CDS
1代表了17个exon中的第一个。
后面的chr1:29….等信息表明的是这一段序列在基因组上的坐标。

第二个文件R_script_for_kaks.R是如何利用这一文件计算物种间synonymous (ks) 和non-synonymous(ka) substitution distance(核酸取代距离)的R script,最后的结果保存在kaks_result.txt里面。


ka和ks的比值直接反映了基因的进化速度
下面列举了进化速度最快的15个基因
NM_000798        D5 subtype of the dopamine receptor
NM_002341        TNF superfamily, member 3
NM_152308        chromosome 16 open reading frame 75
NM_015326        SLIT-ROBO Rho GTPase activating protein 2
NM_000190        hydroxymethylbilane synthase
NM_001005487        olfactory receptor, family 13, subfamily G, member
NM_016120        ring finger protein, LIM domain interacting
NM_001031809        membrane-spanning 4-domains, subfamily A, member 3
NM_001900        cystatin D
NM_173644        chromosome 20 open reading frame 197
NM_001012456        Sec61 gamma subunit
NM_002099        glycophorin A (MNS blood group)
NM_001006655        family with sequence similarity 149, member A
NM_207352        cytochrome P450, family 4, subfamily V, polypeptide 2
NM_198492        C-type lectin domain family 4, member G
这里只是简单列举了一下,其实还可以根据物种、性别、表达量等等进行分析,备考GRE,有时间再说吧


回复

使用道具 举报

论坛徽章:
0
发表于 2017-6-14 23:17 | 显示全部楼层
链接失效了,可以重新上传吗
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-9-26 23:24 , Processed in 0.096901 second(s), 30 queries .