欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
编者按
trf可以用于串联重复序列的查找,因为这是基因组上的显著特征,因此查找起来并不难,这个串联重复序列也就是所谓的拷贝数变异CNV。那么为何不能用trf来找CNV呢,其实是完全可以的,现在没法这么用,是因为无法得到全基因组序列。
一、功能分类:
串联重复序列预测
二、软件官网:
http://tandem.bu.edu/trf/trf.html
三、软件介绍:
Trf是(Tandem Repeat Finder)的简称,用来搜寻DNA 序列中的串联重复序列(即相临的重复两次或多次特定核酸序列模式的重复序列)。重复单元可以从1bp 到500bp,DNA 查询序列大小可以超过5M。
四、下载安装:
wgethttp://tandem.bu.edu/trf/downloads/trf409.linux64
mv trf409.linux64 trf
五、软件使用:
trf File Match Mismatch Delta PM PI Minscore MaxPeriod
软件首先输入要预测串联重复序列的基因组文件,后面跟几组必须的值。
首先接file,
File: FASTA 格式的DNA 输入序列.
Match:匹配上
Mismatch:没匹配上
Delta: 插入的权重值。低的权重值将允许更多的“没匹配上”、“插入”的情况。匹配上的权重值“2”已被证明对“没匹配上”、“插
入”的罚分权重值在3-7 范围内都是有效的。“没匹配上”、“插入”的罚分权重值将被 自动解释为负值。“3”就比较宽松,“7”就比较严格。
对Match, Mismatch, Delta 的推 荐缺省值分别为2, 7, 7。
PM 是指比上的概率,可选择的PM 数值为80 和75,
PI 是插入的概率:可选择的PI 数值为10 和20。最好效果的参数是PM=80 和PI=10。参数PM=75 和PI=20 给出的结果与 “PM=80 和PI=10”的结果相似,但运行时间几乎慢了10 倍。
Minscore: 被匹配上的串联重复序列的最小分值。比如,我们设定了Match=2,Minscore=50, 那么就要求最少有25bp 被完全比上(比如,5bp 的重复单元,重复5 次)。
Maxperiod: 最大的重复单元bp 数。
下面是一些可选的选项
-m: 该参数将产生一个将串联重复序列屏蔽为N 的序列文件。
-f: 该参数将输出每一串联重复序列两侧200bp 的侧翼序列,输出到比对文件中。
-d: 该参数将产生一个屏蔽文件,记录了与列表文件一样的信息,及比对信息,可用于后续程 序的处理。
六、使用案例:
trfseq.fa2 7 7 80 10 50 500-f-d-m
七、结果说明:
最终会生成.mask .dat .html格式结尾的结果文件,
*.dat “-d”参数产生的屏蔽的串联重复序列信息文件
*.mask“-m” 参数产生的串联重复序列被屏蔽为N 的序列文件
*.html 记录串联重复序列信息的文件
*.txt.html 记录相关串联重复序列比对信息的文件