第四章,1:DNA操作Biostrings和BSgenome.Hsapiens.UCSC.hg19

参考:Biostrings常量与序列容器http://blog.csdn.net/u014801157/article/details/24372449
Biostrings和BSgenome的使用体会_更新 http://blog.sina.com.cn/s/blog_61f013b80100vqyf.html

  • 基本操作:互补、反向、反向互补、翻译、转录和逆转录
DNAString生成DNA对象,dna2rna()转换为RNA,transcribe()将dna转录成rna,rna2dna()rna转换成DNA, cDNA()对rna逆转录得到cDNA, codones查看rna三联子密码, complement()dna的互补链,reverseComplement()dna的反向互补链,reverse()dna的反向序列。
指定文件目录:filepath<-system.file("extdata","someORF.fa",package = "Biostrings")
  • 统计人类基因组数据中的碱基频率
chr22NON<-mask(Hsapiens$chr22,"N")
第四章,1:DNA操作Biostrings和BSgenome.Hsapiens.UCSC.hg19_第1张图片
Paste_Image.png
  • 统计2号染色体数据中的碱基频率
alphabetFrequency(Hsapiens$chr22,baseOnly=TRUE)
Paste_Image.png
  • 生成连续模板
    my_pattern<-"TATAAAA"

  • 在chr22NON里匹配模板
    mT=matchPattern(my_pattern,chr22NON)
    head(mT)


    第四章,1:DNA操作Biostrings和BSgenome.Hsapiens.UCSC.hg19_第2张图片
    Paste_Image.png
  • 查看匹配的数量
    countPattern(my_pattern,chr22NON)

Paste_Image.png
  • 允许一个错配
    mmT=matchPattern(my_pattern,chr22NON,max.mismatch = 1)
    length(mmT)

  • 观察前五个匹配所在的weizhi
    mismatch(my_pattern,mmT[1:5])

第四章,1:DNA操作Biostrings和BSgenome.Hsapiens.UCSC.hg19_第3张图片
Paste_Image.png
  • 左侧将要匹配的序列
    Lpattern<-"CTCCGAG"
    Rpattern<-"GTTCACA"
  • 左右模板同时匹配,中间长度不超过500bp
    LRsegment<-matchLRPatterns(Lpattern,Rpattern,500,Hsapiens$chr22)
    LRsegment[1:10]
第四章,1:DNA操作Biostrings和BSgenome.Hsapiens.UCSC.hg19_第4张图片
Paste_Image.png
  • 例4-4:模板匹配
  • 提取所有探针序列, hgu133a2probe是自带的芯片数据

格式为:
A data frame with 247899 rows and 6 columns, as follows.

sequence character probe sequence
x integer x-coordinate on the array
y integer y-coordinate on the array
Probe.Set.Name character Affymetrix Probe Set Name
Probe.Interrogation.Position integer Probe Interrogation Position
Target.Strandedness factor Target Strandedness
dict<-hgu133a2probe$sequence #将探针序列取出
length(dict) #所有探针数量
[1] 247899
unique(nchar(dict)) #几种探针长度
[1] 25
 dict[1:3] #查看前三个
[1] "CACCCAGCTGGTCCTGTGGATGGGA" "GCCCCACTGGACAACACTGATTCCT"
[3] "TGGACCCCACTGGCTGAGAATCTGG"

你可能感兴趣的:(第四章,1:DNA操作Biostrings和BSgenome.Hsapiens.UCSC.hg19)