20230417 -- 处理 多个VHH sanger测序序列

# 20230417
# 序列来源 生工测序:sanger序列
# 目的:整理成fasta,并且将上下游序列拼接组成contigs,然后igblast
# 有些.seq文件没有配对文件,有些.seq文件是多行输出结果,有些是单行输出结果
# 信号肽:
# ig恒定区:

mkdir {HC,LC}
unzip -d HC hight_chain.zip
unzip -d LC light_chain.zip

cd HC
# 给文件改名字
# '0106_31523041301574_(9H-5)_[pTT5-sR].ab1' ==> 0106.ab1
ls |grep "seq-F.*seq$" |while read id ;do mv $id $(cut -d "_" -f1).fa;done
ls |grep "sR.*seq$" |while read id ;do mv $id $(echo $id | cut -d "_" -f1)_sR.fa;done

# 把多行文件变成一行文件,然后加入 注释行 >*** 使之成为标准fasta文件
ls |grep "fa$" |while read id ;do echo ">$id" >>$id.view.fa; cat $id|xargs |sed 's/ //g' >>$id.view.fa;done

# 上游测序文件是一个fasta文件 + 下游测序文件是一个fasta文件,合并成一个文件让cap3 进行组装
# cap3 让文件最后一个序列成为起始reads,所以我们需要将上游测序序列放在合并文件最后
ls |grep "view.fa$"|grep -v "sR.fa.view.fa" > list1.txt
ls |grep "view.fa$"|grep "sR.fa.view.fa" > list2.txt
paste list1.txt list2.txt > list.txt

cat list.txt |while read id ;do arr=($id);cat ${arr[1]} >>${arr[0]}.fa;cat ${arr[0]} >>${arr[0]}.fa ;done

# 对应的上下游测序文件已经合并,开始组装
ls |grep "fa.fa$" |while read id ;do cap3 $id ;done

# 产生的cap.contigs即为组装好的文件,其中一些没有组装成功的文件需要剔除
ls |grep "cap.contigs$"  |wc
ls -s |grep "cap.contigs$"  > test.txt
cat test.txt |grep "1 " > final.file.txt
cat final.file.txt |while read id ;do echo $id | cut -d " " -f2  ;done > test.txt
cat test.txt  |while read id ;do echo ">$id" >>final.fa; cat $id |xargs |sed 's/ //g' >> final.fa ;done
sed  -i 's/>Contig1//g' final.fa

# 上面就把所以cap.contigs文件合并了,然后根据信号肽和恒定区序列 进行序列的修剪
cat final.fa  |sed  "s/.*ATGGAAACCGACACCCTGCTTTTGTGGGTGCTGCTCCTCTGGGTACCTGGTTCAACAGGA/ATGGAAACCGACACCCTGCTTTTGTGGGTGCTGCTCCTCTGGGTACCTGGTTCAACAGGA/g" \
|sed "s/GCCAAGACTACTCCACCAAGTGTGTATCCACTAGCTCCAGGCTCTGCCGCCCAGACCAACTCCATGGTGACCCTGGGCTGTCTGGTG.*//g" >> final_blast.fa

# 比对,只能在igblast的本文文件夹处运行
./bin/igblastn -germline_db_V ./database/mouse_v_igblast.fasta  -germline_db_D \
./database/mouse_d_igblast.fasta -germline_db_J ./database/mouse_j_igblast.fasta  \
-query /public/home/djs/huiyu/JL/20230417-JL/HC/final_blast.fa  -organism mouse  -auxiliary_data ./optional_file/mouse_gl.aux \
-show_translation -extend_align5end -extend_align3end -outfmt 19  >> /public/home/djs/huiyu/JL/20230417-JL/HC/refer_to_mouse.txt

./bin/igblastn -germline_db_V ./database/mouse_v_igblast.fasta  -germline_db_D \
./database/mouse_d_igblast.fasta -germline_db_J ./database/mouse_j_igblast.fasta  \
-query /public/home/djs/huiyu/JL/20230417-JL/LC/LC_F_all_cut.fa  -organism mouse  -auxiliary_data ./optional_file/mouse_gl.aux \
-show_translation -extend_align5end -extend_align3end -outfmt 19  >> /public/home/djs/huiyu/JL/20230417-JL/LC/refer_to_mouse.txt

你可能感兴趣的:(bioinfo,VHH,NGS,linux,NGS)