基因课 python 学习笔记-1

5、 Python 程序的运行

conda install python=3.3.0
名词: 自然语言,解释器
chmod u+x python.py 赋予可执行权限
#!/usr/bin/pyhon  表示系统默认bin下的python
#!/usr/bin/env python 表示从自己的环境变量中调取python来运行,就不要指定解释器就可以运行
python python.py  会覆盖脚本里面指定的解释器(python)
基因课 python 学习笔记-1_第1张图片
任务5-env.png

6、 下载课程资料

方法一:使用 git 下载
在命令行输入下列命令,即可下载
git clone https://coding.net/u/zhangxudong/p/GenekTV_Python/git
方法二:直接下载
浏览器打开:https://coding.net/u/zhangxudong/p/GenekTV_Python/git

任务7-1:简化问题:已知每条染色体长度,求总长

#!/usr/bin/env python ## 指定解释器
# python语句结尾不需要分号结束
# 分析思路

# 1、读取 fasta 
# 2、解析每条序列的长度
chr1_len = 10
chr2_len = 20
chr3_len = 30
chr4_len = 40
chr5_len = 50
# 3、求和
total_len = 10 + 20 + 30 + 40 + 50 
# 4、输出结果 
print(total_len)
基因课 python 学习笔记-1_第2张图片
任务7.png

任务8-1:向前一步:通过染色体序列获得长度信息

# python2 默认是ASCII码格式,不支持中文
#coding:utf-8  # python2需添加,python3不需要
# 怎么得到染色体长度呢 ?
chr1_seq = 'ATATATATAT'
len(chr1_seq) # 即可得到序列长度
基因课 python 学习笔记-1_第3张图片
任务8.png

任务9-1:有个问题:如果有 100 条染色体难道要定义 100 个变量 ??

# 列表
chr_len = [10, 20 ,30, 40, 50]
chr_len[2]  # 从0开始,所以为30
# total_len = chr_len[0] + chr_len[1]... #  太麻烦
## 循环完成
total_len= 0  # 首先定义total_len这个变量
for len in chr_len:
    total_len = total_len + len #缩进四个空格
    # 或者 total_Len += len
## 最简单是调用函数
sum(chr_len)
基因课 python 学习笔记-1_第4张图片
任务9.png

任务10:加个需求:最长染色体是哪条(上)

# 最长染色体的长度
max_len = max(chr_len)
# 求最长染色体的编号(采用哈希/映射/字典)python里面是字典
chr_len = {'chr1:10', 'chr2:20',  'chr3:30', 'chr4:40', 'chr5:50'} ## 键值是不能重复的即chr1等
# 提取元素的键
chr_len.keys()
# 提取元素值
chr_len.calues()
# 循环
for chr in chr_len.keys():
    print(chr)
# 获取元素的键值对
chr_len.items()
# 循环
for [chr,len] in chr_len.items():  ## 循环遍历
    print(chr)
    print(len)
基因课 python 学习笔记-1_第5张图片
任务10.png

任务11-1:加个需求:最长染色体是哪条(下)

# 找出哪条染色体最长
max_chr = ''  ## 创建一个用来储存最长染色体的变量
max_len = 0
for [chr,length] in chr_len.items():
    if  length > max.len:
         print("current chr > max_chr")
         max_chr = chr
        max_len = length
    elif length == max_len:   # 一个 = 是赋值,两个 = 是大小的比较
         print("current chr == max_chr")
    else:
          print("current chr < max_chr") 

基因课 python 学习笔记-1_第6张图片
任务11.png

任务12-1:外部输入:从命令行输入染色体长度

import sys
print(sys.argv) # 结果为一个list

# 方法一,删除第0个元素
del(sys.argv[0])
print(sys.argv)

# 方法二,提取参数,赋值另一个list
end = len(sys.argv) # list长度
print(sys.argv[1,end])
基因课 python 学习笔记-1_第7张图片
任务12.png

任务13-1:外部输入:读取含有染色体长度的文件

import sys
# 从命令行获得文件名称
f_chr_len = sys.argv[1]  ## 文件的名称

# 打开文件
f  = open(f_chr_len.txt)  ## f的变量类型,可以比作为一根吸牛奶的吸管

#逐行读取文件
lines = f.readlines()  ## lines为一个列表
for line in lines:  ## 每提取一行,解析染色体的名称和长度
    line = line.strip()  ##去除字符串首尾空格符,不支持原位改变,需赋值
    chr_len  = line.split('\t')  ## 指定的字符 \t 分割字符串,返回一个数组
    total_len += int(chr_len[1])  # int函数将字符串转变为整型

#打印输出
print(total_len)  

额外学习 在vim编辑器里面输入 set nu 可显示行号


基因课 python 学习笔记-1_第8张图片
任务13.png

任务14-1:外部输入:读取 fasta 文件

#!/usr/bin/env python
import sys

# 从命令行获得文件名称
f_fasta = sys.argv[1]

# 打开文件
f = open(f_fasta)

# 逐行读取
total_len = 0

lines = f.readlines()
for line in lines:
    ## 去除末尾换行符
    line = line.strip()
    if(not line.startswith(">")):
         total_len += len(line)

# 打印输出
print(total_len)

任务15:生物信息编程的套路

基因课 python 学习笔记-1_第9张图片
任务15.png

今天最大的收获就是学会了argv这个好东西,然后我就可以happy的在R里面去依葫芦画瓢咯~

你可能感兴趣的:(基因课 python 学习笔记-1)