使用python 对网页上的数据进行爬取

f=open('wangye0.txt','r',encoding='utf-8')
k=open('seq0.txt','w')
seq_list=[]
for line in f:
    if  in line:
        seq_list.append(line)
        k.write(line)
print(len(seq_list))
'''f=open('seq.txt','r')
k=open('p450family.txt','w')
ff=open('xx.txt','r')
list=[]
for line in ff:
    list.append(line.replace('\n',''))#把这个从数据库blast反馈回来的文章里的链接找出来 然后自己记录下来
num=0
for line in f:
    k.write(list[num]+'\t\t\t'+'http://p450.riceblast.snu.ac.kr/'+line[115:line.find('">P450')]+'\t\t\t'+line[(line.find('">P450')+7):line.find('')]+'\n')
    num+=1
    #print(line)'''

'''import requests       #导入requests包
f=open('huiji.txt','w',encoding='utf-8')
k=open('p450family.txt','r')
h=open('p450name&url.txt','w')
for line in k:
    url=line.split('\t\t\t')[1]
    #print(url)
    strhtml = requests.get(url).text  #Get方式获取网页数据 这个.text很重要 加了这个就可以以字符的形式进行比对
    #print(strhtml)
    a=strhtml.find(' ')+21#做这些工作前先自己在网页上查找好找到你所需要的东西在哪 
    # 以什么样的形式展现在你面前 了解清楚后 再去查找如何处理。这里是HMTL的文本 而且反馈的信息就在里面以字符的形式展现
    #所以直接使用find()函数 找到这个字符的position 然后直接拆分得到CYPname
    b=a+7
    #print(strhtml[a:b])
    h.write(strhtml[a:b])'''

f=open('p450name&url.txt','r')
k=open('p450family.txt','r')
w=open('final_P450name.txt','w')
a=f.read()
b=[];c=[]
num=0
for i in range(173):
    b.append(a[num:num+7])
    num+=7


for i in b:
    s="".join(filter(str.isalnum, i))#此代码是去掉非数字和字母的代码
    c.append(s)

num=0
for line in k:
    x=line.split('\t\t\t')
    w.write(c[num]+'\t'+x[0]+'\t'+x[2]+'\n')
    num+=1

需要在浏览器里找到相应的字节 然后进行数据清洗和整理。

你可能感兴趣的:(bioinformatics)