出差时写的一个抓取baidu图片的东东

阅读更多
使用了多线程但没有处理同步。
正则表达式是用kodos弄出来的,这个工具使用起来比较顺手。
#!/usr/bin/env python
#coding=cp936

import re
import urllib
import thread
import time

#url_part1 = '''http://images.google.cn/images?q='''
#url_part2 = '''&svnum=10&hl=zh-CN&lr=&newwindow=1&start='''
#url_part3 = '''&sa=N'''
url_part1 = '''http://image.baidu.com/i?z=0&cl=2&ct=201326592&sn=&lm=-1&cm=1&sc=0&bu=&rn=16&tn=baiduimage&word='''
url_part2 = '''&pn='''


def nextpage(keywords,start):
    return url_part1 + urllib.quote(keywords) + url_part2 + str(start)

#compile_obj = re.compile(r'dyn.Img\("http://(.)+","","","')
compile_obj = re.compile(r'

你可能感兴趣的:(正则表达式,Python,thread,多线程,Google)