python爬虫实战,多线程爬取京东jd html页面：无需登录的网站的爬虫实战

# 本脚本用来爬取jd的页面：http://list.jd.com/list.html?cat=737,794,870到 # ......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片。 # 本脚本仅用于技术交流，请勿用于其他用途 # by River # qq : 179621252 # Date : 2014-12-02 19:00:00

使用了python的以下库 import os#检查文件是否存在等 from HTMLParser import HTMLParser#用于解析html的库，有坑：如果2.6的python，可能悲剧 import httplib,re#发起http请求 import sys,json,datetime,bisect#使用了二分快速查找 from urlparse import urlparse#解析url，分析出url的各部分功能 from threading import Thread#使用多线程 import socket #设置httplib超时时间

# -*- coding: utf-8 -*- __author__ = 'River' # 本脚本用来爬取jd的页面：http://list.jd.com/list.html?cat=737,794,870到 # ......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片。 # 本脚本仅用于技术交流，请勿用于其他用途 # by River # qq : 179621252 # Date : 2014-12-02 19:00:00 import os#创建文件 from HTMLParser import HTMLParser#用于解析html的库，有坑：如果2.6的python，可能悲剧 import httplib,re#发起http请求 import sys,json,datetime,bisect#使用了二分快速查找 from urlparse import urlparse#解析url，分析出url的各部分功能 from threading import Thread#使用多线程 import socket #设置httplib超时时间 #定义一个ListPageParser，用于解析ListPage，如http://list.jd.com/list.html?cat=737,794,870 #htmlparser的使用简介 #定义intt方法：需要使用到得属性 #定义handle_starttag，处理你想分析的tag的具体操作 #定义handle_data，遇到你定义的情况，获取相应标签的data #定义你获取最终返回的各种数据 class ListPageParser(HTMLParser): def __init__(self): self.handledtags=['a'] self.processing=None self.flag='' self.link='' self.setlinks=set()##该list页面中包含的每个商品的url，定义为set，主要是为了使用其特性：去重 self.pageNo=1 self.alldata=[] self.lasturl=""#指的最后一页的url如<a href="http://list.jd.com/list.html?cat=737%2C794%2C798&page=10&JL=6_0_0">10</a> HTMLParser.__init__(self) def handle_starttag(self, tag, attrs): pattern = re.compile(r'^[0-9]{2,}') pattern2=re.compile(r'^http:\/\/item.jd.com\/\d{1,10}.html$')#取出link pattern3=re.compile(r'^http:\/\/list.jd.com\/list.html\?cat=\d{0,9}%2C\d{0,9}%2C\d{0,9}&page=*')#取出link #attrs是属性的list，每个属性（包含key，value）又是一个元组 #<a target="_blank" href="http://item.jd.com/1258277.html" onclick="log("search","list",window.location.href,798,5,1258277,2,1,1,2,A)">创维酷开(coocaa) K50J 50英寸八核智能wifi网络安卓平板液晶电视(黑色)</a> #已上为例子：判断了该list的长度为3（其他的a标签就被过滤了） if tag in self.handledtags and len(attrs)==3 :#非常关键的是，找出你想的url和不想要的url的区别 #print "debug:attrs",attrs self.flag='' self.data='' self.processing=tag for target,href in attrs:#非常关键的是，找出你想的url和不想要的url的区别 if pattern2.match(href):#再加一层判断，如果匹配上pattern2，说明是我们想要的url self.setlinks.add(href) else: pass #怎样获取list中最后一页的url？分析吧：<a href="http://list.jd.com/list.html?cat=737%2C794%2C798&page=10&JL=6_0_0">10</a> #1、长度为1 #2，href是由规则的：cat=737%2C794%2C798&page=10&JL=6_0_0，所以，以下代码就出来了 if tag in self.handledtags and len(attrs)==1 : self.flag='' self.data='' self.processing=tag for href,url in attrs:#非常关键的是，找出你想的url和不想要的url的区别 #print 'debug:attrs',attrs if pattern3.match(url): #print 'debug:url',url self.lasturl=url else: pass def handle_data(self, data): if self.processing:#去掉空格 pass#其实这里我们根本没使用获取到得data，就pass把 else: pass def handle_endtag(self, tag): if tag==self.processing: self.processing=None def getlinks(self): return self.setlinks def getlasturl(self): return self.lasturl #定义一个FinallPageParser，用于解析最终的html页面，如http://item.jd.com/1258277.html #FinallPageParser的定义过程参考上个parser，关键是怎样分析页面，最终写出代码，并且验证，这里就不详细说了 class FinallPageParser(HTMLParser): def __init__(self): self.handledtags=['div','h1','strong','a','del','div','img','li','span','tbody','tr','th','td','i'] self.processing=None self.title='' self.jdprice='' self.refprice='' self.partimgs_show=set()#展示图片 self.partimgs=set()#详情图片 self.partdetail={}#商品详情，参数等 self.specification=[]#规格参数 self.typeOrsize=set()#尺码和类型 self.div='' self.flag={} self.flag['refprice']='' self.flag['title']='' self.flag['jdprice']='' self.flag['typeOrsize']='' self.flag['partimgs']='' self.flag['partdetail']='' self.flag['specification']='' self.flag['typeOrsize']='' self.link='' self.partslinks={} HTMLParser.__init__(self) def handle_starttag(self, tag, attrs): self.titleflag='' self.flag['refprice']='' self.flag['title']='' self.flag['jdprice']='' self.flag['typeOrsize']='' self.flag['partimgs']='' self.flag['partdetail']='' self.flag['specification']='' self.flag['typeOrsize']='' if tag in self.handledtags: self.data='' self.processing=tag if tag=='div': for key,value in attrs: self.div=value# 取出div的name，判断是否是所需要的图片等元素 if tag=='i': self.flag['typeOrsize']='match' if tag=='a' and len(attrs)==2: tmpflag="" for key,value in attrs: if key=='href' and re.search(r'^http:\/\/item.jd.com\/[0-9]{1,10}.html$',value): tmpflag="first" if key=='title' and value!="": tmpflag=tmpflag+"second" if tmpflag== "firstsecond": self.flag['typeOrsize']='match' if tag=='h1': self.flag['title']='match' if tag=='strong' and len(attrs)==2: for tmpclass,id in attrs: if id=='jd-price': self.flag['jdprice']='match' if tag=='del': self.flag['refprice']='match' if tag=='li': self.flag['partdetail']='match' if tag=='th' or tag=='tr' or tag=='td' :#++++++++############################################879498.html td中有br的只取到第一个,需要把 喜欢为“” self.flag['specification']='match' if tag=='img' : imgtmp_flag='' imgtmp='' for key,value in attrs: if re.search(r'^http://img.*jpg|^http://img.*gif|^http://img.*png',str(value)) and (key=='src' or key=='data-lazyload'): imgtmp=value if key== 'width':############可能还有logo if re.search(r'^\d{1,9}$',value): if int(value)<=160: imgtmp_flag='no' break if self.div=="spec-items" and imgtmp!='': imgtmp=re.compile("/n5/").sub("/n1/",imgtmp) self.partimgs_show.add(imgtmp) elif imgtmp_flag!='no' and imgtmp!='': self.partimgs.add(imgtmp)# def handle_data(self, data): if self.processing: self.data+=data if self.flag['title']=='match':#获取成功 self.title=data if self.flag['jdprice']=='match': self.jdprice=data.strip() if self.flag['typeOrsize']=='match': self.typeOrsize.add(data.strip()) if self.flag['refprice']=='match': self.refprice=data.strip() if self.flag['partdetail']=='match' and re.search(r'：',data):#获取成功 keytmp=data.split("：")[0].strip() valuetmp=data.split("：")[1].strip() self.partdetail[keytmp]=valuetmp if self.flag['specification']=='match' and data.strip() != '' and data.strip()!='主体': self.specification.append(data.strip()) else: pass def handle_endtag(self, tag): if tag==self.processing: self.processing=None def getdata(self): return {'title':self.title,'partimgs_show':self.partimgs_show,'jdprice':self.jdprice,'refprice':self.refprice,'partimgs':self.partimgs,'partdetail':self.partdetail,'specification':self.specification,'typeOrsize':self.typeOrsize} #定义方法httpread，用于发起http的get请求，返回http的获取内容 #这也是代码抽象的结果，如若不抽象这块代码出来，后续你回发现很多重复的写这块代码 def httpread(host,url,headers): httprestmp='' try: conn = httplib.HTTPConnection(host) conn.request('GET',url,None,headers) httpres = conn.getresponse() httprestmp=httpres.read() except Exception,e: conn = httplib.HTTPConnection(host) conn.request('GET',url,None,headers) httpres = conn.getresponse() httprestmp=httpres.read() print e finally: if conn: conn.close() return httprestmp #定义方法sendhttp，调用httpread，获取结果并替换编码（gbk换为utf-8），并保存到文件中（以免下次再去下载页面，这样就节省了时间） # def sendhttp(url,host,savefile): #定义http头部，很多网站对于你不携带User-Agent及Referer等情况，是不允许你爬取。 #具体的http的头部有些啥信息，你可以看chrome，右键审查元素，点击network，点击其中一个链接，查看request header headers = {"Host":host, "Origin":"http://www.jd.com/", "Referer":"http://www.jd.com/", "Content-type": "application/x-www-form-urlencoded; charset=UTF-8", "Accept": "text/html;q=0.9,image/webp,*/*;q=0.8", "User-Agent":"Mozilla/3.0 AppleWebKit/537.36 (KHTML,Gecko) Chrome/3.0.w4.", "Cookie":"__utmz=qwer2434.1403499.1.1.utmcsr=www.jd.com|utmccn=(refrral)|utmcmd=rferral|utmcct=/order/getnfo.action; _pst=xx89; pin=x9; unick=jaa; cshi3.com=D6045EA24A6FB9; _tp=sdyuew8r9e7r9oxr3245%3D%3D; user-key=1754; cn=0; ipLocation=%u7F0C; ipLoc97; areaId=1; mt_ext2%3a%27d; aview=6770.106|68|5479.665|675.735|6767.100|6757.13730|6ee.9ty711|1649.10440; atw=65.15.325.24353.-4|188.3424.-10|22; __j34|72.2234; __jdc=2343423; __jdve|-; __jdu=3434" } httprestmp='' try: httprestmp=httpread(host,url,headers) if httprestmp=='':# httprestmp=httpread(host,url,headers) if httprestmp=='':#重试2次 httprestmp=httpread(host,url,headers) except Exception,e: try: httprestmp=httpread(host,url,headers) if httprestmp=='':# httprestmp=httpread(host,url,headers) if httprestmp=='':#重试2次 httprestmp=httpread(host,url,headers) except Exception,e: print e print e if re.search(r'charset=gb2312',httprestmp):#如果是gb2312得编码，就要转码为utf-8（因为全局都使用了utf-8） httprestmp.replace("charset=gb2312",'charset=utf-8') try: httprestmp=httprestmp.decode('gbk').encode('utf-8')#有可能转码失败，所以要加上try except Exception,e:#如果html编码本来就是utf8或者转换编码出错的时候，就啥都不做，就用原始内容 print e try: with open(savefile, 'w') as file_object: file_object.write(httprestmp) file_object.flush() except Exception,e: print e return httprestmp #list的页面的解析方法 def parseListpageurl(listpageurl): urlobj=urlparse(listpageurl) if urlobj.query: geturl=urlobj.path+"?"+urlobj.query else: geturl=urlobj.path htmlfile="html/list"+geturl if not os.path.exists(htmlfile): httpresult=sendhttp(geturl,urlobj.hostname,htmlfile) with open(htmlfile) as file: htmlcontent=file.read() parser= ListPageParser()#声明一个解析对象 #http://list.jd.com/list.html?cat=737%2C794%2C870&page=11&JL=6_0_0,所以这里需要把'amp;'去掉 parser.feed(htmlcontent.replace('amp;',''))#将html的内容feed进去 #print 'debug:htmlcontent',htmlcontent finalparseurl=parser.getlinks()#然后get数据即可 lastpageurl=parser.getlasturl() urlobj_lastpageurl=urlparse(lastpageurl) #print 'debug:urlobj_lastpageurl',urlobj_lastpageurl totalPageNo='0' #print urlobj if re.search(r'&',urlobj_lastpageurl.query): try: totalPageNo=urlobj_lastpageurl.query.split("&")[1].split("=")[1]#获得总共有多少页 except Exception,e: print "lastpageurl:"+str(lastpageurl) print e parseListpageurl_rult={'finalparseurls':finalparseurl,'totalPageNo':totalPageNo} if parseListpageurl_rult['finalparseurls'] !="" and parseListpageurl_rult['totalPageNo']!='': print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse listpageurl succ:"+listpageurl else: print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse listpageurl fail:"+listpageurl return parseListpageurl_rult #最终的html页面的解析方法：会使用到html得解析器FinallPageParser def parseFinallyurl(finallyurl): urlobj=urlparse(finallyurl) geturl=urlobj.path htmlfiledir="html/finally/"+geturl.split('/')[1][0:2] if not os.path.exists(htmlfiledir): try: os.makedirs(htmlfiledir) except Exception,e: print e htmlfile=htmlfiledir+geturl if not os.path.exists(htmlfile): httpresult=sendhttp(geturl,urlobj.hostname,htmlfile) if httpresult: print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request succ,Finallyurl:"+finallyurl else: print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request fail,Finallyurl:"+finallyurl with open(htmlfile) as file: htmlcontent=file.read() parser= FinallPageParser() ##htmmparser遇到/>就表示tag结尾，所以必须替换，遇到 替换为BRBR，否则会解析失败 htmlcontent=re.compile(' ').sub('BRBR',htmlcontent) parser.feed(htmlcontent) finalparseurl=parser.getdata() if finalparseurl: print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse finalparseurl succ:"+finallyurl else: print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse finalparseurl fail:"+finallyurl return finalparseurl #获取图片的方法 def getimg(imgdir,imgurl): imgobj=urlparse(imgurl) getimgurl=imgobj.path imgtmppathlist=getimgurl.split('/') imgname=imgtmppathlist[len(imgtmppathlist)-1] if not os.path.exists(imgdir): try: os.makedirs(imgdir) except Exception,e: print e savefile=imgdir+"/"+imgname if not os.path.exists(savefile): sendhttp_rult=sendhttp(getimgurl,imgobj.hostname,savefile) if sendhttp_rult: print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request succ,getimg:"+imgurl else: print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request fail,getimg:"+imgurl else: pass #获取价格 def getprice(pricedir,priceurl): priceobj=urlparse(priceurl) getpriceurl=priceobj.path+"?"+priceobj.query pricename="price" if not os.path.exists(pricedir): try: os.makedirs(pricedir) except Exception,e: print e savefile=pricedir+"/"+pricename if not os.path.exists(savefile): sendhttp_rult=sendhttp(getpriceurl,priceobj.hostname,savefile) if sendhttp_rult: print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request succ,getprice:"+priceurl else: print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request fail,getprice:"+priceurl else: pass with open(savefile) as file: price_content=file.read() price_content=re.compile('cnp\$\\[|\\]\$;').sub('',price_content) price_dic={"id":"0","p":"0","m":"0"} if re.search(r':',price_content): try: price_dic=json.loads(price_content)#以免数据格式不对悲剧 except Exception,e: print e return {"jdprice":price_dic['p'],'refprice':price_dic['m']} #获取最后页面的具体内容 def getfinalurl_content(partlists,listpageurl,finalparseurl): parseFinallyurl_rult=parseFinallyurl(finalparseurl) htmlname_tmp=urlparse(finalparseurl).path imgtopdir_tmp="img/"+htmlname_tmp.split('/')[1][0:2] imgdir=imgtopdir_tmp+htmlname_tmp+"/introduction" imgshowdir=imgtopdir_tmp+htmlname_tmp+"/show" partdetail_tmp="" for imgurl in parseFinallyurl_rult['partimgs']:#获取商品介绍的图片 getimg(imgdir,imgurl) for imgshowurl in parseFinallyurl_rult['partimgs_show']:#获取展示图片 getimg(imgshowdir,imgshowurl) for key in parseFinallyurl_rult['partdetail'].keys(): partdetail_tmp=partdetail_tmp+key+"$$"+parseFinallyurl_rult['partdetail'][key]+","#商品介绍 specification_tmp="" i=0 for specification_var in parseFinallyurl_rult["specification"]:#规格参数 if i==0: str_slip="" elif(i%2==0 and i!=0 ): str_slip="," else: str_slip="$$" specification_tmp=specification_tmp+str_slip+specification_var i=i+1 typeOrsize_tmp="" for typeOrsize_var in parseFinallyurl_rult['typeOrsize']: typeOrsize_tmp=typeOrsize_tmp+","+typeOrsize_var priceurl="http://p.3.cn/prices/get?skuid=J_"+htmlname_tmp.split('/')[1].split('.')[0]+"&type=1&area=6_309_312&callback=cnp" pricedir="price/"+htmlname_tmp.split('/')[1][0:2]+htmlname_tmp getprice_dic=getprice(pricedir,priceurl) parseFinallyurl_rult["jdprice"]=getprice_dic['jdprice'] parseFinallyurl_rult["refprice"]=getprice_dic['refprice'] #partlists[listpageurl])：商品分类 #finalparseurl，页面的url #parseFinallyurl_rult["title"])：标题 #parseFinallyurl_rult["jdprice"]：京东的价格 #parseFinallyurl_rult["refprice"]：市场参考价格 #imgshowdir：商品展示的图片保存位置 #imgdir：商品说明的图片保存位置：jd的商品说明也是用图片的 #partdetail_tmp:商品的详细信息 #specification_tmp:商品的规则参数 #typeOrsize_tmp:商品的类型和尺寸 return str(partlists[listpageurl]).strip()+"\t"+finalparseurl.strip()+"\t"+str(parseFinallyurl_rult["title"]).strip()+"\t"+str(parseFinallyurl_rult["jdprice"]).strip()\ +"\t"+str(parseFinallyurl_rult["refprice"]).strip()+"\t"+imgshowdir.strip()+"\t"+imgdir.strip()+"\t"+partdetail_tmp.strip()+"\t"+specification_tmp.strip()+"\t"+\ typeOrsize_tmp.strip() #判断最后的页面（商品详情页）是否被爬取了 def judgeurl(url):#优化后，使用二分法查找url(查找快了，同时也不用反复读取文件了)。第一次加载judgeurl_all_lines之后，维护好此list，同时新增的url也保存到judgeurl.txt中 url=url+"\n" global judgeurl_all_lines find_url_flag=False url_point=bisect.bisect(judgeurl_all_lines,url)#这里使用二分法快速查找（前提：list是排序好的） find_url_flag = judgeurl_all_lines and judgeurl_all_lines[url_point-1] == url return find_url_flag #判断list页面是否已经爬取完毕了 #这里的逻辑是：第一个list中的所有url、最后list的所有url都爬取完毕了，那么久说明list的所有page爬取完毕了（实际上是一种弱校验）。 #调用了judgeurl得方法 def judgelist(listpageurl,finallylistpageurl):#判断第一个、最后一个的list页面的所有的html是否下载完毕，以此判断该类型是否处理完毕 judgelist_flag=True parseListpageurl_rult_finally=parseListpageurl(finallylistpageurl) finalparseurls_deep_finally=list(parseListpageurl_rult_finally['finalparseurls'])#获取到最后的需要解析的url的列表 parseListpageurl_rult_first=parseListpageurl(listpageurl) finalparseurls_deep_first=list(parseListpageurl_rult_first['finalparseurls'])#获取到最后的需要解析的url的列表 for finalparseurl in finalparseurls_deep_finally: #print finalparseurl if judgeurl(finalparseurl): pass else: judgelist_flag=False break if judgelist_flag==True: for finalparseurl_first in finalparseurls_deep_first: #print finalparseurl if judgeurl(finalparseurl_first): pass else: judgelist_flag=False break return judgelist_flag #整体控制的run方法 def run(): partlists={'http://list.jd.com/list.html?cat=737,794,870':'空调'} partlistskeys=partlists.keys() for listpageurl in partlistskeys: parseListpageurl_rult=parseListpageurl(listpageurl)#开始解析list页面，如：http://list.jd.com/list.html?cat=737,794,870 totalPageNo=parseListpageurl_rult['totalPageNo']#获取该list总共有多少页 #print 'debug:totalPageNo',totalPageNo finallylistpageurl=listpageurl+'&page='+str(int(totalPageNo)+1)+'&JL=6_0_0'#拼接出最后一个list页面（list页面有1、2、3。。。n页） #print 'debug:finallylistpageurl ',finallylistpageurl if judgelist(listpageurl,finallylistpageurl):#如果该list已经爬取完毕了。那么，就跳过这个list print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+',All html done for '+str(listpageurl)+":"+str(partlists[listpageurl])+"【Done Done】,【^_^】" continue else:#否则就逐个沿着list，从其第1页，开始往下爬取 for i in range(1,int(totalPageNo)+2): finalparseurl='' listpageurl_next=listpageurl+'&page='+str(i)+'&JL=6_0_0' #print "debug:listpageurl_next",listpageurl_next parseListpageurl_rult=parseListpageurl(listpageurl_next) totalPageNo=parseListpageurl_rult['totalPageNo']#需要更行总的页面数量，以免数据陈旧 finalparseurls_deep=list(parseListpageurl_rult['finalparseurls']) for finalparseurl in finalparseurls_deep: if judgeurl(finalparseurl):#判断该具体的url是否已经爬取 print 'finalparseurl pass yet:'+finalparseurl pass else: finalurl_content=getfinalurl_content(partlists,listpageurl,finalparseurl) finalparseurl_tmp=finalparseurl+"\n" with open("data.txt","a") as datafile:#将爬取完毕好的url写入data.txt datafile.writelines(finalurl_content+"\n") with open("judgeurl.txt","a") as judgefile:#将已经爬取好的url写入judgeurl.txt judgefile.writelines(finalparseurl+"\n") bisect.insort_right(judgeurl_all_lines,finalparseurl+"\n") #主方法 if __name__ == '__main__': reload(sys) sys.setdefaultencoding('utf8')#设置系统默认编码是utf8 socket.setdefaulttimeout(5)#设置全局超时时间 global judgeurl_all_lines#设置全局变量 #不存在文件就创建文件,该文件用于记录哪些url是爬取过的，如果临时中断了，可以直接重启脚本即可 if not os.path.exists("judgeurl.txt"): with open("judgeurl.txt",'w') as judgefile: judgefile.close() #每次运行只在开始的时候读取一次，新产生的数据（已怕去过的url）也会保存到judgeurl.txt with open("judgeurl.txt","r") as judgefile: judgeurl_all_lines=judgefile.readlines() judgeurl_all_lines.sort()#排序，因为后面需要使用到二分查找，必须先排序 #启多个线程去爬取 Thread(target=run(),args=()).start() Thread(target=run(),args=()).start() #Thread(target=run(),args=()).start()

Python 继承详解江湖一条鱼 python
继承是面向对象编程（OOP）的一个重要特性，允许一个类（子类）从另一个类（父类）继承属性和方法。继承可以提高代码的重用性，增强程序的可扩展性和可维护性。目录一、继承的作用二、继承的语法1.单继承2.多继承三、子类扩展1.添加新功能2.重写父类方法3.调用父类方法四、继承的特殊情况1.子类初始化父类2.方法解析顺序（MRO）五、抽象类与接口1.抽象类2.接口3.ABC类4.使用方法1.定义抽象基类2
java防抖，防止表单重复提交，aop注解形式 One_for_all96版 java 开发语言
importjava.lang.annotation.ElementType;importjava.lang.annotation.Retention;importjava.lang.annotation.RetentionPolicy;importjava.lang.annotation.Target;/***防抖注解*/@Target(ElementType.METHOD)//作用到方法上@R
【如何学习商城源码】启山智软商城源码微信小程序小程序 java
学习商城源码是一个系统而深入的过程，需要掌握多种方法和技巧。以下是一些建议，帮助你有效地学习商城源码：一、搭建学习环境准备开发工具编程语言相关：根据商城源码使用的编程语言，安装相应的集成开发环境（IDE）。例如，若源码是Java语言编写的，可安装IntelliJIDEA或Eclipse；若是Python语言，可选择PyCharm等。这些IDE能帮助你高效地编辑、调试代码，提供语法高亮、自动补全等功
从零创建一个 Django 项目 m0_74824823 面试学习路线阿里巴巴 django python 后端
1.准备环境在开始之前，确保你的开发环境满足以下要求：安装了Python(推荐3.8或更高版本)。安装pip包管理工具。如果要使用MySQL或PostgreSQL，确保对应的数据库已安装。创建虚拟环境在项目目录中创建并激活虚拟环境，保证项目依赖隔离：#创建虚拟环境python-mvenvenv#激活虚拟环境#WindowsenvScriptsactivate#Linux/Macsourceenv/
anaconda中的python在pycharm中用不了_Pycharm中使用Anaconda 白白前
Pycharm中使用Anaconda问题：安装完Pycharm和Anaconda后，想让Pycharm能调用Anaconda中包含的各种包。这样就不用重复安装各种包了。Anaconda下载安装Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anaconda的下载文件比较大(约515MB)。安装Anacond
agoda获取酒店数据风云路上想改名笔记 python agoda爬取报错重启
最近改了改代码，正好解决了一些报错问题，更新出来。个别处会加蜜数据库以及线程控制fromDBUtils.PooledDBimportPooledDBimportrequestsimportdemjsonimporttimeimportrandomimportjsonimportpymysqlimportdatetimeimportthreadingb={"user":"root","passwd"
python - 永久存储 susie0815 python python 服务器
打开文件使用open()函数打开文件时，openfilemode（文件打开模式）是一个决定了以何种方式打开文件以及对文件可以进行哪些操作的重要参数。基本模式只读模式（‘r’）默认的打开模式，用于读取文件。如果文件不存在，会抛出FileNotFoundError异常。try:file=open('test.txt','r')content=file.read()print(content)file.
自动化测试的学习路线 Ws＿学习
自动化测试是提高软件开发效率和质量的关键手段。学习自动化测试通常涉及多个方面的技能，从基础的编程语言知识到测试工具的使用，再到实际的测试脚本编写和执行。以下是一个学习自动化测试的路线图，帮助你有条不紊地掌握相关技能：1.基础知识在开始自动化测试之前，首先要具备一定的编程和软件测试基础：编程语言：Python、Java、JavaScript或者Ruby（根据你选择的自动化测试工具决定）软件测试基础：
Python自动化测试 Ws＿ python python
Python自动化测试是软件开发中的重要组成部分，可以帮助提高测试效率和准确性。以下是学习Python自动化测试的基本路线，以及相关资料的链接：学习路线1.基础知识Python基础：掌握Python语言的基本语法、数据类型、控制流、函数、面向对象编程等。你可以先确保对Python的基本语法有清晰的理解。参考资料：Python官方文档书籍推荐：《Python编程：从入门到实践》2.了解自动化测试的基
Python实现Excel表格保存到不同文件夹 Leo_Aqu excel python
"""点击“上传”按钮，从本地上传待处理的Excel表格点击“处理”按钮，对Excel表格进行处理点击“保存A”按钮，保存处理后的Excel表格到A文件夹下点击“保存B”按钮，保存处理后的Excel表格到B文件夹下"""#作者:Leo#时间:2024/9/2621:52importtkinterastkfromtkinterimportfiledialog,messageboximportpand
通义灵码AI程序员天天向上杰 AI编程 AIGC 人工智能
通义灵码是阿里云与通义实验室联合打造的智能编码辅助工具，基于通义大模型技术，为开发者提供多种编程辅助功能。它支持多种编程语言，包括Java、Python、Go、TypeScript、JavaScript、C/C++、PHP、C#、Ruby等200多种编码语言。通义灵码AI程序员：今年1月，通义灵码AI程序员全面上线，同时支持VSCode、JetBrainsIDEs，是国内首个真正落地的AI程序员。
python使用技巧超超是超超 python
1、耗时装饰器importtimedefdecorate(func):definner():begin=time.time()result=func()end=time.time()print(f'函数{func}耗时{end-begin}')returnresultreturninner2、查看代码运行耗时fromline_profilerimportLineProfilerdefoperati
Anaconda与python和pycharm的安装及其关系 Daylight.. 学习笔记 pycharm python ide
Anaconda与python和pycharm的安装及其关系一、Anaconda与python和pycharm的关系：1.Anaconda包含python，并且里面含有许多常用的库。（安装了Anaconda就不需要安装python了）2.pycharm是一种IDE（集成开发环境），在其中可以编写Python程序。（工具和语言的关系）。二、如何安装？Anaconda的安装Anaconda官网下载地址
ImportError: cannot import name ‘Mapping‘ from ‘collections‘ AI算法网奇 python基础前端 javascript 数据库
ImportError:cannotimportname'Mapping'from'collections'解决方法：fromcollections.abcimportMapping#正确导入Mappingdefprocess_mapping(data):ifisinstance(data,Mapping):#使用Mapping进行类型检查#处理映射类型的代码pass测试命令：python-c"f
python图形界面化编程GUI（二）常用的组件(Text、Radiobutton、Checkbutton、Canvas)和布局管理器(gird、pack、place) hwwaizs python-GUI图形化编程 python 开发语言
Text文本框Text(多行文本框)的主要用于显示多行文本，还可以显示网页链接,图片,HTML页面,甚至CSS样式表，添加组件等。主要用来显示信息，也常被当做简单的文本处理器、⽂本编辑器或者网页浏览器来使用。IDLE就是Text组件构成的。insert插入的时候可以用INSERT代表当前光标的位置，END代表在结尾的位置，也可以用插入小数的形式，2.3代表第二行第三列后插入。fromtkinter
【深度解析】最短路径算法：Dijkstra与Floyd-Warshall 吴师兄大模型算法数据结构 python 最短路径算法 Dijkstra算法 Floyd-Warshall 开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
代理IP服务如何优化AI大模型训练的分布式计算效率 http
AI大模型训练就像一场接力赛，每个计算节点都是接力选手，而代理IP则是保证选手们“跑得更稳、交接更顺”的隐形教练。在分布式计算中，效率瓶颈往往不是算力本身，而是数据调度与通信协作的隐性损耗。接下来，我们从三个实操场景拆解代理IP的增效逻辑。场景一：数据采集与分发的“高速公路”分布式训练的第一步是将海量数据切分到不同计算节点。假设某团队要训练法律文书解析模型，需从20个省级法院网站抓取判例。如果所有
商城项目秒杀通过Redisson设置信号量和秒杀随机码的设计保证秒杀业务稳定-----商城项目旧约Alatus 电商项目 #Spring-Boot框架 #Spring-Cloud框架 spring boot 分布式 spring spring cloud 后端微服务 jvm
packagecom.alatus.mall.seckill.service.impl;importcom.alatus.common.utils.R;importcom.alatus.mall.seckill.constant.SecKillConstants;importcom.alatus.mall.seckill.feign.CouponFeignService;importcom.ala
全网最全！DeepSeek 新手入门教程合集人工智能deepseek
如果你是初次接触DeepSeek的普通用户或开发者，面对海量教程却无从下手？别担心！本文为你整理全网最易懂、最实用的DeepSeek学习资源，涵盖快速上手、编程实战、系统手册等，附直达链接，收藏这一篇就够了！一、快速入门指南《DeepSeek入门教程》-博客园亮点：手把手教你注册账号、获取APIKey，并提供Python调用多轮对话的代码示例，适合初级开发者。直达链接：点击查看核心内容：API调用
【Python】Python入门——判断语句 zhoushanguhe Python python 编程开发语言
Python入门——判断语句。内容包括if语句、条件表达式、三元运算、match语句等。目录一、if语句1.基本if-else语句2.常用比较运算符3.if-else连写4.pass语句5.变量的作用域二、条件表达式三、三元运算四、match语句五、其他一、if语句1.基本if-else语句当条件成立时，执行某些语句；否则执行另一些语句。注意：if和else后需要加上冒号:if语句的代码块需要缩进
兄弟们，我的deepseek终于可以控制浏览器了：Part 1/n，含代码几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 人工智能
文章目录前言helloworld前言其实，deepseek控制浏览器咱之前就发过，只不过当时没有想到这么好的标题，哈哈。所依赖的，依然是BrowserUse这个项目BrowserUse项目官网helloworld按照官网配置好环境后，只需新建一个python文件（例如，叫main.py?）然后运行即可。fromlangchain_openaiimportChatOpenAIfrombrowser_
如何在Pycharm等Terminal中获取当前的环境变量信息潇囧囧 pycharm python
目标：查看当前编程环境变量信息。方法：直接使用os库即可查看当前虚拟环境对应的全局变量。importos#打印所有环境变量forkey,valueinos.environ.items():print(f"{key}:{value}")#获取特定环境变量的值path=os.environ.get("PATH")print(f"PATH:{path}")需求：有时会遇到虚拟环境的某些配置和我们系统的配
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
C语言-回调函数的应用 woainizhongguo. C/C++c语言
什么是回调函数回调函数就是一个被作为参数传递的函数。在C语言中，回调函数只能使用函数指针实现，在C++、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数。工作机制⑴定义一个回调函数；⑵提供函数实现的一方在初始化的时候，将回调函数的函数指针注册给调用者；⑶当特定的事件或条件发生的时候，调用者使用函数指针调用回调函数对事件进行处理。应用案例（1）应用层：通过调用hal层
前端：纯前端快速实现html导出word和pdf m0_74823715 前端 html word
实现html导出word，需要使用两个库。html-docx-js和file-saver导出word的js方法>npminstallhtml-docx-js>npminstallfile-saverjs引入importFileSaverfrom“file-saver”;importhtmlDocxfrom“html-docx-js/dist/html-docx”;/**导出word方法*/expo
Python Union 联合类型注解详解人才程序员杂谈 python 服务器 java linux 后端软件工程开发语言
文章目录PythonUnion联合类型注解详解1.什么是Union联合类型？**语法（Python3.9及之前版本）**：**语法（Python3.10及之后版本）**：2.Union联合类型注解示例**(1)使用Union来表示多个类型的参数****(2)使用`|`来表示联合类型（Python3.10及之后版本）**3.使用Union进行复杂类型注解**(1)使用Union与列表结合****(2
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
Vue3 vuex ＊且听风吟 #Vue 3 javascript vue.js 前端
概念Vuex：状态管理工具使用场景有时候，需要在多个组件中共享状态，并且是响应式的状态，一个变，全都跟着发生改变的场景。例如，一些全局要用的的状态信息：用户登录状态、用户信息等等；这时候，就需要这样的一个工具来进行全局的状态管理，而Vuex就是这样的一个工具。Vue2.xvuex基本结构store/index.js：importVuefrom'vue'importVuexfrom'vuex'Vue
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

python爬虫实战,多线程爬取京东jd html页面：无需登录的网站的爬虫实战

你可能感兴趣的:(爬虫,python,网站,import)