hh2o

python爬虫实战,多线程爬取京东jd html页面：无需登录的网站的爬虫实战

【前言】

# 本脚本用来爬取jd的页面：http://list.jd.com/list.html?cat=737,794,870到
# ......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片。
# 本脚本仅用于技术交流，请勿用于其他用途
# by River
# qq : 179621252
# Date : 2014-12-02 19:00:00

【需求说明】

以京东为示例，爬取页面的，获取页面中得数据：记录到data.txt；获取页面中得图片，保存下来。

1、list的url如下

2、商品详情页的url如下：

【技术说明】

使用了python的以下库
import os#检查文件是否存在等
from HTMLParser import HTMLParser#用于解析html的库，有坑：如果2.6的python，可能悲剧
import httplib,re#发起http请求
import sys,json,datetime,bisect#使用了二分快速查找
from urlparse import urlparse#解析url，分析出url的各部分功能
from threading import Thread#使用多线程
import socket #设置httplib超时时间

【代码逻辑说明】

1、run（获取最终要的结果）

2、parseListpageurl：返回list的总共的页面数量

3、judgelist：判断该list是否已经爬取完毕了，第一个list中的所有url、最后list的所有url都爬取完毕了，那么久说明list的所有page爬取完毕了（实际上是一种弱校验）

4、getfinalurl_content：如果list没爬取完毕，每个list爬取，解析list中得每个html（判断html是否爬取过），获得内容和img

【坑说明】

1、需要设置超时时间，和重试，否则爬取一个url卡住的时候，整个线程都悲剧了。

2、有编码的坑，如果页面是gb2312的编码，需要转换为utf-8的编码：httprestmp.decode('gbk').encode('utf-8')

3、parser.feed的内容，如果存在一些特殊字符，可能需要替换，否则解析出来会莫名不对

4、图片保存，根据url获取前面两个数字，保存。以免一个目录下保存了过多的图片。

【执行结果】

1、console输出

2、data.txt存储解析出来的内容

3、judegurl.txt（保存已经爬取过的url）

4、图片（下载的图片）

【代码详情】

# -*- coding: utf-8 -*-

__author__ = 'River'

# 本脚本用来爬取jd的页面：http://list.jd.com/list.html?cat=737,794,870到
# ......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片。

# 本脚本仅用于技术交流，请勿用于其他用途
# by River
# qq : 179621252
# Date : 2014-12-02 19:00:00


import os#创建文件
from HTMLParser import HTMLParser#用于解析html的库，有坑：如果2.6的python，可能悲剧
import httplib,re#发起http请求
import sys,json,datetime,bisect#使用了二分快速查找
from urlparse import urlparse#解析url，分析出url的各部分功能
from threading import Thread#使用多线程
import socket #设置httplib超时时间
#定义一个ListPageParser，用于解析ListPage，如http://list.jd.com/list.html?cat=737,794,870


#htmlparser的使用简介
#定义intt方法：需要使用到得属性
#定义handle_starttag，处理你想分析的tag的具体操作
#定义handle_data，遇到你定义的情况，获取相应标签的data
#定义你获取最终返回的各种数据
class ListPageParser(HTMLParser):
    def __init__(self):
        self.handledtags=['a']
        self.processing=None
        self.flag=''
        self.link=''
        self.setlinks=set()##该list页面中包含的每个商品的url，定义为set，主要是为了使用其特性：去重
        self.pageNo=1
        self.alldata=[]
        self.lasturl=""#指的最后一页的url如10
        HTMLParser.__init__(self)
    def handle_starttag(self, tag, attrs):
        pattern = re.compile(r'^[0-9]{2,}')
        pattern2=re.compile(r'^http:\/\/item.jd.com\/\d{1,10}.html$')#取出link
        pattern3=re.compile(r'^http:\/\/list.jd.com\/list.html\?cat=\d{0,9}%2C\d{0,9}%2C\d{0,9}&page=*')#取出link
        #attrs是属性的list，每个属性（包含key，value）又是一个元组
        #创维酷开(coocaa) K50J 50英寸八核智能wifi网络安卓平板液晶电视(黑色)
        #已上为例子：判断了该list的长度为3（其他的a标签就被过滤了）
        if tag in self.handledtags and len(attrs)==3 :#非常关键的是，找出你想的url和不想要的url的区别
            #print "debug:attrs",attrs
            self.flag=''
            self.data=''
            self.processing=tag
            for target,href in attrs:#非常关键的是，找出你想的url和不想要的url的区别
                if pattern2.match(href):#再加一层判断，如果匹配上pattern2，说明是我们想要的url
                    self.setlinks.add(href)
                else:
                    pass
        #怎样获取list中最后一页的url？分析吧：10
        #1、长度为1
        #2，href是由规则的：cat=737%2C794%2C798&page=10&JL=6_0_0，所以，以下代码就出来了
        if tag in self.handledtags and len(attrs)==1 :
            self.flag=''
            self.data=''
            self.processing=tag
            for href,url in attrs:#非常关键的是，找出你想的url和不想要的url的区别
                #print 'debug:attrs',attrs
                if pattern3.match(url):
                    #print 'debug:url',url
                    self.lasturl=url
                else:
                    pass
    def handle_data(self, data):
        if self.processing:#去掉空格
            pass#其实这里我们根本没使用获取到得data，就pass把
        else:
            pass
    def handle_endtag(self, tag):
        if tag==self.processing:
            self.processing=None
    def getlinks(self):
        return self.setlinks
    def getlasturl(self):
        return self.lasturl

        
#定义一个FinallPageParser，用于解析最终的html页面，如http://item.jd.com/1258277.html
#FinallPageParser的定义过程参考上个parser，关键是怎样分析页面，最终写出代码，并且验证，这里就不详细说了
class FinallPageParser(HTMLParser):
    def __init__(self):
        self.handledtags=['div','h1','strong','a','del','div','img','li','span','tbody','tr','th','td','i']
        self.processing=None
        self.title=''
        self.jdprice=''
        self.refprice=''
        self.partimgs_show=set()#展示图片
        self.partimgs=set()#详情图片
        self.partdetail={}#商品详情，参数等
        self.specification=[]#规格参数
        self.typeOrsize=set()#尺码和类型
        self.div=''
        self.flag={}
        self.flag['refprice']=''
        self.flag['title']=''
        self.flag['jdprice']=''
        self.flag['typeOrsize']=''
        self.flag['partimgs']=''
        self.flag['partdetail']=''
        self.flag['specification']=''
        self.flag['typeOrsize']=''
        self.link=''
        self.partslinks={}
        HTMLParser.__init__(self)
    def handle_starttag(self, tag, attrs):
        self.titleflag=''
        self.flag['refprice']=''
        self.flag['title']=''
        self.flag['jdprice']=''
        self.flag['typeOrsize']=''
        self.flag['partimgs']=''
        self.flag['partdetail']=''
        self.flag['specification']=''
        self.flag['typeOrsize']=''
        if tag in self.handledtags:
            self.data=''
            self.processing=tag
            if tag=='div':
                for key,value in attrs:
                    self.div=value# 取出div的name，判断是否是所需要的图片等元素
            if tag=='i':
                self.flag['typeOrsize']='match'
            if tag=='a' and len(attrs)==2:
                tmpflag=""
                for key,value in attrs:
                    if key=='href' and re.search(r'^http:\/\/item.jd.com\/[0-9]{1,10}.html$',value):
                        tmpflag="first"
                    if key=='title' and value!="":
                        tmpflag=tmpflag+"second"
                if tmpflag== "firstsecond":
                    self.flag['typeOrsize']='match'
            if tag=='h1':
                self.flag['title']='match'
            if tag=='strong' and len(attrs)==2:
                for tmpclass,id in attrs:
                    if id=='jd-price':
                        self.flag['jdprice']='match'
            if tag=='del':
                self.flag['refprice']='match'
            if tag=='li':
                self.flag['partdetail']='match'
            if tag=='th' or tag=='tr' or tag=='td' :#++++++++############################################879498.html td中有br的只取到第一个,需要把
喜欢为“”
                self.flag['specification']='match'
            if tag=='img' :
                imgtmp_flag=''
                imgtmp=''
                for key,value in attrs:
                    if re.search(r'^http://img.*jpg|^http://img.*gif|^http://img.*png',str(value)) and (key=='src' or key=='data-lazyload'):
                        imgtmp=value
                    if key== 'width':############可能还有logo
                        if re.search(r'^\d{1,9}$',value):
                            if int(value)<=160:
                                imgtmp_flag='no'
                                break
                if self.div=="spec-items" and imgtmp!='':
                    imgtmp=re.compile("/n5/").sub("/n1/",imgtmp)
                    self.partimgs_show.add(imgtmp)
                elif imgtmp_flag!='no' and imgtmp!='':
                    self.partimgs.add(imgtmp)#
    def handle_data(self, data):
        if self.processing:
            self.data+=data
            if self.flag['title']=='match':#获取成功
                self.title=data
            if self.flag['jdprice']=='match':
                self.jdprice=data.strip()
            if self.flag['typeOrsize']=='match':
                self.typeOrsize.add(data.strip())
            if self.flag['refprice']=='match':
                self.refprice=data.strip()
            if self.flag['partdetail']=='match' and re.search(r'：',data):#获取成功
                keytmp=data.split("：")[0].strip()
                valuetmp=data.split("：")[1].strip()
                self.partdetail[keytmp]=valuetmp
            if self.flag['specification']=='match' and data.strip() != '' and data.strip()!='主体':
                self.specification.append(data.strip())
        else:
            pass
    def handle_endtag(self, tag):
        if tag==self.processing:
            self.processing=None
    def getdata(self):
        return {'title':self.title,'partimgs_show':self.partimgs_show,'jdprice':self.jdprice,'refprice':self.refprice,'partimgs':self.partimgs,'partdetail':self.partdetail,'specification':self.specification,'typeOrsize':self.typeOrsize}
#定义方法httpread，用于发起http的get请求，返回http的获取内容
#这也是代码抽象的结果，如若不抽象这块代码出来，后续你回发现很多重复的写这块代码
def httpread(host,url,headers):
    httprestmp=''
    try:
        conn = httplib.HTTPConnection(host)
        conn.request('GET',url,None,headers)
        httpres = conn.getresponse()
        httprestmp=httpres.read()
    except Exception,e:
        conn = httplib.HTTPConnection(host)
        conn.request('GET',url,None,headers)
        httpres = conn.getresponse()
        httprestmp=httpres.read()
        print e
    finally:
        if conn:
            conn.close()
    return httprestmp
#定义方法sendhttp，调用httpread，获取结果并替换编码（gbk换为utf-8），并保存到文件中（以免下次再去下载页面，这样就节省了时间）
#
def sendhttp(url,host,savefile):
    #定义http头部，很多网站对于你不携带User-Agent及Referer等情况，是不允许你爬取。
    #具体的http的头部有些啥信息，你可以看chrome，右键审查元素，点击network，点击其中一个链接，查看request header
    headers = {"Host":host,
               "Origin":"http://www.jd.com/",
               "Referer":"http://www.jd.com/",
                "Content-type": "application/x-www-form-urlencoded; charset=UTF-8",
                "Accept": "text/html;q=0.9,p_w_picpath/webp,*/*;q=0.8",
               "User-Agent":"Mozilla/3.0 AppleWebKit/537.36 (KHTML,Gecko) Chrome/3.0.w4.",
               "Cookie":"__utmz=qwer2434.1403499.1.1.utmcsr=www.jd.com|utmccn=(refrral)|utmcmd=rferral|utmcct=/order/getnfo.action; _pst=xx89; pin=x9; unick=jaa; cshi3.com=D6045EA24A6FB9; _tp=sdyuew8r9e7r9oxr3245%3D%3D; user-key=1754; cn=0; ipLocation=%u7F0C; ipLoc97; areaId=1; mt_ext2%3a%27d; aview=6770.106|68|5479.665|675.735|6767.100|6757.13730|6ee.9ty711|1649.10440; atw=65.15.325.24353.-4|188.3424.-10|22; __j34|72.2234; __jdc=2343423; __jdve|-; __jdu=3434"
    }
    httprestmp=''
    try:
        httprestmp=httpread(host,url,headers)
        if httprestmp=='':#
            httprestmp=httpread(host,url,headers)
            if  httprestmp=='':#重试2次
                httprestmp=httpread(host,url,headers)
    except Exception,e:
        try:
            httprestmp=httpread(host,url,headers)
            if httprestmp=='':#
                httprestmp=httpread(host,url,headers)
                if  httprestmp=='':#重试2次
                    httprestmp=httpread(host,url,headers)
        except Exception,e:
            print e
        print e
    if  re.search(r'charset=gb2312',httprestmp):#如果是gb2312得编码，就要转码为utf-8（因为全局都使用了utf-8）
        httprestmp.replace("charset=gb2312",'charset=utf-8')
        try:
            httprestmp=httprestmp.decode('gbk').encode('utf-8')#有可能转码失败，所以要加上try
        except Exception,e:#如果html编码本来就是utf8或者转换编码出错的时候，就啥都不做，就用原始内容
            print e
    try:
        with  open(savefile, 'w') as file_object:
            file_object.write(httprestmp)
            file_object.flush()
    except Exception,e:
        print e
    return httprestmp
#list的页面的解析方法
def parseListpageurl(listpageurl):
        urlobj=urlparse(listpageurl)
        if urlobj.query:
            geturl=urlobj.path+"?"+urlobj.query
        else:
            geturl=urlobj.path
        htmlfile="html/list"+geturl
        if not os.path.exists(htmlfile):
            httpresult=sendhttp(geturl,urlobj.hostname,htmlfile)
        with  open(htmlfile) as file:
            htmlcontent=file.read()
        parser= ListPageParser()#声明一个解析对象
        #http://list.jd.com/list.html?cat=737%2C794%2C870&page=11&JL=6_0_0,所以这里需要把'amp;'去掉
        parser.feed(htmlcontent.replace('amp;',''))#将html的内容feed进去
        #print 'debug:htmlcontent',htmlcontent
        finalparseurl=parser.getlinks()#然后get数据即可
        lastpageurl=parser.getlasturl()
        urlobj_lastpageurl=urlparse(lastpageurl)
        #print 'debug:urlobj_lastpageurl',urlobj_lastpageurl
        totalPageNo='0'
        #print urlobj
        if re.search(r'&',urlobj_lastpageurl.query):
            try:
                totalPageNo=urlobj_lastpageurl.query.split("&")[1].split("=")[1]#获得总共有多少页
            except Exception,e:
                print "lastpageurl:"+str(lastpageurl)
                print e
        parseListpageurl_rult={'finalparseurls':finalparseurl,'totalPageNo':totalPageNo}
        if parseListpageurl_rult['finalparseurls'] !="" and parseListpageurl_rult['totalPageNo']!='':
            print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse listpageurl succ:"+listpageurl
        else:
            print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse listpageurl fail:"+listpageurl
        return parseListpageurl_rult
#最终的html页面的解析方法：会使用到html得解析器FinallPageParser
def parseFinallyurl(finallyurl):
        urlobj=urlparse(finallyurl)
        geturl=urlobj.path
        htmlfiledir="html/finally/"+geturl.split('/')[1][0:2]
        if not os.path.exists(htmlfiledir):
            try:
                os.makedirs(htmlfiledir)
            except Exception,e:
                print e
        htmlfile=htmlfiledir+geturl
        if not os.path.exists(htmlfile):
            httpresult=sendhttp(geturl,urlobj.hostname,htmlfile)
            if httpresult:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request succ,Finallyurl:"+finallyurl
            else:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request fail,Finallyurl:"+finallyurl
        with  open(htmlfile) as file:
            htmlcontent=file.read()
        parser= FinallPageParser()
        ##htmmparser遇到/>就表示tag结尾，所以必须替换，遇到
替换为BRBR，否则会解析失败
        htmlcontent=re.compile('
').sub('BRBR',htmlcontent)
        parser.feed(htmlcontent)
        finalparseurl=parser.getdata()
        if finalparseurl:
            print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse finalparseurl succ:"+finallyurl
        else:
            print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse finalparseurl fail:"+finallyurl
        return finalparseurl
#获取图片的方法
def getimg(imgdir,imgurl):
        imgobj=urlparse(imgurl)
        getimgurl=imgobj.path
        imgtmppathlist=getimgurl.split('/')
        imgname=imgtmppathlist[len(imgtmppathlist)-1]
        if not os.path.exists(imgdir):
            try:
                os.makedirs(imgdir)
            except Exception,e:
                print e
        savefile=imgdir+"/"+imgname
        if not os.path.exists(savefile):
            sendhttp_rult=sendhttp(getimgurl,imgobj.hostname,savefile)
            if sendhttp_rult:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request succ,getimg:"+imgurl
            else:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request fail,getimg:"+imgurl
        else:
            pass
#获取价格
def getprice(pricedir,priceurl):
        priceobj=urlparse(priceurl)
        getpriceurl=priceobj.path+"?"+priceobj.query
        pricename="price"
        if not os.path.exists(pricedir):
            try:
                os.makedirs(pricedir)
            except Exception,e:
                print e
        savefile=pricedir+"/"+pricename
        if not os.path.exists(savefile):
            sendhttp_rult=sendhttp(getpriceurl,priceobj.hostname,savefile)
            if sendhttp_rult:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request succ,getprice:"+priceurl
            else:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request fail,getprice:"+priceurl
        else:
            pass
        with open(savefile) as file:
            price_content=file.read()
        price_content=re.compile('cnp\\(\\[|\\]\\);').sub('',price_content)
        price_dic={"id":"0","p":"0","m":"0"}
        if re.search(r':',price_content):
            try:
                price_dic=json.loads(price_content)#以免数据格式不对悲剧
            except Exception,e:
                print e
        return  {"jdprice":price_dic['p'],'refprice':price_dic['m']}
#获取最后页面的具体内容
def getfinalurl_content(partlists,listpageurl,finalparseurl):
        parseFinallyurl_rult=parseFinallyurl(finalparseurl)
        htmlname_tmp=urlparse(finalparseurl).path
        imgtopdir_tmp="img/"+htmlname_tmp.split('/')[1][0:2]
        imgdir=imgtopdir_tmp+htmlname_tmp+"/introduction"
        imgshowdir=imgtopdir_tmp+htmlname_tmp+"/show"
        partdetail_tmp=""
        for imgurl in parseFinallyurl_rult['partimgs']:#获取商品介绍的图片
            getimg(imgdir,imgurl)
        for imgshowurl in parseFinallyurl_rult['partimgs_show']:#获取展示图片
            getimg(imgshowdir,imgshowurl)
        for key in parseFinallyurl_rult['partdetail'].keys():
            partdetail_tmp=partdetail_tmp+key+"$$"+parseFinallyurl_rult['partdetail'][key]+","#商品介绍
        specification_tmp=""
        i=0
        for specification_var in  parseFinallyurl_rult["specification"]:#规格参数
            if i==0:
                str_slip=""
            elif(i%2==0  and i!=0 ):
                str_slip=","
            else:
                str_slip="$$"
            specification_tmp=specification_tmp+str_slip+specification_var
            i=i+1
        typeOrsize_tmp=""
        for typeOrsize_var in parseFinallyurl_rult['typeOrsize']:
            typeOrsize_tmp=typeOrsize_tmp+","+typeOrsize_var
        priceurl="http://p.3.cn/prices/get?skuid=J_"+htmlname_tmp.split('/')[1].split('.')[0]+"&type=1&area=6_309_312&callback=cnp"
        pricedir="price/"+htmlname_tmp.split('/')[1][0:2]+htmlname_tmp
        getprice_dic=getprice(pricedir,priceurl)
        parseFinallyurl_rult["jdprice"]=getprice_dic['jdprice']
        parseFinallyurl_rult["refprice"]=getprice_dic['refprice']
        #partlists[listpageurl])：商品分类
        #finalparseurl，页面的url
        #parseFinallyurl_rult["title"])：标题
        #parseFinallyurl_rult["jdprice"]：京东的价格
        #parseFinallyurl_rult["refprice"]：市场参考价格
        #imgshowdir：商品展示的图片保存位置
        #imgdir：商品说明的图片保存位置：jd的商品说明也是用图片的
        #partdetail_tmp:商品的详细信息
        #specification_tmp:商品的规则参数
        #typeOrsize_tmp:商品的类型和尺寸
        return str(partlists[listpageurl]).strip()+"\t"+finalparseurl.strip()+"\t"+str(parseFinallyurl_rult["title"]).strip()+"\t"+str(parseFinallyurl_rult["jdprice"]).strip()\
               +"\t"+str(parseFinallyurl_rult["refprice"]).strip()+"\t"+imgshowdir.strip()+"\t"+imgdir.strip()+"\t"+partdetail_tmp.strip()+"\t"+specification_tmp.strip()+"\t"+\
               typeOrsize_tmp.strip()


#判断最后的页面（商品详情页）是否被爬取了
def judgeurl(url):#优化后，使用二分法查找url(查找快了，同时也不用反复读取文件了)。第一次加载judgeurl_all_lines之后，维护好此list，同时新增的url也保存到judgeurl.txt中
    url=url+"\n"
    global judgeurl_all_lines
    find_url_flag=False
    url_point=bisect.bisect(judgeurl_all_lines,url)#这里使用二分法快速查找（前提：list是排序好的）
    find_url_flag = judgeurl_all_lines and judgeurl_all_lines[url_point-1] == url
    return find_url_flag

    
    
    
#判断list页面是否已经爬取完毕了
#这里的逻辑是：第一个list中的所有url、最后list的所有url都爬取完毕了，那么久说明list的所有page爬取完毕了（实际上是一种弱校验）。
#调用了judgeurl得方法
def judgelist(listpageurl,finallylistpageurl):#判断第一个、最后一个的list页面的所有的html是否下载完毕，以此判断该类型是否处理完毕
    judgelist_flag=True
    parseListpageurl_rult_finally=parseListpageurl(finallylistpageurl)
    finalparseurls_deep_finally=list(parseListpageurl_rult_finally['finalparseurls'])#获取到最后的需要解析的url的列表
    parseListpageurl_rult_first=parseListpageurl(listpageurl)
    finalparseurls_deep_first=list(parseListpageurl_rult_first['finalparseurls'])#获取到最后的需要解析的url的列表
    for finalparseurl in finalparseurls_deep_finally:
        #print finalparseurl
        if judgeurl(finalparseurl):
            pass
        else:
            judgelist_flag=False
            break
    if judgelist_flag==True:
        for finalparseurl_first in finalparseurls_deep_first:
            #print finalparseurl
            if judgeurl(finalparseurl_first):
                pass
            else:
                judgelist_flag=False
                break
    return judgelist_flag
#整体控制的run方法
def run():
    partlists={'http://list.jd.com/list.html?cat=737,794,870':'空调'}
    partlistskeys=partlists.keys()
    for listpageurl in partlistskeys:
        parseListpageurl_rult=parseListpageurl(listpageurl)#开始解析list页面，如：http://list.jd.com/list.html?cat=737,794,870
        totalPageNo=parseListpageurl_rult['totalPageNo']#获取该list总共有多少页
        #print 'debug:totalPageNo',totalPageNo
        finallylistpageurl=listpageurl+'&page='+str(int(totalPageNo)+1)+'&JL=6_0_0'#拼接出最后一个list页面（list页面有1、2、3。。。n页）
        #print 'debug:finallylistpageurl ',finallylistpageurl
        if judgelist(listpageurl,finallylistpageurl):#如果该list已经爬取完毕了。那么，就跳过这个list
            print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+',All html done for '+str(listpageurl)+":"+str(partlists[listpageurl])+"【Done Done】,【^_^】"
            continue
        else:#否则就逐个沿着list，从其第1页，开始往下爬取
            for i in range(1,int(totalPageNo)+2):
                finalparseurl=''
                listpageurl_next=listpageurl+'&page='+str(i)+'&JL=6_0_0'
                #print "debug:listpageurl_next",listpageurl_next
                parseListpageurl_rult=parseListpageurl(listpageurl_next)
                totalPageNo=parseListpageurl_rult['totalPageNo']#需要更行总的页面数量，以免数据陈旧
                finalparseurls_deep=list(parseListpageurl_rult['finalparseurls'])
                for finalparseurl in finalparseurls_deep:
                    if judgeurl(finalparseurl):#判断该具体的url是否已经爬取
                        print 'finalparseurl pass yet:'+finalparseurl
                        pass
                    else:
                        finalurl_content=getfinalurl_content(partlists,listpageurl,finalparseurl)
                        finalparseurl_tmp=finalparseurl+"\n"
                        with open("data.txt","a") as datafile:#将爬取完毕好的url写入data.txt
                            datafile.writelines(finalurl_content+"\n")
                        with open("judgeurl.txt","a") as judgefile:#将已经爬取好的url写入judgeurl.txt
                            judgefile.writelines(finalparseurl+"\n")
                        bisect.insort_right(judgeurl_all_lines,finalparseurl+"\n")
#主方法
if __name__ == '__main__':
    reload(sys)
    sys.setdefaultencoding('utf8')#设置系统默认编码是utf8
    socket.setdefaulttimeout(5)#设置全局超时时间
    global judgeurl_all_lines#设置全局变量
    #不存在文件就创建文件,该文件用于记录哪些url是爬取过的，如果临时中断了，可以直接重启脚本即可
    if not os.path.exists("judgeurl.txt"):
        with open("judgeurl.txt",'w') as judgefile:
            judgefile.close()
    #每次运行只在开始的时候读取一次，新产生的数据（已怕去过的url）也会保存到judgeurl.txt
    with open("judgeurl.txt","r") as judgefile:
        judgeurl_all_lines=judgefile.readlines()
    judgeurl_all_lines.sort()#排序，因为后面需要使用到二分查找，必须先排序
    #启多个线程去爬取
    Thread(target=run(),args=()).start()
    Thread(target=run(),args=()).start()
    #Thread(target=run(),args=()).start()

你可能感兴趣的:(网站,爬虫,python,python)

华为OD机试 - 最长回文字符串（C++ Java JavaScript Python） YOLO大师华为 c++java 算法华为od
题目描述如果一个字符串正读和反渎都一样（大小写敏感），则称它为一个「[回文串]，例如：leVel是一个「回文串」，因为它的正读和反读都是leVel；同理a也是「回文串」art不是一个「回文串」，因为它的反读tra与正读不同Level不是一个「回文串」，因为它的反读leveL与正读不同（因大小写敏感）给你一个仅包含大小写字母的字符串，请用这些字母构造出一个最长的回文串，若有多个最长的，返回其中字典序
自用力扣刷题记录（Python，数组、字符串） qq_40283123
文章目录一.数组69744844241274453最小操作次数使数组元素相等665非递减数列283移动的零118杨辉三角形119杨辉三角形2661图片平滑器598范围求和II419夹板上的战舰189旋转数组396旋转函数54螺旋矩阵59螺旋矩阵II498对角线遍历566重塑矩阵48旋转图像73矩阵置零289生命游戏303区域和检索-数组不可变304二维区域和检索-矩阵不可变238除自身以外数组的乘
2021-05-25 张辣鸡爬虫记录 python 爬虫
解决12306抢票系统弹出来的弹窗问题应为疫情原因进入12306网站登陆界面弹出来这样一个界面进入登陆界面的网站，把鼠标放在确定的位置右键点击检查，找到#我把它放在另一个函数中，这样调用就可以了defclick_ok1(self):bounce_button=driver.find_element_by_css_selector(".btn.btn-primary.ok")bounce_butto
Python 进程和线程-进程 vs. 线程赔罪 Python 系统学习 python 开发语言
目录ThreadLocal小结进程vs.线程线程切换计算密集型vs.IO密集型异步IOThreadLocal在多线程环境下，每个线程都有自己的数据。一个线程使用自己的局部变量比使用全局变量好，因为局部变量只有线程自己能看见，不会影响其他线程，而全局变量的修改必须加锁。但是局部变量也有问题，就是在函数调用的时候，传递起来很麻烦：defprocess_student(name):std=Student
一个数如果恰好等于它的因子之和，这个数就称为“完数“。例如6=1＋2＋3.编程找出1000以内的所有完数。-多语言赔罪 Practice questions 算法 java c语言 javascript python
目录C语言实现Python实现Java实现Js实现题目：一个数如果恰好等于它的因子之和，这个数就称为"完数"。例如6=1＋2＋3.编程找出1000以内的所有完数。完数（PerfectNumber）是一个正整数，它等于其所有正因子（不包括自身）的和。换句话说，如果一个数n的所有正因子（除了n本身）相加的结果等于n，那么n就是一个完数。完数的性质完数是稀有的，已知的完数都是偶数。根据欧几里得的定理，完
Python中的代码测试小白的高手之路 python学习 python 开发语言
编写函数或类时，可以为其编写测试。通过测试，可以确定代码面对各种输入都能正确按要求工作。在程序中添加新代码时，依然可以对其进行测试，确认它们不会影响原有的代码。1、测试函数先编写一个简单的函数：name_fun.pydefget_name(first,last):"""生成全名"""name=first+''+lastreturnname.title()name.pyfromname_funimp
Python----数据分析（Pandas四：一维数组Series的统计计算，分组和聚合）蹦蹦跳跳真可爱589 数据分析 Python pandas python 数据分析
一、统计计算1.1、count用于计算Series中非NaN（非空）值的数量。importpandasaspds=pd.Series([1,2,None,4,None])count_non_na=s.count()print(count_non_na)1.2、sumsum()函数会计算所有值的总和。Series.sum(axis=None,skipna=True,numeric_only=None
Python----数据分析（Pandas三：一维数组Series的数据操作：数据清洗，数据转换，数据排序，数据筛选，数据拼接）蹦蹦跳跳真可爱589 数据分析 Python python 数据分析 pandas
一、数据清洗1.1、dropna()删除包含NaN值的行。series.dropna(axis=0,inplace=False)描述说明axis可选参数，用于指定按哪个轴删除缺失值。对于Series对象，因为它是一维数据结构，只有一个轴，所以此参数默认值为0，且一般不需要修改这个参数（在处理DataFrame时该参数才有更多实际意义，如除，axis=1表示按列删除）。inplace可选参数，用于指
深度学习处理时间序列（2） yyc_audio 深度学习笔记深度学习人工智能
在数据中寻找周期性在多个时间尺度上的周期性，是时间序列数据非常重要且常见的属性。无论是天气、商场停车位使用率、网站流量、杂货店销售额，还是健身追踪器记录的步数，你都会看到每日周期性和年度周期性（人类生成的数据通常还有每周的周期性）。探索数据时，一定要注意寻找这些模式。（让人想到波，想到傅里叶变换）对于这个数据集，如果你想根据前几个月的数据来预测下个月的平均温度，那么问题很简单，因为数据具有可靠的年
【手把手教你-Python】如何让 Flask 根据现有表结构生成 SQLAlchemy 模型文件？ EricLing2022 python flask 开发语言 sql database
首先你要具备一定Python基础，了解Flask框架，以及数据库工具SQLAchemy。为什么会有这个需求？在使用Python编写项目代码时，假设数据库中的表已经存在，我们需要根据现有的表结构来编写SQLAlchemy模型文件。为了避免逐行编写代码，我们可以使用一个工具来“一键生成”模型文件，那就是sqlacodegen。准备工作Python版本：3.11.5（只要是3.xx版本应该都可以）安装好
数组逆序重放 crmeb专业二开 python 开发语言
数组逆序重放的意思是将数组的元素逆序排列，然后重新放回原数组中。这个操作可以在很多编程语言中实现，例如Python、Java等。下面是一个Python的示例代码，可以实现这个操作：defreverse_and_rearrange(arr):#反转数组arr.reverse()#重新放回原数组result=[]foriinrange(len(arr)):result.append(arr[i])re
Python 程序运行过程 iteye_20309 python c/c++数据库
一.Python解释器Python是一门编程语言，同时也是一个解释器的软件包。解释器是一种让其他程序运行起来的程序。当你编写了一段Python程序，Python解释器将读取程序，并按照其中的命令执行，得出结果。解释器是代码与计算机硬件之间的软件逻辑层。当Python包安装后，它包含了一些最小化的组件：一个解释器和支持的库。根据使用情况的不同，Python解释器可能采取可执行程序的形式，或者作为链接
python记录6from flask import Flaskapp = Flask(__name__) @app.route(‘/‘)def hello_world(): retu 我讨厌python python 开发语言后端
利用pycharm实现视频分镜1.下载pip3installpycharm或者官网下载2.网页显示文字步骤想要在网页上显示：Hello，World!第一步先在PyCharm上新建项目然后在main.py中输入以下代码fromflaskimportFlaskapp=Flask(__name__)@app.route('/')defhello_world():return'Hello,World!'i
将一个数组逆序输出。-多语言赔罪 Practice questions 算法数据结构 python c语言 java javascript
目录C语言实现方法1:交换元素方法2:使用辅助数组方法3:使用递归方法4:使用标准库函数（C99及以上）总结Python实现方法1:交换元素方法2:使用切片方法3:使用reversed()函数方法4:使用list.reverse()方法方法5:使用for循环和append()总结Java实现方法1:交换元素方法2:使用Collections.reverse()方法（适用于对象数组）方法3:使用递归
app=Flask(__name__)中的__name__的意义 BirdMan98 flask python 后端
在app=Flask(__name__)这行代码中，Flask(__name__)用于初始化Flask应用对象，而__name__这个参数的作用主要是确定应用的根路径，影响Flask如何查找资源，如静态文件、模板等。1.__name__是Python内置变量__name__在Python模块中表示当前模块的名称：如果Python文件被直接运行，__name__的值为"__main__"。如果Pyt
使用yolov8+flask实现精美登录界面+图片视频摄像头检测系统 FL1623863129 深度学习 YOLO flask python
这个是使用flask实现好看登录界面和友好的检测界面实现yolov8推理和展示，代码仅仅有2个html文件和一个python文件，真正做到了用最简洁的代码实现复杂功能。测试通过环境：windowsx64anaconda3+python3.8ultralytics==8.3.81flask==1.1.2torch==2.3.0运行步骤：安装好环境执行pythonlogin.py后端实现代码：from
python 解决 ‘win32api’ 模块找不到的问题 xybf python python 开发语言
出现这个问题可能是因为升级至python3.10之后，会遗漏两个重要的dll:`pythoncom310.dll`和`pywintypes310.dll`。解决方案就是在python目录下运行`pythonScripts/pywin32_postinstall.py-install`，然后这两个文件就会被创建在`C:\Windows\System32`或者是python目录下。如果这两个地方都找不
AI编程篇-python基础篇 cv工程师(ctrl+c\v) AI编程 python
转型AI算法后的总结-python基础篇python基础AI算法工程师的日常开发工作离不开python这门语言。python的优点：开源免费、简单易学、丰富的库。以下是我总结的python的一些基础：1.python及IDE工具安装对于初学者来说，python的安装是必不可少的，但是为了方便代码编辑和查看结果及debug，可以安装pycharm社区版暂时用来前期学习：python安装及注意事项：下
torch-torchvision-python版本对应问题 Thirtyaoe python 深度学习 pytorch
module‘torch.onnx.symbolic_helper’hasnoattribute‘quantized_args’今日在联系pytorch时，importtorchvision时报错：module‘torch.onnx.symbolic_helper’hasnoattribute‘quantized_args’查阅后发现是版本不兼容的问题，于是查看了正确的对应版本，对自己的进行修改。
torchvision与torch的版本冲突 RanGriffin python pytorch
在importtorchvision时报错：UserWarning:FailedtoloadimagePythonextension:[WinError127]解决在晚上查询之后，问题在于自己的torchvision版本与torch版本不对应。首先查询自己的torch和torchvision版本importtorchprint(torch.__version__)importtorchvision
xodooIP地址定位 odoo实施 XODOO PRO Xodoo odoo python
//src/packages/python/geoip2.rs实现特点：跨平台支持：通过Rust原生实现，兼容Windows、Linux、macOS等主流操作系统类型安全：使用Rust的Option类型处理可能缺失的字段严格校验IP地址格式自动处理编码转换性能优化：数据库文件只加载一次内存映射方式读取数据零拷贝解析技术错误处理：明确的错误类型（IOError/ValueError）友好的错误提示信
警告 torch.nn.utils.weight_norm is deprecate 的参考解决方法 wongHome 深度学习相关调试问题 Ubuntu pytorch
文章目录写在前面一、问题描述二、解决方法参考链接写在前面自己的测试环境：Ubuntu20.04一、问题描述运行pytorch程序，如下如下警告/home/wong/ProgramFiles/anaconda3/envs/pytorch_env/lib/python3.8/site-packages/torch/nn/utils/weight_norm.py:30:UserWarning:torch
如何用Python绘制柱状图堆叠图？上官美丽技术分享 python 开发语言
在数据分析和可视化的过程中，柱状图是一种非常常用的图表类型。它能清晰地展示不同类别之间的比较。而堆叠柱状图则是在此基础上，能够展示各个部分在整体中的占比！今天，我们来聊聊如何使用Python绘制堆叠柱状图，帮助你更好地理解数据。我们将使用一个非常流行的库：Matplotlib。准备工作首先，你需要确保安装了Matplotlib库。如果还没有安装，可以通过以下命令来安装：pipinstallmatp
python socket库详解 mosquito_lover1 python websocket
socket是Python标准库中的一个模块，提供了对底层网络通信的接口，允许开发者进行网络编程。通过socket你可以创建客户端和服务器应用程序，实现网络通信。1.基本概念-Socket：是网络通信的端点，用于在不同主机之间或同一主机上的不同进程之间进行数据传输。-IP地址：标识网络中的设备。-端口号：标识设备上的特定进程或服务。-协议：常用的协议有TCP（传输控制协议）和UDP（用户数据报协议
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（
C/C++框架和库推荐大王算法 C++入门及项目实战宝典 C/C++开发实战365 C++
值得学习的C语言开源项目-1.WebbenchWebbench是一个在Linux下使用的非常简单的网站压测工具。它使用fork()模拟多个客户端同时访问我们设定的URL，测试网站在压力下工作的性能，最多可以模拟3万个并发连接去测试网站的负载能力。Webbench使用C语言编写,代码实在太简洁，源码加起来不到600行。下载链接：http://home.tiscali.cz/~cz210552/web
踩坑：VirtualBox：安装提示缺少python core和win32 api 过去的了 linux python
一、安装OracleVirtualBox时出现以下现象内容提示：安装OracleVMVirtualBox7.0.24的Python绑定需要先安装PythonCore包和win32api绑定。如果现在继续安装OracleVMVirtualBox7.0.24的Python绑定，那么这些依赖项需要在之后手动设置。用户可以参考OracleVMVirtualBox7.0.24SDK手册获取更多信息。如果忽视
YOLO11 环境安装你喜欢喝可乐吗？ conda deep learning 人工智能 conda
1.安装Anaconda/Miniconda在Ubuntu中安装MinicondaAnaconda/Minicondapip配置清华镜像源Anaconda/Miniconda基本操作命令2.创建python虚拟环境#创建condacreate-nyolo11_envpython=3.12#激活condaactivateyolo11_env3.安装pytorch#Pytorchhttps://pyt
Python3 【项目实战】深度解析：赛跑成绩统计分析工具李智 - 重庆 Python 精讲精练 -从入门到实战 python 案例学习编程技巧时间处理项目实战
Python3【项目实战】深度解析：赛跑成绩统计分析工具一、项目概述1.开发背景：田径比赛的成绩统计需要快速准确的计算选手成绩，传统人工计时和统计效率低且易出错。本工具通过程序化处理赛跑数据，自动计算各选手成绩及整体统计指标，主要应用于：学校运动会成绩实时统计田径锦标赛的自动化成绩公示运动员训练数据分析2.技术定位：时间数据处理与统计计算的典型案例字典数据结构的实践应用面向过程编程的教学范例二、项
国内外AI搜索产品盘点 Suee2020 人工智能
序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2GensparkAIAgent搜索引擎https://www.genspark.aiMainFunc（景鲲、朱凯华）3Kimi.ai智能助手https://kimi.moonshot.cn/月之暗面（杨植麟）4秘塔AI搜索AI搜索引擎http
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc