weixin_33811539

python爬虫实战,多线程爬取京东jd html页面：无需登录的网站的爬虫实战

【前言】

# 本脚本用来爬取jd的页面：http://list.jd.com/list.html?cat=737,794,870到
# ......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片。
# 本脚本仅用于技术交流，请勿用于其他用途
# by River
# qq : 179621252
# Date : 2014-12-02 19:00:00

【需求说明】

以京东为示例，爬取页面的，获取页面中得数据：记录到data.txt；获取页面中得图片，保存下来。

1、list的url如下

2、商品详情页的url如下：

【技术说明】

使用了python的以下库
import os#检查文件是否存在等
from HTMLParser import HTMLParser#用于解析html的库，有坑：如果2.6的python，可能悲剧
import httplib,re#发起http请求
import sys,json,datetime,bisect#使用了二分快速查找
from urlparse import urlparse#解析url，分析出url的各部分功能
from threading import Thread#使用多线程
import socket #设置httplib超时时间

【代码逻辑说明】

1、run（获取最终要的结果）

2、parseListpageurl：返回list的总共的页面数量

3、judgelist：判断该list是否已经爬取完毕了，第一个list中的所有url、最后list的所有url都爬取完毕了，那么久说明list的所有page爬取完毕了（实际上是一种弱校验）

4、getfinalurl_content：如果list没爬取完毕，每个list爬取，解析list中得每个html（判断html是否爬取过），获得内容和img

【坑说明】

1、需要设置超时时间，和重试，否则爬取一个url卡住的时候，整个线程都悲剧了。

2、有编码的坑，如果页面是gb2312的编码，需要转换为utf-8的编码：httprestmp.decode('gbk').encode('utf-8')

3、parser.feed的内容，如果存在一些特殊字符，可能需要替换，否则解析出来会莫名不对

4、图片保存，根据url获取前面两个数字，保存。以免一个目录下保存了过多的图片。

【执行结果】

1、console输出

2、data.txt存储解析出来的内容

3、judegurl.txt（保存已经爬取过的url）

4、图片（下载的图片）

【代码详情】

# -*- coding: utf-8 -*-

__author__ = 'River'

# 本脚本用来爬取jd的页面：http://list.jd.com/list.html?cat=737,794,870到
# ......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片。

# 本脚本仅用于技术交流，请勿用于其他用途
# by River
# qq : 179621252
# Date : 2014-12-02 19:00:00


import os#创建文件
from HTMLParser import HTMLParser#用于解析html的库，有坑：如果2.6的python，可能悲剧
import httplib,re#发起http请求
import sys,json,datetime,bisect#使用了二分快速查找
from urlparse import urlparse#解析url，分析出url的各部分功能
from threading import Thread#使用多线程
import socket #设置httplib超时时间
#定义一个ListPageParser，用于解析ListPage，如http://list.jd.com/list.html?cat=737,794,870


#htmlparser的使用简介
#定义intt方法：需要使用到得属性
#定义handle_starttag，处理你想分析的tag的具体操作
#定义handle_data，遇到你定义的情况，获取相应标签的data
#定义你获取最终返回的各种数据
class ListPageParser(HTMLParser):
    def __init__(self):
        self.handledtags=['a']
        self.processing=None
        self.flag=''
        self.link=''
        self.setlinks=set()##该list页面中包含的每个商品的url，定义为set，主要是为了使用其特性：去重
        self.pageNo=1
        self.alldata=[]
        self.lasturl=""#指的最后一页的url如10
        HTMLParser.__init__(self)
    def handle_starttag(self, tag, attrs):
        pattern = re.compile(r'^[0-9]{2,}')
        pattern2=re.compile(r'^http:\/\/item.jd.com\/\d{1,10}.html$')#取出link
        pattern3=re.compile(r'^http:\/\/list.jd.com\/list.html\?cat=\d{0,9}%2C\d{0,9}%2C\d{0,9}&page=*')#取出link
        #attrs是属性的list，每个属性（包含key，value）又是一个元组
        #创维酷开(coocaa) K50J 50英寸八核智能wifi网络安卓平板液晶电视(黑色)
        #已上为例子：判断了该list的长度为3（其他的a标签就被过滤了）
        if tag in self.handledtags and len(attrs)==3 :#非常关键的是，找出你想的url和不想要的url的区别
            #print "debug:attrs",attrs
            self.flag=''
            self.data=''
            self.processing=tag
            for target,href in attrs:#非常关键的是，找出你想的url和不想要的url的区别
                if pattern2.match(href):#再加一层判断，如果匹配上pattern2，说明是我们想要的url
                    self.setlinks.add(href)
                else:
                    pass
        #怎样获取list中最后一页的url？分析吧：10
        #1、长度为1
        #2，href是由规则的：cat=737%2C794%2C798&page=10&JL=6_0_0，所以，以下代码就出来了
        if tag in self.handledtags and len(attrs)==1 :
            self.flag=''
            self.data=''
            self.processing=tag
            for href,url in attrs:#非常关键的是，找出你想的url和不想要的url的区别
                #print 'debug:attrs',attrs
                if pattern3.match(url):
                    #print 'debug:url',url
                    self.lasturl=url
                else:
                    pass
    def handle_data(self, data):
        if self.processing:#去掉空格
            pass#其实这里我们根本没使用获取到得data，就pass把
        else:
            pass
    def handle_endtag(self, tag):
        if tag==self.processing:
            self.processing=None
    def getlinks(self):
        return self.setlinks
    def getlasturl(self):
        return self.lasturl

        
#定义一个FinallPageParser，用于解析最终的html页面，如http://item.jd.com/1258277.html
#FinallPageParser的定义过程参考上个parser，关键是怎样分析页面，最终写出代码，并且验证，这里就不详细说了
class FinallPageParser(HTMLParser):
    def __init__(self):
        self.handledtags=['div','h1','strong','a','del','div','img','li','span','tbody','tr','th','td','i']
        self.processing=None
        self.title=''
        self.jdprice=''
        self.refprice=''
        self.partimgs_show=set()#展示图片
        self.partimgs=set()#详情图片
        self.partdetail={}#商品详情，参数等
        self.specification=[]#规格参数
        self.typeOrsize=set()#尺码和类型
        self.div=''
        self.flag={}
        self.flag['refprice']=''
        self.flag['title']=''
        self.flag['jdprice']=''
        self.flag['typeOrsize']=''
        self.flag['partimgs']=''
        self.flag['partdetail']=''
        self.flag['specification']=''
        self.flag['typeOrsize']=''
        self.link=''
        self.partslinks={}
        HTMLParser.__init__(self)
    def handle_starttag(self, tag, attrs):
        self.titleflag=''
        self.flag['refprice']=''
        self.flag['title']=''
        self.flag['jdprice']=''
        self.flag['typeOrsize']=''
        self.flag['partimgs']=''
        self.flag['partdetail']=''
        self.flag['specification']=''
        self.flag['typeOrsize']=''
        if tag in self.handledtags:
            self.data=''
            self.processing=tag
            if tag=='div':
                for key,value in attrs:
                    self.div=value# 取出div的name，判断是否是所需要的图片等元素
            if tag=='i':
                self.flag['typeOrsize']='match'
            if tag=='a' and len(attrs)==2:
                tmpflag=""
                for key,value in attrs:
                    if key=='href' and re.search(r'^http:\/\/item.jd.com\/[0-9]{1,10}.html$',value):
                        tmpflag="first"
                    if key=='title' and value!="":
                        tmpflag=tmpflag+"second"
                if tmpflag== "firstsecond":
                    self.flag['typeOrsize']='match'
            if tag=='h1':
                self.flag['title']='match'
            if tag=='strong' and len(attrs)==2:
                for tmpclass,id in attrs:
                    if id=='jd-price':
                        self.flag['jdprice']='match'
            if tag=='del':
                self.flag['refprice']='match'
            if tag=='li':
                self.flag['partdetail']='match'
            if tag=='th' or tag=='tr' or tag=='td' :#++++++++############################################879498.html td中有br的只取到第一个,需要把
喜欢为“”
                self.flag['specification']='match'
            if tag=='img' :
                imgtmp_flag=''
                imgtmp=''
                for key,value in attrs:
                    if re.search(r'^http://img.*jpg|^http://img.*gif|^http://img.*png',str(value)) and (key=='src' or key=='data-lazyload'):
                        imgtmp=value
                    if key== 'width':############可能还有logo
                        if re.search(r'^\d{1,9}$',value):
                            if int(value)<=160:
                                imgtmp_flag='no'
                                break
                if self.div=="spec-items" and imgtmp!='':
                    imgtmp=re.compile("/n5/").sub("/n1/",imgtmp)
                    self.partimgs_show.add(imgtmp)
                elif imgtmp_flag!='no' and imgtmp!='':
                    self.partimgs.add(imgtmp)#
    def handle_data(self, data):
        if self.processing:
            self.data+=data
            if self.flag['title']=='match':#获取成功
                self.title=data
            if self.flag['jdprice']=='match':
                self.jdprice=data.strip()
            if self.flag['typeOrsize']=='match':
                self.typeOrsize.add(data.strip())
            if self.flag['refprice']=='match':
                self.refprice=data.strip()
            if self.flag['partdetail']=='match' and re.search(r'：',data):#获取成功
                keytmp=data.split("：")[0].strip()
                valuetmp=data.split("：")[1].strip()
                self.partdetail[keytmp]=valuetmp
            if self.flag['specification']=='match' and data.strip() != '' and data.strip()!='主体':
                self.specification.append(data.strip())
        else:
            pass
    def handle_endtag(self, tag):
        if tag==self.processing:
            self.processing=None
    def getdata(self):
        return {'title':self.title,'partimgs_show':self.partimgs_show,'jdprice':self.jdprice,'refprice':self.refprice,'partimgs':self.partimgs,'partdetail':self.partdetail,'specification':self.specification,'typeOrsize':self.typeOrsize}
#定义方法httpread，用于发起http的get请求，返回http的获取内容
#这也是代码抽象的结果，如若不抽象这块代码出来，后续你回发现很多重复的写这块代码
def httpread(host,url,headers):
    httprestmp=''
    try:
        conn = httplib.HTTPConnection(host)
        conn.request('GET',url,None,headers)
        httpres = conn.getresponse()
        httprestmp=httpres.read()
    except Exception,e:
        conn = httplib.HTTPConnection(host)
        conn.request('GET',url,None,headers)
        httpres = conn.getresponse()
        httprestmp=httpres.read()
        print e
    finally:
        if conn:
            conn.close()
    return httprestmp
#定义方法sendhttp，调用httpread，获取结果并替换编码（gbk换为utf-8），并保存到文件中（以免下次再去下载页面，这样就节省了时间）
#
def sendhttp(url,host,savefile):
    #定义http头部，很多网站对于你不携带User-Agent及Referer等情况，是不允许你爬取。
    #具体的http的头部有些啥信息，你可以看chrome，右键审查元素，点击network，点击其中一个链接，查看request header
    headers = {"Host":host,
               "Origin":"http://www.jd.com/",
               "Referer":"http://www.jd.com/",
                "Content-type": "application/x-www-form-urlencoded; charset=UTF-8",
                "Accept": "text/html;q=0.9,p_w_picpath/webp,*/*;q=0.8",
               "User-Agent":"Mozilla/3.0 AppleWebKit/537.36 (KHTML,Gecko) Chrome/3.0.w4.",
               "Cookie":"__utmz=qwer2434.1403499.1.1.utmcsr=www.jd.com|utmccn=(refrral)|utmcmd=rferral|utmcct=/order/getnfo.action; _pst=xx89; pin=x9; unick=jaa; cshi3.com=D6045EA24A6FB9; _tp=sdyuew8r9e7r9oxr3245%3D%3D; user-key=1754; cn=0; ipLocation=%u7F0C; ipLoc97; areaId=1; mt_ext2%3a%27d; aview=6770.106|68|5479.665|675.735|6767.100|6757.13730|6ee.9ty711|1649.10440; atw=65.15.325.24353.-4|188.3424.-10|22; __j34|72.2234; __jdc=2343423; __jdve|-; __jdu=3434"
    }
    httprestmp=''
    try:
        httprestmp=httpread(host,url,headers)
        if httprestmp=='':#
            httprestmp=httpread(host,url,headers)
            if  httprestmp=='':#重试2次
                httprestmp=httpread(host,url,headers)
    except Exception,e:
        try:
            httprestmp=httpread(host,url,headers)
            if httprestmp=='':#
                httprestmp=httpread(host,url,headers)
                if  httprestmp=='':#重试2次
                    httprestmp=httpread(host,url,headers)
        except Exception,e:
            print e
        print e
    if  re.search(r'charset=gb2312',httprestmp):#如果是gb2312得编码，就要转码为utf-8（因为全局都使用了utf-8）
        httprestmp.replace("charset=gb2312",'charset=utf-8')
        try:
            httprestmp=httprestmp.decode('gbk').encode('utf-8')#有可能转码失败，所以要加上try
        except Exception,e:#如果html编码本来就是utf8或者转换编码出错的时候，就啥都不做，就用原始内容
            print e
    try:
        with  open(savefile, 'w') as file_object:
            file_object.write(httprestmp)
            file_object.flush()
    except Exception,e:
        print e
    return httprestmp
#list的页面的解析方法
def parseListpageurl(listpageurl):
        urlobj=urlparse(listpageurl)
        if urlobj.query:
            geturl=urlobj.path+"?"+urlobj.query
        else:
            geturl=urlobj.path
        htmlfile="html/list"+geturl
        if not os.path.exists(htmlfile):
            httpresult=sendhttp(geturl,urlobj.hostname,htmlfile)
        with  open(htmlfile) as file:
            htmlcontent=file.read()
        parser= ListPageParser()#声明一个解析对象
        #http://list.jd.com/list.html?cat=737%2C794%2C870&page=11&JL=6_0_0,所以这里需要把'amp;'去掉
        parser.feed(htmlcontent.replace('amp;',''))#将html的内容feed进去
        #print 'debug:htmlcontent',htmlcontent
        finalparseurl=parser.getlinks()#然后get数据即可
        lastpageurl=parser.getlasturl()
        urlobj_lastpageurl=urlparse(lastpageurl)
        #print 'debug:urlobj_lastpageurl',urlobj_lastpageurl
        totalPageNo='0'
        #print urlobj
        if re.search(r'&',urlobj_lastpageurl.query):
            try:
                totalPageNo=urlobj_lastpageurl.query.split("&")[1].split("=")[1]#获得总共有多少页
            except Exception,e:
                print "lastpageurl:"+str(lastpageurl)
                print e
        parseListpageurl_rult={'finalparseurls':finalparseurl,'totalPageNo':totalPageNo}
        if parseListpageurl_rult['finalparseurls'] !="" and parseListpageurl_rult['totalPageNo']!='':
            print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse listpageurl succ:"+listpageurl
        else:
            print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse listpageurl fail:"+listpageurl
        return parseListpageurl_rult
#最终的html页面的解析方法：会使用到html得解析器FinallPageParser
def parseFinallyurl(finallyurl):
        urlobj=urlparse(finallyurl)
        geturl=urlobj.path
        htmlfiledir="html/finally/"+geturl.split('/')[1][0:2]
        if not os.path.exists(htmlfiledir):
            try:
                os.makedirs(htmlfiledir)
            except Exception,e:
                print e
        htmlfile=htmlfiledir+geturl
        if not os.path.exists(htmlfile):
            httpresult=sendhttp(geturl,urlobj.hostname,htmlfile)
            if httpresult:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request succ,Finallyurl:"+finallyurl
            else:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request fail,Finallyurl:"+finallyurl
        with  open(htmlfile) as file:
            htmlcontent=file.read()
        parser= FinallPageParser()
        ##htmmparser遇到/>就表示tag结尾，所以必须替换，遇到
替换为BRBR，否则会解析失败
        htmlcontent=re.compile('
').sub('BRBR',htmlcontent)
        parser.feed(htmlcontent)
        finalparseurl=parser.getdata()
        if finalparseurl:
            print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse finalparseurl succ:"+finallyurl
        else:
            print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",parse finalparseurl fail:"+finallyurl
        return finalparseurl
#获取图片的方法
def getimg(imgdir,imgurl):
        imgobj=urlparse(imgurl)
        getimgurl=imgobj.path
        imgtmppathlist=getimgurl.split('/')
        imgname=imgtmppathlist[len(imgtmppathlist)-1]
        if not os.path.exists(imgdir):
            try:
                os.makedirs(imgdir)
            except Exception,e:
                print e
        savefile=imgdir+"/"+imgname
        if not os.path.exists(savefile):
            sendhttp_rult=sendhttp(getimgurl,imgobj.hostname,savefile)
            if sendhttp_rult:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request succ,getimg:"+imgurl
            else:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request fail,getimg:"+imgurl
        else:
            pass
#获取价格
def getprice(pricedir,priceurl):
        priceobj=urlparse(priceurl)
        getpriceurl=priceobj.path+"?"+priceobj.query
        pricename="price"
        if not os.path.exists(pricedir):
            try:
                os.makedirs(pricedir)
            except Exception,e:
                print e
        savefile=pricedir+"/"+pricename
        if not os.path.exists(savefile):
            sendhttp_rult=sendhttp(getpriceurl,priceobj.hostname,savefile)
            if sendhttp_rult:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request succ,getprice:"+priceurl
            else:
                print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+",sent http request fail,getprice:"+priceurl
        else:
            pass
        with open(savefile) as file:
            price_content=file.read()
        price_content=re.compile('cnp\\(\\[|\\]\\);').sub('',price_content)
        price_dic={"id":"0","p":"0","m":"0"}
        if re.search(r':',price_content):
            try:
                price_dic=json.loads(price_content)#以免数据格式不对悲剧
            except Exception,e:
                print e
        return  {"jdprice":price_dic['p'],'refprice':price_dic['m']}
#获取最后页面的具体内容
def getfinalurl_content(partlists,listpageurl,finalparseurl):
        parseFinallyurl_rult=parseFinallyurl(finalparseurl)
        htmlname_tmp=urlparse(finalparseurl).path
        imgtopdir_tmp="img/"+htmlname_tmp.split('/')[1][0:2]
        imgdir=imgtopdir_tmp+htmlname_tmp+"/introduction"
        imgshowdir=imgtopdir_tmp+htmlname_tmp+"/show"
        partdetail_tmp=""
        for imgurl in parseFinallyurl_rult['partimgs']:#获取商品介绍的图片
            getimg(imgdir,imgurl)
        for imgshowurl in parseFinallyurl_rult['partimgs_show']:#获取展示图片
            getimg(imgshowdir,imgshowurl)
        for key in parseFinallyurl_rult['partdetail'].keys():
            partdetail_tmp=partdetail_tmp+key+"$$"+parseFinallyurl_rult['partdetail'][key]+","#商品介绍
        specification_tmp=""
        i=0
        for specification_var in  parseFinallyurl_rult["specification"]:#规格参数
            if i==0:
                str_slip=""
            elif(i%2==0  and i!=0 ):
                str_slip=","
            else:
                str_slip="$$"
            specification_tmp=specification_tmp+str_slip+specification_var
            i=i+1
        typeOrsize_tmp=""
        for typeOrsize_var in parseFinallyurl_rult['typeOrsize']:
            typeOrsize_tmp=typeOrsize_tmp+","+typeOrsize_var
        priceurl="http://p.3.cn/prices/get?skuid=J_"+htmlname_tmp.split('/')[1].split('.')[0]+"&type=1&area=6_309_312&callback=cnp"
        pricedir="price/"+htmlname_tmp.split('/')[1][0:2]+htmlname_tmp
        getprice_dic=getprice(pricedir,priceurl)
        parseFinallyurl_rult["jdprice"]=getprice_dic['jdprice']
        parseFinallyurl_rult["refprice"]=getprice_dic['refprice']
        #partlists[listpageurl])：商品分类
        #finalparseurl，页面的url
        #parseFinallyurl_rult["title"])：标题
        #parseFinallyurl_rult["jdprice"]：京东的价格
        #parseFinallyurl_rult["refprice"]：市场参考价格
        #imgshowdir：商品展示的图片保存位置
        #imgdir：商品说明的图片保存位置：jd的商品说明也是用图片的
        #partdetail_tmp:商品的详细信息
        #specification_tmp:商品的规则参数
        #typeOrsize_tmp:商品的类型和尺寸
        return str(partlists[listpageurl]).strip()+"\t"+finalparseurl.strip()+"\t"+str(parseFinallyurl_rult["title"]).strip()+"\t"+str(parseFinallyurl_rult["jdprice"]).strip()\
               +"\t"+str(parseFinallyurl_rult["refprice"]).strip()+"\t"+imgshowdir.strip()+"\t"+imgdir.strip()+"\t"+partdetail_tmp.strip()+"\t"+specification_tmp.strip()+"\t"+\
               typeOrsize_tmp.strip()


#判断最后的页面（商品详情页）是否被爬取了
def judgeurl(url):#优化后，使用二分法查找url(查找快了，同时也不用反复读取文件了)。第一次加载judgeurl_all_lines之后，维护好此list，同时新增的url也保存到judgeurl.txt中
    url=url+"\n"
    global judgeurl_all_lines
    find_url_flag=False
    url_point=bisect.bisect(judgeurl_all_lines,url)#这里使用二分法快速查找（前提：list是排序好的）
    find_url_flag = judgeurl_all_lines and judgeurl_all_lines[url_point-1] == url
    return find_url_flag

    
    
    
#判断list页面是否已经爬取完毕了
#这里的逻辑是：第一个list中的所有url、最后list的所有url都爬取完毕了，那么久说明list的所有page爬取完毕了（实际上是一种弱校验）。
#调用了judgeurl得方法
def judgelist(listpageurl,finallylistpageurl):#判断第一个、最后一个的list页面的所有的html是否下载完毕，以此判断该类型是否处理完毕
    judgelist_flag=True
    parseListpageurl_rult_finally=parseListpageurl(finallylistpageurl)
    finalparseurls_deep_finally=list(parseListpageurl_rult_finally['finalparseurls'])#获取到最后的需要解析的url的列表
    parseListpageurl_rult_first=parseListpageurl(listpageurl)
    finalparseurls_deep_first=list(parseListpageurl_rult_first['finalparseurls'])#获取到最后的需要解析的url的列表
    for finalparseurl in finalparseurls_deep_finally:
        #print finalparseurl
        if judgeurl(finalparseurl):
            pass
        else:
            judgelist_flag=False
            break
    if judgelist_flag==True:
        for finalparseurl_first in finalparseurls_deep_first:
            #print finalparseurl
            if judgeurl(finalparseurl_first):
                pass
            else:
                judgelist_flag=False
                break
    return judgelist_flag
#整体控制的run方法
def run():
    partlists={'http://list.jd.com/list.html?cat=737,794,870':'空调'}
    partlistskeys=partlists.keys()
    for listpageurl in partlistskeys:
        parseListpageurl_rult=parseListpageurl(listpageurl)#开始解析list页面，如：http://list.jd.com/list.html?cat=737,794,870
        totalPageNo=parseListpageurl_rult['totalPageNo']#获取该list总共有多少页
        #print 'debug:totalPageNo',totalPageNo
        finallylistpageurl=listpageurl+'&page='+str(int(totalPageNo)+1)+'&JL=6_0_0'#拼接出最后一个list页面（list页面有1、2、3。。。n页）
        #print 'debug:finallylistpageurl ',finallylistpageurl
        if judgelist(listpageurl,finallylistpageurl):#如果该list已经爬取完毕了。那么，就跳过这个list
            print datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")+',All html done for '+str(listpageurl)+":"+str(partlists[listpageurl])+"【Done Done】,【^_^】"
            continue
        else:#否则就逐个沿着list，从其第1页，开始往下爬取
            for i in range(1,int(totalPageNo)+2):
                finalparseurl=''
                listpageurl_next=listpageurl+'&page='+str(i)+'&JL=6_0_0'
                #print "debug:listpageurl_next",listpageurl_next
                parseListpageurl_rult=parseListpageurl(listpageurl_next)
                totalPageNo=parseListpageurl_rult['totalPageNo']#需要更行总的页面数量，以免数据陈旧
                finalparseurls_deep=list(parseListpageurl_rult['finalparseurls'])
                for finalparseurl in finalparseurls_deep:
                    if judgeurl(finalparseurl):#判断该具体的url是否已经爬取
                        print 'finalparseurl pass yet:'+finalparseurl
                        pass
                    else:
                        finalurl_content=getfinalurl_content(partlists,listpageurl,finalparseurl)
                        finalparseurl_tmp=finalparseurl+"\n"
                        with open("data.txt","a") as datafile:#将爬取完毕好的url写入data.txt
                            datafile.writelines(finalurl_content+"\n")
                        with open("judgeurl.txt","a") as judgefile:#将已经爬取好的url写入judgeurl.txt
                            judgefile.writelines(finalparseurl+"\n")
                        bisect.insort_right(judgeurl_all_lines,finalparseurl+"\n")
#主方法
if __name__ == '__main__':
    reload(sys)
    sys.setdefaultencoding('utf8')#设置系统默认编码是utf8
    socket.setdefaulttimeout(5)#设置全局超时时间
    global judgeurl_all_lines#设置全局变量
    #不存在文件就创建文件,该文件用于记录哪些url是爬取过的，如果临时中断了，可以直接重启脚本即可
    if not os.path.exists("judgeurl.txt"):
        with open("judgeurl.txt",'w') as judgefile:
            judgefile.close()
    #每次运行只在开始的时候读取一次，新产生的数据（已怕去过的url）也会保存到judgeurl.txt
    with open("judgeurl.txt","r") as judgefile:
        judgeurl_all_lines=judgefile.readlines()
    judgeurl_all_lines.sort()#排序，因为后面需要使用到二分查找，必须先排序
    #启多个线程去爬取
    Thread(target=run(),args=()).start()
    Thread(target=run(),args=()).start()
    #Thread(target=run(),args=()).start()

转载于:https://blog.51cto.com/h2ofly/1585681

鸿蒙HarmonyOS应用开发 |鸿蒙技术分享HarmonyOS Next 深度解析：分布式能力与跨设备协作实战一键难忘 harmonyos 分布式华为 HarmonyOS Next
鸿蒙技术分享：HarmonyOSNext深度解析：分布式能力与跨设备协作实战随着万物互联时代的到来，操作系统作为连接设备、应用与用户体验的核心，扮演着不可或缺的角色。华为最新发布的HarmonyOSNext（鸿蒙操作系统下一代版本）不仅在技术架构上实现了颠覆性升级，更在生态体验上迈向了一个新的高度。本文将从技术架构、生态优势和开发实践三个方面深入探讨HarmonyOSNext的技术特点，并通过一个
java面试题,既然你说到了创建线程池，那么你知道创建线程池的方式有哪几种吗？ java程序员CC java 开发语言
在Java中，创建线程池的方式有多种，其中比较常用的方式包括：FixedThreadPool（固定大小线程池）：通过Executors.newFixedThreadPool(intn)方法创建，线程池中的线程数量固定为n，适合处理任务量稳定的场景。CachedThreadPool（缓存线程池）：通过Executors.newCachedThreadPool()方法创建，线程池的线程数量不固定，根据
简单工厂模式与策略模式的区别 java程序员CC 简单工厂模式策略模式
相似之处：都用于松耦合不同之处：简单工厂模式：只关注传入的参数，对于后续的具体执行逻辑不关注(工厂会自动根据传入的参数类型生产对应的产品)核心目的：隐藏创建对象的具体逻辑，客户端只需传入参数，由工厂决定实例化哪个具体类。使用场景：适用于产品类较少，且不会频繁增加新产品类的情况。它简化了客户端的使用，但违反了开闭原则（对扩展开放，对修改关闭），因为增加新产品时需要修改工厂类。示例：不同的登录类型（手
java集合List，Set，Map怎么理解存储数据有序，无序以及可重复，不可重复 java程序员CC JAVA基础 java 面试 list
学习java已经有一段时间了，在练习开发项目的过程中经常用到List和Map却不知道其到底有何区别，今天整理了一下知识点对这几个进行浅显易懂的区分。PS:本文中的“有序”指的是存储数据时输入顺序与数据输出顺序相等，“唯一”：指的是不重复首先我们知道java集合有两个接口；一个是Collection,一个是Map;其中Colection衍生出了两个子接口也就是平时我们常见的--List【有序，不唯一
定时任务调度框架xxl-job与quartz的区别 java程序员CC java
XXL-Job和Quartz都是Java项目中常用的定时任务框架，它们有以下几点区别：xxl-job和Quartz都是用于任务调度的开源框架，它们之间有一些区别，主要体现在以下几个方面：语言支持：Quartz主要是基于Java的任务调度框架，支持Java语言。xxl-job是一个分布式任务调度平台，它提供了Java版本的调度中心，同时还提供了Python、PHP等语言的任务执行器，因此支持多种语言
安卓NAS，众乐影音APP，低成本打造全能家庭存储中心 DeepSeek+NAS 安卓nas winnas AINAS nas 家用nas 小米nas 飞牛nas
在数字化时代，数据存储和共享需求日益增长，NAS设备成为家庭和办公场景中的重要工具。然而，传统NAS设备价格高昂，操作复杂，让许多用户望而却步。如今，耘想公司推出的众乐影音APP，以其创新的理念和强大的功能，彻底改变了这一局面。它不仅是一款安卓影音播放器，更是一款低成本、全功能的安卓NAS解决方案，让普通用户也能轻松享受NAS的便利。一、众乐影音APP的核心功能1.低成本NAS解决方案众乐影音AP
稳定运行的以Microsoft Azure SQL database数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 etl azure etl 云计算数据库
在以MicrosoftAzureSQLDatabase为数据源和目标的ETL（Extract,Transform,Load）过程中，性能问题可能会随着数据量的增加、查询复杂度的提升或系统负载的加重而逐渐变差。提高以MicrosoftAzureSQLDatabase为数据源和目标的ETL性能需要综合考虑数据库查询优化、数据加载策略、并行处理、资源管理等方面。通过合适的索引、查询优化、批量处理、增量加
【Golang学习】第十章 goroutine和channel Entin_7 Golang学习 golang 开发语言
目录一、goroutine1.创建goroutine（1）格式（2）示例2.协程管理二、channel1.channel的创建2.channel的类型3.channel的读写操作4.channel的关闭5.channel的遍历6.channel与select配合使用7.通过channel实现goroutine的通信一、goroutinegoroutine是Go语言中的轻量级线程实现，由Go运行时（
springboot poi 后端手撕excel自定义表格。包括插入列表、跨行跨列合并 uutale java应用 spring boot excel 后端
文章目录前言一、成品展示二、引入二、RestTemplateConfig三、接收实体ReturnResponse四、WriteExcelTableController总结前言这个程序是因为我需要根据数据库返回的数据生成excel，涉及到跨行跨列合并，表格list填充。填充后调用另一个项目的上传接口，把文件转成字节流传输过去，你们在自己进行使用的时候可以把字节流转成file存到本地。这里的代码有很多
鸿蒙系统架构解析：深入理解分层设计与功能实现斯陀含 harmonyos 架构华为
鸿蒙系统架构解析：深入理解分层设计与功能实现鸿蒙操作系统(HarmonyOS)是华为推出的全新分布式操作系统，其独特的架构设计是其核心竞争力之一。本文将深入探讨鸿蒙系统的分层架构，从内核层到应用层，逐层剖析其功能和作用，并结合实例帮助读者更好地理解鸿蒙系统的设计理念。一、鸿蒙系统架构概览鸿蒙系统采用分层架构设计，将系统划分为四个层次：内核层、系统服务层、框架层和应用层。这种分层架构具有以下优势：模
鸿蒙开发：ArkTs语言变量和常量
前言本文代码案例基于Api13。正因为有了变量和常量，才有了程序之间的数据存储和管理，无论是变量还是常量，在命名的时候，一定要知名其意，能够很好的表达出所声明的意图，这一点非常的重要，千万不要以拼音或者简单的字母进行定义，不为别的，我害怕别人嘲笑你。变量（Variable）变量是一种用于存储数据的容器，并且其存储的数据值可以在程序执行过程中被改变，变量通常有一个名字（标识符），用于在程序中引用它。
量子位招聘 | DeepSeek帮我们改的招聘启事量子位
关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具；拥有解读论文的能力，能深入浅出讲解原理；有写代码能力；量子位长期读者。加入我们，你可以获得：
SvelteKit 最新中文文档教程（8）—— 部署 Node 服务端
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
【C++】C++类梵刹古音 C++学习笔记 c++开发语言
文章目录面向对象程序设计思想类概述类的声明与定义类的实现对象的声明面向对象程序设计思想面向对象是一种符合人类思维习惯的程序设计思想。现实生活中存在各种形态不同的事物，这些事物之间存在着各种各样的联系。在程序中使用对象映射现实中的事物，利用对象之间的关系描述事物之间的联系，这种思想就是面向对象。面向过程是分析出解决问题所需要的步骤，然后用函数把这些步骤一一实现，使用的时候依次调用就可以了。面向对象不
C++回顾 day2 星夜982 C++回顾算法数据结构 c++
可以对指针进行引用，但是不存在引用的引用inta;int*p=&a;int*&rp=p;//此时rp是一个地址，要改变p的值要么*rp=XXX;//要么rp=&XXX;int&ra=a;int&&rra=ra;//这是不对的int&rra=ra;//也不能叫作引用的引用，因为rra也是a的引用可以对指针再取指针，但是不能对引用取指针inta;int&ra=a;int*p=&a;int**xp=&p
122. 买卖股票的最佳时机 II 请向我看齐 LeetCode 算法
题目分析LeetCode第122题是“买卖股票的最佳时机II”。题目描述为：给定一个数组prices，其中prices[i]是一支给定股票第i天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易（多次买卖一支股票）。模式识别本题属于动态规划或者贪心算法的范畴。由于可以进行多次交易，且没有交易次数限制，所以可以通过比较相邻两天的价格，只要后一天价格比前一天高，就进行一次交易
钉钉发布“AI创新N次方计划”，为AI生态免除佣金、保证金和算力费用量子位
3月20日，钉钉在北京举办了“AI创业N次方”生态创新大会。会上，钉钉发布了一系列全新生态政策，为AI创业者、AI转型者提供助力：包括免除佣金、免除入驻保证金和免除算力费用，并在销售、品牌、技术和投资等方面提供支持，为生态伙伴提供AI应用创业创新的全方位助力。发布AI创新扶持计划：“三免四助力”钉钉副总裁、开放平台总经理王铭在会上表示：“开放是钉钉一直以来的信仰。AI时代大幕拉开，钉钉生态也进入新
scanf()接收空格的方法不会算法的笨小孩 c语言
C语言的scanf()函数读取字符串时，遇到空格或者‘\n’都是会停止读取字符串的，因此我们在输入带有空格的字符串时就不能直接写scanf("%s",ch);（ch是一个数组名）处理方法有两种：使用gets来接收字符串(gets读取字符串时遇到空格不会停止读取)修改scanf的读取截至字符，也就是遇到某个字符就会停止读取，而不是遇到空格或者\n截至。修改方法：scanf("%[^截至字符]",ch
golang是如何回收goroutine的 double12gzh golang golang
目录1.写在前面2.生命周期3.必备条件1.写在前面微信公众号：[double12gzh]关注容器技术、关注Kubernetes。问题或建议，请公众号留言。本文是基于golang1.13Goroutines易于创建，堆栈小，上下文切换快。由于这些原因，开发人员喜欢它们，并经常使用它们。然而，一个程序如果产生许多这样生命周期很短的goroutine，那将会花费相当多的时间来创建和销毁它们。2.生命周
非技术 bfwj520 非技术情感
莫言对年轻人的一百条忠告，看到哪句你哭了1、假如你想要一件东西，就放它走。它若能回来找你，就永远属于你；它若不回来，那根本就不是你的。2.一个人会落泪，是因为痛；一个人之所以痛，是因为在乎；一个人之所以在乎，是因为有感觉；一个人之所以有感觉，仅因为你是一个人！所以，你有感觉，在乎，痛过，落泪了，说明你是完整不能再完整的一个人。难过的时候，原谅自己，只不过是一个人而已，没有必要把自己看的这么坚不可摧
HashSet 扩容的底层机制说明 WH牛 java 开发语言
目录1.扩容机制说明2.底层机制说明1.扩容机制说明扩容机制：HashSet的底层就是HashMap（底层是数组+链表/红黑树)，当添加元素时先得到其hash值再转换成索引，找到存取数据的table，看这个位置是否已经存放了元素，如果没有，则直接存放，如果有，调用equals后看是否相同，如果不相同，则放在则添加到最后，相同则放弃添加。在Java8中一条链表的元素个数达到默认值8，并且table数
二分查找算法 WH牛算法算法
目录1.二分查找算法的介绍1.1算法思路1.2算法模版1.2.1查找区间左端点1.2.1查找区间右端点2.模版题2.1数的范围2.2数的三次方根3.典题3.1机器人跳跃问题3.2分巧克力4.课后题1.二分查找算法的介绍1.1算法思路假设目标值在闭区间[l,r]中，每次将区间长度缩小一半，当l=r时，我们就找到了目标值。说人话：就是把答案所在的区间逐渐缩小，直到区间内只有答案。二分查找算法的时间复杂
Golang Goroutine 入门使用 Vongolar golang语言学习 golang 多线程
goroutine(协程)是golang最重要的特性，是唯一在语言层面支持的主流语言，也是golang主打的优势——“高并发”的实现所在。1.为什么要协程？2.goroutine怎么用1.为什么要协程追求cpu的最大利用。同一台设备上同时运行着许多的进程，同时向cpu发出许多条指令，在这些指令中，一部分可以马上执行得到结果，但有一些系统IO相关的，它们需要一些输入，比如服务器监听一个端口，
充气泵方案｜便携式充气泵方案【天吉智芯】天吉智芯充气泵一体机打气泵单片机嵌入式硬件人工智能安全
便携车载充气泵方案的使用范围其实不仅仅是汽车轮胎，它在设计时工程师选取高性能和存储芯片，可实现汽车轮胎、篮球、自行车、摩托车、零模式等多种场景应用。其原理便是通过马达运转工作，当抽气时连通器的阀门被大气的气压冲开，气体进入气筒中；当向轮胎打气时，阀门又被气筒的气压关闭，所以气体由此进入轮胎中。这其实就是利用大气压的原理来充气。以下是便携车载充气泵方案的功能设计介绍。深圳天吉芯技术king-chip
MySQL基本语句冉冉柟 mysql 数据库 oracle
一、DDL（数据定义语言）DDL主要用于定义数据库、表、视图、索引等数据库对象的结构1.1创建数据库CREATEDATABASEdatabase_name;1.2删除数据库DROPDATABASEdatabase_name;1.3选择数据库USEdatabase_name;1.4创建表CREATETABLEtable_name( column1datatypeconstraint, column2
python使用matplotlib库绘制饼图 zhan114514 python科学绘图 python matplotlib 开发语言
使用python的matplotlib库绘制饼图，包括普通饼图、堆叠饼图、嵌套饼图，并一一封装成了方法，直接调用使用。先安装matplotlib库，pipinstallmatplotlib代码如下：fromtypingimportSequenceimportmatplotlib.pyplotaspltimportmatplotlibimportnumpyasnpmatplotlib.rcParam
python科学绘图-matplotlib中标记marker的使用方法 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库，在绘制点图、线图的时候，标记初始的数据用图标记所有标记，可以拿出来对比使用代码：importmatplotlibimportnumpyasnpfrommatplotlibimportpyplotaspltimportmatplotlib.linesasmlinesmatplotlib.use("TkAgg")plt.rcParams['font.sans-s
python：@classmethod zcxvdzv python
python提供了@classmethod和@staticmethod来定义静态方法1、实例方法，该实例属于对象，该方法的第一个参数是当前实例，拥有当前类以及实例的所有特性。2、@classmethod类方法，该实例属于类，该方法的第一个参数是当前类，可以对类做一些处理，如果一个静态方法和类有关但是和实例无关，那么使用该方法。3、@staticmethod静态方法，该实例属于类，但该方法没有参数，
Java自定义分数类，可以实现分数的自由运算 zhan114514 java 开发语言
/***分数对象的类，有分数相关计算*以String为值，(String)value=(int)up+"/"+(int)down*@authorZhan*/publicclassFraction{//分数标准staticfinalStringstandard1="-?\\d+/-?\\d+";//有分母staticfinalStringstandard2="-?\\d+";//无分母//值Stri
LInux内核学习 -- perCPU变量 lagransun linux 学习运维
文章目录环境关于perCPU变量perCPU变量：__entry_task环境linux4.19关于perCPU变量percpu变量的介绍，这位老哥做了介绍，包括为什么要有这样的变量以及优势：linux内核之Per-CPU变量，我把这个老哥的总结复制下来：通过Per-cpu变量除了可以分配内存，还有一个最大的好处就是不需要考虑同步。最好的同步技术就是把不需要同步的内核放在首位，因为每种显示的同步原
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

python爬虫实战,多线程爬取京东jd html页面：无需登录的网站的爬虫实战

你可能感兴趣的:(python爬虫实战,多线程爬取京东jd html页面：无需登录的网站的爬虫实战)