行者刘6

python tkinter界面多进程启动scrapy爬取百度贴吧的回复，显示爬取进度，并可以搜索回帖人，指定时间生成词云图，用pyinstaller打包成exe(六)

爬取指定贴吧的帖子 one_tieba_spider.py

'''
这个是爬取单个贴吧的爬虫
大概思路：
         1.进入该贴吧的第N页-第M页，获取所有帖子的初始信息(标题、发帖人、tid)等，组成request_list
         2.分别进入每个帖子，先爬取帖子内所有楼层信息，
         3.接着根据tid、pid再进入楼内楼，把数据放进对应的楼层里=======>比较难理解一部分，特别是判断锁定楼层next_comment
         4.楼内楼都爬取完毕，返回item，以tid为名保存json'''
'''
要点：
     1.默认每个帖子最多只爬取前100页，每个楼内楼前100页
     2.设定理论爬取item数量，用以进度条等显示爬取进度
     3.返回每个items时，也把信息保存到info文件，用在tree上
     4.帖子是爬取过的，先获取json文件内容，，若内容有变动，则以此为底，添加新的回复(包括新楼层、新楼内楼)=======>>最难搞的一部分'''

这是具体的思路图，光搞这图，弄清了逻辑关系，也费了我不少时间

class One_tiebaSpider(scrapy.Spider):
    name = "one_tieba"
    allowed_domains = ["tieba.baidu.com"]
    print(name)

    #设定贴吧
    kw = None

    # 设定存放总文件、贴吧对应文件夹、及其旧帖子文件夹
    dir_path = None
    path = None
    old_file_path = None


    #设定贴吧的开始页跟结束页(实际上在pipelines设定)
    start_kw_page=1
    end_kw_page=1#(此参数是几，那就是前几页)

    # 设定每个帖子爬取前N页
    max_pages = 100

    #设定每个楼内楼爬取前N页
    max_comment_page=9

    #每10页返回一个item，多了几个10页，意味着就要多返回几个item，用于进度条显示
    item_counts=Crawling_item_counts(r'爬取进度详情/the_spider_counts.json')

    #每次返回item都要标记(页数范围/被删/没变动）
    #把所有帖子标题、发帖人等信息记录，用在treeview进度条上显示详情
    log_Crawling=Record_Crawl(r'爬取进度详情/TieBa_info.json')

    #总帖子数、进去帖子第一页发现被删、没变动帖子数、返回item数
    tiezi_count=0       #理论帖子总数：每页贴子数50*页数
    unchanged_count=0   #已经存在的帖子，而且内容没变动
    return_count=0
    del_count = 0
    # 发现被删的几个可能点：1.从贴吧首页发现帖子，但是进入第一页就被删了
    #                   2.进入完第一页得到总页数后，再次进入第一页，被删了
    #                   3.已经爬了好几页，突然到某一页，就被删了(这个不记录，因为能被return)


    def start_requests(self):
        '''设定初始爬取页数，进入某个帖子的第一页'''
        self.build_dir()  #创建该贴吧所需的文件夹
        url = 'https://tieba.baidu.com/f?kw=%s&pn=%d' % (self.kw, (self.start_kw_page-1)*50)
        target_word=parse.quote(self.kw)
        yield Request(url, callback=self.request_list, dont_filter=True,
                      meta={'the_page': self.start_kw_page,'request_list':[],'target_word':target_word})



    def request_list(self, response):
        '''作用：进入某个贴吧的第N页，爬取帖子标题完善request_list后，进入下个parse爬取帖子
        传入meta的参数：
        the_page：当前贴吧所在的页数
        request_list：存放帖子request的list
        操作步骤：判断是否空贴吧：···空的，停止爬取
                               ···没问题的，得到帖子标题等信息，设定request放进list
                                  判断是否最后一页：---不是，继续调用自身爬取
                                                  ---是，去重后循环list，进入下个parse处理每个帖子'''

        #提取meta的数据
        the_page=response.meta['the_page']
        request_list=response.meta['request_list']
        target_word=response.meta.get('target_word') #理论爬取贴吧的url，防止没有该贴吧时，自动跳转
        text1=re.sub(r'', '', response.body.decode('utf-8'))#贴吧的实际代码都在注释里
        req=Selector(text = text1)
        threads = req.xpath('//li[contains(@class,"j_thread_list clearfix")]')  # 每个帖子

        crawl_word=re.findall(r'kw=(.*?)&pn',response.url)[0]
        if threads==[] or crawl_word!=target_word:#不是指定的贴吧
            print(crawl_word,target_word)
            shutil.rmtree(self.path) #删除这个不对的贴吧文件夹
            messagebox.showerror("贴吧名不对!!", "这是个错误的贴吧：『%s』"%self.kw)
            print('这个贴吧是空的！')
        else:
            for thread in threads:
                the_tiezi = self.the_tiezi(thread)            #方法：得到该帖子的标题、发帖人等组成的dict
                #设定每个帖子的request
                url = 'https://tieba.baidu.com/p/%s' % the_tiezi['tid']
                request=Request(url, callback=self.choice_tiezi, dont_filter=True)
                request.meta['the_tiezi']=copy.deepcopy(the_tiezi)
                #把每个帖子的request放进总list
                request_list.append(request)

            #添加一页
            the_page=the_page+1
            next_page = req.xpath('//a[@class="next pagination-item "]/@href')#贴吧的页面是否有“下一页”这个提示
            # 此时the_page还不是最后一页而且有下一页的提示，继续调用自身爬取
            if the_page<= self.end_kw_page and next_page:
                url = 'https://tieba.baidu.com/f?kw=%s&pn=%d' % (self.kw, (the_page-1) * 50)
                yield Request(url, callback=self.request_list, dont_filter=True,
                              meta={'the_page': the_page,'request_list':request_list,'target_word':target_word})

            # 此时是最后一页了，那就循环yield每个帖子的request，进入下一步分类处理该帖子
            else:
                request_list = self.quchong(request_list)  # 去重
                #标记理论爬取总数
                self.tiezi_count=len(request_list)
                self.item_counts.update_items(self.tiezi_count-50) #理论返回items数

                self.end_kw_page = the_page - 1  # 该贴吧实际爬取的最后页数(因为the_page前面+1了)
                for one in request_list:
                    yield one


    def choice_tiezi(self,response):
        '''作用：进入帖子的第一页，得到总页数pages，然后分类设定数据，进入帖子的页面爬取楼层
        传入meta的参数：
        the_tiezi：从首页得到的每个帖子初始数据(除了pages)，
        操作步骤：判断帖子被删：···被删，返回item保存
                             ···没被删，判断帖子是否爬过：---没爬过，设定爬取页数范围(每10页)，进入下一步,爬取楼层
                                                       ---爬过了，判断是否有变动：***没变动，跳过
                                                                                ***变动了，前N行还是用回文件里的旧楼层post_list，根据页数范围，进入下一步,爬取楼层
                                                                                          后n行，根据页数范围，进入下一步,爬取楼层
        '''
        sep=Selector(response)
        url_alive = sep.xpath('//title/text()').extract_first()

        #获取文件路径名字、tid等
        the_tiezi = response.meta['the_tiezi']
        tid = the_tiezi['tid']
        file_path = self.path + os.sep + str(tid) + '.json'#该帖子的json文件，没有就创建，有就说明爬过了

        print('准备爬取帖子————《%s》' % the_tiezi['title'])

        #只有帖子存在，才会进行操作
        if url_alive != '贴吧404':

            #设定帖子的总页数、
            pages = sep.xpath('//li[@class="l_reply_num"]/span[2]/text()').extract_first()  # 该帖子有多少页
            pages= int(pages)
            the_tiezi['pages']= pages
            #一旦多于100页，那就只提取前100页数据，记录此帖子
            if pages>self.max_pages:
                pages=self.max_pages
                Log_Large_TieZi().log(self.kw,the_tiezi)

            # 计算出需要多少行dict储存帖子          9页帖子需要1行，44个需要5行
            new_lines = (pages - 1) // 10 + 1

            #这个帖子是否已经爬过了
            if os.path.exists(file_path):
                # 得到每10页的old_tiezi字典 组成的list
                with open(file_path, 'r', encoding='utf-8') as f:
                    old_tiezis = [json.loads(tiezi) for tiezi in f.readlines()]

                # 原文件共有多少行
                old_lines = len(old_tiezis)

                old_tiezi = old_tiezis[0]  # 取出第一行帖子的dict

                # 当最后回复人变动了/回复数量变动/行数变动，那肯定帖子有变，那就更新帖子(没变动就不用理)
                if the_tiezi['last_reply_author'] != old_tiezi['last_reply_author'] or the_tiezi['reply_num'] > \
                        old_tiezi['reply_num'] or old_lines != new_lines:


                    # 移动旧帖子，把文件放进旧帖子的文件夹里
                    shutil.move(file_path, r'%s/%s.json'%(self.old_file_path,str(tid)))

                    # 有可能被删页，例如文件有4行，网页只剩3行了，此时还是循环4次
                    if old_lines > new_lines:
                        new_lines = old_lines
                    ##=====标记理论返回items总数
                    self.item_counts.update_items(new_lines-1)

                    '''这个循环的思路，分几种：
                        ---多了很多回复，比如旧10页新22页，那么旧文件就是1行，新文件得是3行，
                           ***已经存在的旧行数，the_tiezi就使用旧行数里的post_list，然后更新楼层里的具体数据，
                           ***新的行数，那就直接拿the_tiezi爬取数据
                        ---上面是新≥旧，如果是旧<新，比如：文件是4行(起码31页，才需要保存为4行)，
                                                         现在只剩29页了，只需3行，那么最后一行运作时，调用的old_tiezi范围是[31,40]，
                                                         进入post_list函数，url实际跳到29页，可能添加下新楼层，接着就会判断32>29结束'''
                    #理论是n行，那就循环几次
                    for i in range(0, new_lines):
                        #设定该个request进入帖子的页数范围，比如:1~10,41~50,71~80
                        range_pages = [i * 10 + 1, 10 * i + 10]

                        # i从0开始，旧的有4行，那么就是0,1,2,3 <4，此时就调用旧的old_tiezi所有行数
                        if i < old_lines:
                            #因为爬取时写入顺序不对的，循环整个旧帖子组成的list，
                            # 若当前的oli_tiezi的第一个post_dict的page跟i页数一致，那么就是这个old_tiezi
                            try :
                                old_tiezi=[old_tiezi for old_tiezi in old_tiezis
                                           if old_tiezi['post_list'][0]['page']==range_pages[0]][0]
                            except:
                                old_tiezi=the_tiezi
                            #将the_tiezi的post_list替换，
                            the_tiezi['post_list'] = old_tiezi['post_list'].copy()

                            #方法：建立对应的request，下一步开始真正的爬取帖子(再一次爬取第一页)
                            request = self.post_request(the_tiezi, self.post_list, range_pages)#此时的the_tiezi楼层list为json文件的
                            yield request
                        else:
                            request = self.post_request(the_tiezi, self.post_list, range_pages)#此时的the_tiezi楼层list为[]
                            yield request
                else:
                    #标记没有变动过的帖子
                    self.unchanged_count += 1
                    self.log_Crawling.tiezi_info(the_tiezi, '帖子爬过，没有变动')


            # 这个帖子没爬过的，进行爬取
            else:
                ##=====标记理论返回的item数量！！！
                self.item_counts.update_items(new_lines - 1)

                # 设定为每10页为一个循环
                for i in range(0, new_lines):
                    range_pages = [i * 10 + 1, 10 * i + 10]
                    # 方法：建立对应的request，下一步开始真正的爬取帖子(再一次爬取第一页)
                    request=self.post_request(the_tiezi, self.post_list, range_pages)#此时的the_tiezi楼层list为[]
                    yield request

        else:
            print('帖子被删了')
            #这个是进入第一页时(想获取总页数)发现帖子被删，没有进行判断这时旧帖子还是新帖子，所以只有当这是新帖子时，才会保存，
            #标记 进入第一页想获取总页数时就被删
            self.del_count+=1
            self.log_Crawling.tiezi_info(the_tiezi, '还没进入第一页就被删了')

            if not os.path.exists(file_path): #如果不存在这个文件，那也保存下来(只保存下标题发帖人等数据) 没什么卵用，去掉把
                return the_tiezi

    def post_request(self,the_tiezi,post_list,range_pages):
        '''作用：进入 某个帖子 的第N页
        设定好需要request的url、处理的parse、及其需要的meta'''
        url = 'https://tieba.baidu.com/p/%s?pn=%d' % (the_tiezi['tid'], range_pages[0])
        request = Request(url,  callback=post_list,dont_filter=True,
                          meta={'end_page': range_pages[1],
                                'the_tiezi': copy.deepcopy(the_tiezi), 'the_page': range_pages[0]})
        return request




    def post_list(self,response):
        '''作用：进入帖子的某一页，添加/修改楼层数据(新旧楼都行，不包含楼内楼)，根据情况进入下一页或者开始爬取楼内楼
        传入meta的三个参数
        the_tiezi ：整个帖子数据
        end_page ：该帖子的结束页数
        the_page ：当前页数
        操作步骤：判断帖子被删：···被删，进入下一步，爬取楼内楼
                             ···没被删，得到楼层数据，添加新楼层，修改旧楼层
                                判断当前是不是最后一页：---是，进入下一步，爬取楼内楼
                                                     ---不是，调用自身，进入下一页
        '''
        sep = Selector(response)
        the_tiezi = response.meta['the_tiezi']
        end_page = response.meta['end_page']
        the_page = response.meta['the_page']
        tid = the_tiezi['tid']

        #帖子没被删，那就进行操作
        url_alive = sep.xpath('//title/text()').extract_first()
        if url_alive != '贴吧404':
            #可能爬的过程中页数变动，所以每次进入帖子都更新页数
            pages = sep.xpath('//li[@class="l_reply_num"]/span[2]/text()').extract_first()
            the_tiezi['pages'] = int(pages)

            # 指向存放楼层的post_list,
            the_post_list = the_tiezi['post_list']

            # 已经爬取的楼层的pid组成的list，没爬过的帖子为空，得设定
            # 用于判断这个楼层是否已经被爬取过了(1.旧json的，包含楼内楼 2.可能中途被删楼，所以重复了)
            if the_post_list==[]:
                all_pids=[]
            else:
                all_pids = [post['pid'] for post in the_post_list]

            #当前url的所有楼层
            all_post = sep.xpath('//div[@class="l_post l_post_bright j_l_post clearfix  "]')

            #循环所有楼层，对post_list进行添加(新楼层)，修改(旧楼层)
            for one_post in all_post:
                new_post_dict = self.post_dict(one_post, tid, the_page)  # 方法：得到该楼层发帖人、时间、内容等组成的dict，除了楼内楼

                # 此楼层是新楼层，那把new_post_dict整个放进post_list
                if new_post_dict['pid'] not in all_pids:
                    the_post_list.append(new_post_dict)

                # 该楼层已经存在了，先找出它，
                else:
                    # 锁定已经存在的楼层(根据pid)
                    old_post_dict = [the_post for the_post in the_post_list if the_post['pid'] == new_post_dict['pid']][0]
                    # 更新该楼层的page、楼内楼回复数量
                    old_post_dict['page'] = the_page
                    old_post_dict['comment_num'] = new_post_dict['comment_num']

            #添加下一页
            the_page = the_page + 1

            # 爬好的楼层是10，那么此时page是11>10，或者page>最大页数时，那么就开始爬楼内楼，进入下一个parse
            if the_page > end_page or the_page > the_tiezi['pages']:
                # post_list里楼层总数量
                post_count = len(the_tiezi['post_list'])
                #方法：循环楼层，有楼内楼回复的才需要进入下一个parse，如果直接到最后一个回复，就保存
                request = self.next_comment(the_tiezi, tid, 0, post_count)
                yield request

            # 此时还没爬够10页 或者没到最后一页,循环调用自身(相当于进入下一页，继续添加补全the_tiezi)
            else:
                url = 'https://tieba.baidu.com/p/%s?pn=%d' % (tid, the_page)
                request = Request(url,  callback=self.post_list,dont_filter=True,
                                  meta={'end_page': end_page, 'the_tiezi': copy.deepcopy(the_tiezi),
                                        'the_page': the_page})
                yield request

        # 爬到一半，帖子被删了,那么就开始爬楼内楼，进入下一个parse        (#也有可能是进入第一页就发现被删，此时楼层数量0)
        else:
            post_count = len(the_tiezi['post_list'])
            # 方法：循环楼层，有楼内楼回复的才需要进入下一个parse，如果直接到最后一个回复，就保存
            request = self.next_comment(the_tiezi, tid, 0, post_count)
            yield request



    def comment_list(self,response):
        '''作用：锁定楼层后添加楼内楼，分情况进入下一页或者下一楼层继续爬取楼内楼
        传入meta的三个参数
        the_tiezi ：整个帖子数据
        posi ：当前楼层所在的位置，用于锁定添加楼内楼的楼层
        pn ：当前楼层的楼内楼的页数
        post_count：总楼层数
        先定位各个参数
        操作步骤：判断是否空楼内楼：···空的，进入下一楼层的楼内楼
                                 ···非空，得到楼内楼数据，添加新楼内楼
                                    判断是不是最后一页了：---是，进入下一楼层的楼内楼
                                                        ---不是，调用自身，进入下一页'''
        post_count=response.meta['post_count']
        posi = response.meta['posi']
        pn = response.meta['pn']
        the_tiezi = response.meta['the_tiezi']

        #定位对应楼层、及其楼内楼list
        post_dict=the_tiezi['post_list'][posi]
        comment_list=post_dict['comment_list']
        pid         =post_dict['pid']
        tid = the_tiezi['tid']

        # 当前页面每个楼内楼回复 组成的list
        sep = Selector(response)
        comments = sep.xpath('//div[@class="lzl_cnt"]')

        # 没有内容时，跳出，循环判断下一个有楼内楼的楼层
        if comments == []:
            request=self.next_comment(the_tiezi,tid,posi,post_count)
            yield request
        else:
            # 循环楼内楼的每个回复
            for one_comment in comments:
                comment_dict = self.comment_dict(one_comment, pn,tid)  # 方法：得到该楼内楼发帖人、时间、内容等组成的dict

                # 当此楼内楼没爬过时，就放到该楼层的楼内楼
                if comment_dict not in comment_list:
                    comment_list.append(comment_dict)

            comment_pages = sep.xpath('//li[@class="lzl_li_pager j_lzl_l_p lzl_li_pager_s"]/p').xpath('string(.)').extract()[0]

            # 当尾页不在页数里面时，说明此楼内楼已经结束了/页数是10页了， 这2种情况出现一种，那就进入下一个楼层的楼内楼
            if '尾页' not in comment_pages or pn>self.max_comment_page:
                request = self.next_comment(the_tiezi, tid, posi, post_count)
                yield request

            #继续循环这个楼层的楼内楼，页数+1，进入下一页的楼内楼
            else:
                pn=pn+1
                url = 'https://tieba.baidu.com/p/comment?tid=%s&pid=%s&pn=%s' % (tid, pid, pn)
                yield Request(url,  callback=self.comment_list,dont_filter=True,
                              meta={'the_tiezi': copy.deepcopy(the_tiezi), 'posi': posi,
                                    'pn': pn,'post_count':post_count})


    def next_comment(self,the_tiezi,tid,posi,post_count):
        '''作用：只用于楼内楼，循环楼层，若有楼内楼则进入parse爬取数据，直到最后一楼，然后保存
        the_tiezi：整个帖子的数据
        posi：已经添加了的楼内楼的楼层在post_list的位置，
        post_count：楼层总数，

        "循环判断是否要爬取该楼层的楼内楼时比较复杂：
        假设post_count共4个，posi是0,1,2,3 ；range(0,4)实际是0,1,2,3
        爬完最后一个，posi=3，要循环的话，下一个元素posi就是 4:3+1，
        rang(4,4)是没有元素的，所以循环的数列得是range(posi +1, post_count + 1)→→→：range(4,5)
        此时i==4==post_count，完成了，保存"

        判断楼层总数：···为0，帖子没爬到，直接保存
                    ···以posi+1，post_count+1为循环，判断是否爬完：---最后一个，返回item进入pipelines保存
                                                                ---没爬完，是否有楼内楼：***有，中断循环，设定为第一页进入楼内楼parse爬取数据
                                                                                       ***没有，继续循环'''

        posi=posi + 1

        #没有楼层，那就是帖子刚爬了标题就被删了，return直接中断保存
        if post_count == 0:
            print('帖子没爬就被删了')
            #标记 正式开始爬取时发现被删
            self.del_count+=1
            self.log_Crawling.tiezi_info(the_tiezi, '再一次进入第一页被删了')

            return the_tiezi

        for i in range(posi , post_count + 1):
            #是否是最后一个
            # (比如共10个楼层，post_list那就是0~9，最后一个时，传入的初始posi=9，循环是range(10,11)，此时i=post_count=10,结束)
            if i == post_count:
                #标记 爬取完后，实际返回的item
                self.return_count+=1
                self.log_Crawling.tiezi_info(copy.deepcopy(the_tiezi))#需要deep.copy不然the_tiezi会被修改

                print('爬完帖子————《%s》' % (the_tiezi['title']))
                return the_tiezi

            else:
                #此楼层有楼内楼时，就会return中断循环，进入楼内楼parse，否则跳过继续循环
                #此时i就是该楼层在post_list的位置
                if the_tiezi['post_list'][i]['comment_num'] > 0:
                    # 没爬过的楼层得添加楼内楼list
                    if the_tiezi['post_list'][i].get('comment_list')  is  None:
                        the_tiezi['post_list'][i]['comment_list'] = []

                    pid = the_tiezi['post_list'][i]['pid']
                    #进入下一个parse，注意的meta是位置posi，第一页
                    url = 'https://tieba.baidu.com/p/comment?tid=%s&pid=%s&pn=%s' % (tid, pid, 1)
                    request=Request(url,  callback=self.comment_list,dont_filter=True,
                                  meta={'the_tiezi': copy.deepcopy(the_tiezi), 'posi': i, 'pn': 1,
                                        'post_count': post_count})
                    return request


#==========================================================================================================
    def build_dir(self):
        # 设定贴吧文件夹，不存在就创建
        self.path = self.dir_path + os.sep +self.kw
        if os.path.exists(self.path) is False:
            os.mkdir(self.path)
        # 设定里面的旧帖子文件夹，不存在就创建
        self.old_file_path = self.path + os.sep + '旧帖子'
        if os.path.exists(self.old_file_path) is False:
            os.mkdir(self.old_file_path)

    def quchong(self,request_list):
        '''把request重复的帖子请求去掉'''
        quchong_list=[]
        for request in request_list:
            if request not in quchong_list:
                quchong_list.append(request)
        return quchong_list

    def the_tiezi(self,one_thread):
        '''输入的是贴吧首页的每条帖子标题的原始信息，
            返回标题、发帖人等信息组成的 dict'''
        tiezi = TiebaItem()
        data = json.loads(one_thread.xpath("@data-field").extract_first())  # 相当于大纲吧
        title = one_thread.xpath('.//a[@class="j_th_tit "]/text()').extract_first().strip()  #标题
        author = data['author_name']                                                        #发帖人
        tid = data['id']                                                                    #帖子的tid
        reply_num = int(data['reply_num'])                                                  #帖子的回复数量

        last_reply_time = one_thread.xpath(
            './/span[@class="threadlist_reply_date pull_right j_reply_data"]/text()').extract_first()
        if last_reply_time is not None:                                                 #帖子最后回复时间(顶置的帖子没有)
            last_reply_time = last_reply_time.strip()
            if re.match(r'\d+:\d+', last_reply_time):  # 最后回复时间，以前的只会显示日期；今天的只显示时分，得加上日期
                last_reply_time = time.strftime("%Y-%m-%d ", time.localtime()) + last_reply_time
        #最后回复人，顶置帖子好像没有？
        last_reply_author=one_thread.xpath('.//span[@class="tb_icon_author_rely j_replyer"]/@title').re_first(r'最后回复人: \s*(.*)')

        tiezi['title'] = title
        tiezi['author'] = author
        tiezi['tid'] = tid
        tiezi['pages']=None
        tiezi['reply_num'] = int(reply_num)
        tiezi['last_reply_author'] = last_reply_author
        tiezi['last_reply_time'] = last_reply_time
        tiezi['post_list'] = []   #所以楼层信息组成的list
        return dict(tiezi)


    def post_dict(self,one_post,tid,page):
        '''输入的是单个楼层的原始信息，
            返回楼层的 发帖人、时间、内容等组成的 dict'''
        post_dict = {}
        data = json.loads(one_post.xpath("@data-field").extract_first())  # 相当于大纲吧
        author = data['author']['user_name']  # 发帖人,原ID
        pid = data['content']['post_id']  # pid 楼层的id
        comment_num = data['content']['comment_num']  # 楼内回复数量
        floor = one_post.xpath('.//div[@class="post-tail-wrap"]/span[last()-1]/text()').extract_first()  # 第几楼
        p_time = one_post.xpath('.//div[@class="post-tail-wrap"]/span[last()]/text()').extract_first()  # 回复时间

        the_content = one_post.xpath('.//div[@class="d_post_content j_d_post_content "]')  # 定位帖子内容
        # 文字跟图片、自定义表情提取(忽略了表情)
        content = the_content.xpath(
            './text()|./img[@class="BDE_Image"]/@src|./img[@class="BDE_Meme"]/@src').extract()
        content = ' '.join(content).strip()  # 提取的内容list转为字符串

        post_dict['author'] = author
        post_dict['floor'] = floor
        post_dict['time'] = p_time
        post_dict['page'] = page
        post_dict['pid'] = pid
        post_dict['comment_num'] = int(comment_num)
        post_dict['content'] = content

        voice = the_content.xpath('.//a[@class="voice_player_inner"]').extract()  # 如果有语音回复，就不为空
        if voice != []:
            post_dict['voice'] = 'https://tieba.baidu.com/voice/index?tid=%s&pid=%s' % (tid, pid)  # 语音回复的url
        return post_dict

    def comment_dict(self,one_comment,pn,tid):
        '''输入的是单个楼内楼的原始信息，
             返回楼内楼的 发帖人、时间、内容等组成的 dict'''
        comment_dict = {}
        author = one_comment.xpath('.//a[@class="at j_user_card "]/text()').extract_first()  # 发帖人，原ID
        content = one_comment.xpath('span[@class="lzl_content_main"]').xpath('string(.)').extract_first().strip()  # 内容
        reply_time = one_comment.xpath('.//span[@class="lzl_time"]/text()').extract_first()  # 发帖时间
        spid = one_comment.xpath('../a/@name').extract_first()  # spid

        comment_dict['author'] = author
        comment_dict['content'] = content
        comment_dict['time'] = reply_time
        comment_dict['spid'] = spid
        comment_dict['page'] = pn
        voice = one_comment.xpath(
            'span[@class="lzl_content_main"]//a[@class="voice_player_inner"]').extract()  # 如果有语音回复，就不为空
        if voice != []:
            comment_dict['voice'] = 'https://tieba.baidu.com/voice/index?tid=%s&pid=%s' % (tid, spid)  # 语音回复的url
        return comment_dict

哈哈，够恐怖吧，不过大家看懂了那张图，就很快搞清楚代码的了！接下来就是爬取单个帖子，思路差不多，不过

Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
pyhton基础【23】面向对象进阶四赶紧去巡山 pthon基础 python
目录十二.静态方法十三.类方法十四.类对象类对象的概念类对象的作用实例对象怎么用类对象内置函数-dir十二.静态方法概述默认情况下，类中定义的方法是实例方法，即这个方法有一个默认的形参self，这个self会在方法被调用的时候指向对象。但是有些时候，我们并不需要对象的引用，即self没用，那该怎么处理呢？能不写self吗？答：可以静态方法的概念如果一个方法不写self即不需要实例对象的引用，此时在
前端面试题集锦（5）
目录1、Promsie.all()使用过吗,它是怎么使用的?2、forin和forof循环的区别?3、什么是事件流以及事件流的传播机制?4、token一般存放在哪里?为什么不存放在cookie内?5、数组方法forEach和map的区别?6、ES6中Set和Map的区别?7、0.1+0.2为什么不等于0.3,在项目中遇到要怎么处理?8、什么是模块化思想?9、说说怎么用js写无缝轮播图10、闭包的使
【Linux内核及内核编程】Linux下的C编程特点 byte轻骑兵 #嵌入式Linux驱动开发实战 linux 运维服务器
在Linux世界里，C语言始终是核心编程语言之一。Linux内核及大量系统工具都基于C语言开发，这使得Linux环境下的C编程形成了一套独特的规范和特性。目录一、Linux编程风格：简洁实用的工程美学1.1命名规范：下划线的统治1.2缩进与括号：K&R风格的坚守1.3注释哲学：关键逻辑的精准描述二、GNUCvsANSIC：扩展特性的力量2.1语句表达式：让宏更强大2.2可变参数宏：灵活的接口设计2
element-ui 之 InputNumber 组件的步长功能分析 rongrongVivian Element-ui 组件库前端 javascript vue.js elementui
此篇将分析element-ui的InputNumber组件中的步长功能的源代码。一.步长功能描述步长是指接收一个step属性，以传入的step作为步长，每次递增或递减以一个step为单位进行。二.步长与严格步长的区别在InputNumber组件中，如果只是设置了步长，没有设置严格步长，可以通过输入框输入的方式，输入不符合步长的数值。如果一旦设置了严格步长，在输入框中输入不符合步长的数值时，会被计算
OpenStack
架构介绍：OpenStack架构全景图核心服务组件全局组件：Keystone认证服务：提供身份验证，服务发现和分布式多租户授权；管理全局认证和授权的组件；Ceilometer计量服务：监控集群的状态，监控集群虚拟机的使用量；Horizon界面管理服务：提供基于Web的控制界面，使云管理员和用户能够管理各种OpenStack资源和服务；控制台可以控制OpenStack架构内部的所有功能；依赖于Key
Stirling-PDF 本地化部署，建立自己的专属PDF工具箱 wh3933 pdf
Stirling-PDF是一款功能强大的开源Web应用程序，它允许用户在完全私有的环境中对PDF文件执行超过50种不同的操作。作为一款备受赞誉的“免费AdobeAcrobat替代品”，它不仅获得了个人用户的青睐，还赢得了企业界的广泛信任，据称已有超过10%的财富500强公司在使用。该项目在GitHub上拥有超过58,000个星标，是同类开源项目中热度最高的，这充分证明了其卓越的品质和活跃的社区支持
openstack 扩展开发最佳实践之计算节点高可用手机版网站
前言:注意是扩展开发，这个词是我杜撰的，大概意思是指基于openstack的restapi做的一些开发，用于辅助相关功能，而不是直接改动openstack内的代码，怎么修改添加openstack各个组件的代码不在此文章内容内。首先，千万，千万，千万不要用Openstack提供的SDK，原因如下。一，SDK的相关文档并不健全。二，版本不够统一，即兼容的问题。所以不要使用openstack的SDK而是
给OpenStack扩展自定义功能 jmppok 云计算 openstack
转自：http://quake.iteye.com/blog/1343584得益于OpenStack的良好架构，对OpenStack进行扩展非常方便，每个模块都留出了各种接口和扩展点，能够让用户扩展自定义功能。下面以操作记录为例子，介绍一下如何扩展nova-api组件。需求：用户的一些重要操作必须记录下来，方便进行事后查询，比如instance的创建、销毁，比如公网IP的申请、分配等等。实现：因为
重构开发范式：AI大模型如何让SmartSpam插件从构思到发布快速迭代
文章目录SmartSpam-智能评论过滤器️插件概述️设计架构与构思工作流程图处理流程示例代码结构✨程序功能详解插件优势超详细使用方法教程配置选项概览最佳实践建议常见问题解答技术规格未来规划插件图效果展示图下载插件SmartSpam-智能评论过滤器️我的个人网站乐乐主题创作室插件概述SmartSpam是一款为Typecho博客系统量身定制的智能评论过滤插件，通过多层次、多维度的过滤机制，有效拦截垃
Netdiscover工作原理和架构 hao_wujing 网络
大家读完觉得有帮助记得关注和点赞！！！Netdiscover是一款基于ARP（地址解析协议）的网络发现工具，主要用于二层（数据链路层）的主机探测，适用于无线网络、交换网络等环境。它支持主动扫描（发送ARP请求）和被动监听（嗅探ARP流量）两种模式，能够快速发现局域网内的活跃主机及其MAC地址和IP地址。一、Netdiscover的工作原理Netdiscover的核心工作原理依赖于ARP协议，具体流
蜜罐的工作原理和架构
大家读完觉得有帮助记得关注和点赞！！！蜜罐（Honeypot）是一种**主动防御技术**，通过部署虚假系统、服务或数据，诱骗攻击者入侵，从而**捕获攻击行为、分析攻击工具、收集威胁情报**。以下从工作原理到架构的深度解析：---###一、蜜罐核心工作原理####**欺骗三部曲**```mermaidsequenceDiagramattacker->>+honeypot:探测与攻击honeypot-
数字沙盘的工作原理和架构
大家读完觉得有帮助记得关注和点赞！！！**网络安全数字沙盘**是一种融合**攻防推演、态势仿真、决策支持**的交互式平台，通过数字孪生技术构建企业网络全景镜像，实现安全风险的动态预判与响应验证。以下从核心原理到架构的深度解析：---###一、数字沙盘核心工作原理####**三层核心能力**```mermaidgraphLRA[网络空间映射]-->B[攻击路径推演]B-->C[防御效果仿真]C-->
【PyTorch】PyTorch中torch.nn模块的卷积层
PyTorch深度学习总结第七章PyTorch中torch.nn模块的卷积层文章目录PyTorch深度学习总结前言一、torch.nn模块1.模块的基本组成部分1.1层（Layers）1.2损失函数（LossFunctions）1.3激活函数（ActivationFunctions）2.自定义神经网络模型3.模块的优势二、torch.nn模块的卷积层1.卷积的定义2.常见的卷积层3.卷积层的重要参
【PyTorch】PyTorch中torch.nn模块的循环层
PyTorch深度学习总结第九章PyTorch中torch.nn模块的循环层文章目录PyTorch深度学习总结前言一、循环层1.简单循环层（RNN）2.长短期记忆网络（LSTM）3.门控循环单元（GRU）4.双向循环层二、循环层参数1.输入维度相关参数2.隐藏层相关参数3.其他参数三、函数总结前言上文介绍了PyTorch中介绍了池化和torch.nn模块中的池化层函数，本文将进一步介绍torch.
WordPress、Typecho 站点如何让 CloudFlare 缓存加速明月登楼 CloudFlare 缓存 CloudFlare CloudFlare国内速度 CloudFlare速度优化 CloudFlare缓存规则 cache rules
众所周知WordPress、Typecho都是著名动态博客站点（一个最简单的判断依据就是都要依赖结合数据库），这类站点在CDN缓存上都有一个致命的缓存弊端就是动静态请求的区分，理论上要让CDN绕过所有的动态请求，缓存所有的静态请求，否则就会造成前端登录和非登录状态的混乱，影响用户浏览体验。其实静态网站和动态网站最重要的区别就是动态网站能够做到数据持久化，也就是能够把用户访问网站产生的数据存到数据库
微信小程序云开发全面解析：从入门到实战 @程序员ALMJ 微信小程序小程序
一、什么是微信小程序云开发？微信小程序云开发是微信官方提供的一套云端一体化开发解决方案，它为开发者提供了云函数、云数据库、云存储等后端服务，开发者无需搭建服务器即可快速开发小程序。云开发采用Serverless架构，让前端开发者也能轻松完成后端开发工作。二、云开发的优势及解决的问题1.主要优势免运维：无需关心服务器部署、运维和扩容低成本：初期免费额度高，按量付费模式节省成本开发效率高：前端开发者可
Gradle 与 Maven 的深度对比分析
一、核心架构与设计哲学对比1.依赖管理机制维度GradleMaven声明语法Groovy/KotlinDSL（类型安全）XML（结构严谨，可读性低）动态版本支持2.5.+动态匹配仅支持固定版本（需-U强制更新）依赖作用域implementation/api精细控制compile/provided/test标准隔离冲突解决自动选择最高版本（可覆写）最短路径优先（需手动排除）Gradle优势：避免传递
【PyTorch】PyTorch中torch.nn模块的池化层咸鱼鲸 PyTorch pytorch 人工智能 python
PyTorch深度学习总结第八章PyTorch中torch.nn模块的池化层文章目录PyTorch深度学习总结前言一、池化1.定义2.目的3.常见类型4.实际效果二、池化层1.常用的池化层2.池化层的参数2.1最大池化层（MaxPooling）和平均池化层（AveragePooling）2.2自适应最大池化层（AdaptiveMaxPooling）和自适应平均池化层（AdaptiveAverage
鸟类识别与分类相关数据集 Bryan Ding 分类数据挖掘人工智能
随着深度学习技术的快速发展，其在图像识别、语音识别等领域取得了显著的成果。鸟类识别作为生态学研究的重要内容，对于物种多样性保护、生态环境监测等领域具有深远的影响。将深度学习技术应用于鸟类识别，有望提高识别的准确性和效率，为鸟类学研究提供有力支持。本文综述了近年来深度学习在鸟类识别中的应用进展，包括基于图像和声音的鸟类识别系统，分析了其技术框架、实现方法以及在实际应用中的效果。通过对相关文献的梳理，
C# 使用 Castle DynamicProxy 实现 AOP (面向切面编程) 墨瑾轩一起学学C#【一】c#
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣C#使用CastleDynamicProxy实现AOP(面向切面编程)引言在软件开发中，面向切面编程（AOP，Aspect-OrientedProgramming）是一种编程范式，它旨在将横切关注点（cross-cuttingconcerns）从业务逻辑中分离
一文讲清楚CDA数据分析师考试，2025年最新Q&A，你想问的这里都有答案【更新于2025年7月1日】
很多小伙伴都在问CDA考试的问题，以下是结合2025年最新政策与行业动态更新的CDA数据分析师认证考试Q&A，覆盖考试内容、报考条件、备考策略等核心问题：一、考试基础信息Q1：CDA数据分析师认证分为几个等级？各自的定位是什么？A：CDA认证分为三个等级：LevelI：面向零基础入门者，培养Excel/SQL基础、数据可视化、业务报告制作等能力，适合应届生或业务岗人员。LevelII：需先通过Le
Python机器学习入门必看！从原理到实战，手把手教你线性回归模型小张在编程 python 机器学习线性回归
引言在人工智能浪潮席卷全球的今天，机器学习（MachineLearning）早已不再是实验室的“黑科技”——打开购物APP的“猜你喜欢”、输入搜索词后的“相关推荐”、甚至天气预报中的温度预测，背后都有机器学习模型的身影。而在线性回归（LinearRegression）作为机器学习中最基础、最经典的监督学习模型，堪称机器学习的“敲门砖”。本文将从原理到实战，带你彻底掌握这一核心算法。一、机器学习的“
深度解析新能源汽车研发测试中的关键信号采集技术新能源汽车研发＆测试入门指南汽车大数据人工智能
摘要随着新能源汽车的快速发展，研发测试环节对信号采集的需求日益复杂。本文结合行业前沿技术方案，系统梳理了新能源汽车测试中需要关注的核心信号类型、采集方法及技术难点，涵盖高压电气、动力电池、热管理、智能驾驶、网络通信等全维度数据采集策略，为工程师提供全面的技术参考。一、新能源汽车测试信号采集的核心意义新能源汽车的研发测试涉及电动化、智能化、网联化三大技术方向，需通过高精度信号采集验证系统性能、安全性
Python 上下文管理器和 else 块(上下文管理器和with块) 钢铁男儿流程Python python java 前端
上下文管理器和with块上下文管理器对象存在的目的是管理with语句，就像迭代器的存在是为了管理for语句一样。with语句的目的是简化try/finally模式。这种模式用于保证一段代码运行完毕后执行某项操作，即便那段代码由于异常、return语句或sys.exit()调用而中止，也会执行指定的操作。finally子句中的代码通常用于释放重要的资源，或者还原临时变更的状态。上下文管理器协议包含_
Python魔法：用@contextmanager简化上下文管理器
告别样板代码，用生成器优雅管理资源在Python开发中，上下文管理器是管理资源（如文件、数据库连接）的利器。传统的实现方法需要创建一个类并定义__enter__和__exit__两个方法，但Python的contextlib模块提供了更简洁的解决方案——@contextmanager装饰器。传统上下文管理器的实现痛点传统方式需要完整定义一个类，包含__enter__和__exit__方法：clas
mac上python安装pip_Python开发：在mac系统中安装pip weixin_39793638 mac上python安装pip
pip用来安装python项目的依赖库。大多数比较新的python版本都自带pip，所以先检查下pip是否有安装。终端输入：pip--version如果没有安装pip，那么就用接下来的方式安装pip。--前言安装pip的方式是运行一个python文件，因此请先确保电脑中已经安装有python。因此首先需要将该python文件下载到本地电脑中。方式一：在浏览器中访问https://bootstrap
未来已来：美颜SDK如何通过深度学习实现个性化美颜形象？美狐美颜SDK开放平台美颜sdk 直播美颜sdk 视频美颜sdk 深度学习人工智能直播美颜sdk 美颜sdk 美颜api 视频美颜sdk 直播美颜工具
你有没有这样的时刻：打开相机滤镜，调了半天，依旧找不到最适合自己的美颜效果？或是刷短视频时，惊艳于博主的“自然”颜值，却又发现自己的滤镜总显得太“假”？这背后，其实藏着一个越来越热门的技术关键词——个性化美颜，而它的核心驱动力，正是深度学习。从“千人一脸”到“千人千面”，美颜SDK走进了一个真正智能的时代。一、美颜SDK，从滤镜到AI的技术跃迁美颜SDK是一类集成在App中，用于图像实时处理和优化
前沿FPGA开发：技术与管理的有效结合 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 fpga开发 ai
前沿FPGA开发：技术与管理的有效结合关键词：FPGA开发、技术管理、前沿技术、项目管理、资源优化摘要：本文深入探讨了前沿FPGA开发中技术与管理有效结合的重要性和具体方法。在FPGA技术不断发展的今天，单纯依靠技术或管理都难以实现项目的成功。通过将先进的FPGA技术与科学的管理理念相结合，能够提高开发效率、优化资源配置、降低成本并提升产品质量。文章详细阐述了FPGA开发的核心概念、相关算法原理、
C/C++ 字面常量的注意事项林罗 c语言 c++开发语言
在C/C++中使用字面常量时，有几个重要的注意事项需要考虑，以确保代码的准确性和可移植性。下面是一些关键要点：整数字面量：默认情况下，整数字面量是int类型。如果字面量的值超出了int的范围，它将被视为longint或longlongint，这取决于它的值和编译器。可以在整数字面量后添加L或l后缀来明确指定它为long类型，或使用LL或ll后缀指定为longlong类型。使用U或u后缀表示无符号类
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

python tkinter界面 多进程启动scrapy爬取百度贴吧的回复，显示爬取进度，并可以搜索回帖人，指定时间生成词云图，用pyinstaller打包成exe(六)

爬取指定贴吧的帖子 one_tieba_spider.py

这是具体的思路图，光搞这图，弄清了逻辑关系，也费了我不少时间

哈哈，够恐怖吧，不过大家看懂了那张图，就很快搞清楚代码的了！接下来就是爬取单个帖子，思路差不多，不过

你可能感兴趣的:(python,爬取百度贴吧的帖子)

python tkinter界面多进程启动scrapy爬取百度贴吧的回复，显示爬取进度，并可以搜索回帖人，指定时间生成词云图，用pyinstaller打包成exe(六)