行者刘6

python tkinter界面多进程启动scrapy爬取百度贴吧的回复，显示爬取进度，并可以搜索回帖人，指定时间生成词云图，用pyinstaller打包成exe(九)

对生成的帖子json文件，进行搜索，可以根据回帖内容关键字、或者回帖人查找回帖内容，还可以依据回复内容，生成词云图

tk界面，search.py

'''

'''构造：
        toplevel：——notebook，2个页面：
                             ----搜索回复内容(search_frame):---选择文件夹部分(dir_fr):搜索、保存文件夹，搜索进度
                                                           ---搜索回复(search_fr)：关键字、回帖人
                                                           ---显示回复(value_text): 显示点击的帖子内容
                                                           ---tree
                             ----获取回复内容(content_frame):---选择文件夹部分(dir_fr):搜索、保存文件夹，搜索进度
                                                            ---设定部分(content_fr)：输入时间后搜索、
                                                                                    设定帖子回复文件、模板图片、屏蔽词
                                                            ---显示词云图(wc_label)
                            '''

class Search_tk():
    def __init__(self,my_tk):
        self.root=my_tk
        self.root.title('搜索贴吧')
        self.root.geometry('920x650+400+0')
        
        self.search_dir = StringVar() #要搜索的文件夹路径
        self.save_dir = StringVar()   #搜索后保存的文件路径
        self.board_var=StringVar()    #显示搜索进度的label
        self.set_defaultpath()       #设定的好默认的路径
        
        self.creat_notebook()       #创建notebook及其2个页面
        self.creat_search_frame()
        self.creat_content_frame()



    def creat_notebook(self):
        '''创建notebook，生成2个页面：1.存放搜索帖子内容  2.获取回复生成云图'''
        self.notebook=Notebook(self.root)
        self.notebook.pack()
        #搜索回复内容页面frame
        self.search_frame = Frame(self.root)
        self.search_frame.pack()
        #获取所有回复页面frame
        self.content_frame = Frame(self.root)
        self.content_frame.pack()

        self.notebook.add(self.search_frame, text="搜索页面",sticky='E')
        self.notebook.add(self.content_frame, text="获取回复")

    def creat_dirframe(self,frame):
        '''创建2个页面的共同部分：1.所要搜索的文件夹、2.保存文件的文件夹、3.显示遍历文件进度
            '''
        dir_fr=Frame(frame)
        dir_fr.pack()
        path_label1 = Label(dir_fr, text='目标贴吧:', anchor='e')
        change_button1 = Button(dir_fr, text='更改', command=lambda:self.set_dirpath(self.search_dir))
        search_dir_entry=Entry(dir_fr,width=45, textvariable=self.search_dir)
        path_label1.grid(row=1, column=0)
        search_dir_entry.grid(row=1, column=1)
        change_button1.grid(row=1, column=2)

        path_label2 = Label(dir_fr, text='保存路径:', anchor='e')
        change_button2 = Button(dir_fr, text='更改', command=lambda: self.set_dirpath(self.save_dir))
        save_dir_entry = Entry(dir_fr, width=45, textvariable=self.save_dir)
        path_label2.grid(row=2, column=0)
        save_dir_entry.grid(row=2, column=1)
        change_button2.grid(row=2, column=2)


        self.board_text=tkinter.Label(dir_fr,width=60,font=('system', 14, 'bold'),foreground='blue',background='Wheat',textvariable=self.board_var)
        self.board_var.set('请设定要搜索的文件夹以及搜索条件！！')
        self.board_text.grid(row=4, column=0,columnspan=3)
        tkinter.Label(dir_fr, height=1).grid(row=5, column=0)

    def creat_content_frame(self):
        '''获取所有回复页面，共6部分
           1.选择文件夹部分(共用)
           2.输入搜索时间，获取该时间点后的所有回复
           3.包含所有回复的文件，搜索完成后会自动填入，也可手选
           4.选择词云图所用的模板图片，不设定/设定错误，直接生成为方形
           5.添加屏蔽词，设定词云图不显示的词语
           6.显示词云图label
           '''
        self.creat_dirframe(self.content_frame)# 创建 搜索保存文件夹部分

        content_fr = Frame(self.content_frame)
        content_fr.pack()

        self.the_time = StringVar()
        now_time = datetime.datetime.now()
        yes_time = now_time + datetime.timedelta(days=-1)
        yes_time = yes_time.strftime('%Y-%m-%d %H:%M')
        self.the_time.set(yes_time)     #默认时间设定为当前时间的前一天
        time_label = Label(content_fr, text='输入时间:', anchor='e')
        time_button = Button(content_fr, text='获取回复', command=self.get_content)
        time_combobox = Combobox(content_fr, width=20, textvariable=self.the_time,values=['获取所有内容'])
        format_label=Label(content_fr, text='格式:2018-10-25或2018-10-25 15:00', foreground='gray',anchor='e')
        time_label.grid(row=0, column=0)
        time_combobox.grid(row=0, column=1)
        time_button.grid(row=0, column=3)
        format_label.grid(row=0, column=2)

        self.content_file = StringVar()
        cfile_label = Label(content_fr, text='回复文件:', anchor='e')
        cfile_button = Button(content_fr, text='更改文件',command= lambda:self.set_filepath(self.content_file))
        cfile_entry = Entry(content_fr, width=55, textvariable=self.content_file)
        cfile_label.grid(row=1, column=0)
        cfile_entry.grid(row=1, column=1,columnspan=2)
        cfile_button.grid(row=1, column=3)

        self.pic_file = StringVar()
        pic_label = Label(content_fr, text='模板图片:', anchor='e')
        pic_button = Button(content_fr, text='选择文件', command= lambda:self.set_filepath(self.pic_file))
        pic_entry = Entry(content_fr, width=55, textvariable=self.pic_file)
        pic_label.grid(row=2, column=0)
        pic_entry.grid(row=2, column=1, columnspan=2)
        pic_button.grid(row=2, column=3)

        self.add_stopword = StringVar()
        self.add_stopword.set('就是, 不是, 现在, 没有, 可以, 还是, 这个, 怎么, 什么, 自己, 一个')
        stopword_label = Label(content_fr, text='添加屏蔽词:', anchor='e')
        stopword_entry = Entry(content_fr, width=55, textvariable=self.add_stopword)
        wc_button=Button(content_fr, text='生成图片', command=self.generate_pic)
        stopword_label.grid(row=3, column=0)
        stopword_entry.grid(row=3, column=1, columnspan=2)
        wc_button.grid(row=3, column=3)

        #插入图片的label
        self.wc_label=Label(self.content_frame)
        self.wc_label.pack()

    def creat_search_frame(self):
        '''搜索帖子回复部分，共5部分：
           1.选择文件夹部分(共用)
           2.根据 关键字 搜索回复内容
           3.根据 回帖人 搜索回复内容
           4.text，显示tree中你所点的某个回复
           5.tree，搜索结束后，插入搜索内容
'''

        self.creat_dirframe(self.search_frame)# 创建 搜索保存文件夹部分

        # 搜索关键字/回帖人部分
        search_fr = Frame(self.search_frame)
        search_fr.pack()

        self.target_word = StringVar()
        sword_label = Label(search_fr, text='搜索回复内容----关键字:', anchor='e')
        sword_button = Button(search_fr, text='搜索', command=self.search_keyword)
        sword_entry = Entry(search_fr, width=20, textvariable=self.target_word)
        sword_label.grid(row=0, column=0)
        sword_entry.grid(row=0, column=1)
        sword_button.grid(row=0, column=2)

        self.author = StringVar()
        sauthor_label = Label(search_fr, text='搜索回复内容----回帖人:', anchor='e')
        sauthor_button = Button(search_fr, text='搜索', command=self.search_author)
        sauthor_entry = Entry(search_fr, width=20, textvariable=self.author)
        sauthor_label.grid(row=1, column=0)
        sauthor_entry.grid(row=1, column=1)
        sauthor_button.grid(row=1, column=2)

        # 显示tree所选的item帖子内容
        self.value_text = Text(self.search_frame, width=120, height=3, )
        self.value_text.pack()
        self.value_text.tag_config('default', font=('system', 10))

        #创建tree
        self.creat_tree()

###==========================获取回复内容，生成词云图所用函数========================#
    def generate_pic(self):
        '''回调函数，生成词云图
           运行过程：1.获取文件路径、屏蔽词等
                    2.判断包含回复的文件路径:---正确，判断模板图片路径:---正确，根据模板图片生成词云图
                                                                  ---不对，直接生成方形图
                                          ---不对，报错'''
        pic_list=['.jpg', '.png', '.jpeg', '.bmp']
        pic_file=self.pic_file.get().strip()
        content_file = self.content_file.get().strip()

        #屏蔽词，过滤逗号等符号，转换为list
        stopword=self.add_stopword.get().strip()
        stopword=re.sub(r'[(\s)(,)(，)(\\)(/\)]', ' ', stopword)
        stopword=stopword.split()

        #判断包含回复的文件路径正确与否
        if os.path.exists(content_file) and os.path.splitext(content_file)[1]=='.json':
            try:
                #判断模板图片路径正确与否
                if os.path.exists(pic_file) and os.path.splitext(pic_file)[1] in pic_list :
                    self.board_var.set('根据模板图片生成词云图.......')
                    self.root.update()
                    wc_file=self.generate_wc(stopword,content_file,pic_file)    #生成词云图
                else:
                    self.board_var.set('没有正确选择模板图片，生成方形云图.......')
                    self.root.update()
                    wc_file=self.generate_wc(stopword,content_file)
                self.board_var.set('已生成词云图！！！！')

                #将词云图显示在tk上
                img = Image.open(wc_file)  # 打开图片
                self.wc_label.img = ImageTk.PhotoImage(img)  # 用PIL模块的PhotoImage打开
                self.wc_label['image'] = self.wc_label.img

            except Exception as e:
                logging.error("ERROR：%s\n"
                              "%s" % (e, traceback.format_exc()))
                self.board_var.set('生成词云图出现问题！！')

        else:
            self.board_var.set('回复内容文件选择不对！！')

    def generate_wc(self,stopword,list_file, pic=None):
        '''生成词云图，               PS:图片路径为空，直接生成方形词云图
        :param stopword:屏蔽词
        :param list_file:里面是list的json文件
        :param pic:模板图片路径
        :return:返回生成的词云图路径
        '''
        if pic:
            pic = np.array(Image.open(pic))  # 解析图片

        with open(list_file, 'r', encoding='utf-8') as f:
            words = f.read()
            words = json.loads(words)
        text = "".join(words)  # 将list转换为str

        # 使用jieba将词语分割       false直接将句子分割，他 来到 上海交通大学；True会出现相同的字 ，他 来到 上海 上海交通大学 交通 大学
        jieba_text = jieba.cut(text, cut_all=False)  #
        wc_text = " ".join(jieba_text)

        # 屏蔽词
        stopwords = set()
        if stopword!=[]:stopwords.update(stopword)

        wc = WordCloud(background_color='white',  # 背景颜色
                       max_words=500,  # 要显示的词的最大个数
                       width=900,  # 图片的宽
                       height=400,  # 图片的长
                       mask=pic,  # 以该参数值作图绘制词云，这个参数不为空时，width和height会被忽略
                       max_font_size=100,  # 显示字体的最大值，对应就是min最小值
                       stopwords=stopwords,  # 使用内置的屏蔽词，
                       font_path=r"wordcloud\simsun.ttc",  # 解决显示口字型乱码问题，可进入C:/Windows/Fonts/目录更换字体
                       random_state=42,  # 为每个词返回一个PIL颜色
                       scale=1,  # 按照比例进行放大画布，如设置为1.5，则长和宽都是原来画布的1.5倍

                       )

        wc.generate(wc_text)

        # 这2行代码，就是将云图里的字体颜色设定跟所选图片一致
        if pic is not None:
            image_colors = ImageColorGenerator(pic)
            plt.imshow(wc.recolor(color_func=image_colors), interpolation="bilinear")  # interpolation不太懂

        plt.imshow(wc)
        plt.axis("off")  # 不显示坐标轴
        #plt.show()  # 弹出图片，显示

        wc_file=self.content_file.get().replace('json','jpg').strip()
        wc.to_file(wc_file)  # 保存文件
        return wc_file
###==========================获取回复内容，生成词云图所用函数========================#




###==========================搜索/获取所有帖子文件，实例化Search_tiezi后进行遍历==========#
    def search_keyword(self):
        '''回帖函数，搜索关键字
           先清空tree，再实例化Search_tiezi 进行搜索
           搜索结果直接该实例中插入到tree
        '''
        search_dir = self.search_dir.get().strip()
        target_word=self.target_word.get().strip()

        if target_word!='':
            items = self.tree.get_children()
            [self.tree.delete(item) for item in items]#清空tree

            aa=Search_tiezi(self)
            try:
                aa.search_keyword(target_word)
            except Exception as e:
                self.board_var.set('请正确选择要搜索的文件夹')
                logging.error("ERROR：%s\n"
                              "%s" % (e, traceback.format_exc()))
        
    def search_author(self):
        '''回帖函数，搜索回帖人
            先清空tree，再实例化Search_tiezi 进行搜索
            搜索结果直接该实例中插入到tree
        '''
        search_dir = self.search_dir.get().strip()
        author = self.author.get().strip()

        if author!='':
            items = self.tree.get_children()
            [self.tree.delete(item) for item in items]#清空tree
            aa=Search_tiezi(self)
            try:
                aa.search_author(author)
            except Exception as e:
                self.board_var.set('请正确选择要搜索的文件夹')
                logging.error("ERROR：%s\n"
                              "%s" % (e, traceback.format_exc()))

    def get_content(self):
        '''回帖函数，获取所有回复
            调用get_timestamp，判断所输入的日期格式
            正确后，再实例化Search_tiezi，
            若有符合条件的内容，保存下来后会其路径显示在content_file中
        '''
        search_dir = self.search_dir.get().strip()
        the_time = self.the_time.get().strip()

        if the_time=='获取所有内容':the_time='无'
        right_time=Search_tiezi.get_timestamp(the_time)
        if right_time is not None:
            aa = Search_tiezi(self)
            try:
                aa.get_content(the_time)
            except Exception as e:
                self.board_var.set('请正确选择要搜索的文件夹')
                logging.error("ERROR：%s\n"
                              "%s" % (e, traceback.format_exc()))
            else:
                if os.path.exists(aa.save_file):
                    self.content_file.set(aa.save_file)
                else:
                    self.board_var.set('没有符合的回复，请正确输入时间！！')
        else:
            self.board_var.set('请正确输入时间！！')
###==========================搜索/获取所有帖子文件，实例化Search_tiezi后进行遍历==========#


###=========================创建tree，以及其所用到的函数=======================#
    def creat_tree(self):
        '''创建tree
           1.创建tree与滚动条
           2.绑定列头、双击、选择item时的回调函数'''

        columns=['title','floor','type','page','author','content','time','url']
        self.tree = Treeview(self.search_frame, columns=columns,show='headings' ,height=50)
        heads=("标题", '楼层','回帖',"页数",  "回帖人", "回复内容", "回复时间",'url')
        widths = ( 230, 50,50,40, 100, 270, 110,35)

        for i in range(len(columns)):
            self.tree.heading(columns[i], text=heads[i])
            self.tree.column(columns[i], width=widths[i], minwidth=widths[i], anchor='center')
            #绑定点击tree列头时，所有内容排序
            self.tree.heading(columns[i], command=lambda _col=columns[i]: self.treeview_sort_column(self.tree, _col, True))

        ysb = Scrollbar(self.search_frame,orient=VERTICAL, command=self.tree.yview)#滚动条
        self.tree.configure(yscrollcommand=ysb.set)
        self.tree.pack(side=LEFT)
        ysb.pack(side=RIGHT,fill=Y)

        self.tree.bind('<>',self.show_value)#选中的帖子，其内容显示在value_text中
        self.tree.bind("", self.open_url)         #双击打开在浏览器打开选中的帖子

    def treeview_sort_column(self,tv, col, reverse):  # Treeview、列名、排列方式
        '''列头的回调函数，
           让每个帖子的item与col对应的值 构成映射关系，以值作为排列依据(发帖时间、楼层转换为数字作为比较)，
           排列后，根据其顺序，用tree的move重新排列所有帖子'''

        #构造映射关系，l:[(该列对应的值1,item1)，(该列对应的值2,item2).....]
        l=[]
        for item in tv.get_children(''):
            value=tv.set(item,col)
            if col=='time':
                value = time.mktime(time.strptime(value, "%Y-%m-%d %H:%M"))
            elif col=='floor':
                value=re.findall(r'(\d*)楼',value)[0]
                value=int(value)
            l.append((value,item))

        # 根据第一个元素(时间戳)排序！
        l.sort(reverse=reverse)

        # 根据排序后索引移动
        for index, (value, item) in enumerate(l):
           tv.move(item, '', index)
        # 重写标题，使之成为再点倒序的标题
        tv.heading(col, command=lambda: self.treeview_sort_column(tv, col, not reverse))
        
    def filter(self,the_value):
        '''过滤插入tree中的表情、特殊符号'''
        the_value = [re.sub(r':.*?:', '', emoji.demojize(str(one))) for one in the_value]  # 有时候title里有表情，得去掉
        co = re.compile(u'[\U00010000-\U0010ffff]')  # 有时候什么表情都不是，也会报错，所以还得过滤掉
        the_value = [co.sub('', one) for one in the_value]
        return the_value
    
    def tree_insert(self,one_tiezi):
        '''tree中插入帖子的楼层、楼内楼回复
           插入内容："标题", '楼层','回帖',"页数",  "回帖人", "回复内容", "回复时间",'url
           因为有些楼层只存在楼内楼，所以只有len(3)>3时，才能插入楼层信息，接着循环其楼内楼'''

        title=one_tiezi['title']
        for post in one_tiezi['post_list']:
            floor=post['floor']
            url=post['url']
            if len(post)>3:
                post_value=(title,floor,'楼层',post['page'],post['author'],post['content'],post['time'],url)
                post_value = self.filter(post_value)
                self.tree.insert('', 'end', value=post_value)
            for comment in post['comment_list']:
                comment_value=(title,floor,'楼内楼',comment['page'], comment['author'], comment['content'], comment['time'],url)
                comment_value = self.filter(comment_value)
                self.tree.insert('', 'end', value=comment_value)

###=========================创建tree，以及其所用到的函数=======================#


###=======================tree鼠标操作bind绑定的函数=========================#

    def show_value(self, event):
        '''bind绑定函数，
           选中的帖子，其内容显示在value_text中 '''
        values = self.get_values()
        self.value_text['state'] = NORMAL
        title = '标题：%s' % values[0]
        author = '回帖人：%s' % values[4]
        content = '回复内容：%s' % values[5]
        self.value_text.delete('1.0', 'end')
        self.value_text.insert("end", '%s\n%s\n%s' % (title, author, content), )
        self.value_text['state'] = DISABLED  # 让text栏不可修改

    def open_url(self, event):
        '''bind绑定函数，双击打开在浏览器打开选中的帖子'''
        values = self.get_values()
        url = values[-1]
        webbrowser.open_new(url)

    def get_values(self):
        '''获取选中item的value'''
        item = self.tree.selection()[0]
        values = self.tree.item(item, "values")
        return values
###=======================tree鼠标操作bind绑定的函数=========================#
    

##================设定当前路径等的 函数================##
    #文本框默认显示的路径：含贴吧那个------保存、选择贴吧，都一样
    #更改路径，输入文本框变量，分别设定
    def set_defaultpath(self):
        '''获得当前路径，创建名为[贴吧]的文件夹，设定为默认路径，显示在路径文本框内'''
        self.the_path=os.path.split(os.path.realpath(__file__))[0]#获取当前所在的文件夹绝对路径
        self.defaultpath = self.the_path + os.sep + '贴吧'
        if os.path.exists(self.defaultpath) is False:       #创建存放帖子json文件的文件夹
            os.mkdir(self.defaultpath)
        self.search_dir.set(self.defaultpath)                  #设定搜索文本框内的路径
        self.save_dir.set(self.defaultpath)                     #设定保存文本框内的路径

    def set_dirpath(self,dir):
        '''弹出选择路径窗口，设定文件保存的路径
            选择好了文件夹，那该路径显示在文本框内，否则 设定为默认的文件夹'''
        a=tkinter.filedialog.askdirectory(initialdir=self.defaultpath)
        if a != '':
            dir.set(a)
        elif a == '' and dir.get().strip() == '':
            dir.set(self.defaultpath)

    def set_filepath(self, file):
        '''弹出选择路径窗口，设定文件保存的路径(这是选择文件，而不是文件夹)
            选择好了文件夹，那该路径显示在文本框内，否则 设定为默认的文件夹'''
        a = tkinter.filedialog.askopenfilename(initialdir=self.defaultpath)
        if a == '' and file.get().strip()=='':
            file.set(self.defaultpath)
        elif a != '':
            file.set(a)
###================设定当前路径等的 函数================##

搜索时，调用到的处理帖子dict的类：

'''
3个搜索函数：
search_keyword：搜索回帖内容里的某个关键字
search_author：搜索回帖人回复过的内容
get_content: 某时间后所有的发帖内容(或全部内容) 格式：'2018-10-25'

运行过程：
》传入Search_tk，调用的部分为：搜索、保存路径/显示搜索进度、结果/插入到tree
》获取所有文件的绝对路径list(self.files)
》运行搜索函数，
》调用装饰器：1.遍历每个文件，循环每一行
             2.正式运行搜索函数的代码(上面3个)
               ——设定储存文件名(set_savefile)
               ——利用find_path，获取匹配后的所有路径
               ——筛选，补全楼层信息后，添加到post_list中
             3.将每个文件搜索的内容保存到存储文件
             4.合并存储文件内的每一行，并且显示在tree上/生成云图

'''

class Search_tiezi(object):

    def __init__(self,Search_tk):
        self.Search_tk=Search_tk   #直接将整个搜索tk传进来
        self.search_dir=self.Search_tk.search_dir.get().strip() #搜索tk中的搜索路径
        self.save_dir=self.Search_tk.save_dir.get().strip() #搜索tk中的保存路径
        self.files=self.get_files()                         #所有帖子的路径list
        self.save_file = ''                                 #保存文件的绝对路径，在搜索函数中设定

    def get_files(self):
        '''根据存放json文件的文件夹，得到json文件的绝对地址组成的list'''
        file_list = []
        for name in os.listdir(self.search_dir):
            file_path = os.path.join(self.search_dir, name)
            if os.path.isfile(file_path):
                file_list.append(file_path)
        return file_list

    def set_savefile(self,search_type,target_word):
        '''设定保存文件路径，如果已经存在就删除'''
        tieba=os.path.split(self.search_dir)[1]
        self.save_file = self.save_dir+os.sep+'%s~%s：%s.json'%(tieba,search_type,target_word)
        self.save_file.replace(':','：')
        if os.path.exists(self.save_file):  # 返回文件名，如果存在，删掉文件
            os.remove(self.save_file)


    def save(self,data):
        '''将每条搜索结果(dict/list)写入保存文件内'''
        with codecs.open(self.save_file, 'a', encoding='utf-8') as f:
            line = json.dumps(data, ensure_ascii=False) + "\n"
            f.write(line)


    def save_insert(self):
        '''合并保存文件的每一行，并且在Search_tk显示
           PS:之前是符合条件的一行一行写入文件，现在提取文件的所有dict/list都合并到一个list，然后保存 显示
           步骤：搜索后的文件：----存在，》读取每一行，判断类型：----搜索内容：1.将每一行添加到all_data
                                                                       2.在tk的tree插入该行信息(每一行为一个帖子)
                                                          ----获取回复： 只将每一行的post_list添加到all_data
                                      》再次保存
                                      》在tk的board_text上显示搜索结果
                             ----不存在，在tk上提示没有搜索内容
            '''
        #存在搜索文件才进行合并，否则说明所有帖子中没有要搜索的内容
        if os.path.exists(self.save_file):
            all_data=[]
            with open(self.save_file, 'r', encoding='utf-8') as f:
                for one_dict in f.readlines():
                    one_tiezi=json.loads(one_dict)
                    if '搜索条件' in self.save_file:
                        all_data.append(one_tiezi)
                        self.Search_tk.tree_insert(one_tiezi)
                    elif '回帖内容' in self.save_file: #只需 回帖内容content
                        all_data+=one_tiezi['post_list']
            #先删了再保存
            os.remove(self.save_file)
            self.save(all_data)

            #搜索结束后，在label_text上显示搜索结果
            if '搜索条件' in self.save_file:
                content_num=len(self.Search_tk.tree.get_children(''))
            else:
                content_num=len(all_data)
            the_searching=os.path.split(self.save_file)[1].split('.')[0]
            self.Search_tk.board_var.set('%s——完成，共%s条回复'%(the_searching,content_num))
        else:
            self.Search_tk.board_var.set('没有符合条件的搜索结果')

###====================================装饰器，循环打开每个文件、读取每一行，再进行搜索====================###
    def read_search(search_func):
        '''装饰器，装饰3种查询方法
            步骤：----遍历所有文件：----在tk上显示搜索进度
                                  ----读取文件：----创建post_list，用以存放符合条件的楼层
                                               ----循环每一行：     》搜索每一行
                                               ----post_list不为空：》每个文件(帖子)作为一行保存到文件中
                 ----合并保存文件的每一行，并且在tk上显示出搜索结果
'''
        def wrapper(self,target_word,):
            # 循环该贴吧的所有文件
            files_num=len(self.files)
            search_num=0
            for one_file in self.files:
                search_num += 1
                label_text='搜索文件进度————%s/%s'%(search_num,files_num)
                self.Search_tk.board_var.set(label_text)
                self.Search_tk.root.update()
                with open(one_file, 'r', encoding='utf-8') as f:
                    post_list = []
                    serach_tiezi = {}
                    # 循环该文件的所有行
                    for one_dict in f.readlines():
                        the_tiezi = json.loads(one_dict)
                        serach_tiezi = {'title': the_tiezi['title'], 'author': the_tiezi['author'],
                                       'tid': the_tiezi['tid']}
                        search_func(self,target_word,the_tiezi,post_list)

                    if post_list != []:  # 该帖子内有符合条件的楼层，才会被保存
                        serach_tiezi['post_list'] = post_list
                        self.save(serach_tiezi)  # 把符合条件的search_tiezi写入保存文件

            self.save_insert()#合并保存文件的每一行，并且在tk上显示出搜索结果
        return wrapper

###====================================装饰器，循环打开每个文件、读取每一行，再进行搜索====================###


###===================================搜索回帖内容/ 搜索回帖人==========================###
    @read_search
    def search_keyword(self, target_word,the_tiezi=None,post_list=None,):
        '''输入关键字，运行find_path，获取在the_tiezi的路径后，补全楼层信息后添加到post_list中
            :param target_word: 回帖内容里的关键字
            :param the_tiezi: 帖子文件内的一行帖子内容dict
            :param post_list: 存放所有楼层的list
            :return:
                '''
        if self.save_file=='':
            self.set_savefile('搜索条件—关键字', target_word) #设定保存文件名

        a = Find_path(the_tiezi)
        all_path = a.in_value_path(target_word)  # 包含匹配，搜索内容包含关键字的路径

        self.sort_path(all_path)  # 将路径排序，保证楼内楼所在的楼层在前
        # 循环所有路径
        for one_path in all_path:
            # 提出 字典的key与列表的元素位置
            indexex = re.findall(r'\[(.*?)\]', one_path) # one_path格式：楼层--"['post_list'][2]['content']"，，楼内楼--"['post_list'][2]['comment_list'][38]['content']"
            indexex = [eval(index) for index in indexex]
            # 只保留 是回帖内容的搜索结果 路径
            if indexex[-1] == 'content'and len(indexex)>1:
                self.add_post(indexex, the_tiezi, post_list)#将路径对应的楼层/楼内楼 的发帖人、时间等信息补充完整为dict，添加到post_list

    @read_search
    def search_author(self, author, the_tiezi=None, post_list=None, ):
        '''输入回帖人昵称，运行find_path，获取在the_tiezi的路径后，补全楼层信息后添加到post_list中
        :param author: 回帖人
        :param the_tiezi: 帖子文件内的一行帖子内容dict
        :param post_list: 存放所有楼层的list
        :return:
        '''
        if self.save_file == '':
            self.set_savefile('搜索条件—发帖人', author)  # 设定保存文件名

        a = Find_path(the_tiezi)
        all_path = a.the_value_path(author) #完全匹配，搜索结果就是author的路径

        self.sort_path(all_path)  # 将路径排序，保证楼内楼所在的楼层在前
        # 循环所有路径
        for one_path in all_path:
            # 提出 字典的key与列表的元素位置
            indexex = re.findall(r'\[(.*?)\]', one_path)
            indexex = [eval(index) for index in indexex]
            # 只保留 是回帖人的搜索结果 路径
            if indexex[-1] == 'author' and len(indexex)>1:
                self.add_post(indexex, the_tiezi, post_list)  # 将路径对应的楼层/楼内楼 的发帖人、时间等信息补充完整为dict，添加到post_list


    def sort_path(self, all_path):
        '''将所有路径排序，保证楼内楼所位于的楼层排列在前
            缘由：因为在读取搜索时，返回的路径有时候顺序是打乱的，楼内楼在其所在的楼层之前，后面add_post添加楼层时就混乱，所以排序
            '''

        def sort_key(one_path, index):
            # 如果index=3，那么楼层排序key就是0，自然就在最前面
            # one_path格式：楼层--"['post_list'][2]['content']"，
            #              楼内楼--"['post_list'][2]['comment_list'][38]['content']"
            indexex = re.findall(r'\[(.*?)\]', one_path)
            indexex = [eval(index) for index in indexex]
            if len(indexex) > index:
                return indexex[index]
            else:
                return 0

        all_path.sort(key=lambda one_path: sort_key(one_path, 3))  # 先按楼内楼顺序排列，因为楼层只有3个元素，所以都在最前面
        all_path.sort(key=lambda one_path: sort_key(one_path, 1))  # 最后按楼层顺序排列


    def add_post(self, indexex, the_tiezi, post_list):
        '''根据楼层/楼内楼 的路径，获取其 回帖时间、内容、回帖人等，组成dict，添加到post_list中
           过程：1.楼层是直接添加，
                2.当是楼内楼时，判断该楼内楼所在的楼层就是post_list最后的楼层，不是的话，添加一个新的楼层，再把该楼内楼添加进去
        :param indexex: 路径，如['post_list',2,'comment_list',38,content']
        :param the_tiezi: 帖子文件内的一行帖子内容dict
        :param post_list:
        :return: 存放所有楼层的list
        保存结构：
                {贴吧名、发帖人、tid、
                'post_list':[{楼层1post，楼层2post,····}]}

                楼层post:
                          当前路径是楼层：包含的键值有
                                       {floor、page、url、author、content、time、comment_list:[]}
                                    或：{floor、page、url、                    、comment_list:[]}
                          楼内楼comment：
                                      当前路径是楼内楼，包含的键值有
                                                  {author、content、time、comment_page}
     '''

        # 锁定 当前楼层/楼内楼所在的楼层
        target_post = the_tiezi['post_list'][indexex[1]]
        url = 'http://tieba.baidu.com/p/%s?pid=%s#%s' % (
        the_tiezi['tid'], target_post['pid'], target_post['pid'])  # 该楼层指向的url

        # 此路径是楼层，直接添加到post_list
        if len(indexex) == 3:
            search_post = copy.deepcopy(target_post)
            search_post.pop('comment_num')  # 删除楼内楼数量
            search_post.pop('pid')  # 删除pid
            search_post['comment_list'] = []  # 楼内楼list先为空
            search_post['url'] = url
            post_list.append(search_post)

        # 此路径是楼内楼
        elif len(indexex) == 5:
            # 当前楼内楼所在的楼层不符合条件被收录，只存在楼内楼，那么创建该楼层
            if post_list == [] or post_list[-1]['floor'] != target_post['floor']:
                search_post = {}
                search_post['floor'] = target_post['floor']
                #search_post['page'] = target_post['page']
                search_post['comment_list'] = []  # 楼内楼list先为空
                search_post['url'] = url
                post_list.append(search_post)
            # 锁定最后一个楼层，添加楼内楼
            comment_dict = target_post['comment_list'][indexex[3]]  # 目的楼内楼
            comment_dict.pop('spid')
            post_list[-1]['comment_list'].append(comment_dict)  # 将楼内楼添加到post_list最后的楼层

###===================================搜索回帖内容/ 搜索回帖人==========================###



###===================================获取所有回复(回帖内容)==========================###
    @read_search
    def get_content(self, time='无', the_tiezi=None, content_list=None, ):
        '''输入特定时间，获取该时间点后所有的回复内容(默认为无，获取所有回复)
        :param time:     指定时间
        :param the_tiezi: 帖子文件内的一行帖子内容dict
        :param content_list: 存放所有回复内容的list
        :return:
        '''

        #设定保存文件名
        if self.save_file == '':
            the_time=re.sub(r':','：',time)
            self.set_savefile('回帖内容—某时间后', the_time)  # 设定保存文件名

        timestamp = self.get_timestamp(time)#将输入的日期时间转换为时间戳
        if timestamp is not None:#输入格式不对的时间或其他内容，则忽略
            a = Find_path(the_tiezi)
            time_paths = a.the_key_path('time')#键匹配，获取所有time路径

            for the_time in time_paths :
                send_time = eval('the_tiezi' + the_time)
                send_timestamp = self.get_timestamp(send_time)#将发送时间转化为时间戳
                #指定时间之后的回复则添加到content_list中
                if send_timestamp > timestamp:
                    content_path = the_time.replace('time', 'content')
                    content=eval('the_tiezi' + content_path)
                    self.filter_content(content_list, content) #过滤部分内容，添加到list中

    @staticmethod
    def get_timestamp(date_time='无'):
        '''将输入的日期时间转换为时间戳，方便比对大小，若没有输入时间，那就返回0'''
        if re.match(r'\d*-\d*-\d* \d*:\d*', date_time):
            return time.mktime(time.strptime(date_time, "%Y-%m-%d %H:%M"))
        elif re.match(r'\d*-\d*-\d*', date_time):
            return time.mktime(time.strptime(date_time , "%Y-%m-%d"))
        elif date_time == '无':
            return 0

    def filter_content(self,content_list,content):
        '''单纯提取回复内容时，过滤掉url、楼内楼回复中的前缀“回复 xxx :”，因为有些回复是表情，所以为空，也要过滤掉
           然后把回复添加到list中'''
        re_url = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')
        re_reply = re.compile(r'回复.*:')
        content=re.sub(re_reply, '', content)
        content = re.sub(re_url, '', content)
        if content!='':
            content_list.append(content)
###===================================获取所有回复(回帖内容)==========================###

自写的find_path类，可以获取所查询元素的路径 find_path.py

class Find_path():
    def __init__(self,target):
        self.target=target

    def find_the_value(self,target,value,path='',path_list=None):
        '''完全匹配，每经过一层(list、dict)都会记录path，到了最后一层且当前target就是要找的目标，才把对应的path记录下来
        :param target: 被搜索的目标
        :param value: 要搜索的关键字
        :param path: 当前所在的路径
        :param path_list: 存放所有path的列表
        判断当前target类型：···是字典，循环内容，每个键值都记录下路径path，然后以当前值v为判断target，调用自身传入添加了的path判断
                             ···是列表，循环内容，每个元素都记录下路径path，然后以当前元素为判断target，调用自身传入添加了的path判断
                             ···是str或者int，那么就判断当前target是否就是要搜索的value，如果是，那就把路径path放进list里面'''
        if isinstance(target, dict):
            for k, v in target.items():
                path1 = copy.deepcopy(path)
                path1=path1+str([k])
                self.find_the_value(v, value, path1, path_list)

        elif isinstance(target, (list, tuple)):  # 判断了它是列表
            for i in target:
                path1 = copy.deepcopy(path)
                posi = target.index(i)
                path1 = path1+'[%s]' % posi
                self.find_the_value(i, value, path1, path_list)

        elif isinstance(target, (str, int)) :
            if  str(value) ==str(target):   #必须完全相同
                path_list.append(path)


    def find_in_value(self,target,value,path='',path_list=None):
        '''包含匹配，内容跟上面一样，只是最后判断时不同'''
        if isinstance(target, dict):
            for k, v in target.items():
                path1 = copy.deepcopy(path)
                path1=path1+str([k])
                self.find_in_value(v, value, path1, path_list)

        elif isinstance(target, (list, tuple)):  # 判断了它是列表
            for i in target:
                path1 = copy.deepcopy(path)
                posi = target.index(i)
                path1 = path1+'[%s]' % posi
                self.find_in_value(i, value, path1, path_list)

        elif isinstance(target, (str, int)) :
            if  str(value) in str(target):   #
                path_list.append(path)

    def find_the_key(self,target,key,path='',path_list=None):
        '''查找key，每经过一层(list、dict)都会记录path，在字典时，若当前的k就是要找的key，那就把对应的path记录下来
                :param target: 被搜索的目标
                :param key: 要搜的键
                :param path: 当前所在的路径
                :param path_list: 存放所有path的列表
                判断当前target类型：···是字典，循环内容，每个键值都记录下路径path，判断当前k是否要查找的：~~~是，那就把路径path放进list里面
                                                                                                 ~~~不是，以当前值v为判断target，调用自身传入添加了的path判断
                                  ···是列表，循环内容，每个元素都记录下路径path，然后以当前元素为判断target，调用自身传入添加了的path判断
                                     '''
        if isinstance(target, dict):
            for k, v in target.items():
                path1 = copy.deepcopy(path)
                path1=path1+str([k])
                if str(key) == str(k):
                    path_list.append(path1)
                else:
                    self.find_the_key(v, key, path1, path_list)

        elif isinstance(target, (list, tuple)):  # 判断了它是列表
            for i in target:
                path1 = copy.deepcopy(path)
                posi = target.index(i)
                path1 = path1+'[%s]' % posi
                self.find_the_key(i, key, path1, path_list)

#====================================================================================

    def in_value_path(self,value):
        '''包含匹配value'''
        path_list=[]
        self.find_in_value(self.target, value,path_list=path_list)
        return path_list

    def the_value_path(self,value):
        '''完全匹配value'''
        path_list=[]
        self.find_the_value(self.target, value,path_list=path_list)
        return path_list

    def the_key_path(self,value):
        '''只查找key'''
        path_list = []
        self.find_the_key( self.target, value,path_list=path_list)
        return path_list

查询后所生成的文件：

你可能感兴趣的:(python,爬取百度贴吧的帖子)

c语言迷宫小游戏350行（源码）迷茫&&前行 c语言 c语言游戏
这是一款基于控制台的双模式迷宫冒险游戏。在极限逃脱模式中，玩家需操控角色"A"在三个精心设计的关卡中躲避追踪者"B"，通过WASD键在100步限制内抵达终点"@"，关卡包含特殊地形和动态敌人机制。无尽挑战模式则采用随机生成的渐进式迷宫，每关迷宫尺寸随等级扩大，玩家需在无限扩展的迷宫中不断挑战。游戏提供可视化操作界面，通过方向键控制移动，支持中途退出功能（o)。两种模式分别提供3个固定关卡和无限递增
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
【Docker】百度网盘：基于VNC的Web访问及后台下载 T0uken docker 前端 dubbo
本教程通过DockerCompose部署百度网盘的VNC版本，实现24小时不间断下载、双模式访问、数据持久化、自动重启和安全加密控制等核心功能。目录结构规划建议使用以下目录结构（可根据实际情况调整）：~/baidunetdisk/├──docker-compose.yml├──config/└──downloads/创建docker-compose.ymlservices:baidunetdisk
项目目标与范围管理 2301_82243709 visual studio
项目目标与范围管理是项目管理的基石，它涉及确定项目的目标、边界和工作内容1。在项目启动阶段，项目经理需要与利益相关者共同明确项目的目标、预期成果和关键里程碑，以确保项目的方向正确。范围管理还包括对项目变更的控制，以防止范围蔓延导致的项目失败。应用：在项目初期，制定详细的项目章程和范围说明书，明确项目的目标、范围、可交付成果和验收标准。在项目执行过程中，严格监控范围变更，确保所有变更都经过正式批准并
面试被问“你的缺点是什么?”该怎么答？后端
面试时经常被问到“你的缺点是什么?”，这个问题看似很简单，但每次回答都感觉差点意思。如果你也有这样的困惑，那么本篇文章一定要认真看完。1.关键点在回答之前，首先，我们要搞清楚以下两个关键点：问题关键点：首先得想清楚面试官为什么要问这个问题？可能面试官想了解你的自我认知能力，看看我是否诚实，以及我有没有在积极改进自己的不足。所以，回答的时候不能太实诚，也不能太虚伪，得找到一个平衡点。回答关键点：指出
代理IP服务如何优化AI大模型训练的分布式计算效率 http
AI大模型训练就像一场接力赛，每个计算节点都是接力选手，而代理IP则是保证选手们“跑得更稳、交接更顺”的隐形教练。在分布式计算中，效率瓶颈往往不是算力本身，而是数据调度与通信协作的隐性损耗。接下来，我们从三个实操场景拆解代理IP的增效逻辑。场景一：数据采集与分发的“高速公路”分布式训练的第一步是将海量数据切分到不同计算节点。假设某团队要训练法律文书解析模型，需从20个省级法院网站抓取判例。如果所有
腾讯控股销售易！中国CRM市场将迎血腥洗牌？ saas
近期，销售易官宣与腾讯战略合作升级，拉开了Salesforce×阿里云、销售易x腾讯两大阵营战线，标志着中国CRM市场正式进入“双巨头”时代——一方是国际巨头Salesforce联合阿里云的本土化攻势，另一方是本土头部玩家销售易背靠腾讯生态的技术与流量加持。而在这场“神仙打架”的牌局中，曾与销售易齐名的某FCRM厂商却愈发沉寂，让人不禁发问：未来是否只剩Salesforcevs销售易？中小厂商的生
商城项目秒杀通过Redisson设置信号量和秒杀随机码的设计保证秒杀业务稳定-----商城项目旧约Alatus 电商项目 #Spring-Boot框架 #Spring-Cloud框架 spring boot 分布式 spring spring cloud 后端微服务 jvm
packagecom.alatus.mall.seckill.service.impl;importcom.alatus.common.utils.R;importcom.alatus.mall.seckill.constant.SecKillConstants;importcom.alatus.mall.seckill.feign.CouponFeignService;importcom.ala
tidb实时同步到mysql 数据库
客户要求实时同步表的数据到mysql，但这个表在tidb。测试直接通过tidbcdc写入到mysql，有些字段是null，所以中间加了一个kafka实现客户库中创建表CREATETABLEtb_1(idbigintprimarykey,cidbigint,gidbigint,feeDECIMAL(10,2),created_attimestamp,typesmallint,remarkstring
制造业上了MES后，生产过程透明化，实时掌握生产动态
一、MES系统的作用与功能MES系统是车间制造执行系统，它打通了企业计划层和执行层的信息通道，建立了透明、高效、有序的生产模式。生产调度：MES系统能够实时调度生产任务，优化资源配置，确保生产过程中的每个环节都能高效运作。这种调度能力使得生产过程中的每一步都能被清晰记录和监控。数据采集：MES系统能够自动采集生产数据，包括设备运行状态、工人操作记录等。这些数据为后续分析提供了可靠依据，使得生产过程
postgresql实时同步到mysql 数据库
应客户要求，需要同步数据到他们自己的数据库用于简单的数据分析，但这部分数据在postgresql，客户又不想再建pg，想直接同步到他们现有的mysql库，实时性倒是不要求。考虑到1、异构数据库同步2、只同步指定客户的行数据有之前同步到es的经验，同样使用了腾讯oceanus，其它工具没搞定客户库中创建表CREATETABLEtb_1(idbigintprimarykey,didbigint,gid
【核心算法篇十三】《DeepSeek自监督学习：图像补全预训练方案》再见孙悟空_ 「2025 DeepSeek技术全景实战」算法学习计算机视觉 deepSeek 深度学习 transformer 人工智能
引言：为什么自监督学习成为AI新宠？在传统监督学习需要海量标注数据的困境下，自监督学习（Self-SupervisedLearning）凭借无需人工标注的特性异军突起。想象一下，如果AI能像人类一样通过观察世界自我学习——这正是DeepSeek图像补全方案的技术哲学。根据，自监督学习通过设计巧妙的"预训练任务"（PretextTask），让模型在无标签数据中自动学习图像语义特征。而图像补全正是这类
HarmonyOS Next AI开发环境搭建与工具使用 harmonyos
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）中AI开发环境搭建与工具使用相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、HarmonyOSNextAI开发环境概述（一）硬件与软件环境需求介绍硬件环境处理器：对于HarmonyOSNext
HarmonyOS Next智能安防系统中的人脸比对与异构计算实战 harmonyos
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能安防系统中人脸比对与异构计算技术的实战应用，基于实际开发经验进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、智能安防系统需求与架构设计（一）功能需求分析实时人脸检测与识别需求在智能安防系统中，实时人脸检测与识别
HarmonyOS Next智能语音助手的语音合成与模型优化实战 harmonyos
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能语音助手过程中语音合成与模型优化技术的实战应用，基于实际开发经验进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、语音助手功能需求与架构规划（一）功能需求梳理语音指令识别需求智能语音助手需要准确识别用户的语音指令
设计导购类电商平台的高可维护性架构微赚淘客系统开发者@聚娃科技架构 java 开发语言
设计导购类电商平台的高可维护性架构大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！在当今竞争激烈的电商市场中，一个高可维护性的架构对于导购类电商平台至关重要。本文将探讨如何设计一个高可维护性的架构，以支持快速迭代和稳定运行。高可维护性架构的重要性高可维护性的架构可以降低系统的维护成本，提高开发效率，确保系统的可扩展性和稳定性。这对于快速适应市场变化和用户
代码签名证书申请全攻略代码规范前端
代码签名证书是提供给软件开发者，对其开发的软件代码进行数字签名的数字证书，用于验证开发者身份真实性、保护代码的完整性。以下是代码签名证书申请的全攻略：一、准备阶段确定证书类型：OV代码签名证书：满足基本的安全认证需求，能向用户表明软件来源可靠，未被篡改。EV代码签名证书：对于开发驱动程序、内核模块等涉及系统底层关键组件的开发者，需申请更为严格的EV（ExtendedValidation）代码签名证
Docker 与持续集成 / 持续部署（CI/CD）的集成（一）计算机毕设定制辅导-无忧学长 #Docker docker ci/cd 容器
一、引言在当今快速发展的软件开发领域，高效、可靠的开发与部署流程是企业保持竞争力的关键。Docker与持续集成/持续部署（CI/CD）的集成，正成为众多开发团队提升效率、优化流程的重要手段。Docker作为一种开源的容器化平台，通过将应用程序及其依赖项打包在一个可移植的容器中，实现了环境的一致性和隔离性。这意味着，无论在开发、测试还是生产环境中，应用程序都能以相同的方式运行，有效解决了“在我机器上
全网最全！DeepSeek 新手入门教程合集人工智能deepseek
如果你是初次接触DeepSeek的普通用户或开发者，面对海量教程却无从下手？别担心！本文为你整理全网最易懂、最实用的DeepSeek学习资源，涵盖快速上手、编程实战、系统手册等，附直达链接，收藏这一篇就够了！一、快速入门指南《DeepSeek入门教程》-博客园亮点：手把手教你注册账号、获取APIKey，并提供Python调用多轮对话的代码示例，适合初级开发者。直达链接：点击查看核心内容：API调用
Linux系统替换字符串常用命令
在Linux系统中，替换字符串的操作是一项非常常见且实用的任务，尤其在处理大量文本文件时。sed和grep是两个非常强大的工具，广泛用于这种类型的文本处理操作。接下来我们将深入探讨如何使用这两个工具来实现字符串的替换操作，并详细分析每个步骤。1.使用sed替换字符串sed（StreamEditor）是一个流编辑器，广泛应用于文本处理。它可以进行查找、替换、删除和插入操作。sed的基本语法用于字符串
如何制定高效的项目执行计划表？掌握这些关键步骤！项目管理
项目执行计划表是项目管理中不可或缺的重要工具，它为项目团队提供了清晰的路线图和执行指南。一个高效的项目执行计划表不仅能够明确项目目标、任务分工和时间节点，还能够有效协调资源，提高团队协作效率，确保项目按时、高质量地完成。本文将深入探讨如何制定一份高效的项目执行计划表，帮助您掌握关键步骤，提升项目管理水平。明确项目目标和范围制定项目执行计划表的第一步是明确项目目标和范围。这个阶段需要与相关stake
如何高效进行项目计划生产？项目管理
在当今竞争激烈的商业环境中，项目计划生产已成为企业成功的关键因素。高效的项目计划生产不仅能够提高工作效率，还能降低风险、优化资源配置，为企业带来显著的经济效益。本文将深入探讨如何高效进行项目计划生产，为企业管理者和项目负责人提供实用的指导和建议。明确项目目标和范围高效的项目计划生产始于明确的目标和范围界定。这一阶段需要与相关stakeholders进行充分沟通，确保项目目标与公司战略相一致。同时，
集中式架构vs分布式架构谦亨有终架构架构分布式
一、集中式架构如何准确理解集中式架构1.集中式架构的定义集中式架构是一种将系统的所有计算、存储、数据处理和控制逻辑集中在一个或少数几个节点上运行的架构模式。这些中央节点（服务器或主机）作为系统的核心，负责处理所有用户请求和业务逻辑，客户端只负责请求和展示。2.核心特性单一控制中心：所有服务和资源都由中央节点统一管理。资源集中管理：数据和计算资源位于同一位置，便于维护和扩展。高一致性：由于资源集中管
tailwindcss4.0 升级后的一个坑 tailwindcss
tailwindcss4.0升级了，用了vite的方式，因为主UI框架用的antdv，结果出现了antdv组件自身的css比tailwindcss的优先级高的情况。发现tailwindcss的类都被layer了，而这个layer的特性就是比平常的css优先级要低，考虑到antdv还不能把自身css套上layer（antd好像可以），所以只能把tailwind的layer去掉了，也是为了一些老的ui
提升体育用品采购效率的最佳方法：看板管理系统的深度解析看板任务管理工具
引言体育用品采购管理是体育产业链中至关重要的环节，无论是专业的运动队、体育俱乐部，还是体育用品零售商或电商平台，如何高效地管理采购流程，确保供应链的稳定和及时配送，都是直接影响业务运作和客户满意度的关键因素。在现代化的采购管理中，信息化工具和看板管理逐渐成为提高效率和透明度的重要手段。本文将深入探讨体育用品采购管理的各个环节，分析常见的采购流程、面临的挑战，并重点介绍如何运用看板管理工具，提升采购
《计算机组成及汇编语言原理》阅读笔记：p1-p8 编程
《计算机组成及汇编语言原理》学习第1天，p1-p8总结，总计8页。一、技术总结1.Intel8088microprocessor(微处理器)，1979-1988。2.MS-DOSMicrosoftDiskOperatingSystem的缩写，是一个操作系统(operatingsystem)。3.Moore'sLaw&Moore'ssecondlaw(1)Moore'slawThenumberoft
决战毫秒间！火山引擎联合奇游，竞技游戏快人一步游戏边缘计算全球加速
热门游戏发行后，常常会带来下载困难的问题，海量玩家在集中时间段涌入，会造成游戏平台下载带宽迅速飙升，导致玩家遭遇下载慢、下载报错的困扰，而诸如游戏下载缓慢、对战不稳定易掉线、高延迟、丢包等困扰，都可以通过专业的游戏加速服务解决。成都俊云科技有限公司是专业的游戏加速服务提供商，开发的“奇游”是一整套游戏工具和服务组合，具有适用于全平台的软硬件，内置专属玩家的个性化功能，能为玩家提供游戏加速、FPS硬
【Python】Python入门——判断语句 zhoushanguhe Python python 编程开发语言
Python入门——判断语句。内容包括if语句、条件表达式、三元运算、match语句等。目录一、if语句1.基本if-else语句2.常用比较运算符3.if-else连写4.pass语句5.变量的作用域二、条件表达式三、三元运算四、match语句五、其他一、if语句1.基本if-else语句当条件成立时，执行某些语句；否则执行另一些语句。注意：if和else后需要加上冒号:if语句的代码块需要缩进
MyBatis-Plus结合Spring Boot实现数据权限
一、场景介绍在开发过程中很多时候我们需要根据某些条件去做数据权限，比如：A组织只能看见A组织及其下属组织的数据，B部门只能看见自己的数据、等等，此时如果每次都去自己写SQL进行校验就会显得代码非常臃肿，因为就产生了自己去定义一套全局公用的数据权限过滤方式。二、实现思路借助于Spring的拦截器或过滤器，当请求进入到Controller时，将该用户的数据权限信息存入数据权限上下文中，在MyBatis
兄弟们，我的deepseek终于可以控制浏览器了：Part 1/n，含代码几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 人工智能
文章目录前言helloworld前言其实，deepseek控制浏览器咱之前就发过，只不过当时没有想到这么好的标题，哈哈。所依赖的，依然是BrowserUse这个项目BrowserUse项目官网helloworld按照官网配置好环境后，只需新建一个python文件（例如，叫main.py?）然后运行即可。fromlangchain_openaiimportChatOpenAIfrombrowser_
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

python tkinter界面 多进程启动scrapy爬取百度贴吧的回复，显示爬取进度，并可以搜索回帖人，指定时间生成词云图，用pyinstaller打包成exe(九)

对生成的帖子json文件，进行搜索，可以根据回帖内容关键字、或者回帖人 查找回帖内容，还可以依据回复内容，生成词云图