天下弈星~

Python爬虫 | 爬取微博和哔哩哔哩数据

目录

一、bill_comment.py

二、bili_comment_pic.py

三、bilibili.py

四、bilihot_pic.py

五、bilisearch_pic.py

六、draw_cloud.py

七、weibo.py

八、weibo_comment.py

九、weibo_comment_pic.py

十、weibo_pic.py

十一、weibo_top.py

十二、weibo_top_pic.py

十三、weibo_top_pie.py

十四、pachong.py

十五、代码文件说明

一、bill_comment.py

import requests# 发送请求
import pandas as pd#保存csv文件
import os # 判断文件是否存在
import time
from time import sleep# 设置等待，防止反爬
import json
import random# 生成随机数
import os.path
import requests
import csv
import re
import bili_comment_pic

def trans_date(v_timestamp):
    """"10位时间戳转换为时间字符串"""
    timeArray=time.localtime(v_timestamp)
    otherStyleTime = time.strftime("%Y-%m-%d %H: %M:%S", timeArray)
    return otherStyleTime

def getoid(bv):
    resp=requests.get("https://www.bilibili.com/video/"+bv)
    obj=re.compile(f'"aid":(?P.*?),"bvid":"{bv}"')     #在网页源代码里可以找到id，用正则获取到
    oid=obj.search(resp.text).group('id')
    print('oid是'+oid)    #在程序运行时告诉我们已经获取到了参数oid
    return oid



def get_bili_comment(bv_list,max_page):
    for bvid in bv_list:
        #保存文件名
        bili_file='biliComment_{}pages_{}.csv'.format(max_page,bvid)
        #如果csv存在，先删除
        if os.path.exists(bili_file):
            os.remove(bili_file)
            print('存在，已删除：{}'.format(bili_file))
        #
        # # 请求头
        # headers = {
        #         'Authority':'api.bilibili.com',
        #         'Accept':'application/json, text/plain, */*',
        #         'Accept-Encoding':'gzip, deflate, br',
        #         'Accept-Language':'zh-CN,zh;q=0.9',
        #         #需要定期更换cookie
        #         'Cookie':
        #         'buvid3=09193776-D54E-C4E9-D77E-A3CEC61048A052609infoc; b_nut=1666432252; i-wanna-go-back=-1; b_ut=7; _uuid=9837E983-2521-B3D3-E815-AF3877BF973253126infoc; buvid_fp=bca1b3ca8709dc8fafd31a3014e880cb; nostalgia_conf=-1; PVID=1; CURRENT_FNVAL=4048; rpdid=0z9ZwfQgnR|lkoRrAma|2ss|3w1Q0AxQ; sid=73446m9u; buvid4=FFE4C4F3-FFE7-4A1B-F2E9-BA77F904B1B753643-022102217-RoU6Io6eaXN5hT%2FTDpMpDggrSpyQiYXaOp1a506ie3QU%2FFwMxK3Zhw%3D%3D; b_lsid=E6E6D472_1883D6194B0',
        #         'Origin':'https://www.bilibili.com',
        #         'Referer':'https://www.bilibili.com/video/BV1zh4y1H7ZS/?spm_id_from=333.999.0.0&vd_source=7dd889e8bc19f867cf9a8b6d62c711ee',
        #         'Sec-Ch-Ua':'"Google Chrome";v="113", "Chromium";v="113", "Not-A.Brand";v="24"',
        #         'Sec-Ch-Ua-Mobile':'?0',
        #         'Sec-Ch-Ua-Platform':'"macOS"',
        #         'Sec-Fetch-Dest':'empty',
        #         'Sec-Fetch-Mode':'cors',
        #         'Sec-Fetch-Site':'same-site',
        #         'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
        #
        # }

        # # 更简单的网页头
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36",
            "referer": "https://www.bilibili.com/"
        }

        for page in range(1,max_page + 1):
            #请求参数
            params = {
                'jsonp':'jsonp',
                'mode': '3',#mode=3代表按热门排序，mode=2代表按时间排序
                'oid': getoid(bvid),
                'next':page,
                'type': '1',
            }
            # type:评论类型,这里固定值1
            # oid: 哪个视频
            # pn: 第几页的评论
            # sort: 排序。0: 按照时间排序。2：按照热度排序。默认2

            url = (f"https://api.bilibili.com/x/v2/reply/main")  # 获得网页源码
            response = requests.get(url, headers=headers,params=params,)
            print(response.status_code)

            data_list=response.json()['data']['replies']#解析评论数据
            comment_list=[]#评论内容空列表
            time_list=[]#评论时间空列表
            #location_list=[]#评论IP空列表
            user_list=[]#评论用户名空列表
            like_list=[]#评论点赞数空列表
            replyCount_list=[]#评论回复数空列表
            userid_list=[]#评论用户id空列表
            #循环爬取每一条评论数据
            for a in data_list:
                #评论内容
                comment=a['content']['message']
                comment_list.append(comment)
                #评论时间
                time=a['ctime']
                time_list.append(trans_date(time))
                #time_list.append(trans_date(v_str=i) for i in range(time))
                # #IP属地(评论后一段时间会消失，所以不爬了)
                # location = a['source']
                # location_list.append(location)
                #评论回复数
                replyCount = a['rcount']
                replyCount_list.append(replyCount)
                #点赞数
                like = a['like']
                like_list.append(like)
                # 评论用户名
                user = a['member']['uname']
                user_list.append(user)
                # 评论用户名
                userid = a['member']['mid']
                userid_list.append(userid)

                #把列表拼接为dataFrame数据
                df=pd.DataFrame({
                    #'视频链接':'https://www.bilibili.com/video/'+v_bid,
                    '评论页码':page,
                    '评论时间':time_list,
                    '评论作者':user_list,
                    '评论id': userid_list,
                    #'IP属地':location_list,
                    '点赞数':like_list,
                    '评论回复数':replyCount_list,
                    '评论内容':comment_list,
                })
                # 表头
                if os.path.exists(bili_file):
                    header = None
                else:
                    header = ['评论页码','评论时间', '评论作者', '评论id', '点赞数', '评论回复数', '评论内容']
                column=['评论页码','评论时间', '评论作者', '评论id', '点赞数', '评论回复数', '评论内容']

                # 保存到csv文件
                df.to_csv(bili_file, mode='a+', index=False, columns=column,header=header, encoding='utf-8-sig')
                #print('csv保存成功：{}'.format(bili_file))
            print('第{}页爬取完成'.format(page))
            #print(df)
            # 数据清洗、去重
        df = pd.read_csv(bili_file, engine='python', encoding='utf-8-sig')
        os.remove(bili_file)
        # 删除重复数据
        df.drop_duplicates(subset='评论内容', inplace=True, keep='first')
        # 再次保存csv文件
        column=header = ['评论页码', '评论时间', '评论作者', '评论id', '点赞数', '评论回复数', '评论内容']
        df.to_csv(bili_file, mode='a+', index=False, columns=column,header=header, encoding='utf-8-sig')
        print('数据清洗完成')
        bili_comment_pic.main(bili_file)


if __name__=='__main__':
    #视频bv号,循环爬取多个视频评论
    #bv_list=['BV1Ss4y1M7KT','BV1VM411N7qc']
    bv_list = [str(x) for x in input("请输入视频bv号(示例：BV1Ss4y1M7KT,BV1VM411N7qc),以逗号分隔：").split(',')]
    #最大爬取页
    max_page=int(input("请输入搜索的页数"))
    #调用爬取
    get_bili_comment(bv_list=bv_list,max_page=max_page)

二、bili_comment_pic.py

# 允许副本存在，忽略报错
import os
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import font_manager
import numpy as np

os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"


def view(info,bili_file):
    my_font = font_manager.FontProperties(fname='./STHeiti-TC-Medium.ttf')  # 设置中文字体（图标中能显示中文）
    likes = info['点赞数']  # 点赞
    reply = info['评论回复数']  # 回复
    comment = info['评论内容']  # 内容
    # print(comment)

    # 为了坐标轴上能显示中文
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False

    # **********************************************************************综合评分和播放量对比
    # *******点赞数条形图
    fig, ax1 = plt.subplots()
    length = len(comment)
    plt.bar(x=np.arange(length), tick_label=comment, height=likes, color='red')  # 设置柱状图
    plt.title('点赞数和评论数数据分析', fontproperties=my_font)  # 表标题
    ax1.tick_params(labelsize=6)
    plt.xlabel('评论内容')  # 横轴名
    plt.ylabel('点赞数')  # 纵轴名
    plt.xticks(rotation=90, color='green')  # 设置横坐标变量名旋转度数和颜色

    # *******评论数折线图
    ax2 = ax1.twinx()  # 组合图必须加这个
    ax2.plot(reply, color='cyan')  # 设置线粗细，节点样式
    plt.ylabel('评论数')  # y轴

    plt.plot(1, label='点赞数', color="red", linewidth=5.0)  # 图例
    #plt.plot(1, label='评论回复数', color="cyan", linewidth=1.0, linestyle="-")  # 图例
    plt.legend()

    plt.savefig('.\图片\pic-{}.png'.format(bili_file), dpi=1000, bbox_inches='tight')  # 保存至本地

    plt.show()


def main(bili_file):

    info = pd.read_csv(bili_file,engine='python', encoding='utf-8-sig')
    info=info.nlargest(60,'点赞数')
    info=info.reset_index(drop=True)
    view(info,bili_file)


if __name__ == '__main__':
    main('biliComment_15pages_BV1Ss4y1M7KT.csv')

三、bilibili.py

import requests
from urllib.parse import quote
import json
import time
from time import sleep
import pandas as pd
import hashlib
import bilihot_pic
import bilisearch_pic

"""
    bilisearch类的需求功能
    1.初始化需要输入参数
        search:你需要搜索的数据
        page:需要查看的页数
    2.使用方法
        a = blisearch(serch,page)  初始化类
        a.findall()    将爬取的数据存入excel文件中
"""


class bilisearch():
    # 第一个输入的参数是搜索数据，第二个是搜素页数
    def __init__(self, search, page):
        # 对输入进行编码
        self.search = search
        self.searchurl = '&keyword=' + quote(search, 'utf-8')

        # 构造浏览器访问请求头
        # 大概是一定要cookie才能访问的  测试一下cookie过段时间还能不能访问
        self.head = {
            'authority': 'api.bilibili.com',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.44',
            'Referer': "https://search.bilibili.com/all?from_source=webtop_search&spm_id_from=333.1007&search_source=5keyword=",
            'referer': 'https://www.bilibili.com/',
            'cookie': 'buvid3=05746C34-6526-44A7-9132-4C0A7180E63C148796infoc; LIVE_BUVID=AUTO4216287558369376; i-wanna-go-back=-1; CURRENT_BLACKGAP=0; buvid4=CE2658E1-DE0F-1555-42F9-BBE8E7E701B973047-022012116-NXuDwzBl0l7IPmxDzx269g%3D%3D; buvid_fp_plain=undefined; blackside_state=0; is-2022-channel=1; _uuid=136F106D6-AA102-198A-C5DD-7351A72CFDE849203infoc; b_nut=100; rpdid=0zbfvWJdeE|54lJB1MA|2Ln|3w1OVksf; CURRENT_QUALITY=80; hit-new-style-dyn=1; CURRENT_PID=b98a29b0-cd2f-11ed-9194-494fac97dd7c; fingerprint=5050e9471226aa5c2be3ac56100522f8; header_theme_version=CLOSE; nostalgia_conf=-1; hit-dyn-v2=1; home_feed_column=5; CURRENT_FNVAL=4048; bp_video_offset_329341133=781400043392336000; SESSDATA=0948d8e9%2C1696396399%2Cef62d%2A42; bili_jct=cb7a5dbbd0153907fff4b713334d6833; DedeUserID=329341133; DedeUserID__ckMd5=acfa5c750e5b3e7f; PVID=1; b_ut=5; innersign=0; b_lsid=7C37E147_1875B2E5B1D; bsource=search_bing; buvid_fp=5050e9471226aa5c2be3ac56100522f8'
        }

        # 需要爬取的页数
        self.page = page

        # 保存的数据
        # self.data=[]

    def dataProcess(self, data):
        # 存入csv的数据集
        storedata = []

        # 每一页的数据量是30个
        for i in range(30):
            if (data[i]['type'] == 'picture_ad_0'):
                continue

            # 作者
            author = data[i]['author']

            # 标题  替换   
            title = data[i]['title'].replace('', '').replace('', '')

            # 播放量
            play = data[i]['play']

            # 简介
            description = data[i]['description']

            # 封面
            pic = data[i]['pic']

            # 播放地址
            arcurl = data[i]['arcurl']

            # id
            id = data[i]['id']

            # 时间
            pubdate = data[i]['pubdate']
            # 10位时间戳转换为时间字符串
            timeArray = time.localtime(pubdate)
            pubdate = time.strftime("%Y-%m-%d %H: %M:%S", timeArray)

            # 将数据以字典的格式存入data序列中
            # self.data.append({'author':author,'title':title,'play':play,'description':description,'pic':pic,'arcurl':arcurl,'id':id})
            storedata.append([author, title, play, description, pic, arcurl, id, pubdate])
        return storedata

    def reverse(self, page):
        timenow = int(time.time())
        if (page == 1):
            an = f'refresh=true&_extra=&ad_resource=5646&context=&duration=&from_source=&from_spmid=333.337&highlight=1&keyword={self.search}&order=&page=1&page_size=42&platform=pc&qv_id=EfNJjEtrA0N5DxzPVKch7Kz6v33ezlFR&single_column=0&source_tag=3&web_location=1430654&wts={timenow}'
            wt = '55540207d820a7368ab7e104169d409d'
            data = an + wt
            md = hashlib.md5(data.encode('UTF-8'))
            return md.hexdigest(), timenow
        else:
            an = f'refresh=true&_extra=&ad_resource=5654&category_id=&context=&dynamic_offset={str((page - 1) * 30)}&from_source=&from_spmid=333.337&gaia_vtoken=&highlight=1&keyword={self.search}&page={page}&page_size=42&platform=pc&qv_id=hJgZIEUY51fw9Pp7s8pidIVEJ7Z08KaS&search_type=video&single_column=0&source_tag=3&web_location=1430654&wts={timenow}'
            wt = '55540207d820a7368ab7e104169d409d'
            data = an + wt
            md = hashlib.md5(data.encode('UTF-8'))
            return md.hexdigest(), timenow

    # 综合排序
    def findall(self):
        for pnum in range(1, int(self.page) + 1):
            # 拼接关键字，请求数据
            w_rid, timenow = self.reverse(pnum)
            if (pnum == 1):
                target = requests.get(
                    f'https://api.bilibili.com/x/web-interface/wbi/search/all/v2?__refresh__=true&_extra=&context=&page={pnum}&page_size=42&order=&duration=&from_source=&from_spmid=333.337&platform=pc&highlight=1&single_column=0&keyword={self.search}&qv_id=noyCOTfEBm8ZzMVGopKgzYbiqLFxoAn1&ad_resource=5646&source_tag=3&web_location=1430654&w_rid={w_rid}&wts={timenow}',
                    headers=self.head)
            else:
                target = requests.get(
                    f'https://api.bilibili.com/x/web-interface/wbi/search/all/v2?refresh=true&_extra=&ad_resource=5654&category_id=&context=&dynamic_offset={(pnum - 1) * 30}&from_source=&from_spmid=333.337&gaia_vtoken=&highlight=1&keyword={self.search}&page={pnum}&page_size=42&platform=pc&qv_id=hJgZIEUY51fw9Pp7s8pidIVEJ7Z08KaS&search_type=video&single_column=0&source_tag=3&web_location=1430654&w_rid={w_rid}&wts={timenow}',
                    headers=self.head)
            # 将数据转换为py对象
            data = json.loads(target.text)

            # 存入csv的数据集
            storedata = self.dataProcess(data['data']['result'][10]['data'])

            print('第', pnum, '页完成')
            # 调用storeCsvdata
            self.storeCsvdata('b站清单_' + str(self.search) + '_第' + str(pnum) + '页.csv', storedata, pnum)
            # 设置等待1s
            sleep(1)

    # 写入文件模块
    def storeCsvdata(self, filename, storedata, pagenum):
        with open(filename, 'a+') as fp:
            # 构造列表头
            name = ['作者', '标题', '播放量', '简介', '封面', '播放地址', 'id', '时间']

            # 写入文件
            writer = pd.DataFrame(storedata, columns=name)
            writer.to_csv(filename, index=False, encoding='utf-8-sig')
            bilisearch_pic.main(filename)
            fp.close()


"""
    bilihot类的功能
    1.初始化需要的参数
        无
    2.使用方法
        a = bilihot()  初始化
        a.findall()    调用搜索
        a.storeCsvdata()   储存数据
        a.data   可以查看数据   
        a.data[i][j]  i为第几个数据集合 j为['作者','标题','播放量','简介','封面','id','播放地址','时间','分区']
"""


class bilihot():
    def __init__(self):
        # 构造浏览器访问请求头
        self.head = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.44',
            'Referer': "https://search.bilibili.com/all?from_source=webtop_search&spm_id_from=333.1007&search_source=5keyword=",
            'referer': 'https://www.bilibili.com/v/popular/rank/all',
            'authority': 'api.bilibili.com',
        }

        # 保存一份数据
        self.data = []

    def findall(self):
        # 请求数据
        target = requests.get('https://api.bilibili.com/x/web-interface/ranking/v2?rid=0&type=all', headers=self.head)

        # 将数据转换为py对象
        data = json.loads(target.text)

        for i in data['data']['list']:
            # 作者
            author = i['owner']['name']

            # 标题
            title = i['title']

            # 播放量
            play = i['stat']['view']

            # 简介
            desc = i['desc']

            # 封面
            pic = i['pic']

            # id
            id = i['aid']

            # 播放地址
            arcurl = i['short_link_v2']

            # 发布日期
            pubdate = i['pubdate']
            # 10位时间戳转换为时间字符串
            timeArray = time.localtime(pubdate)
            pubdate = time.strftime("%Y-%m-%d %H: %M:%S", timeArray)

            # 分区
            tname = i['tname']

            self.data.append([author, title, play, desc, pic, id, arcurl, pubdate, tname])
        print('请求数据成功')

    def storeCsvdata(self):
        with open('b站排行榜.csv', 'a+') as fp:
            # 构造列表头
            name = ['作者', '标题', '播放量', '简介', '封面', 'id', '播放地址', '时间', '分区']

            # 写入文件
            writer = pd.DataFrame(self.data, columns=name)
            writer.to_csv('b站排行榜.csv', index=False, encoding='utf-8-sig')
            print('写入成功')
            bilihot_pic.main('b站排行榜.csv')
            fp.close()


if __name__ == '__main__':
    # search: 你需要搜索的数据
    search = input("请输入搜索的关键词")
    # page: 需要查看的页数
    page = int(input("请输入搜索的页数"))
    # 初始化类
    a = bilisearch(search, page)
    # 将爬取的数据存入excel文件中
    a.findall()
    # 初始化
    b = bilihot()
    # 调用搜索
    b.findall()
    # 储存数据
    b.storeCsvdata()

四、bilihot_pic.py

import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import font_manager
import numpy as np

def view(info,bili_file):
    # 设置中文字体（图标中能显示中文）
    my_font = font_manager.FontProperties(fname='./STHeiti-TC-Medium.ttf')
    # 为了坐标轴上能显示中文
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False

    title = info['标题']
    views = info['播放量']

    # *******播放量条形图
    fig, ax1 = plt.subplots()
    length = len(title)
    plt.barh(y=np.arange(length), tick_label=title, width=views, color='cyan')  # 设置柱状图
    plt.title('标题和播放量的数据分析', fontproperties=my_font)  # 表标题
    ax1.tick_params(labelsize=6)
    plt.xlabel('播放量')  # 横轴名
    plt.ylabel('标题')  # 纵轴名
    plt.yticks(color='green')  # 设置横坐标变量名旋转度数和颜色

    plt.plot(1, label='播放量', color="cyan", linewidth=5.0)  # 图例
    plt.legend()

    plt.savefig('.\图片\pic-{}.png'.format(bili_file), dpi=1000, bbox_inches='tight')  # 保存至本地

    plt.show()


def main(bili_file):
    info = pd.read_csv(bili_file,engine='python', encoding='utf-8-sig')
    info = info.nlargest(50, '播放量')
    info = info.sort_values('播放量', ascending=True)
    view(info,bili_file)


if __name__ == '__main__':
    main('b站排行榜.csv')

五、bilisearch_pic.py

import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import font_manager
import numpy as np

def view(info,bili_file):
    # 设置中文字体（图标中能显示中文）
    my_font = font_manager.FontProperties(fname='./STHeiti-TC-Medium.ttf')
    # 为了坐标轴上能显示中文
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False

    title = info['标题']
    views = info['播放量']

    # *******播放量条形图
    fig, ax1 = plt.subplots()
    length = len(title)
    plt.barh(y=np.arange(length), tick_label=title, width=views, color='green')  # 设置柱状图
    plt.title('标题和播放量的数据分析', fontproperties=my_font)  # 表标题
    ax1.tick_params(labelsize=6)
    plt.xlabel('播放量')  # 横轴名
    plt.ylabel('标题')  # 纵轴名
    plt.yticks(color='blue')  # 设置纵坐标变量名颜色

    plt.plot(1, label='播放量', color="green", linewidth=5.0)  # 图例
    plt.legend()

    plt.savefig('.\图片\pic-{}.png'.format(bili_file), dpi=1000, bbox_inches='tight')  # 保存至本地

    plt.show()


def main(bili_file):
    info = pd.read_csv(bili_file,engine='python', encoding='utf-8-sig')
    info = info.sort_values('播放量', ascending=True)
    view(info,bili_file)


if __name__ == '__main__':
    main('b站清单_疫情_第1页.csv')

六、draw_cloud.py

import numpy as np
import pandas as pd
from wordcloud import WordCloud, ImageColorGenerator
from PIL import Image

def draw_cloud(weibo_file):
    image = Image.open('.\\background.jpg')  # 作为背景轮廓图
    graph = np.array(image)
    # 参数分别是指定字体、背景颜色、最大的词的大小、使用给定图作为背景形状
    wc = WordCloud(font_path='msyh.ttc',background_color='white',max_words=100, mask=graph)
    fp = pd.read_csv(weibo_file,engine='python', encoding='utf-8-sig')  # 读取词频文件
    name = list(fp['热搜内容'])  # 词
    value = fp['热搜热度'] # 词的频率
    for i in range(len(name)):
        name[i] = str(name[i])
    dic = dict(zip(name, value))  # 词频以字典形式存储
    print(dic)
    wc.generate_from_frequencies(dic)  # 根据给定词频生成词云
    image_color = ImageColorGenerator(graph)#生成词云的颜色
    wc.to_file('.\图片\draw_cloud-{}.png'.format(weibo_file))  # 图片命名

if __name__ == '__main__':
    draw_cloud('微博top_fun.csv')

七、weibo.py

import os.path
import re
from jsonpath import jsonpath
import requests
import pandas as pd
import datetime
from fake_useragent import UserAgent
import weibo_pic

def trans_time(v_str):
    """转换GMT时间为标准格式"""
    GMT_FORMAT='%a %b %d %H:%M:%S +0800 %Y'
    timearray=datetime.datetime.strptime(v_str,GMT_FORMAT)
    ret_time=timearray.strftime("%Y-%m-%d %H:%M:%S")
    return ret_time

def get_weibo_list(v_keyword,v_max_page):
    """
    爬取微博内容列表
    :param v_keyword: 搜索关键字
    :param v_max_page: 爬取前几页
    :return: None
    """
    # 保存文件名
    v_weibo_file = '微博清单_{}_前{}页.csv'.format(v_keyword,v_max_page)
    # 如果csv存在，先删除
    if os.path.exists(v_weibo_file):
        os.remove(v_weibo_file)
        print('微博清单存在，已删除：{}'.format(v_weibo_file))
    for page in range(1,v_max_page+1):
        print('===开始爬取第{}页微博==='.format(page))
        # 请求头
        ua = UserAgent()
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.42",
            "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
            "accept-encording": "gzip, deflate, br"
        }
        #请求地址
        url='https://m.weibo.cn/api/container/getIndex'
        #请求参数
        params={
            "containerid":"100103type=1&q={}".format(v_keyword),
            "page_type":"searchall",
            "page":page
        }
        #发送请求
        r=requests.get(url,headers=headers,params=params)
        print(r.status_code)
        #解析json数据
        cards=r.json()["data"]["cards"]
        #微博内容
        text_list=jsonpath(cards,'$..mblog.text')
        #微博内容-正则表达式数据清洗
        dr=re.compile(r'<[^>]+>',re.S)
        text2_list=[]
        print('text_list is:')
        print(text_list)
        if not text_list:#如果未获取到微博内容，则进入下一轮循环
            continue
        if type(text_list)==list and len (text_list)>0:
            for text in text_list:
                text2=dr.sub('',text)#正则表达式提取微博内容
                print(text2)
                text2_list.append(text2)
        #微博创建时间
        time_list = jsonpath(cards, '$..mblog.created_at')
        time_list=[trans_time(v_str=i) for i in time_list]
        #微博作者
        author_list = jsonpath(cards, '$..mblog.user.screen_name')
        #微博id
        id_list = jsonpath(cards, '$..mblog.user.id')
        # 微博bid
        bid_list = jsonpath(cards, '$..mblog.bid')
        # 转发数
        reposts_count_list = jsonpath(cards, '$..mblog.reposts_count')
        # 评论数
        comments_count_list = jsonpath(cards, '$..mblog.comments_count')
        # 点赞数
        attitudes_count_list = jsonpath(cards, '$..mblog.attitudes_count')
        df=pd.DataFrame(
            {
                '页码':[page]*len(id_list),
                '微博id':id_list,
                '微博bid': bid_list,
                '微博作者': author_list,
                '发布时间': time_list,
                '微博内容': text2_list,
                '转发数': reposts_count_list,
                '评论数': comments_count_list,
                '点赞数': attitudes_count_list
            }
        )
        #表头
        if os.path.exists(v_weibo_file):
            header=None
        else:
            header=['页码','微博id','微博bid','微博作者','发布时间','微博内容','转发数','评论数','点赞数']
        column=['页码','微博id','微博bid','微博作者','发布时间','微博内容','转发数','评论数','点赞数']
        #保存到csv文件
        df.to_csv(v_weibo_file,mode='a+',index=False,columns=column, header=header,encoding='utf-8-sig')
        print('csv保存成功：{}'.format(v_weibo_file))
    # 数据清洗、去重
    df = pd.read_csv(v_weibo_file, engine='python', encoding='utf-8-sig')
    os.remove(v_weibo_file)
    # 删除重复数据
    df.drop_duplicates(subset='微博bid', inplace=True, keep='first')
    # 再次保存csv文件
    header = ['页码','微博id','微博bid','微博作者','发布时间','微博内容','转发数','评论数','点赞数']
    column=header
    df.to_csv(v_weibo_file, mode='a+', index=False, columns=column, header=header,encoding='utf-8-sig')
    print('数据清洗完成')
    weibo_pic.main(v_weibo_file)


if __name__=='__main__':
    # 爬取关键字
    search_keyword = input("请输入搜索的关键词")
    #爬取页数
    max_search_page=int(input("请输入搜索的页数"))
    #调用爬取微博函数
    get_weibo_list(v_keyword=search_keyword,v_max_page=max_search_page)

八、weibo_comment.py

import requests# 发送请求
import pandas as pd#保存csv文件
import os # 判断文件是否存在
import datetime
import time
from time import sleep# 设置等待，防止反爬
import json
import random# 生成随机数
import os.path
import requests
import csv
import re
import weibo_comment_pic

def trans_time(v_str):
    """转换GMT时间为标准格式"""
    GMT_FORMAT='%a %b %d %H:%M:%S +0800 %Y'
    timearray=datetime.datetime.strptime(v_str,GMT_FORMAT)
    ret_time=timearray.strftime("%Y-%m-%d %H:%M:%S")
    return ret_time

def get_bili_comment(weiboID_list,max_page):
    for weibo_id in weiboID_list:

        #保存文件名
        wbComment_file='weiboComment_{}pages_{}.csv'.format(max_page,weibo_id)
        #如果csv存在，先删除
        if os.path.exists(wbComment_file):
            os.remove(wbComment_file)
            print('存在，已删除：{}'.format(wbComment_file))
        #请求头
        headers = {
            #不加cookie只能爬一页
            'cookie':'__bid_n=1883c7fc76e10d57174207; FPTOKEN=IBsER/uKazbtpMIEgvaOTfAuHsmYQM5g0VL9U1G3ybs72PsWHEBbiKv0w+R59BrOvSwxDKJevIDwL0SSwPV5yWd3lIFsx6KXQ/qYPpPTjTRW5kFr+j74rsScC6MKc1G9142e5tEEf7atvY/zTxl9B6jy/y7MEo0ETLT0VjL6nbpzkWe/SnIw97Tjb+9lqYoGHS6lPqZ5yAhDPKn0KK4htwxqr0qMglAG6ZcT7mn+BUZAygRSrqWZwZ6KSE0r27qsR0bDTAI8dsQFq1gPfYONp5UHfw9FFsBiscLULixqm31wTHYziK8gxi0/R6yIQ8Tq3OQkNmx+Kw7E/8YknGOiVmpjfRn5FNShZs3/t8SNBJEcZ9qaQnw/iF/jwPoFkMXz87Tp22aQUmFgeQu/u0wAYQ==|wC9ITrusKUtoBk6wTqvs+jaY6iwSJyX4pD0y+hSvnOA=|10|acf98643db3def55913fefef5034d5ee; WEIBOCN_FROM=1110106030; loginScene=102003; SUB=_2A25JbkPWDeRhGeNH7FIV-SjKzjyIHXVqkW2erDV6PUJbkdAGLRbkkW1NSoXhCHcUhbni8gGXfjdc5HNqec9qABj_; MLOGIN=1; _T_WM=98495433469; XSRF-TOKEN=a62fb7; mweibo_short_token=9f0e28d6c9; M_WEIBOCN_PARAMS=oid%3D4903111417922777%26luicode%3D20000061%26lfid%3D4903111417922777%26uicode%3D20000061%26fid%3D4903111417922777',
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36",
            'X-Xsrf-Token':'a62fb7'
        }
        max_id = ''
        for page in range(1,max_page + 1):

            if page==1:#第一页没有max_id参数
                 url='https://m.weibo.cn/comments/hotflow?id={}&mid={}&max_id_type=0'.format(weibo_id,weibo_id)


            else:

                if max_id == '0':#max_id=0，说明没有下一页了，结束循环
                    print('max_id==0,break now')
                    break
                url='https://m.weibo.cn/comments/hotflow?id={}&mid={}&max_id={}&max_id_type=0'.format(weibo_id,weibo_id,max_id)

            response = requests.get(url, headers=headers)
            #ok = response.json()['ok']
            #print(ok)
            print(response.status_code)
            max_id=response.json()['data']['max_id']

            #print(response.json()['data']['max_id'])
            print(max_id)



            datas= response.json()['data']['data']
            page_list = []
            id_list = []
            text_list=[]
            time_list=[]
            like_count_list=[]
            source_list=[]
            username_list=[]
            user_id_list=[]
            user_gender_list=[]
            follow_count_list=[]
            followers_count_list=[]

            for data in datas:
                page_list.append(page)
                id_list.append(data['id'])
                dr=re.compile(r'<[^>]+>',re.S)#用正则表达式清洗评论数据

                text2 = dr.sub('', data['text'])
                text_list.append(text2)#评论内容
                time_list.append(trans_time(data['created_at']))#评论时间
                like_count_list.append(data['like_count'])#点赞
                source_list.append(data['source'])#属地
                username_list.append(data['user']['screen_name'])#评论者姓名
                user_id_list.append(data['user']['id'])
                user_gender_list.append(data['user']['gender'])# 评论者性别
                follow_count_list.append(data['user']['follow_count'])#评论者关注数
                followers_count=str(data['user']['followers_count'])
                if(followers_count[-1]=='万'):
                    followers_count=int(float(followers_count.strip('万')))*10000
                followers_count_list.append(followers_count)#评论者粉丝数

                #把列表拼接为dataFrame数据
                df=pd.DataFrame({
                    '评论页码':page_list,
                    '微博id':[weibo_id]*len(time_list),
                    '评论id':id_list,
                    '评论内容':text_list,
                    '评论时间':time_list ,
                    '评论点赞数':like_count_list,
                    '评论属地':source_list,
                    '评论者姓名':username_list ,
                    '评论者id':user_id_list ,
                    '评论者性别':user_gender_list,
                    '评论者关注数':follow_count_list,
                    '评论者粉丝数':followers_count_list,
                })
                # 表头
                if os.path.exists(wbComment_file):
                    header = None
                else:
                    header = ['评论页码','微博id', '评论id','评论内容','评论时间','评论点赞数','评论属地', '评论者姓名','评论者id','评论者性别', '评论者关注数','评论者粉丝数']
                column=['评论页码','微博id', '评论id','评论内容','评论时间','评论点赞数','评论属地', '评论者姓名','评论者id','评论者性别', '评论者关注数','评论者粉丝数']

                # 保存到csv文件
                df.to_csv(wbComment_file, mode='a+', index=False, columns=column, header=header, encoding='utf-8-sig')
                #print('csv保存成功：{}'.format(bili_file))
            #print(df)
            print('第{}页爬取完成'.format(page))


        # 数据清洗、去重
        df = pd.read_csv(wbComment_file, engine='python', encoding='utf-8-sig')
        os.remove(wbComment_file)
        # 删除重复数据
        df.drop_duplicates(subset='评论内容', inplace=True, keep='first')
        # 再次保存csv文件
        column=header = ['评论页码', '微博id', '评论id', '评论内容', '评论时间', '评论点赞数', '评论属地', '评论者姓名',
                  '评论者id', '评论者性别', '评论者关注数', '评论者粉丝数']
        df.to_csv(wbComment_file, mode='a+', index=False, columns=column,header=header, encoding='utf-8-sig')
        print('数据清洗完成')
        weibo_comment_pic.main(wbComment_file)


if __name__=='__main__':
    #目标微博https: // m.weibo.cn / detail / 4903111417922777
    #目标微博ID，可循环爬取多个（这里只爬一个）
    weiboID_list=[str(x) for x in input("请输入微博ID(示例：4903111417922777),以逗号分隔：").split(',')]
    #weiboID_list=['4903111417922777']
    #最大爬取页
    max_page=int(input("请输入搜索的页数"))
    #调用爬取
    get_bili_comment(weiboID_list=weiboID_list,max_page=max_page)

九、weibo_comment_pic.py

# 允许副本存在，忽略报错
import os
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import font_manager
import numpy as np

os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"


def view(info,weibo_file):
    my_font = font_manager.FontProperties(fname='./STHeiti-TC-Medium.ttf')  # 设置中文字体（图标中能显示中文）
    likes = info['评论点赞数']  # 点赞数
    reply = info['评论者粉丝数']  # 粉丝数
    forward = info['评论者关注数']  # 关注数
    author = info['评论者姓名']  # 作者，因为内容太长了
    # print(comment)

    # 为了坐标轴上能显示中文
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False

    # **********************************************************************综合评分和播放量对比
    # *******点赞数条形图
    fig, ax1 = plt.subplots()
    length = len(author)
    plt.bar(x=np.arange(length), tick_label=author, height=likes, color='blue')  # 设置柱状图
    plt.title('评论点赞数、粉丝数和关注数的数据分析', fontproperties=my_font)  # 表标题
    ax1.tick_params(labelsize=6)
    plt.xlabel('微博内容')  # 横轴名
    plt.ylabel('评论点赞数')  # 纵轴名
    plt.xticks(rotation=90, color='green')  # 设置横坐标变量名旋转度数和颜色

    # *******评论者粉丝数折线图
    ax2 = ax1.twinx()  # 组合图必须加这个
    ax2.plot(reply, color='red')  # 设置线粗细，节点样式
    # *******评论者关注数折线图
    ax2.plot(forward, color='yellow')  # 设置线粗细，节点样式
    plt.ylabel('粉丝/关注数')  # y轴

    plt.plot(1, label='评论者点赞数', color="blue", linewidth=5.0)  # 图例
    #plt.plot(1, label='评论者粉丝数', color="red", linewidth=1.0, linestyle="-")  # 图例
    #plt.plot(1, label='评论者关注数', color="yellow", linewidth=1.0, linestyle="-")  # 图例
    plt.legend()

    plt.savefig('.\图片\pic-{}.png'.format(weibo_file), dpi=1000, bbox_inches='tight')  # 保存至本地

    plt.show()


def main(weibo_file):
    info = pd.read_csv(weibo_file,engine='python', encoding='utf-8-sig')
    info = info.nlargest(100, '评论点赞数')
    info = info.reset_index(drop=True)
    view(info,weibo_file)


if __name__ == '__main__':
    main('weiboComment_15pages_4903111417922777.csv')

十、weibo_pic.py

# 允许副本存在，忽略报错
import os
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import font_manager
import numpy as np

os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"


def view(info,weibo_file):
    my_font = font_manager.FontProperties(fname='./STHeiti-TC-Medium.ttf')  # 设置中文字体（图标中能显示中文）
    likes = info['点赞数']  # 点赞数
    reply = info['评论数']  # 评论数
    forward = info['转发数']  # 转发数
    author = info['微博作者']  # 作者，因为内容太长了
    # print(comment)

    # 为了坐标轴上能显示中文
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False

    # **********************************************************************综合评分和播放量对比
    # *******点赞数条形图
    fig, ax1 = plt.subplots()
    length = len(author)
    plt.bar(x=np.arange(length), tick_label=author, height=likes, color='blue')  # 设置柱状图
    plt.title('点赞数、评论数和转发数的数据分析', fontproperties=my_font)  # 表标题
    ax1.tick_params(labelsize=6)
    plt.xlabel('微博内容')  # 横轴名
    plt.ylabel('点赞数')  # 纵轴名
    plt.xticks(rotation=90, color='green')  # 设置横坐标变量名旋转度数和颜色

    # *******评论数折线图
    ax2 = ax1.twinx()  # 组合图必须加这个
    ax2.plot(reply, color='red')  # 设置线粗细，节点样式
    # *******转发数折线图
    ax2.plot(forward, color='yellow')  # 设置线粗细，节点样式
    plt.ylabel('评论/转发数')  # y轴

    plt.plot(1, label='点赞数', color="blue", linewidth=5.0)  # 图例
    #plt.plot(1, label='评论数', color="red", linewidth=1.0, linestyle="-")  # 图例
    #plt.plot(1, label='转发数', color="yellow", linewidth=1.0, linestyle="-")  # 图例
    plt.legend()

    plt.savefig('.\图片\pic-{}.png'.format(weibo_file), dpi=1000, bbox_inches='tight')  # 保存至本地

    plt.show()


def main(weibo_file):
    info = pd.read_csv(weibo_file,engine='python', encoding='utf-8-sig')
    info = info.nlargest(100, '点赞数')
    info = info.reset_index(drop=True)
    view(info,weibo_file)


if __name__ == '__main__':
    main('微博清单_疫情_前10页.csv')

十一、weibo_top.py

import os.path
import re
from jsonpath import jsonpath
import requests
import pandas as pd
from fake_useragent import UserAgent
import weibo_top_pic
import weibo_top_pie
import draw_cloud

def get_weibo_top():
    keyword=list(['realtimehot','gym','game','fun'])
    for search_keyword in keyword:
        # 保存文件名
        v_weibo_file = '微博top_{}.csv'.format(search_keyword)
        # 如果csv存在，先删除
        if os.path.exists(v_weibo_file):
            os.remove(v_weibo_file)
            print('微博榜单存在，已删除：{}'.format(v_weibo_file))
        print('===开始爬取{}微博榜单==='.format(search_keyword))
        # 请求头
        ua = UserAgent()
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.42",
            "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
            "accept-encording": "gzip, deflate, br"
        }
        #请求地址
        url='https://m.weibo.cn/api/container/getIndex'
        #请求参数
        params={
            "containerid":"106003type=25&t=3&disable_hot=1&filter_type={}".format(search_keyword),
            "title": "微博热搜",
            "show_cache_when_error": 1,
            "extparam": "seat=1&dgr=0&filter_type=realtimehot®ion_relas_conf=0&pos=0_0&c_type=30&lcate=1001&mi_cid=100103&cate=10103&display_time=1684642048&pre_seqid=144917672",
            "luicode": 10000011,
            "lfid": 231583,
        }
        #发送请求
        r=requests.get(url,headers=headers,params=params)
        print(r.status_code)
        #解析json数据
        cards=r.json()["data"]["cards"][0]["card_group"]
        #热搜内容
        text_list=jsonpath(cards,'$..desc')
        print('text_list is:')
        print(text_list)
        #热搜连接地址
        href_list = jsonpath(cards, '$..scheme')
        # 热搜排名
        order_list = jsonpath(cards, '$..pic')
        # 热搜热度
        view_count_list = jsonpath(cards, '$..desc_extr')
        j=1
        for i in range(0, len(order_list)):
            if order_list[i] == 'https://simg.s.weibo.com/20210408_search_point_orange.png':
                order_list[i] = '无'
                view_count_list[i]=0
                continue
            if order_list[i] == "https://simg.s.weibo.com/20180205110043_img_search_stick%403x.png":
                view_count_list.insert(0, 0)
                order_list[i] = '无'
                continue
            view_count_list[i]=str(view_count_list[i])
            view_count_list[i]=int(re.sub("\D", "", view_count_list[i]))
            order_list[i] = j
            j = j + 1
        print(len(order_list),len(text_list),len(view_count_list),len(href_list))
        df=pd.DataFrame(
            {
                '热搜排名':order_list,
                '热搜内容': text_list,
                '热搜热度': view_count_list,
                '热搜连接地址': href_list,
            }
        )
        #表头
        if os.path.exists(v_weibo_file):
            header=None
        else:
            header=['热搜排名','热搜内容','热搜热度','热搜连接地址']
        column = ['热搜排名','热搜内容','热搜热度','热搜连接地址']
        #保存到csv文件
        df.to_csv(v_weibo_file,mode='a+',index=False,columns=column, header=header, encoding='utf-8-sig')
        print('csv保存成功：{}'.format(v_weibo_file))
        weibo_top_pic.main(v_weibo_file)
        weibo_top_pie.pie(v_weibo_file)
        #draw_cloud.draw_cloud(v_weibo_file)


if __name__=='__main__':
    #调用爬取微博函数
    get_weibo_top()

十二、weibo_top_pic.py

# 允许副本存在，忽略报错
import os
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import font_manager
import numpy as np

os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"


def view(info,weibo_file):
    my_font = font_manager.FontProperties(fname='./STHeiti-TC-Medium.ttf')  # 设置中文字体（图标中能显示中文）
    heat = info['热搜热度']
    content = info['热搜内容']

    # 为了坐标轴上能显示中文
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False

    # **********************************************************************综合评分和播放量对比
    # *******点赞数条形图
    fig, ax1 = plt.subplots()
    length=len(content)
    plt.bar(x = np.arange(length),tick_label=content, height=heat, color='blue')  # 设置柱状图
    plt.title('热搜内容和热搜热度的数据分析', fontproperties=my_font)  # 表标题
    ax1.tick_params(labelsize=6)
    plt.xlabel('热搜内容')  # 横轴名
    plt.ylabel('热搜热度')  # 纵轴名
    plt.xticks(rotation=90, color='green')  # 设置横坐标变量名旋转度数和颜色

    plt.plot(1, label='热搜热度', color="blue", linewidth=5.0)  # 图例
    plt.legend()

    plt.savefig('.\图片\pic-{}.png'.format(weibo_file), dpi=1000, bbox_inches='tight')  # 保存至本地

    plt.show()

十三、weibo_top_pie.py

import pandas as pd
import numpy as np
from pyecharts import options as opts
from pyecharts.charts import Pie
import matplotlib.pyplot as plt

def pie(weibo_file):
    plt.rcParams['font.family']=['SimHei']
    plt.rcParams['axes.unicode_minus']=False
    data=pd.read_csv(weibo_file,engine='python', encoding='utf-8-sig')
    df1=data['热搜内容']
    df2=data['热搜热度']

    X=df1
    Y=[]
    s=sum(df2)
    for i in df2:
        a=i/s
        a=round(a,2)
        Y.append(a)

    plt.figure(figsize=(12, 12))

    plt.pie(x=Y,
           labels=X,
           wedgeprops={'width': 0.4},
           startangle=90,
            autopct='%.2f%%',
            pctdistance=0.9
          )
    plt.title('热搜对应的热度占比',fontsize=20)
    plt.savefig('.\图片\pie-{}.png'.format(weibo_file), dpi=1000, bbox_inches='tight')  # 保存至本地
    plt.show()

if __name__ == '__main__':
    pie('微博top_realtimehot.csv')

十四、pachong.py

import weibo
import weibo_top
import weibo_comment
import bilibili
import bili_comment
net=int(input("请选择爬取的网站：1.微博 2.b站 3.停止爬取"))
while(net!=3):
    if (net==1):
        choice1=int(input("请选择爬取的方向：1.排行榜 2.关键词 3.评论"))
        if(choice1==1):
            # 调用爬取微博函数
            weibo_top.get_weibo_top()
        if (choice1 == 2):
            # 爬取关键字
            search_keyword = input("请输入搜索的关键词")
            # 爬取页数
            max_search_page = int(input("请输入搜索的页数"))
            # 调用爬取微博函数
            weibo.get_weibo_list(v_keyword=search_keyword, v_max_page=max_search_page)
        if (choice1 == 3):
            # 目标微博ID，可循环爬取多个（这里只爬一个）
            weiboID_list = [str(x) for x in input("请输入微博ID(示例：4903111417922777),以逗号分隔：").split(',')]
            # 最大爬取页
            max_page = int(input("请输入搜索的页数"))
            # 调用爬取
            weibo_comment.get_bili_comment(weiboID_list=weiboID_list, max_page=max_page)
    if (net==2):
        choice2=int(input("请选择爬取的方向：1.排行榜 2.关键词 3.评论"))
        if(choice2==1):
            # 初始化
            b = bilibili.bilihot()
            # 调用搜索
            b.findall()
            # 储存数据
            b.storeCsvdata()
        if (choice2 == 2):
            # search: 你需要搜索的数据
            search = input("请输入搜索的关键词")
            # page: 需要查看的页数
            page = int(input("请输入搜索的页数"))
            # 初始化类
            a = bilibili.bilisearch(search, page)
            # 将爬取的数据存入excel文件中
            a.findall()
        if (choice2 == 3):
            # 视频bv号,循环爬取多个视频评论
            bv_list = [str(x) for x in input("请输入视频bv号(示例：BV1Ss4y1M7KT,BV1VM411N7qc),以逗号分隔：").split(',')]
            # 最大爬取页
            max_page = int(input("请输入搜索的页数"))
            # 调用爬取
            bili_comment.get_bili_comment(bv_list=bv_list, max_page=max_page)

    net = int(input("请选择爬取的网站：1.微博 2.b站 3.停止爬取"))

十五、代码文件说明

pachong： b站、微博爬虫与数据可视化总程序

b站：
bilibili 爬取b站热搜榜和关键词搜索
bili_comment 爬取b站评论
bilihot_pic b站热搜榜数据可视化(柱形图、折线图)
bilisearch_pic b站关键词搜索数据可视化(柱形图、折线图)
bili_comment_pic b站评论数据可视化(柱形图、折线图)

微博：
weibo_top 爬取微博热搜榜
weibo 爬取微博关键词搜索
weibo_comment 爬取微博评论
weibo_top_pic 微博热搜榜数据可视化(柱形图、折线图)
weibo_top_pie 微博热搜榜数据可视化(环形图)
weibo_pic 微博关键词搜索数据可视化(柱形图、折线图)
weibo_comment_pic 微博评论数据可视化(柱形图、折线图)

draw_cloud 微博热搜榜数据可视化(词图云)

你可能感兴趣的:(python,python,爬虫,策略模式,数据分析,大数据)

Python_计算两个省市之间的直线距离_2506 夏天里的肥宅水 PYTHON python spring 开发语言
更新代码上一版链接importpandasaspdimporttimeimportpickleimportosimportsysfromgeopy.geocodersimportNominatimfromgeopy.distanceimportgeodesicfromtqdmimporttqdm#ConfigurationINPUT_FILE=r"距离.xlsx"#输入文件路径OUTPUT_FIL
python中的*args 和 **kwargs Hi_kenyon python python
简单来说，它们允许一个函数接收不定数量的参数。这在我们预先不知道会传递多少个参数给函数时非常有用。*args(任意数量的位置参数)*args用于在一个函数中接收任意数量的位置参数(positionalarguments)。当你在函数定义中使用*args时，Python会将所有传入的多余的位置参数收集到一个元组(tuple)中。这个名字args只是一个约定俗成的惯例(arguments的缩写)，你也
用 Python 开发文字冒险游戏：从零开始的教程晓天天天向上 python microsoft 开发语言
文字冒险游戏(Text-basedAdventureGame)是一种经典的游戏类型，玩家通过输入文字指令与游戏世界互动。这种游戏不依赖复杂的图形界面，非常适合初学者学习编程逻辑和用户交互。在本篇博客中，我们将用Python开发一个简单的文字冒险游戏，体验游戏开发的乐趣。1.游戏设计思路游戏背景玩家醒来发现自己身处一个神秘的地下城，需要探索房间、收集物品、战胜敌人并找到出口。核心机制房间导航：玩家可
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
Python的一点基础教程------文件读写卡提西亚 python 开发语言
最近在看大佬写的Python教程自学,但是感觉有点头痛,因为大佬讲了一些底层的结构和原理,但是又没那么详细,然后作为一个初学者自学的情况下,看的很费劲.看完就有感而发,想写一篇更基础的教程,教会大家怎么去用它,尽量少的去讲原理.但是当然,你也需要有一定的编程语言基础,了解基本的语法和函数等功能.正所谓师傅领进门,修行在个人,有时候我们学了一个东西,如果觉得很有趣,自然就会去了解关于它的更多信息,但
1.2 Python 的特点与优势 Utopia Reverie python python 开发语言
1.语法简洁易读Python以简洁的语法著称，代码可读性强，减少了不必要的符号和冗余代码。例如，使用缩进来表示代码块，而非传统的大括号。这使得代码更易于理解和维护，尤其适合初学者。示例：python运行【#计算斐波那契数列的前10项n=10a,b=0,1for_inrange(n);print(a,end='')a,b=b,a+b#输出:0112358132134】2.开源与社区支持Python是
动手学Python：从零开始构建一个“文字冒险游戏” network爬虫 python python 开发语言
动手学Python：从零开始构建一个“文字冒险游戏”大家好，我是你的技术向导。今天，我们不聊高深的框架，也不谈复杂的算法，我们来做一点“复古”又极具趣味性的事情——用Python亲手打造一个属于自己的文字冒险游戏（TextAdventureGame）。你是否还记得那些在早期计算机上，通过一行行文字描述和简单指令来探索未知世界的日子？这种游戏的魅力在于它能激发我们最原始的想象力。而对于我们程序员来说
python 脚本遍历目录，并把目录下的非utf-8文件改成utf8 还债大湿兄 python 开发语言数据库
从网上下载的qt项目我本地编译里面经常包含中文，提示编译不过，实际上以前经常手动转，发觉还是用脚本不，毕竟这次下的有点大，我只改.h.cpp#pythonD:\python\filetoUtf.pyE:\EasyCanvas-master\EasyCanvas-masterimportosimportcodecsimportargparseimportsysdefconvert_to_utf8_b
树莓派中 Python+opencv打开摄像头 68lizi 光电设计 python
树莓派中Python+opencv打开摄像头注意不要使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)，我在树莓派使用这个的时候会报错，在windows不会报错，具体原因不清楚cap=cv2.VideoCapture(0)#使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)会报错whileTrue:status,img=cap.read()i
python实现读取文件的指定某行内容 Fitz1318 Python3学习 python
python实现读取文件的指定某行内容最近有一个需求就是读取一个文件中的指定某行的内容，现将方法记录如下importlinecache#这里填写你自己的文件位置和行号text=linecache.getline("../TestFile/test_C1.json",2)print(text)
[Python] 使用 dataclass 简化数据结构：定义、功能与实战踏雪无痕老爷子 Python python 开发语言
在经典面向对象编程中，为了保存和操作数据往往需要定义多个类，手写__init__()、__repr__()、__eq__()等方法。Python3.7引入了@dataclass装饰器，它能自动生成这些常见方法，大幅减少样板代码。本文将介绍dataclass的定义与参数、比较与普通类的差别、实战示例，以及常见注意事项。一、什么是dataclass@dataclass是一种类装饰器，它通过类成员的类型
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
程序化交易系统中如何精准获取MACD、KDJ、BOLL等基础指标的值？股票程序化交易接口量化交易股票API接口 Python股票量化交易程序化交易系统 macd指标 kdj指标 boll指标股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>基础指标在程序化交易系统中的重要性基础指标对交易决策的指导意义MACD、KDJ、BOLL等基础指标在程序化交易系统中扮演着重要角色。MACD可以帮助判断市场的趋势和买卖信号，通过分析其快线和慢线的交叉情况，能为投资者提供入场和出场的参
股票程序化交易软件如何选择？这些要点你知道吗股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链股票程序化交易软件功能特性稳定性成本股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>了解软件功能特性基础交易功能基础交易功能是股票程序化交易软件的核心。它应具备快速下单、撤单等基础操作能力。比如在行情快速变化时，能让投资者迅速抓住机会下单，或者及时撤单避免损失。软件的交易界面要简洁明了，方便投资者操作。还应支持多种交
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python实战：自动在知乎回答点赞并采集内容的高阶爬虫教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 okhttp 学习
✨写在前面：为什么做知乎自动化操作？知乎作为中国领先的知识问答平台，拥有大量结构化内容。对于研究舆情分析、情绪识别、用户画像，甚至产品舆情反馈采集的用户来说，如何自动获取知乎内容并进行交互行为（如点赞、回答），是一个非常实用的能力。本文将手把手带你用Python完成以下目标：✅自动登录知乎✅自动搜索某个关键词下的热门问题✅自动点赞高质量回答✅自动采集回答内容（文本、点赞数、评论数等）✅自动保存为本
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
python实战项目79：采集知乎话题下的所有回答 wp_tao Python副业接单实战项目 python 开发语言
python实战项目79：采集知乎话题下的所有回答一、项目介绍二、代码使用方法三、drissionpage的优缺点四、完整代码五、注意事项一、项目介绍需求是采集知乎某话题下的所有回答，这里以话题“大学宿舍相处之间遇到莫名其妙的冷落怎么办呢？”为例，网页链接为https://www.zhihu.com/question/1898156781215146265，其中189815678121514626
使用 pip 命令下载 whl离线安装包、安装三希 pip
使用pip命令直接从线上下载whl离线安装包并转存到离线环境的过程实际上是分两步进行的：第一步：在线环境下载whl包bash#在具有网络连接的环境中pipdownload--only-binary=:all:--wheel--platform--python-version这里的参数说明：：需要下载的Python包名称。--only-binary=:all:：只下载二进制包（即whl文件）。--w
【Python】如何使用.whl文件安装Python包？ civilpy python 开发语言
基本原理在Python的世界中，.whl文件是一种分发格式，它代表“Wheel”。Wheel是一种Python包格式，旨在提供一种快速、可靠且兼容的方式，用于安装Python库。与源代码包相比，Wheel文件是预编译的，这意味着它们已经包含了编译后的扩展模块，这使得安装过程更快，更简单。代码示例以下是使用.whl文件安装Python包的示例步骤：示例1：基本安装假设你已经下载了一个名为exampl
如何安装 `.whl` 文件（Python Wheel 包）喝醉酒的小白 Liunx Python模块 python 开发语言
目录标题如何安装`.whl`文件（PythonWheel包）安装前提安装方法（3种）方法1：直接使用pip安装（推荐）方法2：先进入文件目录再安装方法3：使用绝对路径（适合脚本中调用）⚠️常见问题解决问题1：版本不兼容错误问题2：缺少依赖问题3：权限不足验证安装进阶技巧如何安装.whl文件（PythonWheel包）.whl文件是Python的二进制分发格式（Wheel格式），用于快速安装Pyth
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
大数据面试必备：Kafka性能优化 Producer与Consumer配置指南
Kafka面试题-在Kafka中，如何通过配置优化Producer和Consumer的性能?回答重点在Kafka中，通过优化Producer和Consumer的配置，可以显著提高性能。以下是一些关键配置项和策略：1、Producer端优化:batch.size：批处理大小。增大batch.size可以使Producer每次发送更多的消息，但要注意不能无限制增大，否则会导致内存占用过多。linger
为什么90%企业的AI数据分析都失败了？奥威BI给出破局方案 qq_43696218 人工智能数据分析数据挖掘
一、引言：AI数据分析在数字化转型中的核心地位在当今企业全面数字化转型的背景下，‌AI数据分析已成为解锁业务增长潜力的关键钥匙。然而，市场上众多AI数据分析产品常陷入“伪需求场景”，看似前沿却难以真正落地。本文将深入探讨奥威BI如何通过其AI数据分析能力，突破伪需求，实现数据价值的最大化。二、AI数据分析：伪需求场景的挑战伪需求场景的定义与表现AI数据分析领域的伪需求场景，指的是那些表面创新实则难
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
Anaconda插件开发 lyh1344 数据库开发
开发环境准备安装Anaconda或Miniconda，确保conda命令可用。推荐使用Python3.7及以上版本。创建独立的开发环境以避免依赖冲突：condacreate-nplugin_devpython=3.8condaactivateplugin_dev插件结构设计Anaconda插件通常采用Python包的标准结构。核心文件包括__init__.py和setup.py。典型目录结构如下：
Python3 数字(Number) froginwe11 开发语言
Python3数字(Number)引言在编程语言中，数字是构成程序的基础元素之一。Python3作为一种高级编程语言，提供了丰富的数字类型和操作方法。本文将详细介绍Python3中的数字类型，包括整数、浮点数、复数等，并探讨它们的特性和应用。整数（Integer）整数是Python3中最基本的数据类型之一，用于表示没有小数部分的数值。在Python3中，整数类型没有大小限制，可以表示任意大小的整数
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他