【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格

目录

一些将BV号转化为AV号的变量设置

使用代理IP(直接从IP网站复制的)

爬虫的函数

将结果写入表格中

下面是主函数,首先看看能不能抓取到,还有一些变量设置

开始循环爬评论

对一些统计数据进行处理

制作词云

制作柱状图和饼图

结束,生成表格

完整代码

更新男女词云生成完整代码

生成可视化图片展示

男性词云

女性词云

 保密性别词云

总词云

httpipcfg.txt代理文本


一些将BV号转化为AV号的变量设置

#哔哩哔哩BV号转AV号使用的变量
table = 'fZodR9XQDSUm21yCkr6zBqiveYah8bt4xsWpHnJE7jL5VG3guMTKNPAwcF'
tr = {}
for i in range(58):
    tr[table[i]] = i
s = [11, 10, 3, 8, 4, 6]
xor = 177451812
add = 8728348608

使用代理IP(直接从IP网站复制的)

#代理IP
try:
    pro = [] #代理IP列表
    with open(r'./httpipcfg.txt',mode='r',encoding='utf-8') as f: #代理IP文档存放路径
        content = f.readline() # 按行读取
        while content: #循环最后一句的意义为当content读不到行时停止,这样能一行一行全部读取
            op = content.split() #用op对象存储,把一行切割成数组,去除空格
            pro.append(str(op[0]+":"+op[1])) #第一列数据下标为0
            content = f.readline()
            print('\n')
    print('成功载入下列代理IP列表:')
    print(pro)
except:
    input('载入代理IP失败,请检查httpipcfg.txt是否正确存在脚本目录!')
    exit(0)
#将文本中的非中文移除
def remove_non_chinese(text):
    pattern = re.compile('[^\u4e00-\u9fa5]')
    return pattern.sub('', text)
def dec(x): #BV转化为AV号
    if(x >= '0' and x <= '9'):#判断是否是纯数字,是的话就当做AV号,直接返回原本值
        return x
    else:
        r = 0
        for i in range(6):
            r = r+tr[x[s[i]]]*58**i
        return (r-add)^xor

爬虫的函数

#抓取评论
def gettext(url):
    headers1 = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    }
    trytimes=0
    while trytimes<=50:
        httpip=random.choice(pro)
        response1 = requests.get(url,proxies={'http':str(httpip)},headers=headers1)#使用代理IP
        if(json.loads(response1.text)['code']==-412):
            trytimes = trytimes + 1
        else:
            trytimes=100
    if(trytimes>50 and trytimes!=100):
        input('抓取失败,访问频率过高!错误代码:-412,请稍后再试或更新代理IP!')
        exit(0)
    # response1 = requests.get(url,headers=headers1)#不使用代理IP
    response1.encoding = 'utf-8'
    response1.close()
    return response1.text

将结果写入表格中

#写入表格中
def xw_toExcel(data, fileName):  # xlsxwriter库储存数据到excel
    workbook = xw.Workbook(fileName)  # 创建工作簿
    worksheet1 = workbook.add_worksheet("sheet1")  # 创建子表
    worksheet1.activate()  # 激活表
    title = ['用户名', 'UID','性别','个签', '头像','点赞数', '评论','情感指数','情感等级']  # 设置表头
    worksheet1.write_row('A1', title)  # 从A1单元格开始写入表头
    i = 2  # 从第二行开始写入数据
    for j in range(len(data)):
        insertData = [data[j]["用户名"], data[j]["UID"],data[j]["性别"],data[j]["个签"], data[j]["头像"], data[j]["点赞数"], data[j]["评论"],data[j]["情感指数"],data[j]['情感等级']]
        row = 'A' + str(i)
        worksheet1.write_row(row, insertData)
        i += 1
    workbook.close()  # 关闭表

下面是主函数,首先看看能不能抓取到,还有一些变量设置

try:
    BVID=input("请输入需要爬取评论的视频AV/BV号:")
    comment = json.loads(gettext("https://api.bilibili.com/x/v2/reply?pn=" + str(1) +  "&type=1&oid=" + str(dec(BVID)) + "&sort=2"))
except:
    input('抓取错误,请检查输入的AV/BV号!')
    exit(0)
if comment['code']==-412:
    input('抓取失败,访问频率过高!错误代码:-412,请稍后再试!')
    exit(0)
elif comment['code']!=0:
    input('抓取失败,错误代码:'+str(comment['code']))
    exit(0)
#抓取前的变量设置
pagenum=1#当前页
commentnum=0#总评论数量(不计算楼中楼评论)
commentlist=[] #存抓取信息的变量
commentLength = len(comment)#当前页评论数量
commenttext="" #一个用来存取所有评论的变量
male=0
female=0
nomale=0
feeling=0.0
femalefeel=0.0
malefeel=0.0
nomalefeel=0.0

开始循环爬评论

#开始抓取评论,直到下一页没有评论
while commentLength!=0:
    time.sleep(0.1)
    comment = json.loads(gettext("https://api.bilibili.com/x/v2/reply?pn=" + str(pagenum) + "&type=1&oid=" + str(dec(BVID)) + "&sort=2"))
    comment = comment['data']['replies']#数据清洗,只留下抓取信息中的评论信息
    try:
        commentLength = len(comment)
    except:
        break
    for index in range(commentLength):
        username=str(comment[index]['member']['uname'])
        uid=str(comment[index]['member']['mid'])
        usex=str(comment[index]['member']['sex'])
        usigh=str(comment[index]['member']['sign'])
        uhead=str(comment[index]['member']['avatar'])
        ucom=str(comment[index]['content']['message'])
        ulike=str(comment[index]['like'])
        print('用户名:'+username)  # 用户名
        print('UID:'+uid)  # UID
        print('性别:'+usex)  # 性别
        print('个签:'+usigh)  # 性别
        print('头像:'+uhead)  # 用户头像
        print('评论:'+ucom)  # 评论内容
        sss = SnowNLP(ucom)#情感分析
        sentiment = sss.sentiments#情感指数(越接近1越积极)
        feeling=feeling+sentiment
        if usex=='男':
            male=male+1
            malefeel=malefeel+sentiment
        elif usex=='女':
            female=female+1
            femalefeel=femalefeel+sentiment
        else:
            nomale=nomale+1
            nomalefeel=nomalefeel+sentiment
        commenttext=commenttext+ucom  # 存入评论内容备用
        print('点赞数:'+ulike)  # 点赞
        #判断评论负面等级,越大证明评论越积极,但仅仅通过文本,结果仅供参考,要依据实际情况判断
        if(sentiment>0.6):
            ufeel='积极'
        elif(sentiment<0.4):
            ufeel='消极'
        else:
            ufeel='中性'
        print('情感等级:'+ufeel+'\n')
        commentdic={}
        commentdic.update({'用户名':username,'UID':uid,'性别':usex,'个签':str(comment[index]['member']['sign']),
                           '头像':uhead,'点赞数':ulike,'评论':ucom,'情感指数':sentiment,'情感等级':ufeel})
        commentlist.append(commentdic)
    pagenum=pagenum+1
    commentnum=commentnum+commentLength

对一些统计数据进行处理

feeling=float(feeling/commentnum)*100
if male!=0:
    malefeel=float(malefeel/male)*100
if nomale!=0:
    nomalefeel=float(nomalefeel/nomale)*100
if female!=0:
    femalefeel=float(femalefeel/female)*100
#移除评论中的非中文字符并且分割评论,并统计词频
commenttext=remove_non_chinese(commenttext)
words = jieba.cut(commenttext)
word_counts = Counter(words)
sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)

制作词云

#制作词频词云
wordcloud = WordCloud(
    font_path="msyh.ttc",  # 在这里添加
    background_color='white',
    width=1000,
    height=1000,
    max_words=300,
    max_font_size=200,
    min_font_size=20,
    prefer_horizontal=0.95).generate_from_frequencies(dict(sorted_word_counts))
wordcloud.to_file(BVID+'词云.jpg')

制作柱状图和饼图

sexfcount=[malefeel, femalefeel, nomalefeel, feeling]
sexname=['男性', '女性', '保密', '全部']
sexindex=np.arange(len(sexname))
# 正确显示中文和负号
plt.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False
p1=plt.bar(sexindex, sexfcount)
plt.bar_label(p1, label_type='edge')
# plt.subplot(121)
plt.title(BVID+'性别情感指数柱状图')
plt.xlabel('性别')
plt.ylabel('情感指数')
plt.xticks(sexindex, sexname)
plt.savefig(BVID+'性别情感指数图.png')
plt.show()
plt.figure()
sexcount=[male, female, nomale]
labels = ['男性', '女性', '保密']
plt.title(BVID+'性别比例(共'+str(commentnum)+')人')
plt.pie(sexcount, autopct='%1.1f%%', labels=labels)
plt.savefig(BVID+'性别比例图.png')
plt.show()
plt.figure()

结束,生成表格

print('共计['+str(commentnum)+']条评论')
fileName=BVID+'视频评论.xlsx'
xw_toExcel(commentlist, fileName)
input('完成!')

完整代码

# -*- coding: utf-8 -*-
import requests
import json
import xlsxwriter as xw
import random
import time
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba
from collections import Counter
import re
from snownlp import SnowNLP
import numpy as np

#哔哩哔哩BV号转AV号使用的变量
table = 'fZodR9XQDSUm21yCkr6zBqiveYah8bt4xsWpHnJE7jL5VG3guMTKNPAwcF'
tr = {}
for i in range(58):
    tr[table[i]] = i
s = [11, 10, 3, 8, 4, 6]
xor = 177451812
add = 8728348608

#代理IP
try:
    pro = [] #代理IP列表
    with open(r'./httpipcfg.txt',mode='r',encoding='utf-8') as f: #代理IP文档存放路径
        content = f.readline() # 按行读取
        while content: #循环最后一句的意义为当content读不到行时停止,这样能一行一行全部读取
            op = content.split() #用op对象存储,把一行切割成数组,去除空格
            pro.append(str(op[0]+":"+op[1])) #第一列数据下标为0
            content = f.readline()
            print('\n')
    print('成功载入下列代理IP列表:')
    print(pro)
except:
    input('载入代理IP失败,请检查httpipcfg.txt是否正确存在脚本目录!')
    exit(0)
#将文本中的非中文移除
def remove_non_chinese(text):
    pattern = re.compile('[^\u4e00-\u9fa5]')
    return pattern.sub('', text)
def dec(x): #BV转化为AV号
    if(x >= '0' and x <= '9'):#判断是否是纯数字,是的话就当做AV号,直接返回原本值
        return x
    else:
        r = 0
        for i in range(6):
            r = r+tr[x[s[i]]]*58**i
        return (r-add)^xor

#抓取评论
def gettext(url):
    headers1 = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    }
    trytimes=0
    while trytimes<=50:
        httpip=random.choice(pro)
        response1 = requests.get(url,proxies={'http':str(httpip)},headers=headers1)#使用代理IP
        if(json.loads(response1.text)['code']==-412):
            trytimes = trytimes + 1
        else:
            trytimes=100
    if(trytimes>50 and trytimes!=100):
        input('抓取失败,访问频率过高!错误代码:-412,请稍后再试或更新代理IP!')
        exit(0)
    # response1 = requests.get(url,headers=headers1)#不使用代理IP
    response1.encoding = 'utf-8'
    response1.close()
    return response1.text

#写入表格中
def xw_toExcel(data, fileName):  # xlsxwriter库储存数据到excel
    workbook = xw.Workbook(fileName)  # 创建工作簿
    worksheet1 = workbook.add_worksheet("sheet1")  # 创建子表
    worksheet1.activate()  # 激活表
    title = ['用户名', 'UID','性别','个签', '头像','点赞数', '评论','情感指数','情感等级']  # 设置表头
    worksheet1.write_row('A1', title)  # 从A1单元格开始写入表头
    i = 2  # 从第二行开始写入数据
    for j in range(len(data)):
        insertData = [data[j]["用户名"], data[j]["UID"],data[j]["性别"],data[j]["个签"], data[j]["头像"], data[j]["点赞数"], data[j]["评论"],data[j]["情感指数"],data[j]['情感等级']]
        row = 'A' + str(i)
        worksheet1.write_row(row, insertData)
        i += 1
    workbook.close()  # 关闭表


try:
    BVID=input("请输入需要爬取评论的视频AV/BV号:")
    comment = json.loads(gettext("https://api.bilibili.com/x/v2/reply?pn=" + str(1) +  "&type=1&oid=" + str(dec(BVID)) + "&sort=2"))
except:
    input('抓取错误,请检查输入的AV/BV号!')
    exit(0)
if comment['code']==-412:
    input('抓取失败,访问频率过高!错误代码:-412,请稍后再试!')
    exit(0)
elif comment['code']!=0:
    input('抓取失败,错误代码:'+str(comment['code']))
    exit(0)
#抓取前的变量设置
pagenum=1#当前页
commentnum=0#总评论数量(不计算楼中楼评论)
commentlist=[] #存抓取信息的变量
commentLength = len(comment)#当前页评论数量
commenttext="" #一个用来存取所有评论的变量
male=0
female=0
nomale=0
feeling=0.0
femalefeel=0.0
malefeel=0.0
nomalefeel=0.0

#开始抓取评论,直到下一页没有评论
while commentLength!=0:
    time.sleep(0.1)
    comment = json.loads(gettext("https://api.bilibili.com/x/v2/reply?pn=" + str(pagenum) + "&type=1&oid=" + str(dec(BVID)) + "&sort=2"))
    comment = comment['data']['replies']#数据清洗,只留下抓取信息中的评论信息
    try:
        commentLength = len(comment)
    except:
        break
    for index in range(commentLength):
        username=str(comment[index]['member']['uname'])
        uid=str(comment[index]['member']['mid'])
        usex=str(comment[index]['member']['sex'])
        usigh=str(comment[index]['member']['sign'])
        uhead=str(comment[index]['member']['avatar'])
        ucom=str(comment[index]['content']['message'])
        ulike=str(comment[index]['like'])
        print('用户名:'+username)  # 用户名
        print('UID:'+uid)  # UID
        print('性别:'+usex)  # 性别
        print('个签:'+usigh)  # 性别
        print('头像:'+uhead)  # 用户头像
        print('评论:'+ucom)  # 评论内容
        sss = SnowNLP(ucom)#情感分析
        sentiment = sss.sentiments#情感指数(越接近1越积极)
        feeling=feeling+sentiment
        if usex=='男':
            male=male+1
            malefeel=malefeel+sentiment
        elif usex=='女':
            female=female+1
            femalefeel=femalefeel+sentiment
        else:
            nomale=nomale+1
            nomalefeel=nomalefeel+sentiment
        commenttext=commenttext+ucom  # 存入评论内容备用
        print('点赞数:'+ulike)  # 点赞
        #判断评论负面等级,越大证明评论越积极,但仅仅通过文本,结果仅供参考,要依据实际情况判断
        if(sentiment>0.6):
            ufeel='积极'
        elif(sentiment<0.4):
            ufeel='消极'
        else:
            ufeel='中性'
        print('情感等级:'+ufeel+'\n')
        commentdic={}
        commentdic.update({'用户名':username,'UID':uid,'性别':usex,'个签':str(comment[index]['member']['sign']),
                           '头像':uhead,'点赞数':ulike,'评论':ucom,'情感指数':sentiment,'情感等级':ufeel})
        commentlist.append(commentdic)
    pagenum=pagenum+1
    commentnum=commentnum+commentLength

feeling=float(feeling/commentnum)*100
if male!=0:
    malefeel=float(malefeel/male)*100
if nomale!=0:
    nomalefeel=float(nomalefeel/nomale)*100
if female!=0:
    femalefeel=float(femalefeel/female)*100
#移除评论中的非中文字符并且分割评论,并统计词频
commenttext=remove_non_chinese(commenttext)
words = jieba.cut(commenttext)
word_counts = Counter(words)
sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)

#制作词频词云
wordcloud = WordCloud(
    font_path="msyh.ttc",  # 在这里添加
    background_color='white',
    width=1000,
    height=1000,
    max_words=300,
    max_font_size=200,
    min_font_size=20,
    prefer_horizontal=0.95).generate_from_frequencies(dict(sorted_word_counts))
wordcloud.to_file(BVID+'词云.jpg')


sexfcount=[malefeel, femalefeel, nomalefeel, feeling]
sexname=['男性', '女性', '保密', '全部']
sexindex=np.arange(len(sexname))
# 正确显示中文和负号
plt.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False
p1=plt.bar(sexindex, sexfcount)
plt.bar_label(p1, label_type='edge')
# plt.subplot(121)
plt.title(BVID+'性别情感指数柱状图')
plt.xlabel('性别')
plt.ylabel('情感指数')
plt.xticks(sexindex, sexname)
plt.savefig(BVID+'性别情感指数图.png')
plt.show()
plt.figure()
sexcount=[male, female, nomale]
labels = ['男性', '女性', '保密']
plt.title(BVID+'性别比例(共'+str(commentnum)+')人')
plt.pie(sexcount, autopct='%1.1f%%', labels=labels)
plt.savefig(BVID+'性别比例图.png')
plt.show()
plt.figure()
print('共计['+str(commentnum)+']条评论')
fileName=BVID+'视频评论.xlsx'
xw_toExcel(commentlist, fileName)
input('完成!')


更新男女词云生成完整代码

# -*- coding: utf-8 -*-
import requests
import json
import xlsxwriter as xw
import random
import time
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba
from collections import Counter
import re
from snownlp import SnowNLP
import numpy as np

#哔哩哔哩BV号转AV号使用的变量
table = 'fZodR9XQDSUm21yCkr6zBqiveYah8bt4xsWpHnJE7jL5VG3guMTKNPAwcF'
tr = {}
for i in range(58):
    tr[table[i]] = i
s = [11, 10, 3, 8, 4, 6]
xor = 177451812
add = 8728348608

#代理IP
try:
    pro = [] #代理IP列表
    with open(r'./httpipcfg.txt',mode='r',encoding='utf-8') as f: #代理IP文档存放路径
        content = f.readline() # 按行读取
        while content: #循环最后一句的意义为当content读不到行时停止,这样能一行一行全部读取
            op = content.split() #用op对象存储,把一行切割成数组,去除空格
            pro.append(str(op[0]+":"+op[1])) #第一列数据下标为0
            content = f.readline()
            print('\n')
    print('成功载入下列代理IP列表:')
    print(pro)
except:
    input('载入代理IP失败,请检查httpipcfg.txt是否正确存在脚本目录!')
    exit(0)
def cloud(sorted_word_counts):
    wordcloud = WordCloud(
        font_path="msyh.ttc",  # 在这里添加
        background_color='white',
        width=1000,
        height=1000,
        max_words=300,
        max_font_size=200,
        min_font_size=20,
        prefer_horizontal=0.95).generate_from_frequencies(dict(sorted_word_counts))
    return wordcloud
#将文本中的非中文移除
def remove_non_chinese(text):
    pattern = re.compile('[^\u4e00-\u9fa5]')
    return pattern.sub('', text)
def dec(x): #BV转化为AV号
    if(x >= '0' and x <= '9'):#判断是否是纯数字,是的话就当做AV号,直接返回原本值
        return x
    else:
        r = 0
        for i in range(6):
            r = r+tr[x[s[i]]]*58**i
        return (r-add)^xor

#抓取评论
def gettext(url):
    headers1 = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    }
    trytimes=0
    while trytimes<=50:
        httpip=random.choice(pro)
        response1 = requests.get(url,proxies={'http':str(httpip)},headers=headers1)#使用代理IP
        if(json.loads(response1.text)['code']==-412):
            trytimes = trytimes + 1
        else:
            trytimes=100
    if(trytimes>50 and trytimes!=100):
        input('抓取失败,访问频率过高!错误代码:-412,请稍后再试或更新代理IP!')
        exit(0)
    # response1 = requests.get(url,headers=headers1)#不使用代理IP
    response1.encoding = 'utf-8'
    response1.close()
    return response1.text

#写入表格中
def xw_toExcel(data, fileName):  # xlsxwriter库储存数据到excel
    workbook = xw.Workbook(fileName)  # 创建工作簿
    worksheet1 = workbook.add_worksheet("sheet1")  # 创建子表
    worksheet1.activate()  # 激活表
    title = ['用户名', 'UID','性别','个签', '头像','点赞数', '评论','情感指数','情感等级']  # 设置表头
    worksheet1.write_row('A1', title)  # 从A1单元格开始写入表头
    i = 2  # 从第二行开始写入数据
    for j in range(len(data)):
        insertData = [data[j]["用户名"], data[j]["UID"],data[j]["性别"],data[j]["个签"], data[j]["头像"], data[j]["点赞数"], data[j]["评论"],data[j]["情感指数"],data[j]['情感等级']]
        row = 'A' + str(i)
        worksheet1.write_row(row, insertData)
        i += 1
    workbook.close()  # 关闭表


try:
    BVID=input("请输入需要爬取评论的视频AV/BV号:")
    comment = json.loads(gettext("https://api.bilibili.com/x/v2/reply?pn=" + str(1) +  "&type=1&oid=" + str(dec(BVID)) + "&sort=2"))
except:
    input('抓取错误,请检查输入的AV/BV号!')
    exit(0)
if comment['code']==-412:
    input('抓取失败,访问频率过高!错误代码:-412,请稍后再试!')
    exit(0)
elif comment['code']!=0:
    input('抓取失败,错误代码:'+str(comment['code']))
    exit(0)
#抓取前的变量设置
pagenum=1#当前页
commentnum=0#总评论数量(不计算楼中楼评论)
commentlist=[] #存抓取信息的变量
commentLength = len(comment)#当前页评论数量
commenttext="" #一个用来存取所有评论的变量
commenttext1="" #一个用来存取所有男性评论的变量
commenttext2="" #一个用来存取所有女性评论的变量
commenttext3="" #一个用来存取所有无性评论的变量
male=0
female=0
nomale=0
feeling=0.0
femalefeel=0.0
malefeel=0.0
nomalefeel=0.0

#开始抓取评论,直到下一页没有评论
while commentLength!=0:
    time.sleep(0.1)
    comment = json.loads(gettext("https://api.bilibili.com/x/v2/reply?pn=" + str(pagenum) + "&type=1&oid=" + str(dec(BVID)) + "&sort=2"))
    comment = comment['data']['replies']#数据清洗,只留下抓取信息中的评论信息
    try:
        commentLength = len(comment)
    except:
        break
    for index in range(commentLength):
        username=str(comment[index]['member']['uname'])
        uid=str(comment[index]['member']['mid'])
        usex=str(comment[index]['member']['sex'])
        usigh=str(comment[index]['member']['sign'])
        uhead=str(comment[index]['member']['avatar'])
        ucom=str(comment[index]['content']['message'])
        ulike=str(comment[index]['like'])
        print('用户名:'+username)  # 用户名
        print('UID:'+uid)  # UID
        print('性别:'+usex)  # 性别
        print('个签:'+usigh)  # 性别
        print('头像:'+uhead)  # 用户头像
        print('评论:'+ucom)  # 评论内容
        sss = SnowNLP(ucom)#情感分析
        sentiment = sss.sentiments#情感指数(越接近1越积极)
        feeling=feeling+sentiment
        if usex=='男':
            male=male+1
            malefeel=malefeel+sentiment
            commenttext1=commenttext1+ucom  # 存入评论内容备用
        elif usex=='女':
            female=female+1
            femalefeel=femalefeel+sentiment
            commenttext2=commenttext2+ucom  # 存入评论内容备用
        else:
            nomale=nomale+1
            nomalefeel=nomalefeel+sentiment
            commenttext3=commenttext3+ucom  # 存入评论内容备用
        commenttext=commenttext+ucom  # 存入评论内容备用
        print('点赞数:'+ulike)  # 点赞
        #判断评论负面等级,越大证明评论越积极,但仅仅通过文本,结果仅供参考,要依据实际情况判断
        if(sentiment>0.6):
            ufeel='积极'
        elif(sentiment<0.4):
            ufeel='消极'
        else:
            ufeel='中性'
        print('情感等级:'+ufeel+'\n')
        commentdic={}
        commentdic.update({'用户名':username,'UID':uid,'性别':usex,'个签':str(comment[index]['member']['sign']),
                           '头像':uhead,'点赞数':ulike,'评论':ucom,'情感指数':sentiment,'情感等级':ufeel})
        commentlist.append(commentdic)
    pagenum=pagenum+1
    commentnum=commentnum+commentLength

feeling=float(feeling/commentnum)*100
if male!=0:
    malefeel=float(malefeel/male)*100
if nomale!=0:
    nomalefeel=float(nomalefeel/nomale)*100
if female!=0:
    femalefeel=float(femalefeel/female)*100
#移除评论中的非中文字符并且分割评论,并统计词频
def jiebacut(text):
    text=remove_non_chinese(text)
    words = jieba.cut(text)
    word_counts = Counter(words)
    sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
    return sorted_word_counts
#制作词频词云
#全部
sorted_word_counts=jiebacut(commenttext)
wordcloud = cloud(sorted_word_counts)
wordcloud.to_file(BVID+'词云.jpg')
#男性
sorted_word_counts=jiebacut(commenttext1)
wordcloud = cloud(sorted_word_counts)
wordcloud.to_file(BVID+'【男性】词云.jpg')
#女性
sorted_word_counts=jiebacut(commenttext2)
wordcloud = cloud(sorted_word_counts)
wordcloud.to_file(BVID+'【女性】词云.jpg')
#保密性别
sorted_word_counts=jiebacut(commenttext3)
wordcloud = cloud(sorted_word_counts)
wordcloud.to_file(BVID+'【无性】词云.jpg')


sexfcount=[malefeel, femalefeel, nomalefeel, feeling]
sexname=['男性', '女性', '保密', '全部']
sexindex=np.arange(len(sexname))
# 正确显示中文和负号
plt.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False
p1=plt.bar(sexindex, sexfcount)
plt.bar_label(p1, label_type='edge')
# plt.subplot(121)
plt.title(BVID+'性别情感指数柱状图')
plt.xlabel('性别')
plt.ylabel('情感指数')
plt.xticks(sexindex, sexname)
plt.savefig(BVID+'性别情感指数图.png')
plt.figure()

sexcount=[male, female, nomale]
labels = ['男性', '女性', '保密']
plt.title(BVID+'性别比例(共'+str(commentnum)+')人')
plt.pie(sexcount, autopct='%1.1f%%', labels=labels)
plt.savefig(BVID+'性别比例图.png')
plt.figure()
print('共计['+str(commentnum)+']条评论')
fileName=BVID+'视频评论.xlsx'
xw_toExcel(commentlist, fileName)
input('完成!')


生成可视化图片展示

男性词云

【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格_第1张图片

女性词云

【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格_第2张图片

 保密性别词云

【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格_第3张图片

 

总词云

【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格_第4张图片

【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格_第5张图片

【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格_第6张图片

httpipcfg.txt代理文本

103.36.11.17	8181	香港	高匿代理	2022年04月01日03时 验证
103.36.11.17	8181	香港	高匿代理	2022年04月01日03时 验证
103.36.11.14	8181	香港	高匿代理	2022年04月01日03时 验证
103.36.11.14	8181	香港	高匿代理	2022年04月01日03时 验证
120.71.147.244	8901	新疆乌鲁木齐市	高匿代理	2022年04月01日03时 验证
120.71.13.38	8901	新疆乌鲁木齐市	高匿代理	2022年04月01日03时 验证
116.9.163.205	58080	广西钦州市	高匿代理	2022年04月01日03时 验证
221.7.197.248	8000	广西南宁市	高匿代理	2022年04月01日03时 验证
116.9.163.205	58080	广西钦州市	高匿代理	2022年04月01日03时 验证
221.7.197.248	8000	广西南宁市	高匿代理	2022年04月01日03时 验证
222.74.73.202	42055	内蒙古赤峰市	高匿代理	2022年04月01日03时 验证
222.74.73.202	42055	内蒙古赤峰市	高匿代理	2022年04月01日03时 验证
59.124.224.205	3128	台湾省	高匿代理	2022年04月01日03时 验证
59.124.224.205	3128	台湾省	高匿代理	2022年04月01日03时 验证
106.105.125.139	80	台湾省	高匿代理	2022年04月01日03时 验证
106.105.125.139	80	台湾省	高匿代理	2022年04月01日03时 验证
118.180.166.195	8060	甘肃省兰州市	高匿代理	2022年04月01日03时 验证
219.246.65.55	80	甘肃省兰州市	高匿代理	2022年04月01日03时 验证
117.34.25.11	55443	陕西省西安市	高匿代理	2022年04月01日03时 验证
182.139.111.107	9000	四川省成都市	高匿代理	2022年04月01日03时 验证
182.139.111.153	9000	四川省成都市	高匿代理	2022年04月01日03时 验证
183.236.123.242	8060	广东省广州市	高匿代理	2022年04月01日03时 验证
121.13.252.60	41564	广东省东莞市	高匿代理	2022年04月01日03时 验证
58.20.184.187	9091	湖南省衡阳市	高匿代理	2022年04月01日03时 验证
58.20.184.187	9091	湖南省衡阳市	高匿代理	2022年04月01日03时 验证
111.23.16.250	3128	湖南省邵阳市	高匿代理	2022年04月01日03时 验证
111.23.16.250	3128	湖南省邵阳市	高匿代理	2022年04月01日03时 验证
120.194.55.139	6969	河南省洛阳市	高匿代理	2022年04月01日03时 验证
120.194.55.139	6969	河南省洛阳市	高匿代理	2022年04月01日03时 验证
218.59.139.238	80	山东省潍坊市	高匿代理	2022年04月01日03时 验证
218.59.139.238	80	山东省潍坊市	高匿代理	2022年04月01日03时 验证
60.211.218.78	53281	山东省济宁市	高匿代理	2022年04月01日03时 验证
60.211.218.78	53281	山东省济宁市	高匿代理	2022年04月01日03时 验证
223.82.60.202	8060	江西省宜春市	高匿代理	2022年04月01日03时 验证
113.195.45.9	8085	江西省九江市	高匿代理	2022年04月01日03时 验证
223.82.60.202	8060	江西省宜春市	高匿代理	2022年04月01日03时 验证
113.195.45.9	8085	江西省九江市	高匿代理	2022年04月01日03时 验证
120.42.46.226	6666	福建省厦门市	高匿代理	2022年04月01日03时 验证
120.92.91.147	443	福建省福州市	高匿代理	2022年04月01日03时 验证
120.42.46.226	6666	福建省厦门市	高匿代理	2022年04月01日03时 验证
120.92.91.147	443	福建省福州市	高匿代理	2022年04月01日03时 验证
115.218.7.209	9000	浙江省温州市	高匿代理	2022年04月01日03时 验证
115.218.4.92	9000	浙江省温州市	高匿代理	2022年04月01日03时 验证
115.218.7.209	9000	浙江省温州市	高匿代理	2022年04月01日03时 验证
115.218.4.92	9000	浙江省温州市	高匿代理	2022年04月01日03时 验证
58.220.95.79	10000	江苏省扬州市	高匿代理	2022年04月01日03时 验证
121.232.148.188	9000	江苏省镇江市	高匿代理	2022年04月01日03时 验证
123.56.118.36	8080	辽宁省丹东市	高匿代理	2022年04月01日03时 验证
123.56.13.137	80	辽宁省朝阳市	高匿代理	2022年04月01日03时 验证
123.56.118.36	8080	辽宁省丹东市	高匿代理	2022年04月01日03时 验证
123.56.13.137	80	辽宁省朝阳市	高匿代理	2022年04月01日03时 验证
175.24.112.3	7788	河北省	高匿代理	2022年04月01日03时 验证
175.24.112.3	7788	河北省	高匿代理	2022年04月01日03时 验证
183.64.239.19	8060	重庆市酉阳县	高匿代理	2022年04月01日03时 验证
222.65.228.96	8085	上海市卢湾区	高匿代理	2022年04月01日03时 验证
180.165.130.47	53281	上海市	高匿代理	2022年04月01日03时 验证
139.217.101.53	9080	北京市	高匿代理	2022年04月01日03时 验证
106.54.128.253	999	北京市海淀区	高匿代理	2022年04月01日03时 验证
60.170.204.30	8060	安徽省蚌埠市	高匿代理	2022年04月01日02时 验证
218.252.244.104	80	香港	高匿代理	2022年04月01日02时 验证
36.55.228.7	2233	香港	高匿代理	2022年04月01日02时 验证
120.71.147.244	8901	新疆乌鲁木齐市	高匿代理	2022年04月01日02时 验证
124.226.138.97	9797	广西梧州市	高匿代理	2022年04月01日02时 验证
125.73.209.67	80	广西河池市罗城县	高匿代理	2022年04月01日02时 验证
124.226.138.97	9797	广西梧州市	高匿代理	2022年04月01日02时 验证
125.73.209.67	80	广西河池市罗城县	高匿代理	2022年04月01日02时 验证
222.74.73.202	42055	内蒙古赤峰市	高匿代理	2022年04月01日02时 验证
222.74.73.202	42055	内蒙古赤峰市	高匿代理	2022年04月01日02时 验证
27.105.130.93	8080	台湾省	高匿代理	2022年04月01日02时 验证
59.125.177.31	8080	台湾省	高匿代理	2022年04月01日02时 验证
219.246.65.55	80	甘肃省兰州市	高匿代理	2022年04月01日02时 验证
118.180.166.195	8060	甘肃省兰州市	高匿代理	2022年04月01日02时 验证
117.33.252.115	8085	陕西省咸阳市	高匿代理	2022年04月01日02时 验证
171.92.21.118	9000	四川省遂宁市	高匿代理	2022年04月01日02时 验证
171.92.21.64	9000	四川省遂宁市	高匿代理	2022年04月01日02时 验证
171.92.21.118	9000	四川省遂宁市	高匿代理	2022年04月01日02时 验证
171.92.21.64	9000	四川省遂宁市	高匿代理	2022年04月01日02时 验证
121.13.252.60	41564	广东省东莞市	高匿代理	2022年04月01日02时 验证
121.13.252.60	41564	广东省东莞市	高匿代理	2022年04月01日02时 验证
14.215.212.37	9168	广东省佛山市南海区	高匿代理	2022年04月01日02时 验证
14.215.212.37	9168	广东省佛山市南海区	高匿代理	2022年04月01日02时 验证
58.20.232.245	9091	湖南省湘潭市	高匿代理	2022年04月01日02时 验证
58.20.234.243	9091	湖南省湘潭市	高匿代理	2022年04月01日02时 验证
120.194.55.139	6969	河南省洛阳市	高匿代理	2022年04月01日02时 验证
120.194.55.139	6969	河南省洛阳市	高匿代理	2022年04月01日02时 验证
27.214.50.223	9000	山东省潍坊市	高匿代理	2022年04月01日02时 验证
112.250.107.37	53281	山东省泰安市	高匿代理	2022年04月01日02时 验证
27.214.50.223	9000	山东省潍坊市	高匿代理	2022年04月01日02时 验证
112.250.107.37	53281	山东省泰安市	高匿代理	2022年04月01日02时 验证
202.109.157.63	9000	江西省赣州市南康市	高匿代理	2022年04月01日02时 验证
113.195.45.9	8085	江西省九江市	高匿代理	2022年04月01日02时 验证
202.109.157.63	9000	江西省赣州市南康市	高匿代理	2022年04月01日02时 验证
113.195.45.9	8085	江西省九江市	高匿代理	2022年04月01日02时 验证
27.148.196.28	8000	福建省福州市	高匿代理	2022年04月01日02时 验证
120.42.46.226	6666	福建省厦门市	高匿代理	2022年04月01日02时 验证
27.148.196.28	8000	福建省福州市	高匿代理	2022年04月01日02时 验证
120.42.46.226	6666	福建省厦门市	高匿代理	2022年04月01日02时 验证
183.245.6.33	8080	浙江省宁波市	高匿代理	2022年04月01日02时 验证
183.245.6.33	8080	浙江省宁波市	高匿代理	2022年04月01日02时 验证
115.218.2.154	9000	浙江省温州市	高匿代理	2022年04月01日02时 验证
115.218.2.154	9000	浙江省温州市	高匿代理	2022年04月01日02时 验证
58.220.95.55	9400	江苏省扬州市	高匿代理	2022年04月01日02时 验证
58.220.95.55	9400	江苏省扬州市	高匿代理	2022年04月01日02时 验证
121.232.148.88	9000	江苏省镇江市	高匿代理	2022年04月01日02时 验证
121.232.148.88	9000	江苏省镇江市	高匿代理	2022年04月01日02时 验证
1.189.209.123	1080	黑龙江省	高匿代理	2022年04月01日02时 验证
123.56.118.36	8080	辽宁省丹东市	高匿代理	2022年04月01日02时 验证
123.56.13.137	80	辽宁省朝阳市	高匿代理	2022年04月01日02时 验证
175.24.112.3	7788	河北省	高匿代理	2022年04月01日02时 验证
175.24.112.3	7788	河北省	高匿代理	2022年04月01日02时 验证
183.64.239.19	8060	重庆市酉阳县	高匿代理	2022年04月01日02时 验证
58.40.38.197	8118	上海市青浦区	高匿代理	2022年04月01日02时 验证
218.80.71.27	8118	上海市徐汇区	高匿代理	2022年04月01日02时 验证
123.118.4.195	8118	北京市海淀区	高匿代理	2022年04月01日02时 验证
124.205.155.152	9090	北京市	高匿代理	2022年04月01日02时 验证
222.74.73.202	42055	内蒙古赤峰市	高匿代理	2022年04月01日01时 验证
113.252.44.133	8080	香港	高匿代理	2022年04月01日01时 验证
113.252.44.133	8080	香港	高匿代理	2022年04月01日01时 验证
122.9.101.6	8888	香港	高匿代理	2022年04月01日01时 验证
122.9.101.6	8888	香港	高匿代理	2022年04月01日01时 验证
120.71.13.38	8901	新疆乌鲁木齐市	高匿代理	2022年04月01日01时 验证
120.71.147.244	8901	新疆乌鲁木齐市	高匿代理	2022年04月01日01时 验证
125.73.209.104	80	广西河池市罗城县	高匿代理	2022年04月01日01时 验证
125.73.209.104	80	广西河池市罗城县	高匿代理	2022年04月01日01时 验证
124.226.138.97	9797	广西梧州市	高匿代理	2022年04月01日01时 验证
124.226.138.97	9797	广西梧州市	高匿代理	2022年04月01日01时 验证
59.124.224.205	3128	台湾省	高匿代理	2022年04月01日01时 验证
59.124.224.205	3128	台湾省	高匿代理	2022年04月01日01时 验证
220.134.129.178	80	台湾省台北市	高匿代理	2022年04月01日01时 验证
220.134.129.178	80	台湾省台北市	高匿代理	2022年04月01日01时 验证
118.180.166.195	8060	甘肃省兰州市	高匿代理	2022年04月01日01时 验证
117.33.252.115	8085	陕西省咸阳市	高匿代理	2022年04月01日01时 验证
61.150.96.27	36880	陕西省汉中市	高匿代理	2022年04月01日01时 验证
171.92.20.37	9000	四川省遂宁市	高匿代理	2022年04月01日01时 验证
182.139.111.183	9000	四川省成都市	高匿代理	2022年04月01日01时 验证
183.240.203.136	8118	广东省揭阳市	高匿代理	2022年04月01日01时 验证
183.240.203.136	8118	广东省揭阳市	高匿代理	2022年04月01日01时 验证
27.42.168.46	55481	广东省中山市	高匿代理	2022年04月01日01时 验证
27.42.168.46	55481	广东省中山市	高匿代理	2022年04月01日01时 验证
58.20.234.243	9091	湖南省湘潭市	高匿代理	2022年04月01日01时 验证
58.20.234.243	9091	湖南省湘潭市	高匿代理	2022年04月01日01时 验证
220.168.52.245	53548	湖南省长沙市	高匿代理	2022年04月01日01时 验证
220.168.52.245	53548	湖南省长沙市	高匿代理	2022年04月01日01时 验证
120.194.55.139	6969	河南省洛阳市	高匿代理	2022年04月01日01时 验证
120.194.55.139	6969	河南省洛阳市	高匿代理	2022年04月01日01时 验证
115.28.38.229	8118	山东省青岛市	高匿代理	2022年04月01日01时 验证
27.208.29.85	8060	山东省威海市	高匿代理	2022年04月01日01时 验证
115.28.38.229	8118	山东省青岛市	高匿代理	2022年04月01日01时 验证
27.208.29.85	8060	山东省威海市	高匿代理	2022年04月01日01时 验证
202.109.157.63	9000	江西省赣州市南康市	高匿代理	2022年04月01日01时 验证
111.75.160.149	7302	江西省抚州市	高匿代理	2022年04月01日01时 验证
202.109.157.63	9000	江西省赣州市南康市	高匿代理	2022年04月01日01时 验证
111.75.160.149	7302	江西省抚州市	高匿代理	2022年04月01日01时 验证
27.148.196.28	8000	福建省福州市	高匿代理	2022年04月01日01时 验证
120.42.46.226	6666	福建省厦门市	高匿代理	2022年04月01日01时 验证
27.148.196.28	8000	福建省福州市	高匿代理	2022年04月01日01时 验证
120.42.46.226	6666	福建省厦门市	高匿代理	2022年04月01日01时 验证
60.170.204.30	8060	安徽省蚌埠市	高匿代理	2022年04月01日01时 验证
60.170.204.30	8060	安徽省蚌埠市	高匿代理	2022年04月01日01时 验证
183.245.6.117	8080	浙江省宁波市	高匿代理	2022年04月01日01时 验证
115.218.6.103	9000	浙江省温州市	高匿代理	2022年04月01日01时 验证
183.245.6.117	8080	浙江省宁波市	高匿代理	2022年04月01日01时 验证
115.218.6.103	9000	浙江省温州市	高匿代理	2022年04月01日01时 验证
58.220.95.116	10122	江苏省扬州市	高匿代理	2022年04月01日01时 验证
121.232.148.102	9000	江苏省镇江市	高匿代理	2022年04月01日01时 验证
58.220.95.116	10122	江苏省扬州市	高匿代理	2022年04月01日01时 验证
121.232.148.102	9000	江苏省镇江市	高匿代理	2022年04月01日01时 验证
1.189.209.123	1080	黑龙江省	高匿代理	2022年04月01日01时 验证
1.189.209.123	1080	黑龙江省	高匿代理	2022年04月01日01时 验证
123.56.124.235	3128	辽宁省丹东市	高匿代理	2022年04月01日01时 验证
123.56.13.137	80	辽宁省朝阳市	高匿代理	2022年04月01日01时 验证
222.223.182.66	8000	河北省沧州市	高匿代理	2022年04月01日01时 验证
175.24.112.3	7788	河北省	高匿代理	2022年04月01日01时 验证
222.223.182.66	8000	河北省沧州市	高匿代理	2022年04月01日01时 验证
175.24.112.3	7788	河北省	高匿代理	2022年04月01日01时 验证
183.64.239.19	8060	重庆市酉阳县	高匿代理	2022年04月01日01时 验证
58.37.233.45	8118	上海市普陀区	高匿代理	2022年04月01日01时 验证
114.89.196.79	9797	上海市松江区	高匿代理	2022年04月01日01时 验证
120.24.231.79	808	北京市	高匿代理	2022年04月01日01时 验证
182.61.201.201	80	北京市	高匿代理	2022年04月01日01时 验证
120.194.55.139	6969	河南省洛阳市	高匿代理	2022年04月01日00时 验证
60.170.204.30	8060	安徽省蚌埠市	高匿代理	2022年04月01日00时 验证
42.2.205.141	8080	香港	高匿代理	2022年04月01日00时 验证
39.97.113.16	3389	香港	高匿代理	2022年04月01日00时 验证
120.71.13.38	8901	新疆乌鲁木齐市	高匿代理	2022年04月01日00时 验证
120.71.147.244	8901	新疆乌鲁木齐市	高匿代理	2022年04月01日00时 验证
221.7.197.248	8000	广西南宁市	高匿代理	2022年04月01日00时 验证
221.7.197.248	8000	广西南宁市	高匿代理	2022年04月01日00时 验证
125.73.209.211	80	广西河池市罗城县	高匿代理	2022年04月01日00时 验证
125.73.209.211	80	广西河池市罗城县	高匿代理	2022年04月01日00时 验证
222.74.73.202	42055	内蒙古赤峰市	高匿代理	2022年04月01日00时 验证
222.74.73.202	42055	内蒙古赤峰市	高匿代理	2022年04月01日00时 验证
59.125.177.5	8080	台湾省	高匿代理	2022年04月01日00时 验证
59.125.177.5	8080	台湾省	高匿代理	2022年04月01日00时 验证
27.105.130.93	8080	台湾省	高匿代理	2022年04月01日00时 验证
27.105.130.93	8080	台湾省	高匿代理	2022年04月01日00时 验证
219.246.65.55	80	甘肃省兰州市	高匿代理	2022年04月01日00时 验证
219.246.65.55	80	甘肃省兰州市	高匿代理	2022年04月01日00时 验证
61.150.96.27	36880	陕西省汉中市	高匿代理	2022年04月01日00时 验证
117.33.252.115	8085	陕西省咸阳市	高匿代理	2022年04月01日00时 验证
182.139.111.107	9000	四川省成都市	高匿代理	2022年04月01日00时 验证
171.92.21.106	9000	四川省遂宁市	高匿代理	2022年04月01日00时 验证
119.28.155.202	9999	广东省广州市海珠区	高匿代理	2022年04月01日00时 验证
121.13.252.60	41564	广东省东莞市	高匿代理	2022年04月01日00时 验证
119.28.155.202	9999	广东省广州市海珠区	高匿代理	2022年04月01日00时 验证
121.13.252.60	41564	广东省东莞市	高匿代理	2022年04月01日00时 验证
220.168.132.43	9015	湖南省益阳市	高匿代理	2022年04月01日00时 验证
220.168.132.43	9015	湖南省益阳市	高匿代理	2022年04月01日00时 验证
58.20.232.245	9091	湖南省湘潭市	高匿代理	2022年04月01日00时 验证
58.20.232.245	9091	湖南省湘潭市	高匿代理	2022年04月01日00时 验证
60.210.128.181	9000	山东省潍坊市	高匿代理	2022年04月01日00时 验证
60.210.128.181	9000	山东省潍坊市	高匿代理	2022年04月01日00时 验证
27.208.137.49	8060	山东省威海市	高匿代理	2022年04月01日00时 验证
27.208.137.49	8060	山东省威海市	高匿代理	2022年04月01日00时 验证
111.75.160.149	7302	江西省抚州市	高匿代理	2022年04月01日00时 验证
111.75.160.149	7302	江西省抚州市	高匿代理	2022年04月01日00时 验证
202.109.157.67	9000	江西省赣州市南康市	高匿代理	2022年04月01日00时 验证
202.109.157.67	9000	江西省赣州市南康市	高匿代理	2022年04月01日00时 验证
120.92.91.147	443	福建省福州市	高匿代理	2022年04月01日00时 验证
120.92.91.147	443	福建省福州市	高匿代理	2022年04月01日00时 验证
120.42.46.226	6666	福建省厦门市	高匿代理	2022年04月01日00时 验证
120.42.46.226	6666	福建省厦门市	高匿代理	2022年04月01日00时 验证
114.215.172.136	31280	浙江省杭州市	高匿代理	2022年04月01日00时 验证
115.218.7.185	9000	浙江省温州市	高匿代理	2022年04月01日00时 验证
114.215.172.136	31280	浙江省杭州市	高匿代理	2022年04月01日00时 验证
115.218.7.185	9000	浙江省温州市	高匿代理	2022年04月01日00时 验证
121.232.148.103	9000	江苏省镇江市	高匿代理	2022年04月01日00时 验证
121.232.148.103	9000	江苏省镇江市	高匿代理	2022年04月01日00时 验证
58.215.201.98	56566	江苏省无锡市	高匿代理	2022年04月01日00时 验证
58.215.201.98	56566	江苏省无锡市	高匿代理	2022年04月01日00时 验证
1.189.209.123	1080	黑龙江省	高匿代理	2022年04月01日00时 验证
1.189.209.123	1080	黑龙江省	高匿代理	2022年04月01日00时 验证
123.56.13.137	80	辽宁省朝阳市	高匿代理	2022年04月01日00时 验证
123.56.124.235	3128	辽宁省丹东市	高匿代理	2022年04月01日00时 验证
222.223.182.66	8000	河北省沧州市	高匿代理	2022年04月01日00时 验证
175.24.112.3	7788	河北省	高匿代理	2022年04月01日00时 验证
183.64.239.19	8060	重庆市酉阳县	高匿代理	2022年04月01日00时 验证
218.80.71.27	8118	上海市徐汇区	高匿代理	2022年04月01日00时 验证
58.40.38.197	8118	上海市青浦区	高匿代理	2022年04月01日00时 验证
120.24.231.79	808	北京市	高匿代理	2022年04月01日00时 验证
221.122.91.64	9401	北京市	高匿代理	2022年04月01日00时 验证
101.230.4.168	80	上海市	高匿代理	2022年05月20日22时 验证
222.67.191.70	9000	上海市闵行区	高匿代理	2022年05月20日22时 验证
218.1.142.95	57114	上海市浦东新区	高匿代理	2022年05月20日21时 验证
222.65.228.96	8085	上海市卢湾区	高匿代理	2022年05月20日21时 验证
218.1.142.142	57114	上海市浦东新区	高匿代理	2022年05月20日20时 验证
180.167.16.5	443	上海市	高匿代理	2022年05月20日20时 验证
218.1.200.234	57114	上海市徐汇区	高匿代理	2022年05月20日19时 验证
42.192.22.233	8118	上海市	高匿代理	2022年05月20日19时 验证
180.167.16.5	443	上海市	高匿代理	2022年05月20日18时 验证
114.88.243.93	55443	上海市	高匿代理	2022年05月20日18时 验证
222.66.202.6	80	上海市	高匿代理	2022年05月20日17时 验证
49.51.138.111	8118	上海市浦东新区	高匿代理	2022年05月20日17时 验证
222.67.188.68	9000	上海市闵行区	高匿代理	2022年05月20日16时 验证
180.167.16.5	443	上海市	高匿代理	2022年05月20日16时 验证
42.193.253.152	8089	上海市	高匿代理	2022年05月20日15时 验证
222.69.240.130	8001	上海市松江区	高匿代理	2022年05月20日15时 验证
218.78.54.149	8901	上海市	高匿代理	2022年05月20日14时 验证
58.40.38.197	8118	上海市青浦区	高匿代理	2022年05月20日14时 验证
218.1.142.130	57114	上海市浦东新区	高匿代理	2022年05月20日13时 验证
114.93.179.130	11111	上海市	高匿代理	2022年05月20日13时 验证
218.78.54.149	8901	上海市	高匿代理	2022年05月20日12时 验证
222.66.202.6	80	上海市	高匿代理	2022年05月20日12时 验证
218.1.142.138	57114	上海市浦东新区	高匿代理	2022年05月20日11时 验证
101.94.210.137	7890	上海市	高匿代理	2022年05月20日11时 验证
218.80.71.27	8118	上海市徐汇区	高匿代理	2022年05月20日10时 验证
180.152.114.41	9797	上海市	高匿代理	2022年05月20日10时 验证
222.69.240.130	8001	上海市松江区	高匿代理	2022年05月20日09时 验证
218.1.200.202	57114	上海市徐汇区	高匿代理	2022年05月20日09时 验证
218.1.200.202	57114	上海市徐汇区	高匿代理	2022年05月20日08时 验证
222.67.188.68	9000	上海市闵行区	高匿代理	2022年05月20日08时 验证
218.78.50.243	7777	上海市	高匿代理	2022年05月20日07时 验证
218.80.71.27	8118	上海市徐汇区	高匿代理	2022年05月20日07时 验证
58.37.233.45	8118	上海市普陀区	高匿代理	2022年05月20日06时 验证
58.246.58.150	9002	上海市	高匿代理	2022年05月20日06时 验证
180.165.134.209	53281	上海市	高匿代理	2022年05月20日05时 验证
114.88.243.93	55443	上海市	高匿代理	2022年05月20日05时 验证
101.230.4.168	80	上海市	高匿代理	2022年05月20日04时 验证
101.94.210.137	7890	上海市	高匿代理	2022年05月20日04时 验证
58.40.38.197	8118	上海市青浦区	高匿代理	2022年05月20日03时 验证
58.34.41.219	8060	上海市普陀区	高匿代理	2022年05月20日03时 验证
218.80.71.27	8118	上海市徐汇区	高匿代理	2022年05月20日02时 验证
218.1.200.211	57114	上海市徐汇区	高匿代理	2022年05月20日02时 验证
218.1.142.130	57114	上海市浦东新区	高匿代理	2022年05月20日01时 验证
42.193.253.152	8089	上海市	高匿代理	2022年05月20日01时 验证
218.1.142.95	57114	上海市浦东新区	高匿代理	2022年05月20日00时 验证
58.37.233.45	8118	上海市普陀区	高匿代理	2022年05月20日00时 验证
103.37.141.69	80	高匿名	HTTP	中国 北京	6秒	2022-05-20 22:31:01
47.113.90.161	83	高匿名	HTTP	中国	0.3秒	2022-05-20 21:31:01
106.15.197.250	8001	高匿名	HTTP	中国 上海 联通	1秒	2022-05-20 20:31:01
118.163.120.181	58837	高匿名	HTTP	中国 台湾 cht.com.tw	3秒	2022-05-20 19:31:01
61.216.185.88	60808	高匿名	HTTP	中国 台湾 屏东县	0.7秒	2022-05-20 18:31:01
183.247.199.114	30001	高匿名	HTTP	中国 浙江 台州 移动	0.4秒	2022-05-20 17:31:01
60.170.204.30	8060	高匿名	HTTP	中国 安徽 蚌埠 电信	1秒	2022-05-20 16:31:02
14.215.212.37	9168	高匿名	HTTP	中国 广东 东莞 电信	4秒	2022-05-20 15:31:01
103.37.141.69	80	高匿名	HTTP	中国 北京	6秒	2022-05-20 14:31:01
103.37.141.69	80	高匿名	HTTP	中国 北京	6秒	2022-05-20 13:31:01
103.37.141.69	80	高匿名	HTTP	中国 北京	6秒	2022-05-20 12:31:01
122.9.101.6	8888	高匿名	HTTP	中国 香港 666666999999999.com	0.4秒	2022-05-20 11:31:01
106.15.197.250	8001	高匿名	HTTP	中国 上海 联通	1秒	2022-05-20 10:31:02
14.215.212.37	9168	高匿名	HTTP	中国 广东 东莞 电信	4秒	2022-05-20 09:31:01
103.37.141.69	80	高匿名	HTTP	中国 北京	6秒	2022-05-20 08:31:01
84.95.240.152	80	重庆市市	高匿代理	2023年03月21日18时 验证
71.172.10.163	3128	吉林省四平市	高匿代理	2023年03月21日16时 验证
136.226.32.233	443	云南省昭通市	高匿代理	2023年03月21日14时 验证
8.134.81.16	8888	贵州省六盘水市	高匿代理	2023年03月21日12时 验证
197.254.97.251	80	江苏省徐州市	高匿代理	2023年03月21日10时 验证
181.177.69.117	3199	上海市上海周边	高匿代理	2023年03月21日08时 验证
61.148.199.206	4145	新疆维吾尔自治区哈密地区	高匿代理	2023年03月21日06时 验证
72.169.66.157	87	重庆市	高匿代理	2023年03月21日04时 验证
103.138.205.83	3128	北京市市辖区	高匿代理	2023年03月21日02时 验证
62.183.96.194	8080	黑龙江省双鸭山市	高匿代理	2023年03月21日00时 验证
179.61.229.162	999	广东省珠海市	高匿代理	2023年03月20日22时 验证
144.172.104.99	3199	天津市天津周边	高匿代理	2023年03月20日20时 验证
8.209.68.1	8080	陕西省铜川市	高匿代理	2023年03月20日18时 验证
45.171.158.156	1994	四川省成都市	高匿代理	2023年03月20日16时 验证
59.59.158.151	8089	江西省南昌市	高匿代理	2023年03月20日14时 验证
89.237.34.174	37647	吉林省通化市	高匿代理	2023年03月20日12时 验证
167.235.194.251	8080	云南省曲靖市	高匿代理	2023年03月20日10时 验证
5.255.63.5	39593	山东省枣庄市	高匿代理	2023年03月20日08时 验证
77.233.5.68	55443	北京市市辖区	高匿代理	2023年03月20日06时 验证
54.36.81.217	8080	湖南省湘潭市	高匿代理	2023年03月20日04时 验证
221.130.193.236	80	黑龙江省齐齐哈尔市	高匿代理	2023年03月20日02时 验证
45.32.101.24	80	贵州省遵义市	高匿代理	2023年03月20日00时 验证
60.185.42.71	9128	安徽省蚌埠市	高匿代理	2023年03月19日22时 验证
91.107.234.199	8080	湖南省长沙市	高匿代理	2023年03月19日20时 验证
78.30.230.117	50932	青海省西宁市	高匿代理	2023年03月19日18时 验证
59.59.158.141	8089	福建省莆田市	高匿代理	2023年03月19日16时 验证
95.174.98.125	80	浙江省宁波市	高匿代理	2023年03月19日14时 验证
106.14.23.61	10800	北京市北京周边	高匿代理	2023年03月19日12时 验证
74.208.219.109	3128	宁夏回族自治区吴忠市	高匿代理	2023年03月19日10时 验证
182.43.242.154	3128	新疆维吾尔自治区哈密地区	高匿代理	2023年03月19日08时 验证
62.109.31.242	3128	河南省洛阳市	高匿代理	2023年03月19日06时 验证
59.60.209.229	8089	宁夏回族自治区银川市	高匿代理	2023年03月19日04时 验证
52.91.23.134	9999	福建省莆田市	高匿代理	2023年03月19日02时 验证
45.120.58.209	8080	湖南省衡阳市	高匿代理	2023年03月19日00时 验证
180.171.147.93	9999	上海市	高匿代理	2023年03月21日18时 验证
218.1.142.13	57114	上海市浦东新区	高匿代理	2023年03月21日18时 验证
58.246.58.150	9002	上海市	高匿代理	2023年03月21日17时 验证
218.1.142.249	57114	上海市浦东新区	高匿代理	2023年03月21日17时 验证
218.1.200.179	57114	上海市徐汇区	高匿代理	2023年03月21日16时 验证
211.144.94.25	80	上海市	高匿代理	2023年03月21日16时 验证
221.130.193.224	80	上海市	高匿代理	2023年03月21日15时 验证
140.207.229.170	80	上海市	高匿代理	2023年03月21日15时 验证
180.171.147.93	9999	上海市	高匿代理	2023年03月21日14时 验证
114.80.179.210	80	上海市	高匿代理	2023年03月21日14时 验证
42.193.179.113	8118	上海市	高匿代理	2023年03月21日13时 验证
222.64.52.179	7890	上海市闵行区	高匿代理	2023年03月21日13时 验证
221.130.193.224	80	上海市	高匿代理	2023年03月21日12时 验证
180.168.191.195	9002	上海市	高匿代理	2023年03月21日12时 验证
222.64.152.104	9000	上海市闵行区	高匿代理	2023年03月21日11时 验证
210.22.131.162	9002	上海市	高匿代理	2023年03月21日11时 验证
218.1.200.129	57114	上海市徐汇区	高匿代理	2023年03月21日10时 验证
221.130.193.35	80	上海市	高匿代理	2023年03月21日10时 验证
180.168.191.195	9002	上海市	高匿代理	2023年03月21日09时 验证
210.22.131.162	9002	上海市	高匿代理	2023年03月21日09时 验证
221.130.193.236	80	上海市	高匿代理	2023年03月21日08时 验证
218.1.142.144	57114	上海市浦东新区	高匿代理	2023年03月21日08时 验证
218.1.142.249	57114	上海市浦东新区	高匿代理	2023年03月21日07时 验证
222.67.192.192	8060	上海市黄浦区	高匿代理	2023年03月21日07时 验证
218.1.142.120	57114	上海市浦东新区	高匿代理	2023年03月21日06时 验证
218.1.142.142	57114	上海市浦东新区	高匿代理	2023年03月21日06时 验证
211.144.94.25	80	上海市	高匿代理	2023年03月21日05时 验证
218.1.142.158	57114	上海市浦东新区	高匿代理	2023年03月21日05时 验证
42.193.179.113	8118	上海市	高匿代理	2023年03月21日04时 验证
140.207.229.170	80	上海市	高匿代理	2023年03月21日04时 验证
49.51.138.111	8118	上海市浦东新区	高匿代理	2023年03月21日03时 验证
221.130.193.221	80	上海市	高匿代理	2023年03月21日03时 验证
222.67.185.138	9000	上海市闵行区	高匿代理	2023年03月21日02时 验证
210.22.77.94	9002	上海市	高匿代理	2023年03月21日02时 验证
210.22.131.162	9002	上海市	高匿代理	2023年03月21日01时 验证
140.207.229.170	80	上海市	高匿代理	2023年03月21日01时 验证
218.1.142.144	57114	上海市浦东新区	高匿代理	2023年03月21日00时 验证
218.1.142.227	57114	上海市浦东新区	高匿代理	2023年03月21日00时 验证
59.59.215.33	8089	上海市上海周边	高匿代理	2023年03月18日22时 验证
60.188.5.227	80	四川省成都市	高匿代理	2023年03月18日20时 验证
183.222.217.168	9091	西藏自治区昌都地区	高匿代理	2023年03月18日18时 验证
204.157.251.194	8080	甘肃省兰州市	高匿代理	2023年03月18日16时 验证
91.107.196.130	8080	内蒙古自治区通辽市	高匿代理	2023年03月18日14时 验证
190.2.214.135	999	黑龙江省鸡西市	高匿代理	2023年03月18日12时 验证
178.130.76.158	8080	西藏自治区日喀则地区	高匿代理	2023年03月18日10时 验证
8.219.115.145	3128	宁夏回族自治区吴忠市	高匿代理	2023年03月18日08时 验证
183.247.221.119	30001	浙江省嘉兴市	高匿代理	2023年03月18日06时 验证
34.82.82.224	8888	山西省晋城市	高匿代理	2023年03月18日04时 验证
78.186.110.251	9090	云南省玉溪市	高匿代理	2023年03月18日02时 验证
74.208.177.198	80	新疆维吾尔自治区哈密地区	高匿代理	2023年03月18日00时 验证
125.79.207.126	8089	湖南省衡阳市	高匿代理	2023年03月17日22时 验证
180.103.48.91	8089	辽宁省抚顺市	高匿代理	2023年03月17日20时 验证
203.24.103.30	80	福建省莆田市	高匿代理	2023年03月17日18时 验证
111.224.217.17	8089	甘肃省白银市	高匿代理	2023年03月17日16时 验证
59.59.128.107	8089	海南省三亚市	高匿代理	2023年03月17日14时 验证
201.218.42.204	1994	内蒙古自治区乌海市	高匿代理	2023年03月17日12时 验证
202.4.186.76	80	湖北省宜昌市	高匿代理	2023年03月17日10时 验证
157.90.122.41	8080	内蒙古自治区赤峰市	高匿代理	2023年03月17日08时 验证
62.33.207.201	3128	宁夏回族自治区银川市	高匿代理	2023年03月17日06时 验证
185.174.111.182	41002	贵州省铜仁地区	高匿代理	2023年03月17日04时 验证
161.38.217.6	8080	江苏省常州市	高匿代理	2023年03月17日02时 验证
203.32.121.97	80	新疆维吾尔自治区哈密地区	高匿代理	2023年03月17日00时 验证
35.193.239.194	3128	内蒙古自治区通辽市	高匿代理	2023年03月16日22时 验证
5.78.43.245	8080	四川省自贡市	高匿代理	2023年03月16日20时 验证
18.116.189.103	80	宁夏回族自治区石嘴山市	高匿代理	2023年03月16日18时 验证
94.139.150.45	4145	重庆市	高匿代理	2023年03月16日16时 验证
36.6.145.246	8089	陕西省铜川市	高匿代理	2023年03月16日14时 验证
89.252.152.191	2019	吉林省长春市	高匿代理	2023年03月16日12时 验证
27.79.236.66	4001	湖北省黄石市	高匿代理	2023年03月16日10时 验证
103.208.102.41	8080	陕西省渭南市	高匿代理	2023年03月16日08时 验证
65.20.224.211	80	西藏自治区那曲地区	高匿代理	2023年03月16日06时 验证
167.172.96.117	37011	天津市	高匿代理	2023年03月16日04时 验证
27.150.93.201	8089	广东省深圳市	高匿代理	2023年03月16日02时 验证
51.254.44.184	63999	黑龙江省齐齐哈尔市	高匿代理	2023年03月16日00时 验证
198.44.161.22	45787	重庆市	高匿代理	2023年03月15日22时 验证
198.44.161.251	45787	陕西省西安市	高匿代理	2023年03月15日20时 验证
221.1.86.228	9000	天津市	高匿代理	2023年03月15日18时 验证
39.175.85.98	30001	宁夏回族自治区石嘴山市	高匿代理	2023年03月15日16时 验证
181.176.211.168	8080	广东省汕头市	高匿代理	2023年03月15日14时 验证
27.192.171.112	9000	四川省攀枝花市	高匿代理	2023年03月15日12时 验证
59.59.158.215	8089	云南省曲靖市	高匿代理	2023年03月15日10时 验证
201.71.2.41	999	北京市	高匿代理	2023年03月15日08时 验证
27.157.230.229	8089	浙江省温州市	高匿代理	2023年03月15日06时 验证
59.59.163.253	8089	山西省长治市	高匿代理	2023年03月15日04时 验证
46.35.87.143	8080	山东省东营市	高匿代理	2023年03月15日02时 验证
36.6.140.116	8089	贵州省铜仁地区	高匿代理	2023年03月15日00时 验证
36.6.144.19	8089	安徽省淮南市	高匿代理	2023年03月14日22时 验证
5.78.93.215	8080	山东省淄博市	高匿代理	2023年03月14日20时 验证
115.241.197.126	80	辽宁省鞍山市	高匿代理	2023年03月14日18时 验证
59.59.158.54	8089	广西壮族自治区北海市	高匿代理	2023年03月14日16时 验证
202.93.229.234	8080	吉林省长春市	高匿代理	2023年03月14日14时 验证
77.68.254.194	8111	内蒙古自治区呼和浩特市	高匿代理	2023年03月14日12时 验证
188.94.227.161	8080	新疆维吾尔自治区哈密地区	高匿代理	2023年03月14日10时 验证
49.86.181.178	8089	内蒙古自治区赤峰市	高匿代理	2023年03月14日08时 验证
27.150.87.251	8089	四川省成都市	高匿代理	2023年03月14日06时 验证
60.185.36.195	9128	广西壮族自治区柳州市	高匿代理	2023年03月14日04时 验证
222.190.173.133	8089	广东省深圳市	高匿代理	2023年03月14日02时 验证
27.150.93.217	8089	陕西省宝鸡市	高匿代理	2023年03月14日00时 验证

你可能感兴趣的:(python,爬虫,数据分析)