Be_melting

B站视频评论及回复数据爬取详解及数据可视化

B站观众姥爷的评论及回复爬取及数据可视化

1. 前言
2. 评论和回复的数据爬取

2.1 视频基本情况查看
2.2 数据资源地址解析

2.2.1 评论数据资源url解析
2.2.2 回复数据资源url解析

2.3 构造函数返回要爬取数据的url列表

2.3.1 生成评论数据资源url列表和对应的rpid
2.3.2 生成回复数据资源url列表

2.4 输出结果

2.4.1 爬取第100页数据的截图
2.4.2 爬取第200页数据的截图
2.4.3 爬取所有的数据的截图（总共10086条数据，这就很‘移动’了）

3. 数据可视化

3.1 点赞量最高top20的‘经典’评论
3.2 数据词云展示
3.3 回复消息也能上热门吗？
3.4 有水军吗？

4. 溜了

1. 前言

在昨天RNG和EDG的比赛中，RNG以2比1战胜了EDG，这是两队在今年第一次相遇，小狗和厂长都没在，所以被大家称为:新猪狗大战，所以吸引了许多粉丝的关注。

作为一个也有过LOL青春的老年人来说，只能说那种感觉又回来了。要说三场比赛中，最精彩的还是第三场，EDG领先1W经济，最后由于偷家和后期决策问题，导致被RNG翻盘，由于这局比赛打的过于激烈，在网上引起了剧烈的讨论。

这里就选取B站中官方上传的比赛视频RNG vs ENG下面的评论和回复，看一下观众姥爷们都在说什么，有什么经典的骚段子或者吐槽的问题

2. 评论和回复的数据爬取

2.1 视频基本情况查看

这里直接调用api接口进行查看，只需要输入视频的标识号即可，封装函数如下

import json,requests,time
import pandas as pd

def get_base_info(oid):
	base_info_url = f'https://api.bilibili.com/x/web-interface/archive/stat?aid={oid}'
	base_info = requests.get(base_info_url,headers = dic_header).json()['data']
	#print(base_info) #可以输出转化为json形式的数据
	print('EDG vs RNG大战视频基本信息：\n')
	print('播放数量：{}\n弹幕数量：{}\n收藏数量：{}\n硬币数量：{}\n分享数量：{}\n点赞数量：{}\n------\n评论数量：{}'.format(
			base_info['view'],base_info['danmaku'],base_info['favorite'],
			base_info['coin'],base_info['share'],base_info['like'],base_info['reply']
		))
		
if __name__ == '__main__':
	dic_header = {'User-Agent': 'Mozilla/5.0'}
	oid = 370124445
	get_base_info(oid)

→ 输出的结果为：（这里把评论信息突出，可以看出截止到目前已经差不多100w播放，超过1w条评论了，足见各位观众姥爷们的热情）

2.2 数据资源地址解析

2.2.1 评论数据资源url解析

打开官网视频后，首先是对网页进行解析，找到存放评论数据资源的接口（url）。操作步骤如下：【右键检查】 → 【Network】 → 【刷新】 → 【点击任意文件】 → 【Preview】 → 【找到数据所在的文件】 → 【Headers】 → 【资源url】

图示如下：（这里解析发现返回的数据都在reply?..等文件里面，所以直接就筛选这类的文件即可）

在上面的界面点击Preview旁边的Headers，就可以找到资源对应的url了，但是这个url并不是直接就可以用的（可以尝试一下直接复制这个url使用浏览器打开），需要进行简化一下，方便我们找到其中的规律，顺利进行数据的爬取，如下

选取如上图的url，进行url‘瘦身’（有效成分进行提取），再经过几次测试之后，发现Query String Parameters中的参数只有部分是有效的，也就是pn，type，和oid有效。那么直接查看一下前五页的评论的有效url，如下，因此可以发现评论的数据资源url是有规律的。

conment_1 = https://api.bilibili.com/x/v2/reply?&pn=1&type=1&oid=370124445
conment_2 = https://api.bilibili.com/x/v2/reply?&pn=2&type=1&oid=370124445
conment_3 = https://api.bilibili.com/x/v2/reply?&pn=3&type=1&oid=370124445
conment_4 = https://api.bilibili.com/x/v2/reply?&pn=4&type=1&oid=370124445
conment_5 = https://api.bilibili.com/x/v2/reply?&pn=5&type=1&oid=370124445

2.2.2 回复数据资源url解析

这里以第一页的界面进行演示，点开下面的第一条评论，然后点击‘点击查看’，就会发现右侧多出来一个文件，点开后如下所示，第一页的回复数据（每页是10条）就出现在右侧了

和上面的操作一样，找到这个数据资源的url进行‘瘦身’，经过测试发现其中的有效成分是：pn，type，oid和root，对比上面评论数据资源的url，发现这里多了一个root的参数，可以初步猜测应该是属于每个评论的识别的标识，那么尝试再评论数据上面找一下这个参数，可以发现上图中，评论数据就是在root这个参数下，具体的数值对应的就是这个评论的rpid，如下：

首先确定单条回复数据资源url的规律，那么后面的多条评论下回复数据的url规律就只需要把后面root对应的数值修改即可，这里还是以第一条评论下的多页回复数据的url为例，如下

reply_1 = https://api.bilibili.com/x/v2/reply/reply?&pn=1&type=1&oid=370124445&ps=10&root=2616308350
reply_2 = https://api.bilibili.com/x/v2/reply/reply?&pn=2&type=1&oid=370124445&ps=10&root=2616308350
reply_3 = https://api.bilibili.com/x/v2/reply/reply?&pn=3&type=1&oid=370124445&ps=10&root=2616308350
reply_4 = https://api.bilibili.com/x/v2/reply/reply?&pn=4&type=1&oid=370124445&ps=10&root=2616308350
reply_5 = https://api.bilibili.com/x/v2/reply/reply?&pn=5&type=1&oid=370124445&ps=10&root=2616308350

2.3 构造函数返回要爬取数据的url列表

2.3.1 生成评论数据资源url列表和对应的rpid

根据上面的分析可知，每页评论数据的url是有规律的，为了下一步获取评论对应的回复数据，因此除了返回评论数据的url列表，还要返回其对应的rpid数据（这里处理的方式是在函数内部直接调用爬取回复数据的函数，而没有麻烦的再返回rpid数据进行遍历循环输出），第一个函数封装如下，

def get_comment_datas(oid):
	comment_url = 'https://api.bilibili.com/x/v2/reply'
	comment_page = 1 
	comment_data_lst = []
	while True:
		try:
			param = { 'callback': 'jQuery1720028589320105517402_' + str(now_time), 
			'jsonp': 'jsonp', 
			'pn': comment_page, 
			'type': '1', 
			'oid': oid, 
			'sort': '2', 
			'_': now_time }

			html = requests.get(url=comment_url, headers=dic_header, params=param) 
			start = html.text.index('{')
			end = html.text.index('})')+1
			comment_data = json.loads(html.text[start:end])['data']['replies']
			#print(comment_data) #成功的转换为json数据
			print(f'当前正在爬取第{comment_page}页评论数据...')
			for data in comment_data:
				dic_coment = {}
				dic_coment['member'] = data['member']['uname']
				dic_coment['like'] = data['like']
				dic_coment['comment'] = data['content']['message']
				dic_coment['time'] = datetime.fromtimestamp(data['ctime'])
				dic_coment['rpid'] = data['rpid_str']
				comment_data_lst.append(dic_coment)
				print('昵称: {}\n点赞数：{}\n'.format(dic_coment['member'], 
					dic_coment['like'] ))
				#comment_data_lst.extend(get_reply_data(comment_page,dic_coment['rpid']))
				#这个是下一步封装完爬取回复数据的函数后才添加的
			
			time.sleep(1)
# 			if comment_page > 1: 
# 				break
			comment_page += 1

		except Exception as Comment_Page_Error:
                    break
		
	return comment_data_lst

提醒：

1）这里第一个函数获取评论数据资源的url使用了全部的参数（param），也可以使用简化后的url，下面爬取回复数据的爬取使用的就是简化的，这里提出两种方式进行数据的爬取

2）在进行代码完整性，测试能否正常输出的时候，建议将注释的内容（if判断结构）打开，这样看是否可以获取第一页的内容，如果可以的话再进行下一步函数的封装

3）最后全部函数封装完毕后，再将其注释掉，这样就可以爬取全部的数据了

2.3.2 生成回复数据资源url列表

1）首先，大部分内容和上面的一样，但是这里使用的是简化版的url，结果是一样的，就没有必要再使用全部参数的url了

2）其次也是相同的步骤，也拿第一页的回复数据进行试错，保证程序可以正常输出结果后再获取全部的数据

3）最后将函数插入到上方的注释处，由于返回的是列表数据，所以要使用列表的extend的方法

def get_reply_data(comment_page,rpid):
	reply_page = 1
	reply_data_lst =[]
	while True:
		print('正在爬取第{}页评论数据中的第{}页的回复数据......'.format(comment_page,reply_page))
		reply_url = 'https://api.bilibili.com/x/v2/reply/reply?&pn={}&type=1&oid=370124445&ps=10&root={}'.format(reply_page,rpid)
		html = requests.get(url=reply_url, headers=dic_header)
		reply_data = html.json()['data']['replies']
		try:
			for data in reply_data:
				dic_reply = {}
				dic_reply['comment'] = data['content']['message']
				dic_reply['member'] = data['member']['uname']
				dic_reply['like'] = data['like']
				dic_reply['time'] = datetime.fromtimestamp(data['ctime'])
				reply_data_lst.append(dic_reply)
				print('昵称: {}\n点赞数：{}\n'.format(dic_reply['member'], 
						dic_reply['like'] ))

# 			if reply_page > 1: 
# 				break
			reply_page += 1
		except Exception as Reply_Page_Error:
			break

	return reply_data_lst

提醒：

1）为了可视化输出结果，判断程序的进行情况，设置了昵称和其对应评论点赞数对应的变量数据的输出

2）还有更直观的显示当前程序正在爬取多少页的评论数据中的多少页的回复数据（有点拗口，哈哈哈），如下图就懂了

2.4 输出结果

2.4.1 爬取第100页数据的截图

2.4.2 爬取第200页数据的截图

2.4.3 爬取所有的数据的截图（总共10086条数据，这就很‘移动’了）

3. 数据可视化

3.1 点赞量最高top20的‘经典’评论

data = pd.read_excel('b站.xlsx')
#加载数据
df = data.copy()
#为了防止原数据被破坏，操作之前备份
df = df.sort_values(by = 'like',ascending = False)
#按照点赞数进行排序，然后筛选前20条数据
df_top20 = df.iloc[:20]
x = df_top20['comment']
#作为x轴
y = df_top20['like']
#作为y轴
import pyecharts as pe 
#使用的是0.5.11版本
bar = pe.Bar('猪狗大战B站评论及回复数据分析') 
bar.add('骚话Top20', x, y, is_datazoom_show = True, 
        datazoom_range = [0,100], mark_line=[ "average"], 
        tooltip_axispointer_type = 'cross')
bar.render('1.html')

→ 输出的结果为：（点赞最多的话就是：rng赢了我去泰国变性娶了枣子哥，当时评论的时候还是两队没有结束战斗的时刻，这位大兄弟是真的有点骚呢）

3.2 数据词云展示

先采用jiaba分词，将数据进行拆分，然后剔除字符长度为1的数据，然后作为展示的数据，然后进行数据的清洗，和过滤词的设置，最后生成词云

import jieba
#导入jieba库
comment_str_all = ''
for comment in df['comment']:
    comment_str_all += comment
comment_str_all = comment_str_all.replace('edg','EDG').replace('rng','RNG').replace('ig','IG').replace('一万','1w')
#把comment中的数据全部拼接成为字符串，然后在替换重复的数据

seg_list = jieba.lcut(comment_str_all)
#中文分词
keyword_count = pd.Series(seg_list)
#keyword_count.str.len()
#这里是查看切割数据后不同长度的情况

keyword_count = keyword_count[keyword_count.str.len()>1]
#剔除数据长度为1的数据
keyword_count.value_counts() 
#进行数据排序，这一步就是为了下一步设置filter_words做的准备
    
filter_words = ['回复','不是','什么','真的','就是','这么','那么','怎么','现在','是的','这个','那个','这种','时候',
            '什么','这部','没有','还有','觉得','什么','就是','没有','一个','不是','还是','最后','我们','但是',
           '因为','真的','还是','现在 ','可能','可以','只是','其实','所以','这样','也许','一直','第一','为了','它们',
            '看到','看过','自己','不会','一下','然后','真有','他们','已经']
keyword_count = keyword_count[~keyword_count.str.contains('|'.join(filter_words))]
#排除filters_word里面的数据
keyword_count = keyword_count.value_counts()[:100] 
#选择前100个重要的词汇进行词云展示  
wd = pe.WordCloud("关键词汇挖掘-词云图")
# 提取每个词
words = keyword_count.index.tolist()
# 提取每个词的词频
words_counts = keyword_count.values.tolist()
# 绘制图表
wd.add("词频", words, words_counts, shape = 'star',
       word_size_range=[20, 100], rotate_step=10)
#生成图表    
wd.render('2.html')

→ 输出的结果为：

1）战队方面：可以发现，除了猪狗大战中两个关键词之外，竟然还有IG战队的出现，回想一下上一次2019年3月30号IG20滴血翻盘EDG，也刚好是一周年的时间，所以网友们都在说致敬当初的一周年

2）英雄人物方面：卡萨丁（小虎）、维鲁斯（Hope）、沙皇（小学弟），乌兹（uzi，永远的神），都在关键词中多次出现，主要是第三局中，小虎的后期卡萨丁给了队伍翻盘的希望，然后Hope的维鲁斯在赛场上也有很亮眼的表现，最后是uzi的解说以及网友的调侃，都使得只要有RNG的比赛，他（神一样的男人）都会出现在关键词的位置

3）赛场因素：经济，1w，火龙（魂），远古+大龙（双龙会），指挥+运营（偷家失误）等，可以看出这些词汇大部分指向的都是EDG战队的战况，也把‘领先1W经济被翻盘’赛场情况体现的淋漓尽致

4）观众方面：棺材，淀粉，下饭，失望，经典，大哭，doge等词汇，可以发现观众面对这场比赛有着两个方向的情感，一种是偏向的对过去‘领先1W经济被翻盘’赛事的致敬，比如下饭，经典；还有是作为双方粉丝之间的看比赛心情的反复横跳，比如棺材（我又起来了，我又躺下了…），淀粉（皇杂）等

3.3 回复消息也能上热门吗？

这里抽空研究一下，有些人很喜欢评论（回复）已经上热门的评论，这样有可能自己的这条言论也会火起来，事实上是这样吗？下面就来以数据说话。

提醒： 在爬取回复数据的时候，是没有rpid的，因此很容易分辨出哪些是评论的数据，哪些是回复的消息

df_top100 = df.iloc[:100]
#选取前100条数据作为热门的评判标准
df_top100['is_reply'] =''
df_top100.loc[df_top100.rpid.notnull(),'is_reply'] = False
df_top100.loc[~df_top100.rpid.notnull(),'is_reply'] = True
#添加新字段，方便统计个数
df_top100 = df_top100['is_reply'].value_counts()

attr = ["评论热门占比", "回复热门占比"]
#因为只有两个数据，所以这里就直接命名了
v1 = df_top100.values.tolist()
#也可以只用这种方式直接生成数据

pie = pe.Pie("热门数据 圆环图示例", title_pos='center')
pie.add(
    "",
    attr,
    v1,
    radius=[40, 75],
    label_text_color=None,
    is_label_show=True,
    legend_orient="vertical",
    legend_pos="left",
)
pie.render('3.html')

→ 输出的结果为：（可以发现，即使没有能够及时抢到评论的热门，通过回复，也能有30%左右的机会上热门呢，这也就解释了为什么有很多人倾向于回复热门的评论数据了）

3.4 有水军吗？

这里可以看看是不是有评论的人故意刷评论或者回复呢？如果存在大量的同一个id发出的消息，那么极有可能属于水军（当然还有一种可能就是热门评论数据的观众姥爷们之间的互动，还有可能是‘键盘侠’）

df_shuijun = df[['member','comment']].groupby(by = 'member').count().sort_values(by = 'comment',ascending = False)
#进行分组计数，然后按照从大到小的顺序进行排列
#df[df['member'].str.contains('华洛丽桑卓')]
#这个是用来查找包含某个内容的原始数据
len(df_shuijun[df_shuijun['comment'] >= 10])
#查看一下动态超过10条的数据量，也就是下面61的依据

shuijun_data_over_10 = df_shuijun.iloc[:61]
x = shuijun_data_over_10.index.tolist()
y = shuijun_data_over_10['comment'].tolist()
#设置x，y数据
bar = pe.Bar('水军数据排行榜') 
bar.add('动态数据大于10条的排名信息', x, y, is_datazoom_show = True, 
        datazoom_range = [0,100], mark_line=[ "average"], 
        tooltip_axispointer_type = 'cross')
bar.render('4.html')

→ 输出的结果为：（可以看到竟然有一个人动态数量达到了108条，这个明显属于异常数据）

查看一下这个异常数据对应的原始数据（使用同样的方法，就可以查看所有动态量大于10条所对应的的原始数据）

data_lsz_50 = df[df['member'].str.contains('华洛丽桑卓')].sort_values(by = 'rpid',ascending =False).head(20).set_index(np.arange(1,21))

→ 输出的结果为：（经过前20条数据中的content内容基本可以看出来，这个姥爷应该属于‘键盘侠’类的高手，至于其他的人员的数据也可以按照此方式进行数据的查看，最终可以确定是否真正的存在水军在水评论的现象）

4. 溜了

本想写一个爬虫的，结果发现到手了1w多条数据，忍不住就手贱了，非要分析一下，这么一整就凌晨两点半了，挺秃然的…

每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
安全演练有保障，专项督查促改进——记公道中学校园安全（化学实验）系列活动公中盛传云
近期，公道中学为了全面贯彻落实“预防为主，安全第一，综合治理”的安全工作方针，学校按照安全工作方针的要求，通过多种途径开展了以“预防演练为主，人防物防技防相结合”的主题的安全教育系列活动。11月8日，在学校校务会议上，学校党总支书记李兆兵强调，学校必须采取有力措施，不断增强教师综治安全防范意识，落实学校安全工作责任制，切实保障教师和学生的安全坚决杜绝意外事故的发生，确保校园平安稳定、教育教学工作顺
讲担当促作为抓落实，持之以恒纠“四风”树新风 asdfdy
讲担当促作为抓落实，持之以恒纠“四风”树新风习近平总书记在十九届中央纪委五次全会上发表重要讲话时强调，要毫不松懈纠治“四风”，坚决防止形式主义、官僚主义滋生蔓延。结合深入治理形式主义官僚主义不担当不作为问题专项行动和党史学习教育，纪检监察干部要把纠“四风”和树新风紧密结合起来，既坚决纠治“四风”顽疾，又大力发扬对党忠诚、实事求是、艰苦奋斗、清正廉洁等党的光荣传统和优良作风。一是要深入学习贯彻习近平
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
校车安全管理工作情况汇报 mayooly
近年来，在省、市校车办和县政府的正确领导下，在相关部门的大力支持下，我县认真落实《校车安全管理条例》、《湖北省校车管理办法》和《关于在全市推行校车公司化改革的意见》（黄政办发[2016]54号）要求，构建“政府主导、属地管理、市场运作、公司运营、部门监管、财政补贴”校车运营管理模式，规范校车安全管理，强化领导落实责任，扎实开展校车安全专项督查治理工作，全县校车安全管理工作无重大责任事故发生，确保了
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
有点困有柳盈屋
2021.6.24，周四早晨4：55就醒来了，索性早点起床，测量完血压，早点出去锻炼。直接完成万步有约。收拾停当，未参加机关学习，直接开车去县委五楼小会议室参加护航党的百年华诞维护政治安全专项会议，姚芳青主持，王伟刚传达中央省市委宣传部有关会议精神，许树峰讲话。会后开车去红旗超市购小花生米大黑豆绿豆35，门口设计太low，小小停车场就是个摆设，新开路中间还设了隔离带，完全的毫无人性，十分不方便。临
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
第二督导组工作简报（2019年3月20日）呼环整第二联系服务组
今天，市环境综合整治第二督导组申平安副组长带领督导组一行赴西部责任区对辖区居民小区环境卫生情况进行专项督导。图片发自App督导组实地走访查看了蒙特维尔路易构城小区、金山花园小区，汇业路国际公寓小区，110国道北侧小瓦窑村，发现问题10余处，涉及小区内生活垃圾、装修垃圾清运不及时，小区居民堆放煤炭存有安全隐患，小区绿化带内存有白色垃圾，居民楼一层开设餐馆造成油渍污染，村落内生活垃圾未能及时清运等方面
加倍挣扎 Drluffyzpf
我们可以发现以下常见的现象：优秀的有影响力的退役运动员，逐步过渡到教练员的身份，甚至创办自己的运动专项学校、体育场馆等进一步传播该项运动很多各专业的精英在积累部分个人财富（第一桶金）后，选择了进入投资界，扩张资产的同时孵化有潜力的公司、项目，推动世界各领域专业发展在互联网连接一切的时代，越来越多的人通过打磨个人品牌，获得强大的个人影响力无论你是否承认，这个世界以越来越快的速度迭代，目前仍以指数增长
基于Python爬虫四川成都二手房数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状_django商品房数据分析论文(1) 莫莫Android开发信息可视化 python 爬虫
3.国外研究现状在国外，二手房数据可视化也是一个热门的研究领域。以美国为例，有很多公司和网站提供了专门的二手房数据可视化工具，如Zillow、Redfin等。这些工具通常提供房价趋势图、房价分布图、房源信息等功能，帮助用户更好地了解房市动态。综上所述，虽然国内外在二手房数据可视化方面已经有了一些研究成果，但对于四川成都地区的二手房市场还没有相关的研究和可视化系统。因此，本研究旨在设计并实现一个基于
python requests下载网页_python爬虫 requests-html的使用 weixin_39600319 python requests下载网页
一介绍Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。#官网解释'''Thislibraryintendsto
解决“Python中 pip不是内部或外部命令，也不是可运行的程序或批处理文件”的方法。 གཡུ ། Python 常规问题 python pip 机器学习自然语言处理
解决‘Python中pip不是内部或外部命令，也不是可运行的程序或批处理文件。’的方法1、pip是什么？pip是一个以Python计算机程序语言写成的软件包管理系统，他可以安装和管理软件包，另外不少的软件包也可以在“Python软件包索引”中找到。它可以通过cmd（命令提示符）非常方便地下载和管理Python第三方库，比如，Python爬虫中常见的requests库等。但是我们在使用cmd运行pi
2018-10-20 染雨辰
今天很忙一天从早上到晚上一直都有车排队一辆接一辆每一辆都认真检查抓住几个专项去检查一直忙到晚上五点多成果方面很丰富，时间很充实
python爬虫的urlib知识梳理卑微小鹿爬虫
1:urlib.request.urlopen发送请求getpost网络超时timeout=0.1网络请求模拟一个浏览器所发送的网络请求创建requestrequest头信息➕host/IP➕验证➕请求方式cookice客户返回响应数据所留下来的标记代理ipUrlib.request.proxyhander字典类型异常处理codereasonhearders拆分URLurlpaseurlsplit
消防安全很重要悦纳生活
今天市消防队教官到我校给大家进行了消防安全知识专项讲座。听完讲座让人受益匪浅。原来，生活中有很多我们经常做，并且已经习以为常的事情其实都存在着安全隐患。比如有的人使用液化气炒菜，感觉气快用完时，会摇晃液化气罐，让液化气从罐底升上来，以便把菜炒完。这样做就存在着巨大的安全隐患，很容易让液化气罐子发生爆炸，危险一旦发生，后果不堪设想。通过学习我知道了在所有的电器中，电冰箱是最容易起火的。因为家里的电冰
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
Python爬虫——Selenium方法爬取LOL页面张小生180 python 爬虫 selenium
文章目录Selenium介绍用Selenium方法爬取LOL每个英雄的图片及名字Selenium介绍Selenium是一个用于自动化Web应用程序测试的工具，但它同样可以被用来进行网页数据的抓取（爬虫）。Selenium通过模拟用户在浏览器中的操作（如点击、输入、滚动等）来与网页交互，并可以捕获网页的渲染结果，这对于需要JavaScript渲染的网页特别有用。安装Selenium首先，你需要安装S
Python爬虫如何搞定动态Cookie？小白也能学会！图灵学者 python精华 python 爬虫 github
目录1、动态Cookie基础1.1Cookie与Session的区别1.2动态Cookie生成原理2、requests.Session方法2.1Session对象保持2.2处理登录与Cookie刷新2.3长连接与状态保持策略3、Selenium结合ChromeDriver实战3.1安装配置Selenium3.2动态抓取&处理Cookie4、requests-Session结合Selenium技巧4
Python爬虫基础知识板栗妖怪 python 爬虫开发语言
(未完成)爬虫概念爬虫用于爬取数据，又称之为数据采集程序爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供爬取数据是公开的、非盈利。python爬虫使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。爬虫和web后端服务关系爬虫使用网络请求库，相当于客户端请求，w
OKR如何帮助我们创造奇迹 jerome_langogo
使用OKR已经有一段时间了，基本读过所有关于OKR的书，也参加过一些OKR的专项分享沙龙，几乎每次都会感觉到自己茅塞顿开了，然后兴致冲冲的将OKR投入实际工作中使用，却被现实一次又一次的打脸，才发现自己的那个茅塞其实并没有被打开。但是OKR却不能脱离实践，换句话说，这一次次的失败，都是必须要去经历的，只有在团队一次次的磨合中，才能找到最适合团队的凝聚点。而在实践的过程中，我觉得有一些问题是需要持续
[风险][基础资产][融资租赁] 金角大王学ABS
一、物权未转移1.1风险描述在本专项计划设立日，{原始权益人}向计划管理人出售其所拥有的部分特定租赁合同项下的债权请求权和其他权利及其相关的附属担保权益。由于基础资产涉及的租赁物件的所有权并未转移给专项计划，因而根据律师出具的法律意见，在专项计划存续期间，若发生{原始权益人}丧失清偿能力、破产等情形，则基础资产的回收将会受到不利影响。1.2控制|缓释措施1、根据本次交易安排，当发生任一权利完善事件
python爬虫处理滑块验证_python selenium爬虫滑块验证用户6731453637 python爬虫处理滑块验证
importrandomimporttimefromPILimportImagefromioimportBytesIOimportrequestsasrqfrombs4importBeautifulSoupasbsfromseleniumimportwebdriverfromselenium.webdriverimportActionChainsfromselenium.webdriverimpo
如何用python爬取股票数据选股_用python爬取股票数据 weixin_39752087
获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。imp
2022-11-10 我的yzj
领导在会上分析了一下成绩，我们班数学成绩优秀率最高，但是及格率最低。我们班有十个学生不及格，这个比重还是比较大的，自己心里也有压力，总觉得是自己没有教好他们，是自己的原因。为什么其他班级没有这么多？给这十位学生每天也布置任务，根据自己的薄弱的知识点，进行专项练习，每天练习五个小题。我觉得是这是有意义的事，但是今天课代表说，他们没有交全，十个人只有四个同学写了。我就不理解了，成绩不好就算了，还不做题
Python爬虫基础总结醉蕤 Python python 爬虫
活动地址：CSDN21天学习挑战赛学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。学习日记目录学习日记一、关于爬虫1、爬虫的概念2、爬虫的优点3、爬虫的分类4、重要提醒5、反爬和反反爬机制6、协议7、常用请求头和常用的请求方法8、常见的响应状态码9、url的详解二、爬虫基本流程三、可能需要的库四、小例1、requests请求网页2、python解析网页源码（使用Be
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s