weixin_37988176

educoder python入门之基础语法-用python实现豆瓣短评通用爬虫(登录、爬取、可视化分析)...

原创技术公众号：bigsai

前言

在本人上的一门课中，老师对每个小组有个任务要求，介绍和完成一个小模块、工具知识的使用。然而我所在的组刚好遇到的是python爬虫的小课题。

心想这不是很简单嘛，搞啥呢？想着去搞新的时间精力可能不太够，索性自己就把豆瓣电影的评论(短评)搞一搞吧。

之前有写过哪吒那篇类似的，但今天这篇要写的像姨母般详细。本篇主要实现的是对任意一部电影短评(热门)的抓取以及可视化分析。也就是你只要提供链接和一些基本信息，他就可以

分析

对于豆瓣爬虫，what shold we 考虑？怎么分析呢？豆瓣电影首页

这个首先的话尝试就可以啦，打开任意一部电影，这里以姜子牙为例。打开姜子牙你就会发现它是非动态渲染的页面，也就是传统的渲染方式，直接请求这个url即可获取数据。但是翻着翻着页面你就会发现：未登录用户只能访问优先的界面，登录的用户才能有权限去访问后面的页面。

所以这个流程应该是登录——> 爬虫——>存储——>可视化分析。

这里提一下环境和所需要的安装装，环境为python3，代码在win和linux可成功跑，如果mac和linux不能跑友字体乱码问题还请私我。其中pip用到包如下,直接用清华镜像下载不然很慢很慢(够贴心不)。pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install xlrd -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install xlwt -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install bs4 -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install wordcloud -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

进去后有个密码登录栏，我们要分析在登录的途中发生了啥，打开F12控制台是不够的，我们还要使用Fidder抓包。

打开F12控制台然后点击登录，多次试探之后发现登录接口也很简单：

查看请求的参数发现就是普通请求，无加密，当然这里可以用fidder进行抓包，这里我简单测试了一下用错误密码进行测试。如果失败的小伙伴可以尝试手动登陆再退出这样再跑程序。

这样编写登录模块的代码：url='https://accounts.douban.com/j/mobile/login/basic'

header={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',

'Referer': 'https://accounts.douban.com/passport/login_popup?login_source=anony',

'Origin': 'https://accounts.douban.com',

'content-Type':'application/x-www-form-urlencoded',

'x-requested-with':'XMLHttpRequest',

'accept':'application/json',

'accept-encoding':'gzip, deflate, br',

'accept-language':'zh-CN,zh;q=0.9',

'connection': 'keep-alive'

,'Host': 'accounts.douban.com'

}

data={

'ck':'',

'name':'',

'password':'',

'remember':'false',

'ticket':''

}

def login(username,password):

global data

data['name']=username

data['password']=password

data=urllib.parse.urlencode(data)

print(data)

req=requests.post(url,headers=header,data=data,verify=False)

cookies = requests.utils.dict_from_cookiejar(req.cookies)

print(cookies)

return cookies

这块高清之后，整个执行流程大概为：

爬取

成功登录之后，我们就可以携带登录的信息访问网站为所欲为的爬取信息了。虽然它是传统交互方式，但是每当你切换页面时候会发现有个ajax请求。

这部分接口我们可以直接拿到评论部分的数据，就不需要请求整个页面然后提取这部分的内容了。而这部分的url规律和之前分析的也是一样，只有一个start表示当前的条数在变化，所以直接拼凑url就行。

也就是用逻辑拼凑url一直到不能正确操作为止。https://movie.douban.com/subject/25907124/comments?percent_type=&start=0&其他参数省略

https://movie.douban.com/subject/25907124/comments?percent_type=&start=20&其他参数省略

https://movie.douban.com/subject/25907124/comments?percent_type=&start=40&其他参数省略

对于每个url访问之后如何提取信息呢？

我们根据css选择器进行筛选数据，因为每个评论他们的样式相同，在html中就很像一个列表中的元素一样。

再观察我们刚刚那个ajax接口返回的数据刚好是下面红色区域块，所以我们直接根据class搜素分成若干小组进行曹祖就可以。

在具体的实现上，我们使用requests发送请求获取结果，使用BeautifulSoup去解析html格式文件。

而我们所需要的数据也很容易分析对应部分。

实现的代码为：import requests

from bs4 import BeautifulSoup

url='https://movie.douban.com/subject/25907124/comments?percent_type=&start=0&limit=20&status=P&sort=new_score&comments_only=1&ck=C7di'

header = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',

}

req = requests.get(url,headers=header,verify=False)

res = req.json() # 返回的结果是一个json

res = res['html']

soup = BeautifulSoup(res, 'lxml')

node = soup.select('.comment-item')

for va in node:

name = va.a.get('title')

star = va.select_one('.comment-info').select('span')[1].get('class')[0][-2]

comment = va.select_one('.short').text

votes=va.select_one('.votes').text

print(name, star,votes, comment)

这个测试的执行结果为：

储存

数据爬取完就要考虑存储，我们将数据储存到cvs中。

使用xlwt将数据写入excel文件中，xlwt基本应用实例：import xlwt

#创建可写的workbook对象

workbook = xlwt.Workbook(encoding='utf-8')

#创建工作表sheet

worksheet = workbook.add_sheet('sheet1')

#往表中写内容,第一个参数行,第二个参数列,第三个参数内容

worksheet.write(0, 0, 'bigsai')

#保存表为test.xlsx

workbook.save('test.xlsx')

使用xlrd读取excel文件中，本案例xlrd基本应用实例：import xlrd

#读取名称为test.xls文件

workbook = xlrd.open_workbook('test.xls')

# 获取第一张表

table = workbook.sheets()[0] # 打开第1张表

# 每一行是个元组

nrows = table.nrows

for i in range(nrows):

print(table.row_values(i))#输出每一行

到这里，我们对登录模块+爬取模块+存储模块就可把数据存到本地了，具体整合的代码为：import requests

from bs4 import BeautifulSoup

import urllib.parse

import xlwt

import xlrd

# 账号密码

def login(username, password):

url = 'https://accounts.douban.com/j/mobile/login/basic'

header = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',

'Referer': 'https://accounts.douban.com/passport/login_popup?login_source=anony',

'Origin': 'https://accounts.douban.com',

'content-Type': 'application/x-www-form-urlencoded',

'x-requested-with': 'XMLHttpRequest',

'accept': 'application/json',

'accept-encoding': 'gzip, deflate, br',

'accept-language': 'zh-CN,zh;q=0.9',

'connection': 'keep-alive'

, 'Host': 'accounts.douban.com'

}

# 登陆需要携带的参数

data = {

'ck' : '',

'name': '',

'password': '',

'remember': 'false',

'ticket': ''

}

data['name'] = username

data['password'] = password

data = urllib.parse.urlencode(data)

print(data)

req = requests.post(url, headers=header, data=data, verify=False)

cookies = requests.utils.dict_from_cookiejar(req.cookies)

print(cookies)

return cookies

def getcomment(cookies, mvid): # 参数为登录成功的cookies(后台可通过cookies识别用户，电影的id)

start = 0

w = xlwt.Workbook(encoding='ascii') # #创建可写的workbook对象

ws = w.add_sheet('sheet1') # 创建工作表sheet

index = 1 # 表示行的意思，在xls文件中写入对应的行数

while True:

# 模拟浏览器头发送请求

header = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',

}

# try catch 尝试，一旦有错误说明执行完成，没错误继续进行

try:

# 拼凑url 每次star加20

url = 'https://movie.douban.com/subject/' + str(mvid) + '/comments?start=' + str(

start) + '&limit=20&sort=new_score&status=P&comments_only=1'

start += 20

# 发送请求

req = requests.get(url, cookies=cookies, headers=header)

# 返回的结果是个json字符串通过req.json()方法获取数据

res = req.json()

res = res['html'] # 需要的数据在`html`键下

soup = BeautifulSoup(res, 'lxml') # 把这个结构化html创建一个BeautifulSoup对象用来提取信息

node = soup.select('.comment-item') # 每组class 均为comment-item 这样分成20条记录(每个url有20个评论)

for va in node: # 遍历评论

name = va.a.get('title') # 获取评论者名称

star = va.select_one('.comment-info').select('span')[1].get('class')[0][-2] # 星数好评

votes = va.select_one('.votes').text # 投票数

comment = va.select_one('.short').text # 评论文本

print(name, star, votes, comment)

ws.write(index, 0, index) # 第index行，第0列写入 index

ws.write(index, 1, name) # 第index行，第1列写入评论者

ws.write(index, 2, star) # 第index行，第2列写入评星

ws.write(index, 3, votes) # 第index行，第3列写入投票数

ws.write(index, 4, comment) # 第index行，第4列写入评论内容

index += 1

except Exception as e: # 有异常退出

print(e)

break

w.save('test.xls') # 保存为test.xls文件

if __name__ == '__main__':

username = input('输入账号：')

password = input('输入密码：')

cookies = login(username, password)

mvid = input('电影的id为：')

getcomment(cookies, mvid)

执行之后成功存储数据：

可视化分析

我们要对评分进行统计、词频统计。还有就是生成词云展示。而对应的就是matplotlib、WordCloud库。

实现的逻辑思路：读取xls的文件，将评论使用分词处理统计词频，统计出现最多的词语制作成直方图和词语。将评星?数量做成饼图展示一下，主要代码均有注释，具体的代码为：

其中代码为：import matplotlib.pyplot as plt

import matplotlib

import jieba

import jieba.analyse

import xlwt

import xlrd

from wordcloud import WordCloud

import numpy as np

from collections import Counter

# 设置字体有的linux字体有问题

matplotlib.rcParams['font.sans-serif'] = ['SimHei']

matplotlib.rcParams['axes.unicode_minus'] = False

# 类似comment 为评论的一些数据 [ ['1','名称'，'star星','赞同数','评论内容'] ,['2','名称'，'star星','赞同数','评论内容'] ]元组

def anylasescore(comment):

score = [0, 0, 0, 0, 0, 0] # 分别对应0 1 2 3 4 5分出现的次数

count = 0 # 评分总次数

for va in comment: # 遍历每条评论的数据 ['1','名称'，'star星','赞同数','评论内容']

try:

score[int(va[2])] += 1 # 第3列为star星要强制转换成int格式

count += 1

except Exception as e:

continue

print(score)

label = '1分', '2分', '3分', '4分', '5分'

color = 'blue', 'orange', 'yellow', 'green', 'red' # 各类别颜色

size = [0, 0, 0, 0, 0] # 一个百分比数字合起来为100

explode = [0, 0, 0, 0, 0] # explode :(每一块)离开中心距离；

for i in range(1, 5): # 计算

size[i] = score[i] * 100 / count

explode[i] = score[i] / count / 10

pie = plt.pie(size, colors=color, explode=explode, labels=label, shadow=True, autopct='%1.1f%%')

for font in pie[1]:

font.set_size(8)

for digit in pie[2]:

digit.set_size(8)

plt.axis('equal') # 该行代码使饼图长宽相等

plt.title(u'各个评分占比', fontsize=12) # 标题

plt.legend(loc=0, bbox_to_anchor=(0.82, 1)) # 图例

# 设置legend的字体大小

leg = plt.gca().get_legend()

ltext = leg.get_texts()

plt.setp(ltext, fontsize=6)

plt.savefig("score.png")

# 显示图

plt.show()

def getzhifang(map): # 直方图二维，需要x和y两个坐标

x = []

y = []

for k, v in map.most_common(15): # 获取前15个最大数值

x.append(k)

y.append(v)

Xi = np.array(x) # 转成numpy的坐标

Yi = np.array(y)

width = 0.6

plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签

plt.figure(figsize=(8, 6)) # 指定图像比例： 8：6

plt.bar(Xi, Yi, width, color='blue', label='热门词频统计', alpha=0.8, )

plt.xlabel("词频")

plt.ylabel("次数")

plt.savefig('zhifang.png')

plt.show()

return

def getciyun_most(map): # 获取词云

# 一个存对应中文单词，一个存对应次数

x = []

y = []

for k, v in map.most_common(300): # 在前300个常用词语中

x.append(k)

y.append(v)

xi = x[0:150] # 截取前150个

xi = ' '.join(xi) # 以空格 ` `将其分割为固定格式(词云需要)

print(xi)

# backgroud_Image = plt.imread('') # 如果需要个性化词云

# 词云大小，字体等基本设置

wc = WordCloud(background_color="white",

width=1500, height=1200,

# min_font_size=40,

# mask=backgroud_Image,

font_path="simhei.ttf",

max_font_size=150, # 设置字体最大值

random_state=50, # 设置有多少种随机生成状态，即有多少种配色方案

) # 字体这里有个坑，一定要设这个参数。否则会显示一堆小方框wc.font_path="simhei.ttf" # 黑体

# wc.font_path="simhei.ttf"

my_wordcloud = wc.generate(xi) #需要放入词云的单词，这里前150个单词

plt.imshow(my_wordcloud) # 展示

my_wordcloud.to_file("img.jpg") # 保存

xi = ' '.join(x[150:300]) # 再次获取后150个单词再保存一张词云

my_wordcloud = wc.generate(xi)

my_wordcloud.to_file("img2.jpg")

plt.axis("off")

def anylaseword(comment):

# 这个过滤词，有些词语没意义需要过滤掉

list = ['这个', '一个', '不少', '起来', '没有', '就是', '不是', '那个', '还是', '剧情', '这样', '那样', '这种', '那种', '故事', '人物', '什么']

print(list)

commnetstr = '' # 评论的字符串

c = Counter() # python一种数据集合，用来存储字典

index = 0

for va in comment:

seg_list = jieba.cut(va[4], cut_all=False) ## jieba分词

index += 1

for x in seg_list:

if len(x) > 1 and x != ' ': # 不是单个字并且不是特殊符号

try:

c[x] += 1 # 这个单词的次数加一

except:

continue

commnetstr += va[4]

for (k, v) in c.most_common(): # 过滤掉次数小于5的单词

if v < 5 or k in list:

c.pop(k)

continue

# print(k,v)

print(len(c), c)

getzhifang(c) # 用这个数据进行画直方图

getciyun_most(c) # 词云

# print(commnetstr)

def anylase():

data = xlrd.open_workbook('test.xls') # 打开xls文件

table = data.sheets()[0] # 打开第i张表

nrows = table.nrows # 若干列的一个集合

comment = []

for i in range(nrows):

comment.append(table.row_values(i)) # 将该列数据添加到元组中

# print(comment)

anylasescore(comment)

anylaseword(comment)

if __name__ == '__main__':

anylase()

我们再来查看一下执行的效果：

这里我选了姜子牙和千与千寻电影的一些数据，两个电影评分比例对比为：

从评分可以看出明显千与千寻好评度更高，大部分人愿意给他五分。基本算是最好看的动漫之一了，再来看看直方图的词谱：

很明显千与千寻的作者更出名，并且有很大的影响力，以至于大家纷纷提起他。再看看两者词云图：

宫崎骏、白龙、婆婆，真的是满满的回忆，好了不说了，有啥想说的欢迎讨论！

如果感觉不错，原创公众号：bigsai，分享知识和干货！

你可能感兴趣的:(educoder python入门之基础语法-用python实现豆瓣短评通用爬虫(登录、爬取、可视化分析)...)

【反悔堆】【hard】力扣871. 最低加油次数 hlc@ 贪心算法精选 leetcode 算法职场和发展
汽车从起点出发驶向目的地，该目的地位于出发位置东面target英里处。沿途有加油站，用数组stations表示。其中stations[i]=[positioni,fueli]表示第i个加油站位于出发位置东面positioni英里处，并且有fueli升汽油。假设汽车油箱的容量是无限的，其中最初有startFuel升燃料。它每行驶1英里就会用掉1升汽油。当汽车到达加油站时，它可能停下来加油，将所有汽油
分享：selenium ide中，对于一些已经自动化填写过数值的输入框，在最后点击保存时，输入框内容被清空。小崔很笨 selenium 自动化前端
1.项目中有一个表单，表单有一些控件，用seleniumide对表单进行自动化填写时，最后一步点击提交，提交失败，一看是输入框被清空了。2.解决办法，只需要在输入数据的代码下新增一条dispatchEvent“手动触发事件”。3.代码如下：executescriptdocument.querySelector("#app>div>div>section>section>main>div>div.t
WAS 日志分析（websphere application server) Change is good websphere application server 服务器 jvm deployment
关键字:websphere日志WebSphereApplicationServer是一个基于Java的Web应用程序服务器，它构建在开放标准的基础之上，能帮助您部署与管理从简单的Web站点到强大的电子商务解决方案的诸多应用程序。它遵循J2EE并为Java组件、XML和Web服务提供了一个可移植的Web部署平台，这个平台能够与数据库交互并提供动态Web内容。随着WebSphereApplicatio
【深度分析】Deepseek为什么会这么爆火？精通代码大仙深度分析新媒体运营创业创新
算力霸权崩塌之夜：一场颠覆AI工业体系的静默革命当DeepSeek用600万美元训练成本击穿硅谷巨头60亿美元的护城河时，整个AI工业体系的地基正在发生断裂。这场看似技术跃迁的盛宴，实则是算力霸权崩塌的末日钟声——当中国团队用1/10的显卡数量训练出性能碾压Llama3的模型，硅谷引以为傲的暴力堆料范式正在沦为数字时代的蒸汽机车。效率革命的背后暗藏致命悖论：MoE架构创造的11倍训练效率奇迹，是否
python 连接数据库之jaydebeapi SmartManWind
让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接：https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw密码：3etc2、pipinstallJayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码importjaydebeapiurl='jdbc:ora
final 到底有啥用？99% 的开发者可能只知道一半！软件求生 #工作建议运维数据库 java 架构微服务
小伙伴们，你有过这样的经历吗？早晨喝了一杯奶茶，兴致勃勃地去面试，面试官却冷不丁地问了一句：“final在Java中有什么作用？”我的天哪！我当时脑子一片空白，只能挤出一句：“用来修饰变量吧。”看着面试官点了点头，但眉头却微微一皱，我就知道，完了……不怕！今天咱们就从头到尾，搞清楚final的所有用途，让你下次遇到这个问题，自信到能现场开课！什么是final？简单来说，final是Java中的一个
揭秘排行榜系统：如何在高并发场景下实现高效更新！软件求生 #工作建议算法排序算法数据结构哈希算法 java
大家好，我是你们的技术分享伙伴小米！今天我们来聊聊一个非常有趣的话题——如何设计一个排行榜。在这个互联网时代，无论是游戏、学习平台，还是各种社交应用，排行榜都是用户互动和竞争的核心功能之一。而如何设计一个高效、实时更新的排行榜，是一个充满挑战性的问题。今天，我们就一起来探讨一下如何在个人实战中设计出一个既高效又实用的排行榜系统！需求分析在设计排行榜之前，我们需要明确以下需求：个人总得分和总排名实时
IT 技术团队管理底层逻辑之一降本增效 power-辰南团队管理运维人工智能团队管理技术总监技术团队 java
摘要：本文深入探讨了IT技术管理的底层逻辑，围绕降本增效、技术赋能、知识沉淀以及行业影响力四个核心方面展开详细阐述，旨在为IT技术管理者提供全面且实用的管理思路与方法，助力打造高效、创新且具有行业竞争力的技术团队。一、降本增效在IT技术团队管理中，降本增效是核心目标之一，关乎团队能否以有限的资源创造出最大的价值，以下从几个关键维度进行分析：做正确的事情在IT技术团队管理中，“做正确的事情”依赖于完
家居 EDI：Haverty‘s EDI 需求分析知行EDI 零售行业EDI 知行edi EDI电子数据交换知行软件需求分析 EDI 知行EDI 知行之桥
Haverty's成立于1885年，是一家历史悠久的美国家具零售商。公司致力于为客户提供高品质的家具和家居饰品，其产品线涵盖客厅、卧室、餐厅及办公家具等多个领域。电子数据交换（EDI）是一种通过标准化电子格式在商业伙伴之间进行数据交换的技术，可以显著提升企业的运营效率。通过EDI系统，Haverty's能够实现订单、发票和库存信息的自动化处理，从而减少人为错误并降低运营成本。EDI需求分析与Hav
大型语言模型构建指南：从头开始构建大语言模型《Build a Large Language Model (From Scratch)》免费PDF AGI大模型学习语言模型 pdf 人工智能大模型大模型学习大模型教程大模型书籍
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建自己的LLM，用清晰的文字、图表和示例解释每个阶段。你将从最初的设计和创建到通用语料库的预训练，一直到特定任
书籍推荐：《从零构建大型语言模型》附免费PDF下载大模型入门学习语言模型 pdf 人工智能产品经理大模型学习大模型教程大模型入门
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建自己的LLM，用清晰的文字、图表和示例解释每个阶段。你将从最初的设计和创建到通用语料库的预训练，一直到特定任
Hugging Face挑战DeepSeek，AI开源竞赛升级！新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/DeepSeek的R1推理模型刚刚引发全球轰动，开源AI界的“顶流”HuggingFac
DeepSeek：硅谷AI格局的拐点？新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/本周，硅谷迎来了一个令人大跌眼镜的现实：打造先进人工智能模型，可能远没有想象中那么高深莫
夜神模拟器 adb devices失败的可能的部分解决方式 yoojiang 测试工具 android
连接不上：adb可调用，夜神模拟器已安装到位的情况下，adbdevices失败的解决方案。在一系列操作后adblogcat可以调取日志的。经分析可能会有三个坑，具体不知道是那一个步骤发挥了作用，可以借鉴来做。第一坑：步骤。先打开模拟器再打开CMD。参照经验：adbconnect连接失败问题adbconnect127.0.0.1:62001unabletoconnectto:5555_Clever9
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
【Python数据分析】Pandas_Series如何转变为DataFrame Root_Smile 【Python数据分析】python 数据分析 pandas
1.使用pd.DataFrame()构造函数可以使用pd.DataFrame()构造函数将Series转换为DataFrame。在构造函数中，将Series作为一个列传递给DataFrame，并且可以通过指定列名来为DataFrame的列命名。代码示例：importpandasaspddata=[10,20,30,40,50]index=['A','B','C','D','E']series=pd
登录mysql出现/var/lib/mysql/mysql.sock不存在小黄鸭007 mysql 数据库
问题描述：1.mysql安装完成后，使用servicemysqldrestart总是出现stopmysqldservice失败。2.使用mysql-uroot-p登录出现找不到/var/lib/mysql/mysql.sock问题。3.使用servicemysqldstatus出现mysqldeadbutsubsyslocked解决方法：1.在my.cnf下[mysqld]前添加[client]p
多协议网关BL110钡铼6路RS485转MQTT协议云网关 lingllllove linux
多协议网关BL110钡铼6路RS485转MQTT协议云网关是一款集成了多种通信协议的工业级网关设备，专为物联网（IoT）应用设计。该网关能够将RS485总线设备的数据转化为MQTT协议，通过网络传输到云平台，实现远程监控和数据管理。以下是对这款设备的详细介绍和分析。一、主要功能和特点1.1多协议支持BL110支持多种通信协议，能够兼容不同厂商和类型的RS485设备。这包括ModbusRTU等常见的
初始Pandas数据结构(DataFrame和Series) aerfaqi 数据分析 python 数据挖掘
认识PandasPandas是Python语言的一个扩展程序库，用于数据挖掘和数据分析，同时也提供数据清洗功能。pandas（paneldata&dataanalysis），是基于numpy（提供高性能的矩阵运算）专门用于数据分析的工具，是一个强大的分析结构化数据（表格数据）的工具集；Pandas的操作是基于两种结构：DataFrame结构和Series结构DataFrame每一列都为Series
Selenium 结合 Requests 爬取网易云音乐“我喜欢的”及评论数API分析 dreadp selenium python 前端 web安全网络协议爬虫
前言基于selenium和requests，在网易云音乐网页上爬取前1000首“我喜欢的音乐”以供后续数据分析。重点讲解了__init__.py文件的重要性、Cookie的添加和检查方式、Selenium选择器的使用技巧，特别是的处理方法。同时，也分享了我对网易云评论数API接口的探索。提供完整的脚本。项目地址:Github链接文件相对路径:NeteaseCloudMusicGaze/src/AP
rocketmq python 某个队列不消费_RocketMQ消息发送常见错误与解决方案 weixin_39849479 rocketmq python 某个队列不消费
点击上方“中间件兴趣圈”，选择“设为星标”做积极的人，越努力越幸运！本文将结合自己使用RocketMQ的经验，对消息发送常见的问题进行分享，基本会遵循出现问题，分析问题、解决问题。1、Norouteinfoofthistopic无法找到路由信息，其完整的错误堆栈信息如下：而且很多读者朋友会说Broker端开启了自动创建主题也会出现上述问题。RocketMQ的路由寻找流程如下图所示：上面的核心关键点
代码随想录算法训练营第三十八天-动态规划-完全背包-279.完全平方数 taoyong001 算法动态规划 c++leetcode
把目标值当作背包容量，每个平方数当作物品，题目变更为装满指定容量的背包，最小用几个物品会不会出现拼凑不出来的情况？不会，因为有数字1，对任意正整数百分百能拼凑出来因此此题目与上一道题就变得一模一样了classSolution{public:intnumSquares(intn){std::vectordp(n+1,INT_MAX);dp.at(0)=0;for(inti=1;i*i<=n;++i)
Python实现YOLO目标检测我专门写bug PYTHON python YOLO 目标检测
#-*-coding:utf-8-*-#载入所需库importcv2importnumpyasnpimportosimporttimedefyolo_detect(pathIn='',pathOut=None,confidence_thre=0.5,nms_thre=0.3,jpg_quality=80):#pathIn：原始图片的路径#pathOut：结果图片的路径#label_path：类别标
03、爬虫数据解析-bs4解析/xpath解析奔向sj 爬虫学习爬虫
一、bs4解析使用bs4解析，需要了解一些html的知识，了解其中一些标签。安装：pipinstallbs4导入：frombs4importBeautifulSoup1、使用方式1、把页面源代码交给BeautifulSoup进行处理，生成bs对象2、从bs对象中查找数据（1）find(标签，属性=值)：找第一个（2）findall(标签，属性=值)：找全部的2、实战：拿到上海菜价网蔬菜价格1、思路
制造企业的成本核算 saplakes #SAP_FICO 制造成本核算生产成本制造费用
一、生产成本与制造费用的区别（1）生产成本，是直接用于产品生产，构成产品实体的材料成本。包括企业在生产经营过程中实际消耗的原材料、辅助材料、备品备件、外购半成品、燃料、动力包装物以及其它直接材料，和直接参加产品生产的工人工资，以及按生产工人的工资总额和规定的比例计提的职工福利费。（2）制造费用，是辅助生产成本，指为生产产品和提供劳务所发生的各项间接费用。包括生产单位管理人员工资福利、生产用的固定资
对称加密和非对称加密算法分类，国密算法分类。铁锤2号各种小问题小技巧
对称加密算法对称加密算法加密和解密使用的是同一个密钥。常用的对称加密算法包括：DES、3DES、AES、RC4、RC5、RC6。非对称加密算法指加密和解密使用不同密钥的加密算法，也称为公私钥加密。假设两个用户要加密交换数据，双方交换公钥，使用时一方用对方的公钥加密，另一方即可用自己的私钥解密。常见的非对称加密算法：RSA、DSA（数字签名用）、ECC（移动设备用）、Diffie-Hellman散列
大学排行榜分析---Python 等墨雨 python java 算法
path='/data/bigfiles/'#路径不然会出现报错defread_file(file,m):"""读文件中的学校名到列表中，返回前m个记录的学校集合"""withopen(path+file,'r',encoding='utf-8')asf:lines=[]foriinrange(m):line=f.readline().strip("\n")lines.append(line.sp
tailwindcss4.0 升级后的一个坑 tailwindcss
tailwindcss4.0升级了，用了vite的方式，因为主UI框架用的antdv，结果出现了antdv组件自身的css比tailwindcss的优先级高的情况。发现tailwindcss的类都被layer了，而这个layer的特性就是比平常的css优先级要低，考虑到antdv还不能把自身css套上layer（antd好像可以），所以只能把tailwind的layer去掉了，也是为了一些老的ui
【LeetCode-SQL】196. 删除重复的电子邮箱白露塞纳 LeetCode-SQL leetcode sql 算法
目录一、题目二、解决1、关联去除2、分组删除3、开窗之row_number()三、参考一、题目表:Person+-------------+---------+|ColumnName|Type|+-------------+---------+|id|int||email|varchar|+-------------+---------+id是该表的主键列。该表的每一行包含一封电子邮件。电子邮件将
利用 python 实现校园网自动登录 yyywxk #Python 基础 python 开发语言
背景利用python实现校园网自动登录通常涉及到模拟浏览器的行为，发送HTTP请求以完成登录过程。这需要你了解学校网络的登录机制，包括但不限于登录页面的URL、用户名和密码字段的名字、以及可能存在的验证码等。代码importrequestsimportscheduleimporttimeimportsubprocessimportplatformimportre#校园网登录的URL和需要的数据字段
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l