Python进阶者

用python实现一个豆瓣通用爬虫(登陆、爬取、可视化分析)

点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

鸡

汤

主人下马客在船，举酒欲饮无管弦。

前言

在本人上的一门课中，老师对每个小组有个任务要求，介绍和完成一个小模块、工具知识的使用。然而我所在的组刚好遇到的是python爬虫的小课题。

心想这不是很简单嘛，搞啥呢？想着去搞新的时间精力可能不太够，索性自己就把豆瓣电影的评论(短评)搞一搞吧。

之前有写过哪吒那篇类似的，但今天这篇要写的像姨母般详细。本篇主要实现的是对任意一部电影短评(热门)的抓取以及可视化分析。 也就是你只要提供链接和一些基本信息，他就可以

分析

对于豆瓣爬虫，what shold we 考虑？怎么分析呢？豆瓣电影首页

这个首先的话尝试就可以啦，打开任意一部电影，这里以姜子牙为例。打开姜子牙你就会发现它是非动态渲染的页面，也就是传统的渲染方式，直接请求这个url即可获取数据。但是翻着翻着页面你就会发现：未登录用户只能访问优先的界面，登录的用户才能有权限去访问后面的页面。

所以这个流程应该是登录——> 爬虫——>存储——>可视化分析。

这里提一下环境和所需要的安装装，环境为python3，代码在win和linux可成功跑，如果mac和linux不能跑友字体乱码问题还请私我。其中pip用到包如下,直接用清华镜像下载不然很慢很慢(够贴心不)。

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install xlrd -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install xlwt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install bs4 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install wordcloud -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

url='https://accounts.douban.com/j/mobile/login/basic'
header={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
'Referer': 'https://accounts.douban.com/passport/login_popup?login_source=anony',
        'Origin': 'https://accounts.douban.com',
 'content-Type':'application/x-www-form-urlencoded',
 'x-requested-with':'XMLHttpRequest',
 'accept':'application/json',
 'accept-encoding':'gzip, deflate, br',
 'accept-language':'zh-CN,zh;q=0.9',
 'connection': 'keep-alive'
 ,'Host': 'accounts.douban.com'
 }
data={
    'ck':'',
    'name':'',
    'password':'',
    'remember':'false',
    'ticket':''
}
def login(username,password):
    global  data
    data['name']=username
    data['password']=password
    data=urllib.parse.urlencode(data)
    print(data)
    req=requests.post(url,headers=header,data=data,verify=False)
    cookies = requests.utils.dict_from_cookiejar(req.cookies)
    print(cookies)
    return cookies

这块高清之后，整个执行流程大概为：

爬取

成功登录之后，我们就可以携带登录的信息访问网站为所欲为的爬取信息了。虽然它是传统交互方式，但是每当你切换页面时候会发现有个ajax请求。

这部分接口我们可以直接拿到评论部分的数据，就不需要请求整个页面然后提取这部分的内容了。而这部分的url规律和之前分析的也是一样，只有一个start表示当前的条数在变化，所以直接拼凑url就行。

也就是用逻辑拼凑url一直到不能正确操作为止。

https://movie.douban.com/subject/25907124/comments?percent_type=&start=0&其他参数省略
https://movie.douban.com/subject/25907124/comments?percent_type=&start=20&其他参数省略
https://movie.douban.com/subject/25907124/comments?percent_type=&start=40&其他参数省略

对于每个url访问之后如何提取信息呢？
我们根据css选择器进行筛选数据，因为每个评论他们的样式相同，在html中就很像一个列表中的元素一样。

再观察我们刚刚那个ajax接口返回的数据刚好是下面红色区域块，所以我们直接根据class搜素分成若干小组进行曹祖就可以。

在这里插入图片描述

在具体的实现上，我们使用requests发送请求获取结果，使用BeautifulSoup去解析html格式文件。
而我们所需要的数据也很容易分析对应部分。

实现的代码为：

import requests
from  bs4 import BeautifulSoup
url='https://movie.douban.com/subject/25907124/comments?percent_type=&start=0&limit=20&status=P&sort=new_score&comments_only=1&ck=C7di'

header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
}
req = requests.get(url,headers=header,verify=False)
res = req.json() # 返回的结果是一个json
res = res['html']
soup = BeautifulSoup(res, 'lxml')
node = soup.select('.comment-item')
for va in node:
    name = va.a.get('title')
    star = va.select_one('.comment-info').select('span')[1].get('class')[0][-2]
    comment = va.select_one('.short').text
    votes=va.select_one('.votes').text
    print(name, star,votes, comment)

这个测试的执行结果为：

image-20201022220333519

储存

数据爬取完就要考虑存储，我们将数据储存到cvs中。

使用xlwt将数据写入excel文件中，xlwt基本应用实例：

import xlwt

#创建可写的workbook对象
workbook = xlwt.Workbook(encoding='utf-8')
#创建工作表sheet
worksheet = workbook.add_sheet('sheet1')
#往表中写内容,第一个参数 行,第二个参数列,第三个参数内容
worksheet.write(0, 0, 'bigsai')
#保存表为test.xlsx
workbook.save('test.xlsx')

使用xlrd读取excel文件中，本案例xlrd基本应用实例：

import xlrd
#读取名称为test.xls文件
workbook = xlrd.open_workbook('test.xls')
# 获取第一张表
table =  workbook.sheets()[0]  # 打开第1张表
# 每一行是个元组
nrows = table.nrows
for i in range(nrows):
    print(table.row_values(i))#输出每一行

到这里，我们对登录模块+爬取模块+存储模块就可把数据存到本地了，具体整合的代码为：

import requests
from bs4 import BeautifulSoup
import urllib.parse

import xlwt
import xlrd

# 账号密码
def login(username, password):
    url = 'https://accounts.douban.com/j/mobile/login/basic'
    header = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
        'Referer': 'https://accounts.douban.com/passport/login_popup?login_source=anony',
        'Origin': 'https://accounts.douban.com',
        'content-Type': 'application/x-www-form-urlencoded',
        'x-requested-with': 'XMLHttpRequest',
        'accept': 'application/json',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'connection': 'keep-alive'
        , 'Host': 'accounts.douban.com'
    }
    # 登陆需要携带的参数
    data = {
        'ck' : '',
        'name': '',
        'password': '',
        'remember': 'false',
        'ticket': ''
    }
    data['name'] = username
    data['password'] = password
    data = urllib.parse.urlencode(data)
    print(data)
    req = requests.post(url, headers=header, data=data, verify=False)
    cookies = requests.utils.dict_from_cookiejar(req.cookies)
    print(cookies)
    return cookies

def getcomment(cookies, mvid):  # 参数为登录成功的cookies(后台可通过cookies识别用户，电影的id)
    start = 0
    w = xlwt.Workbook(encoding='ascii')  # #创建可写的workbook对象
    ws = w.add_sheet('sheet1')  # 创建工作表sheet
    index = 1  # 表示行的意思，在xls文件中写入对应的行数
    while True:
        # 模拟浏览器头发送请求
        header = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
        }
        # try catch 尝试，一旦有错误说明执行完成，没错误继续进行
        try:
            # 拼凑url 每次star加20
            url = 'https://movie.douban.com/subject/' + str(mvid) + '/comments?start=' + str(
                start) + '&limit=20&sort=new_score&status=P&comments_only=1'
            start += 20
            # 发送请求
            req = requests.get(url, cookies=cookies, headers=header)
            # 返回的结果是个json字符串 通过req.json()方法获取数据
            res = req.json()
            res = res['html']  # 需要的数据在`html`键下
            soup = BeautifulSoup(res, 'lxml')  # 把这个结构化html创建一个BeautifulSoup对象用来提取信息
            node = soup.select('.comment-item')  # 每组class 均为comment-item  这样分成20条记录(每个url有20个评论)
            for va in node:  # 遍历评论
                name = va.a.get('title')  # 获取评论者名称
                star = va.select_one('.comment-info').select('span')[1].get('class')[0][-2]  # 星数好评
                votes = va.select_one('.votes').text  # 投票数
                comment = va.select_one('.short').text  # 评论文本
                print(name, star, votes, comment)
                ws.write(index, 0, index)  # 第index行，第0列写入 index
                ws.write(index, 1, name)  # 第index行，第1列写入 评论者
                ws.write(index, 2, star)  # 第index行，第2列写入 评星
                ws.write(index, 3, votes)  # 第index行，第3列写入 投票数
                ws.write(index, 4, comment)  # 第index行，第4列写入 评论内容
                index += 1
        except Exception as e:  # 有异常退出
            print(e)
            break
    w.save('test.xls')  # 保存为test.xls文件


if __name__ == '__main__':
    username = input('输入账号：')
    password = input('输入密码：')
    cookies = login(username, password)
    mvid = input('电影的id为：')
    getcomment(cookies, mvid)

执行之后成功存储数据：

可视化分析

我们要对评分进行统计、词频统计。还有就是生成词云展示。而对应的就是matplotlib、WordCloud库。

实现的逻辑思路：读取xls的文件，将评论使用分词处理统计词频，统计出现最多的词语制作成直方图和词语。将评星????数量做成饼图展示一下，主要代码均有注释，具体的代码为：

其中代码为：

import matplotlib.pyplot as plt
import matplotlib
import jieba
import jieba.analyse
import xlwt
import xlrd
from wordcloud import WordCloud
import numpy as np
from collections import Counter
# 设置字体 有的linux字体有问题
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
matplotlib.rcParams['axes.unicode_minus'] = False


# 类似comment 为评论的一些数据 [  ['1','名称'，'star星','赞同数','评论内容']  ,['2','名称'，'star星','赞同数','评论内容'] ]元组
def anylasescore(comment):
    score = [0, 0, 0, 0, 0, 0]  # 分别对应0 1 2 3 4 5分出现的次数
    count = 0  # 评分总次数
    for va in comment:  # 遍历每条评论的数据  ['1','名称'，'star星','赞同数','评论内容']
        try:
            score[int(va[2])] += 1  # 第3列 为star星 要强制转换成int格式
            count += 1
        except Exception as e:
            continue
    print(score)
    label = '1分', '2分', '3分', '4分', '5分'
    color = 'blue', 'orange', 'yellow', 'green', 'red'  # 各类别颜色
    size = [0, 0, 0, 0, 0]  # 一个百分比数字 合起来为100
    explode = [0, 0, 0, 0, 0]  # explode :(每一块)离开中心距离；
    for i in range(1, 5):  # 计算
        size[i] = score[i] * 100 / count
        explode[i] = score[i] / count / 10
    pie = plt.pie(size, colors=color, explode=explode, labels=label, shadow=True, autopct='%1.1f%%')
    for font in pie[1]:
        font.set_size(8)
    for digit in pie[2]:
        digit.set_size(8)
    plt.axis('equal')  # 该行代码使饼图长宽相等
    plt.title(u'各个评分占比', fontsize=12)  # 标题
    plt.legend(loc=0, bbox_to_anchor=(0.82, 1))  # 图例
    # 设置legend的字体大小
    leg = plt.gca().get_legend()
    ltext = leg.get_texts()
    plt.setp(ltext, fontsize=6)
    plt.savefig("score.png")
    # 显示图
    plt.show()


def getzhifang(map):  # 直方图二维，需要x和y两个坐标
    x = []
    y = []
    for k, v in map.most_common(15):  # 获取前15个最大数值
        x.append(k)
        y.append(v)
    Xi = np.array(x)  # 转成numpy的坐标
    Yi = np.array(y)

    width = 0.6
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
    plt.figure(figsize=(8, 6))  # 指定图像比例：8：6
    plt.bar(Xi, Yi, width, color='blue', label='热门词频统计', alpha=0.8, )

    plt.xlabel("词频")
    plt.ylabel("次数")
    plt.savefig('zhifang.png')
    plt.show()
    return


def getciyun_most(map):  # 获取词云
    # 一个存对应中文单词，一个存对应次数
    x = []
    y = []
    for k, v in map.most_common(300):  # 在前300个常用词语中
        x.append(k)
        y.append(v)
    xi = x[0:150]  # 截取前150个
    xi = ' '.join(xi)  # 以空格 ` `将其分割为固定格式(词云需要)
    print(xi)
    # backgroud_Image = plt.imread('')  # 如果需要个性化词云
    # 词云大小，字体等基本设置
    wc = WordCloud(background_color="white",
                   width=1500, height=1200,
                   # min_font_size=40,
                   # mask=backgroud_Image,
                   font_path="simhei.ttf",
                   max_font_size=150,  # 设置字体最大值
                   random_state=50,  # 设置有多少种随机生成状态，即有多少种配色方案
                   )  # 字体这里有个坑，一定要设这个参数。否则会显示一堆小方框wc.font_path="simhei.ttf"   # 黑体
    # wc.font_path="simhei.ttf"
    my_wordcloud = wc.generate(xi)  #需要放入词云的单词 ，这里前150个单词
    plt.imshow(my_wordcloud)  # 展示
    my_wordcloud.to_file("img.jpg")  # 保存
    xi = ' '.join(x[150:300])  # 再次获取后150个单词再保存一张词云
    my_wordcloud = wc.generate(xi)
    my_wordcloud.to_file("img2.jpg")

    plt.axis("off")


def anylaseword(comment):
    # 这个过滤词，有些词语没意义需要过滤掉
    list = ['这个', '一个', '不少', '起来', '没有', '就是', '不是', '那个', '还是', '剧情', '这样', '那样', '这种', '那种', '故事', '人物', '什么']
    print(list)
    commnetstr = ''  # 评论的字符串
    c = Counter()  # python一种数据集合，用来存储字典
    index = 0
    for va in comment:
        seg_list = jieba.cut(va[4], cut_all=False)  ## jieba分词
        index += 1
        for x in seg_list:
            if len(x) > 1 and x != '\r\n':  # 不是单个字 并且不是特殊符号
                try:
                    c[x] += 1  # 这个单词的次数加一
                except:
                    continue
        commnetstr += va[4]
    for (k, v) in c.most_common():  # 过滤掉次数小于5的单词
        if v < 5 or k in list:
            c.pop(k)
            continue
        # print(k,v)
    print(len(c), c)
    getzhifang(c)  # 用这个数据进行画直方图
    getciyun_most(c)  # 词云
    # print(commnetstr)


def anylase():
    data = xlrd.open_workbook('test.xls')  # 打开xls文件
    table = data.sheets()[0]  # 打开第i张表
    nrows = table.nrows  # 若干列的一个集合
    comment = []

    for i in range(nrows):
        comment.append(table.row_values(i))  # 将该列数据添加到元组中
    # print(comment)
    anylasescore(comment)
    anylaseword(comment)


if __name__ == '__main__':
    anylase()

我们再来查看一下执行的效果：

这里我选了姜子牙和千与千寻电影的一些数据，两个电影评分比例对比为：

从评分可以看出明显千与千寻好评度更高，大部分人愿意给他五分。基本算是最好看的动漫之一了，再来看看直方图的词谱：

很明显千与千寻的作者更出名，并且有很大的影响力，以至于大家纷纷提起他。再看看两者词云图：

白龙、婆婆，真的是满满的回忆，好了不说了，有啥想说的欢迎讨论！

------------------- End -------------------

往期精彩文章推荐：

手把手教你使用Flask搭建ES搜索引擎(实战篇)
手把手教你用Python进行SSH暴力破解
手把手教你用Python网络爬虫获取壁纸图片

欢迎大家点赞，留言，转发，转载，感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群】

万水千山总是情，点个【在看】行不行

/今日留言主题/

随便说一两句吧~

用Python的glob模块查找文件路径名洪小帅 python 开发语言
用Python的glob模块查找文件路径名基本用法示例`glob`的函数示例：使用`iglob()`处理大型文件总结大家好,我素洪小帅~glob模块是Python的一个标准库模块，用于查找符合特定规则的文件路径名，它支持使用通配符来匹配文件。glob模块可以方便地列出文件目录中的文件，并对文件名进行模式匹配。基本用法导入模块：importglob使用通配符匹配文件*：匹配零个或多个字符。?：匹配一
[Python]已解决。pycharm突然打不开了，安装PyCharm后，双击没反应。pycharm无法打开一罐小牛奶7 python pycharm 开发语言
前两天刚装的pycharm，今天双击之后突然打不开了，好几次没有反应。我试了以下方法：1.方法一：管理员身份运行，直接右键选择，或者在下方搜索框输入PyCharm后点以管理员身份运行如果你也和我一样，这一步还不行，请继续往下看。2.方法二：修改Roaming文件2.1找到AppData。C盘--用户--User（找不到该文件的往下看）如果User下没有AppData文件，不要慌，可能是隐藏了：点查
华为OD机试E卷 --羊、狼、农夫过河--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述羊、狼、农夫都在岸边，当羊的数量小于狼的数量时，狼会攻击羊，农夫则会损失羊。农夫有一艘容量固定的船，能够承载固定数量的动物。要求求出不损失羊情况下将全部羊和狼运到对岸需要的最小次数。只计算农夫去对岸的次数，回程时农夫不会运送羊和狼。备注:农夫在或农夫离开后羊的数量大于狼的数量
华为OD机试E卷 --手机App防沉迷系统--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：在一天24小时内，可以注册每个App的允许使用时段一个时间段只能使用一个AppApp有优先级，数值越高，优先
Python读取通达信一分钟K线数据（.lc1文件）逝去的紫枫 Python python
Python读取通达信一分钟K线数据（.lc1文件）1.lc1文件位置2.lc1文件内容的构成3.Python代码识别lc1文件4.将识别结果输出为csv文件5.最终结果展示在金融数据分析中，通达信软件提供的数据文件（如1分钟K线数据文件.lc1）是非常宝贵的资源。本文将详细介绍如何使用Python读取和解析这些文件，并将解析结果输出为CSV文件，以便进行进一步的数据分析和处理。1.lc1文件位置
python graphviz 中文乱码晓梦OvO python 决策树
问题：在调用graphviz库进行决策树绘图的时候，即使我们设置了fontname='SimHei',encoding='utf-8'，我们同样会发现出现了中文乱码的情况fromgraphvizimportDigraphdot=Digraph('决策树',encoding='utf-8')dot.attr(fontname='SimHei',encoding='utf-8')#改为系统中的中文字体
搭建个人AI知识库：RAG与本地模型实践指南 ai开发知识库
引言你是否想过拥有一个私人订制的AI助手，能够随时为你提供最个性化的信息？本文将带你一步步搭建一个基于本地模型和RAG技术的个人知识库。搭建本地模型环境os:archlinux内存:32gcpu:6核12线程python:3.12.7docker27.3.1+docker-compose向量库:milvus2.4.13+attu2.4(客户端)ollamapacman-Sollamasystemc
农夫过河——python贪心算法实现贝桑不止学Python
1.问题描述：一个农夫在河的西岸带了一匹狼、一只羊和一棵白菜，他需要把这三样东西用船带到河的东岸。然而，这艘船只能容下农夫本人和另外一样东西。如果农夫不在场的话，狼会吃掉羊，羊也会吃掉白菜。2.问题分析：由于整个过程涉及四个对象，多个步骤，而各个步骤中各个对象所处位置相对不同，因此可以定义一个二维数组，分别存储对象及初始状态——initial_state[0][0]，[1][0]，[1][1]，[
python元组+字典学IT的那些年 python
#案例#访问元组#aTuple=(23,35,56,34,11,21)#下标为2#print(aTuple[2])#索引值不存在#print(aTuple[20])#查询个数#aTuple=('b','c','d','e','f','g')#print(aTuple.count('d'))#查询索引#print(aTuple.index('d',0,4))#无对应元素#print(aTuple.i
Python的元组和字典汤姆666 测试工具测试软件测试 python
1.元组Python的元组与列表类似，不同之处在于元组的元素不能修改。元组使用小括号，列表使用方括号。格式：变量名=（，，，，）案例aTuple=(23,35,56,34,11,21)1.1访问元组通过索引取数据索引值存在aTuple=(23,35,56,34,11,21)print(aTuple[2])结果561.2查询个数count查询出现的个数aTuple=('b','c','d','e',
第4篇：使用ChatterBot构建基本聊天机器人 Python测试之道聊天机器人机器人人工智能
在这一篇文章中，我们将实际构建一个简单的聊天机器人，展示如何使用ChatterBot库进行基本的对话交互。我们将集中讨论代码实现，并介绍一些有用的功能扩展。4.1创建聊天机器人4.1.1编写聊天机器人代码首先，创建一个新的Python文件，例如chatbot.py，并输入以下代码：fromchatterbotimportChatBotfromchatterbot.trainersimportLis
Python中的元组和字典 DuADC python
Python中的元组和字典1.元组什么是元组（tuple）元组是容器型数据类型；将()作为容器的标志，里面多个文件用逗号隔开(元素1,元素2,…)元组不可变(只能查)元组有序-支持下标操作元素：和列表一样只有一个元素的元组-唯一的元素后面必须加逗号list1=[12]print(list1,type(list1),len(list1))#[12]1t2=(12)print(t2,type(t2))
python中系统找不到指定文件怎么办,Python“系统找不到指定的文件” 许早早
我正在尝试编写一个OpenDyslexic字体的安装程序。我已经在https://github.com/kirbyfan64/OpenDyslexic-Installer上有一个Linux版本，但是Windows版本(显然)目前还不太好用。这是UAC问题吗？我想不出别的办法了。有两个奇怪的部分：程序正在通过else子句和filecmp找到了第一个文件。我有一种感觉，执行else是因为与filecm
python获取当前文件路径 weixin_33877885 python
python获取当前文件路径学习了：https://www.cnblogs.com/strongYaYa/p/7200357.htmlhttps://blog.csdn.net/heatdeath/article/details/78070832https://www.cnblogs.com/WonderHow/p/4403727.htmlimportosprint(os.getcwd())#fo
python笔记(一)获取当前目录路径和文件（抄录） z-pan python
一、获取当前路径1、使用sys.argv[0]importsysprintsys.argv[0]#输出#本地路径2、os模块importosprintos.getcwd()#获取当前工作目录路径printos.path.abspath('.')#获取当前工作目录路径printos.path.abspath('test.txt')#获取当前目录文件下的工作目录路径printos.path.abspa
‘urllib‘ has no attribute ‘urlencode‘ 计算机辅助工程 linux 运维服务器
报错解释：在Python3.x中，urllib库已经被分解为几个子模块，urllib.parse中包含了urlencode函数，用于将字典或者字节序列转换为URL编码的查询字符串。但是在Python3.x中直接使用urllib.urlencode()会导致这个错误，因为urllib模块中不存在urlencode这个属性。解决方法：你需要从urllib.parse模块中导入urlencode函数，并
/usr/bin/env: “python\r“: 没有那个文件或目录一只小团子 Error
报错：/usr/bin/env:"python\r":没有那个文件或目录/usr/bin/env:"python\r":Nosuchfileordirectory原因：在windows下从github中gitclone下来可能创建多了\r字符。#!/usr/bin/envpython在ubuntu会变成#!/usr/bin/envpython\r而\r会被shell当成参数。Windows文本文件
Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_74825223 面试学习路线阿里巴巴 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
基于 Python 的机器学习模型部署到 Flask Web 应用：从训练到部署的完整指南 m0_74825223 python 机器学习 flask
目录引言技术栈步骤一：数据预处理步骤二：训练机器学习模型步骤三：创建FlaskWeb应用步骤四：测试Web应用步骤五：模型的保存与加载保存模型加载模型并在Flask中使用步骤六：Web应用的安全性考量示例：简单的输入验证示例：自定义错误处理示例：使用Flask-JWT-Extended进行认证结论参考资料引言在当今数据驱动的时代，机器学习模型已经广泛应用于各行各业，从金融、医疗到教育等领域。然而，
Python数据分析与程序设计-番外：在vscode中使用Jupyter Notebook 想当糕手 python 数据分析 vscode jupyter
前言在系列文章的第二篇中，我们介绍了使用“if__name__=="__main__":”来模拟c语言中的main函数+封装测试函数的方法来提高代码可读性。当然，这并不是最佳的选择，本篇博客为您将介绍更为高效便捷的工具，希望能对你有所帮助！关于JupyterNotebookJupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它是
【2024年华为OD机试】(C/D卷,200分)- 5G网络建设（JavaScript&Java & Python&C/C++）妄北y 算法汇集笔记总结(保姆级)华为od c语言 5G python javascript java 网络
一、问题描述题目描述现需要在某城市进行5G网络建设，已经选取N个地点设置5G基站，编号固定为1到N。接下来需要各个基站之间使用光纤进行连接以确保基站能互联互通。不同基站之间假设光纤的成本各不相同，且有些节点之间已经存在光纤相连。请你设计算法，计算出能联通这些基站的最小成本是多少。注意：基站的联通具有传递性，比如基站A与基站B架设了光纤，基站B与基站C也架设了光纤，则基站A与基站C视为可以互相联通。
使用Python进行后端开发 code_welike python 开发语言后端
在现代的Web应用程序中，后端开发扮演着至关重要的角色。后端是负责处理数据、逻辑和业务规则的部分，它与前端交互并提供必要的功能和服务。Python是一种广泛使用的编程语言，具有丰富的库和框架，非常适合用于后端开发。本文将介绍如何使用Python进行后端开发，并提供一些示例代码。安装Python和相关工具首先，我们需要安装Python和一些常用的后端开发工具。你可以从Python官方网站（https
《利用python进行数据分析》——3.1数据结构和序列——元组、列表、字典、集合——读书笔记 pillow_L python数据分析
第3章Python的数据结构、函数和文件3.1数据结构和序列Python中常见的数据结构可以统称为容器。序列（如列表和元组）、映射（如字典）以及集合（set）是三类主要的容器。1.元组——tuple元组是一个固定长度，不可改变的Python序列对象。元组与列表一样，也是一种序列，唯一不同的是元组不能被修改（字符串其实也有这种特点）元组Tuple，一经初始化，就不能修改，没有列表List中的appe
chatgpt赋能python：Python当前文件目录：了解Python中的文件路径 atest166 ChatGpt python chatgpt 机器学习计算机
Python当前文件目录：了解Python中的文件路径Python是一个流行的编程语言，用于开发各种类型的应用程序。在Python中，文件路径是一个非常重要的概念，特别是在操作文件和文件夹时。在本篇文章中，我们将深入探讨Python当前文件目录及其相关概念。什么是当前文件目录？当前文件目录是指当前正在运行的Python文件的位置。在Python中，我们可以使用“os”模块中的函数轻松获得当前文件目
Python进阶实战：利用元组作为字典键的巧妙策略 Yori_22 Python编程 python 开发语言
在Python编程中，字典（dictionary）是一种非常强大且灵活的数据结构，它允许我们通过键（key）来快速访问和存储值（value）。通常，字典的键可以是任何不可变的数据类型，如整数、浮点数、字符串或元组。在这篇文章中，我们将深入探讨如何利用元组作为字典键的巧妙策略，特别是在处理复杂数据时，这种策略能够带来意想不到的便利和效率。一、元组作为字典键的基础在Python中，元组（tuple）是
Python基础06（字符串格式化/操作方法） XYX的Blog Python python 开发语言
字符串在Python中，字符串属于不可变有序序列，使用单引号、双引号、三单引号或三双引号作为定界符，并且不同的定界符之间可以互相嵌套。除了支持序列通用方法（包括双向索引、比较大小、计算长度、元素访问、切片、成员测试等操作）以外，字符串类型还支持一些特有的操作方法，例如字符串格式化、查找、替换、排版等等。字符串属于不可变序列，不能直接对字符串对象进行元素增加、修改与删除等操作，切片操作也只能访问其中
Python基础02（Python序列结构/列表/元组/集合/字典/序列解包） XYX的Blog Python python
Python序列结构序列结构的分类：1.有无顺序（是否可以通过索引访问序列结构的元素）：有序：列表，元组，字符串无序：字典，集合2.是否可变（是否可以增加或删除元素）：可变：列表，字典，集合不可变：元组，字符串1.List列表列表（list）是最重要的Python内置对象之一，是包含若干元素的有序连续内存空间。在形式上，列表的所有元素放在一对[]中，元素之间使用逗号分隔。在Python中，同一个列
【java小灶课】详解java与python的不同之处 wit_@ python java big data web
以下是一篇详细的博客，全面介绍了Java与Python在多方面的区别，包括语法、类型系统、内存管理、面向对象特性、并发编程以及常见应用场景等，希望能帮助你深入理解这两门语言的异同，为学习或实际应用提供指导。目录语言概述语法对比类型系统内存管理与垃圾回收面向对象特性函数式编程与Lambda表达式异常处理标准库与第三方库生态并发和多线程运行效率与性能优化常见应用场景学习曲线与社区支持总结1.语言概述J
华为OD机试E卷 --找数字--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述小扇和小船今天又玩起来了数字游戏，小船给小扇一个正整数n（1≤n≤1e9），小扇需要找到一个比n大的数字m，使得m和n对应的二进制中1的个数要相同，如：4对应二进制1008对应二进制1000其中1的个数都为1个现在求m的最小值。输入描述输入一个正整数n（1≤n≤1e9）输出描
【Python】成功解决ValueError: zero-size array to reduction operation minimum which has no identity 高斯小哥 BUG解决方案合集 python 新手入门学习 debug
【Python】成功解决ValueError:zero-sizearraytoreductionoperationminimumwhichhasnoidentity个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

用python实现一个豆瓣通用爬虫(登陆、爬取、可视化分析)

前言

登录

爬取

储存

可视化分析

手把手教你使用Flask搭建ES搜索引擎(实战篇)

手把手教你用Python进行SSH暴力破解

手把手教你用Python网络爬虫获取壁纸图片

你可能感兴趣的:(python,数据可视化,数据分析,csv,comet)