前端的小小对象

Python 爬取豆瓣影片短评生成词云统计

本文介绍利用python爬取豆瓣电影的影片短评，并生成词云和统计数据

github地址：https://github.com/736755244/douban_py

1、基本配置环境

版本：Python3.7

系统：Windows

2、所需模块及作用

以下模块如果没有安装，可以在cmd命令提示符里进行pip install + 模块名 进行安装。

（PS：或者使用清华镜像，速度较快：pip install 模块名 -i https://pypi.tuna.tsinghua.edu.cn/simple）

import requests  # 处理网络请求
from bs4 import BeautifulSoup  #将HTML转换成树形结构
import time  # 时间模块
import random  # 随机数
import pandas as pd  # 数据分析包
import xlsxwriter  # excel相关
from urllib.parse import quote  # 编码
import jieba  # 词云相关
from wordcloud import WordCloud  # 词云
import matplotlib.pyplot as plt  # matplotlib.pyplot

PS：安装完wordcloud模块后，中文生成词云会乱码，需要做如下修改：

①方法一：使用的时候指定使用的文字字体

wordcloud.WordCloud(font_path='simhei.ttf').generate(xxx)  # 使用微软雅黑字体

②方法二：直接修改模块引用，彻底解决这个问题

将自己的字体库放在安装目录中，并修改wordcloud.py文件中的引用

词频统计所需要的词语文件，可从搜狗词库中下载（.scel文件），然后格式转为txt文件

搜狗词库地址：https://pinyin.sogou.com/dict/

格式转换地址：http://tools.bugscaner.com/sceltotxt/

3、主要思路

①用户输入想搜索的电影名称

②对电影名称进行编码，并发送请求

③获取电影列表并打印，用户选择想要爬取的电影

④获取电影编号后，发送请求爬取页面

⑤对HTML页面进行处理，获取评论信息

⑥写入csv文件或excel文件

⑦生成词云图

⑧生成词频统计文件

4、代码相关

①获取影片列表接口：

在搜索栏输入名称时，发现会调用这个接口https://movie.douban.com/j/subject_suggest?q=编码后的电影名称

②获取评论接口：

点击分页发现会调用这个接口：

https://movie.douban.com/subject/'+ 影片id + '/reviews?start=（page+1）*10

或者这个接口：

https://movie.douban.com/subject/' + 影片id + '/comments?start={' + page+1 + '}&limit=20&sort=new_score&status=P

数据准备：

# 浏览器代理头
user_agent = [
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.168 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
        'Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50',
        'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)',
        'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB7.0)',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)',
        'Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)',
        'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.33 Safari/534.3 SE 2.X MetaSr 1.0',
        'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)',
        'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E) QQBrowser/6.9.11079.201',
        'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)',
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0',
        'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0'
    ]
cok='bid=IvV3BPXNahg; _pk_id.100001.4cf6=ce978a8d138f1315.1575613176.3.1575785754.1575621036.; __utma=30149280.1347665870.1575613177.1575621033.1575785749.3; __utmz=30149280.1575613177.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.1029442254.1575613177.1575621033.1575785755.3; __utmz=223695111.1575785755.3.2.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/; ll="118159"; __utmb=30149280.2.10.1575785749; __utmc=30149280; __utmt=1; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1575785754%2C%22https%3A%2F%2Fwww.douban.com%2F%22%5D; _pk_ses.100001.4cf6=*; __utmb=223695111.0.10.1575785755; __utmc=223695111; ap_v=0,6.0; __yadk_uid=zHCYWt7NZH2tQi08F9GyUw1256zStXSG; _vwo_uuid_v2=DC415C5465AFD4240435B780F3852697D|7092204f7d5cfc68e89ef8843ed4212b'

# 随机选取用户代理
def get_ua():
    au = random.choice(user_agent)
    return au

①主程序入口：

# 主程序入口
def main():
    movie_name = input("请输入想搜索的电影名称：")
    searchkey = quote(movie_name, 'utf-8')
    MovieUrl='https://movie.douban.com/j/subject_suggest?q=%s'%searchkey
    MovieList = get_movie(MovieUrl)  # 获取相关电影列表
    if len(MovieList)>0:
       # 输出电影信息，供用户自己选择
       for i,v in enumerate(MovieList,1):
           print('影片编号：%d  影片名称：%s  影片上映时间：%s'%(i, v['title'], v['year']))
       input_mid = input('请输入想查看的影片编号：')  # 选择电影
       mid = MovieList[int(input_mid)-1]['id']  # 获取电影编号
       pq_num = int(input('爬取多少页数据？'))  # 输入爬取页数
       choose_movie(movie_name,mid,pq_num)  # 爬取
    else:
        print('未获取到搜索结果')
        return

② 获取电影列表信息

# 抓取电影列表信息
def get_movie(url):
    headers = {
        'User-Agent': get_ua(),
        'Host': 'movie.douban.com',
        'Connection': 'keep-alive',
        'Cookie':cok
    }
    res = requests.get(url, headers=headers)
    movie_list = res.json()
    if len(movie_list)>0:
        return movie_list
    else:
        return []

③获取电影信息并解析

# 选择抓取的影片
def choose_movie(movie_name,movie_id,pq_num):
    url = 'https://movie.douban.com/subject/' + movie_id + '/comments?start={}&limit=20&sort=new_score&status=P'
    comments = []
    print("开始爬取")
    start_time = time.time()
    for i in range(pq_num):
        print("*******开始爬取第%d页数据*******" % (i + 1))
        soup = get_soup(url.format(i * 20))  # 获取html
        comments.extend(getText(soup))  # 添加列表中
        print("*******爬取完成，随机等待0-5秒*******")
        time.sleep(random.random() * 5)
    end_time = time.time()
    print("共用时%d秒" % (end_time - start_time))
    # 写入excel
    # writetoexcel(comments,movie_name)
    # 写入csv
    writetocsv(movie_name, comments)

# 抓取解析网页
def get_soup(url):
    # 伪装浏览器发送请求
    headers = {
        'User-Agent': get_ua(),
        'Host': 'movie.douban.com',
        'Connection': 'keep-alive',
        'Cookie':cok
    }
    res = requests.get(url, headers=headers)
    # if res.status_code==200:
    #     print("请求成功")
    time.sleep(random.random() * 5)  # 设置时间间隔，防止太快被封
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    print("解析完成")
    return soup

# 获取一页用户的评论
def getText(soup):
    comment_list = []
    for p in soup.select('.comment-item'):
        comment = {}
        # 根据元素选择器，获得所需的信息：用户名/评价/时间等
        username = p.select('.comment-info')[0]('a')[0].text
        watch = p.select('.comment-info')[0]('span')[0].text
        intro = p.select('.comment-info')[0]('span')[1]['title']
        cTime = p.select('.comment-time ')[0]['title']
        pNum = p.select('.votes')[0].text
        short = p.select('.short')[0].text.replace('\n', ' ')
        comment['用户名'] = username
        comment['观看情况'] = watch
        comment['评分推荐'] = intro
        comment['评论时间'] = cTime
        comment['短评内容'] = short
        comment['赞同该评论次数'] = pNum
        comment_list.append(comment)
        # comment_list.append([username,watch,intro,cTime,short,pNum])
    return comment_list

④写入excel文件或csv文件

# 写入excel
def writetoexcel(list,name):
    print('创建excel')
    book = xlsxwriter.Workbook(u'海王评论.xlsx')
    sheet = book.add_worksheet()
    sheet.write(0, 0, '用户名')
    sheet.write(0, 1, '观看情况')
    sheet.write(0, 2, '评分推荐')
    sheet.write(0, 3, '评论时间')
    sheet.write(0, 4, '短评内容')
    sheet.write(0, 5, '赞同该评论次数')
    row = 1
    col = 0
    for index, item in enumerate(list):
        # print('写入第%s行数据'%row)
        sheet.write(row, col, item[0])  # 用户名
        sheet.write(row, col + 1, item[1])  # 观看情况
        sheet.write(row, col + 2, item[2])  # 评分推荐
        sheet.write(row, col + 3, item[3])  # 评论时间
        sheet.write(row, col + 4, item[4])  # 短评内容
        sheet.write(row, col + 5, item[5])  # 赞同该评论次数
        row += 1
    print('写入完成')
    book.close()  # 关闭
    # 是否生成词云
    time.sleep(3)
    isCleanData = input('是否生成词云(Y/N)?')
    if isCleanData == 'Y':
        get_text(name)

# 写入csv
def writetocsv(name,list):
    commentFile = pd.DataFrame(list)
    commentFile.to_csv(r'%s.csv'%name, encoding='utf_8_sig')
    # 是否生成词云
    time.sleep(3)
    isCleanData=input('是否生成词云(Y/N)?')
    if isCleanData=='Y':
        get_text(name)

⑤生成词云和统计数据

# 生成词云和统计数据
def get_text(name):
    # 读取爬取的评论
    fp = open(r'%s.csv'%name, 'r', encoding='utf-8').read()
    jieba.load_userdict('scel_to_text.txt')
    # jieba.add_word()  # 可以添加自定义词典
    # 将文件中所有文字分词
    words_list = jieba.lcut(fp)
    # 用空格分隔词语
    tokenstr = ' '.join(words_list)
    mywc1 = WordCloud().generate(tokenstr)
    # 显示词云
    plt.imshow(mywc1)
    plt.axis('off')
    plt.show()
    mywc1.to_file('%s.png'%name)  # 生成词云图片

    # 是否生成词频统计
    time.sleep(3)
    issum = input('是否生成词频统计(Y/N)?')
    if issum == 'Y':
        word_dict = {}
        # set:无序非重对象
        words_set = set(words_list)
        for w in words_set:
            # 高频词大于一个字的，当然这里可以自定义取值规则
            if len(w) > 1:
                word_dict[w] = words_list.count(w)
        # 排序  word_dict.items() : [('尤其', 1), ('雷神', 2), ('再现', 1), ('之子', 1), ('热泪盈眶', 1), ('不过', 3), ('记住', 1)]
        '''
        sorted:
        iterable -- 可迭代对象。
        cmp -- 比较的函数，这个具有两个参数，参数的值都是从可迭代对象中取出，此函数必须遵守的规则为，大于则返回1，小于则返回-1，等于则返回0。
        key -- 主要是用来进行比较的元素，只有一个参数，具体的函数的参数就是取自于可迭代对象中，指定可迭代对象中的一个元素来进行排序。
        reverse -- 排序规则，reverse = True 降序 ， reverse = False 升序（默认）。
        '''
        words_sort = sorted(word_dict.items(), key=lambda x: x[1], reverse=True)
        # 输出词频TOP20
        words_sort1 = words_sort[:20]
        pd.DataFrame(data=words_sort1).to_csv('统计数据.csv', encoding='utf-8')

5、运行结果

相关问题欢迎留言讨论！

详解Python Google Protocol Buffer 职场亮哥
本篇主要介绍如何在Python语言中使用GoogleProtocolBuffer（后续都简写为PB），包括以下几个部分：为什么要使用PB？安装GooglePB自定义.proto文件编译.proto文件解析目标py文件序列化和反序列化更复杂的Message动态编译为什么要使用PB？PB（ProtocolBuffer）是Google开发的用于结构化数据交换格式，作为腾讯云日志服务标准写入格式。因此用于
Python 安装库报错 “python setup.py egg_info did not run successfully.“ SmallerFL 其他问题 fix Mac 环境设置安装 Python相关 python 开发语言人工智能 nlp
文章目录1.Python安装库报错2.问题解决3.参考1.Python安装库报错有时Python用pipinstall安装库的时候会报错，pythonsetup.pyegg_infodidnotrunsuccessfully.，我在安装deepspeed报错示例如下：Preparingmetadata(setup.py)...errorerror:subprocess-exited-with-er
【AI技术】Edge-TTS 国内使用方法一者仁心 AI AI编程 TTS
介绍：TTS软件效果里，微软推出的免费使用的Edge-TTS平台是效果比较好的，但是目前该平台开始对国内阻止使用了。这里给大家和我一样使用该python库的小伙伴一个临时的解决方法。提示：建议大家还是要么迁移到国内的收费平台或者是一些免费的开源框架（paddlespeech、gpt-sovits）解决方案：这个TTS服务在Edge浏览器中其实也有嵌入，并且国内一样可以使用，经过和官方的访问地址对比
2023第十四届蓝桥杯Python大学生A组真题？（真题+附链接）大C爱编程蓝桥杯职场和发展
第十四届蓝桥杯大赛软件赛省赛Python大学A组试题A:特殊日期本题总分：5分【问题描述】记一个日期为yy年mm月dd日，统计从2000年1月1日到2000000年1月1日，有多少个日期满足年份yy是月份mm的倍数，同时也是dd的倍数。【答案提交】这是一道结果填空的题，你只需要算出结果后提交即可。本题的结果为一个整数，在提交答案时只填写这个整数，填写多余的内容将无法得分。试题B:分糖果本题总分：5
PyOxidizer：现代Python应用打包与分发工具胡霆圣
PyOxidizer：现代Python应用打包与分发工具PyOxidizerAmodernPythonapplicationpackaginganddistributiontool项目地址:https://gitcode.com/gh_mirrors/py/PyOxidizerPyOxidizer是一个用于生成内嵌Python解释器的二进制文件的实用工具，主要使用Rust编程语言开发，同时也包含一
将Python程序打包为Windows可执行文件格式 CherylNatsu Python 技术文档 python windows extension microsoft parsing exe
花一天时间随便找了几篇文章入门Python，并且写了几个Python小程序想和朋友分享一下顺便推荐这个很棒的编程语言，但是遗憾的是朋友的电脑没有安装Python，而且还是用Windows系统，所以最好的办法是把Python程序转换为Windows上的可执行文件。首先要下载“适当版本“的Python：http://www.python.org/getit/还需要一个叫py2exe的程序：http:/
Streamlit，一个超强的 Python 应用开发库！一行玩python python 开发语言
大家好，我是“一行”。今天，我们要来聊一个非常酷的Python库——Streamlit。如果你有过构建Web应用的经验，或者你对快速搭建交互式应用感兴趣，那么Streamlit会是一个非常棒的工具。它可以让你用极少的代码，快速创建出功能强大且美观的Web应用。无论你是数据分析师、机器学习工程师，还是Python初学者，Streamlit都能帮你轻松实现数据可视化、模型展示等功能。今天我们就从基础开
python 开发app 三希 python 开发语言
在Python中开发应用程序（通常指的是移动应用）有多种方法。以下是两种常见的技术栈：KivyKivy是一个开源Python库，用于快速开发跨平台的触控应用。它支持Android、iOS、Windows、MacOS和Linux。以下是使用Kivy开发的基本步骤：1.安装Kivy:在命令行中使用pip安装Kivy：pipinstallkivy2.创建你的应用:创建一个简单的Python文件，比如ma
在Python中实现一个简单的社交媒体应用清水白石008 Python题库 python python 媒体开发语言
在Python中实现一个简单的社交媒体应用社交媒体应用是现代互联网的重要组成部分，允许用户分享信息、交流和互动。在这篇博文中，我们将使用Python构建一个简单的社交媒体应用，涵盖用户注册、发布动态、评论和查看动态等基本功能。我们将使用Flask框架作为后端，SQLite作为数据库，前端使用HTML和Bootstrap进行简单的界面设计。一、项目准备1.环境设置首先，确保你已经安装了Python和
Python的那些事第二篇：编程界的“交通规则”基本语法与编程的“食材”和“容器”数据类型与变量暮雨哀尘 Python的那些事 python vscode visual studio pycharm 开发语言 windows
摘要Python以其简洁易懂的语法和强大的功能，成为了编程界的“小白福音”。本文将带你从Python的基本语法入手，深入探讨标识符命名规则、缩进的重要性、注释的使用，以及数据类型与变量的定义和操作。通过幽默的语言和丰富的实例代码，我们将一步步揭开Python的神秘面纱，让你在轻松愉快的氛围中掌握这门强大的编程语言。1.Python基本语法1.1标识符命名规则在Python的世界里，标识符就像是给变
【使用PyQt创建美观和功能丰富界面】 Dreams°123 pyqt microsoft python
使用PyQt创建美观和功能丰富界面-适用于APP一、基本概念与环境搭建二、布局管理三、部件使用与定制四、信号与槽机制深入应用五、样式表（stylesheet）和主题应用一、基本概念与环境搭建安装PyQt使用以下命令安装PyQt：pipinstallPyQt5（如果使用Python3）。理解信号与槽机制信号（Signal）：是对象发出的事件通知，例如按钮的点击、文本框内容的改变等。槽（Slot）：是
python+selenium获取cookie session_Python3+Selenium获取session和token供Requests使用教程 weixin_39997695 session
#!/usr/bin/python3#coding:utf-8importtimefromseleniumimportwebdriverfromselenium.webdriver.support.waitimportWebDriverWaitfromselenium.webdriver.supportimportexpected_conditionsasECfromselenium.webdri
python聊天软件_python开发简单的聊天工具 weixin_39644139 python聊天软件
python太强大了，以至于它什么都可以做，哈哈，开个玩笑。但是今天要讲的真的是一个非常神奇的应用。使用python写一个聊天工具其实大家平时用的QQ类似的聊天工具，也是使用socket进行聊天，只是它还包含了更加复杂的功能。基本原理是一样的。python实现聊天功能，主要用到了socket模块。下面直接上实例吧server端importsockets=socket.socket()#建立sock
Centos安装python3详细教程 Circle square 自学 python centos linux
文章目录Centos安装python3详细教程1、先查看系统python的位置在哪儿2、下载python3的包之前，要先安装相关的依赖包，用于下载编译python3：3、默认的centos7是没有安装pip，先添加epel扩展源4、安装pip5、用pip装wget6、用wget下载python3的源码包，或者自己先下载好，上传到服务器再安装，如果网络快可以直接安装7、编译python3源码包，解压
nvdia triton server运行pt文件滑稽的柴犬神经网络机器学习 python
tritonserver默认都是tensorrt推理。但也会出现有操作不支持，导致无法转模型为engine的情况。可以选择直接运行pytorch的pt文件，以下为操作步骤。1.pytorch后端环境编译步骤原理是使用pytorchC++API运行pt文件模型。安装依赖项apt-getinstallpatchelfrapidjson-devpython3-dev构建NGC的PyTorch容器。例如，
【小黑送书—第十八期】＞＞让工作自动化起来！无所不能的Python(文末送书） 2401_84302628 程序员自动化 python 运维
随着我国企业数字化和信息化的深入，企业对办公自动化的效率和灵活性要求越来越高。Python作为一种开源的软件应用开发方式，通过提供强大丰富的库文件包，极大地简化了应用开发过程，降低了技术门槛。Python开发有哪些优势、挑战以及实践方法呢？一、Python是办公自动化的重要工具在我们的日常工作中，有不少工作是重复的，例如不少办公文档的处理工作等，这些重复工作如果用Python来实现办公自动化，效率
2024年网络安全最全让工作自动化起来！无所不能的Python(1) 2401_84281638 程序员自动化 python 运维
1.3.2多攒代码71.3.3学会并且精通代码调试81.3.4伤其五指不如断其一指8第2章Python的工作环境102.1Python工作环境的构成102.1.1Python的核心软件102.1.2Anaconda112.1.3IDE工具122.2安装过程中的常见问题122.3Python中的两种解释器132.4包的安装202.4.1在线安装202.4.2离线安装212.5Pycharm中的解释器
【Python进阶】5步掌握Pandas数据结构，你真的学会了吗？墨瑾轩 Python入门~精通 python pandas 数据结构
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5步掌握Pandas数据结构，你真的学会了吗？引言❓亲爱的小伙伴们，你们有没有遇到过这样的情况：在处理结构化数据时，总是觉得Python内置的列表和字典不够灵活？别担心，今天我们就来一场“Pandas数据结构大挑战”，手把手教你如何使用Pandas的两大核心数
Python3 搭建本地 PyPi 源极客点儿 #Python python pip
搭建本地PyPi源的方式有很多，也有很多软件，较常用就是在官方PyPi中自带的pypiserver包。1.安装pypiserverpipinstallpypiserver2.启动pypiserverpypi-server3.上传Python包将我们打包好的Python包放到~/packages目录下，tar和whl都可以。4.远程上传Python包创建~/.pypirc文件，添加如下内容：[dis
Python从0到100（六十一）：机器学习实战-实现客户细分是Dream呀 python 机器学习开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python数据获取：从基础到实践，一场数据探索之旅傻啦嘿哟关于python那些事儿 python oracle 开发语言
目录一、引言二、理解数据获取的基本概念三、使用Python进行网络数据抓取3.1基础工具：requests库3.2解析HTML：BeautifulSoup库3.3实战案例：抓取网页新闻列表四、从文件中读取数据4.1使用pandas读取CSV文件4.2读取Excel文件五、数据库数据访问六、数据清洗与预处理6.1处理缺失值6.2处理异常值6.3处理重复值6.4数据格式化与编码6.5数据标准化与归一化
使用Python进行高并发压测：技术指南与实战案例傻啦嘿哟关于python那些事儿 python 开发语言
目录一、引言二、压测基础知识压测的目的与类型压测工具的选择三、使用Python进行压测Python压测框架的选择压测脚本的编写压测的执行与监控四、实战案例分析案例背景介绍压测计划制定压测实施过程结果分析与优化建议五、常见问题与解决方案六、总结一、引言在软件开发过程中，性能测试是确保软件系统质量的关键环节之一。高并发压测作为性能测试的一种重要形式，通过模拟大量用户同时访问系统，以检验系统在极限负载下
同步清华镜像源，制作本地pip镜像源淡若静水Summer pip pip pip源
同步清华镜像源，制作本地pip镜像源访问清华源下载建立索引启动pip服务客户端测试为了方便国内用户使用pip模块，国内很多已经配置专用的pip镜像源国内镜像源阿里云http://mirrors.aliyun.com/pypi/simple/豆瓣http://pypi.douban.com/simple/清华大学https://pypi.tuna.tsinghua.edu.cn/simple/中国科
python 获取windows管理员权限天涯望小楼 python 开发语言
Python,Windows相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shelPython获取Windows管理员权限在Windows操作系统中，有时我们需要运行一些需要管理员权限的任务，例如修改系统设置、安装软件等。在Python中，我们可以通过一些方法来获取管理
python可执行程序必须以管理员_Python实现管理员权限运行CMD指令 weixin_39977488
一、subprocess.PopenPython执行cmd指令属于外部调用，subprocess.Popen方法即可，实现如下：#!/usr/bin/python3#coding:utf-8importsubprocessdefcommand(cmd,timeout=1800000):try:sp=subprocess.Popen(cmd,shell=True,stdout=subprocess.
搭建python本地源 weixin_34234829 python 开发工具
1.安装pip工具[root@tongc-yum162~]#wgethttps://files.pythonhosted.org/packages/d3/3e/1d74cdcb393b68ab9ee18d78c11ae6df8447099f55fe86ee842f9c5b166c/setuptools-40.0.0.zip[root@tongc-yum162~]#cdsetuptools-40.0
解决python -m pip install --upgrade pip更新失败 svygh123 python pip 开发语言
C:\Users\Administrator>python-mpipinstall--upgradepipLookinginindexes:https://pypi.tuna.tsinghua.edu.cn/simpleCollectingpipERROR:HTTPerror403whilegettinghttps://pypi.tuna.tsinghua.edu.cn/packages/8a/6
搭建自定义的Python pip源教程代码编织匠人 python pip 开发语言 Python
在Python开发过程中，我们经常使用pip来安装各种Python包和库。pip是Python的包管理工具，它可以从互联网上下载并安装Python包。默认情况下，pip使用官方的Python包源，但有时我们需要搭建自己的pip源，以便在内部网络或特定环境中使用。本教程将向您展示如何在Python环境下搭建属于自己的pip源。我们将使用pip的配置文件来指定自定义源的URL，并演示如何测试和使用自定
windows基于face_recognition实现人脸识别 Python小萝卜计算机视觉 python 人脸识别 python face_recogni
环境搭建pipinstallopencv-python--user-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-contrib-python--user-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallcmake--user-ihttps://pypi.tuna.tsing
Python计算离差与标准计分 Mr数据杨 Python 数据分析师 python 数据分析开发语言
离差和标准计分是统计学和数据分析中的重要概念，广泛应用于各类数据集的处理和分析过程中。掌握离差和标准计分有助于理解数据的分布情况，评估数据在群体中的相对位置，尤其在处理大规模数据或数据分析时非常重要。本教程将通过详细解释离差与标准计分的概念，并结合实际示例，帮助读者在编程环境下应用这些知识。离差与标准计分不仅在统计学中有理论意义，在实际工作场景中，比如教育测评、金融分析、科研实验等领域，也能帮助数
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

Python 爬取豆瓣影片短评 生成词云统计

你可能感兴趣的:(Python,python,爬取,豆瓣影评)

Python 爬取豆瓣影片短评生成词云统计