weixin_42088036

python爬取豆瓣电影评论数据+情感分析可视化

豆瓣电影可视化情感分析

python爬取豆瓣电影评论数据+情感分析可视化
- 技术详解
- python爬取豆瓣电影评论数据
- 豆瓣评论数据分析
- - 数据查看
  - 如果列宽不足，则显示其他所有列
  - 显示数据的详细信息
  - 查看空数据
  - 去除空数据
  - 查看数据信息
  - 对日期进行统计
  - 电影上映后每天的评论数量走势
  - 电影上映后每天的评分走势
  - 评分饼图
  - 生成词云
  - 读取出来显示一下
总结

python爬取豆瓣电影评论数据+情感分析可视化

什么是数据分析？
数据分析是指运用适当的统计分析方法或者工具对收集来的大量数据进行整理和归纳，将它们加以汇总和理解并消化，提取有价值信息，从中发现因果关系、内部联系和业务规律，以求最大化地开发数据的功能，形成有效结论的过程，发挥数据的作用。

技术详解

Python编程语言及相关开发环境（python、pycharm、anaconda）
Python数据分析组件（numpy、pandas）
python可视化组件（matplotlib）
中文分词python库（ jieba ）
词云（ wordcloud ）

python爬取豆瓣电影评论数据

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

#!/usr/bin/python3
# -*- coding:utf-8 -*-
# author: 恒仔仔

# ====================================================
# 内容描述：爬取豆瓣电影评论数据
# ====================================================

import urllib.request
from bs4 import BeautifulSoup
import random
import time
import csv
from tqdm import tqdm
import string


def getHTML(url,movieid):
    """获取url页面"""
    id = movieid
    user_agents = list({
       'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60',
       'Opera/8.0 (Windows NT 5.1; U; en)',
       'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50',
       'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50',
       'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0',
       'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10',
       'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 ',
       'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36',
       'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
       'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
       'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36',
       "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",
       'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko',
       'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11',
       'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER',
       'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)',
       'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0',
       'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0) ',
       "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
       "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
       "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
       "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
       "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
       "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
       "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
       "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
       "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
       "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
       "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
       "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
       "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
       "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
       "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
       "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
       "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
       "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
       "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
       "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14"})

    headers = {
        # 注意：使用登陆账号的cookie最多能爬取500条数据，使用不登录账号的cookie最多只能爬取200条数据
        # 防止账号被永久封禁，请自行添加 IP 代理，或者不登陆账号，爬取少量数据做分析即可
        'Cookie': '你自己的cookie',
        'User-Agent': str(random.choice(user_agents)),
        'Referer': 'https: // movie.douban.com / subject / ' + id + '/ comments?status = P',
        'Connection': 'keep-alive'
    }
    request = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')

    return content


def getComment(url,movieid):
    """解析HTML页面"""
    html = getHTML(url,movieid)
    bs = BeautifulSoup(html, 'html.parser')

    # 评论作者
    one_page_authors = []
    authors = bs.select(".comment-info a")
    for author in authors:
        one_page_authors.append(author.text)

    # 评论内容
    one_page_comments = []
    comments = bs.select(".comment .short")
    for comment in comments:
        # 去掉所有标点符号
        content_str = ''.join(c for c in comment.text if c not in string.punctuation) \
            .replace(" ", "").replace("\n", "")
        one_page_comments.append(content_str)

    # 评论评分
    one_page_rates = []
    rates = bs.select(".rating")
    for rate in rates:
        rate_str = str(rate.get("class")).split(" ")[0]
        rate_score = int([int(i) for i in rate_str if i.isdigit()][0])
        one_page_rates.append(rate_score)

    # 评论title
    one_page_titles = []
    titles = bs.select(".rating")
    for title in titles:
        one_page_titles.append(title.get("title"))

    # 评论日期
    one_page_dates = []
    dates = bs.select(".comment-time")
    for date in dates:
        one_page_dates.append(date.get("title"))

    # 评论是否有用
    one_page_uses = []
    uses = bs.select(".votes")
    for u in uses:
        one_page_uses.append(u.text)

    return [one_page_authors, one_page_comments, one_page_rates, one_page_titles, one_page_dates, one_page_uses]


def generateURL(movieid):
    """ 生成所有的 待爬取的 URL """
    urls = []
    id = movieid
    # 好评数据
    page_number = 25
    for page in range(page_number):
        url = 'https://movie.douban.com/subject/' + id + '/comments?start=' + str(20 * page) + '&limit=20&sort=new_score&status=P&percent_type=h'
        urls.append(url)

    page_number = 25
    # 中评论数据
    for page in range(page_number):
        url = 'https://movie.douban.com/subject/' + id + '/comments?start=' + str(20 * page) + '&limit=20&sort=new_score&status=P&percent_type=m'
        urls.append(url)

    page_number = 25
    # 差评数据
    for page in range(page_number):
        url = 'https://movie.douban.com/subject/' + id + '/comments?start='+ str(20 * page) + '&limit=20&sort=new_score&status=P&percent_type=l'
        urls.append(url)

    page_number = 5
    # 最新数据
    for page in range(page_number):
        url = 'https://movie.douban.com/subject/' + id + '/comments?start=' + str(20 * page) + '&limit=20&sort=time&status=P&percent_type=l'
        urls.append(url)

    # 想看
    page_number = 25
    for page in range(page_number):
        url = 'https://movie.douban.com/subject/' + id + '/comments?start=' + str(20 * page) + '&limit=20&sort=new_score&status=F'
        urls.append(url)

    return urls


if __name__ == '__main__':
    file = open('movie.csv', mode="w", encoding="utf-8", newline="")
    csv_writer = csv.writer(file)
    movieid = str() #输入电影id号
    # 拿到所有的待爬取的URL
    urls = generateURL(movieid)
    print(urls)
    times = list(range(8, 16))

    for url in tqdm(urls):
        print(url)
        # 每个URL就是一页评论数据
        [authors, comments, rates, titles, dates, uses] = getComment(url,movieid)

        result_list = []
        # 输出结果到文件中
        for i in range(len(authors)):
            result_list.append([authors[i], comments[i], rates[i], titles[i], dates[i], uses[i]])
        csv_writer.writerows(result_list)

        time.sleep(random.choice(times))

豆瓣评论数据分析

导入需要的库

import jieba
import wordcloud
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

为了解决matplotlib显示中文问题，仅适用于Windows

plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

数据查看

filepath = "movie.csv"
data = pd.read_csv(filepath, names=["date", "rate", "title", "uses", "name", "comment"], usecols=[0, 1, 2, 3, 4, 5])
display("数据集有{}条记录。".format(len(data)))

display(data.head())

如果列宽不足，则显示其他所有列

进行设置即可

# 如果部分列的信息没显示出来，可以这么做
pd.set_option("max_columns", 20)
display(data.head())

显示数据的详细信息

data.info()

查看空数据

data[data["rate"].isnull()].head()

去除空数据

data.dropna(axis=0, inplace=True)
data.sample(10)

data.info()

查看数据信息

display(data.columns)
data.describe()

对评分进行简单的频次统计

data["rate"].plot(kind="hist")

data["rate"].plot(kind="kde")

data.groupby("rate").size().plot(kind="bar")

对日期进行统计

data["date"] = data["date"].apply(lambda x: str(x).split(" ")[0])
data.head()

data["title"].value_counts()

输入自己需要截止的日期

data[data["date"] > "2020-10-08"].sample(30)

data[data["date"] > "2020-10-08"]["date"].value_counts()

按照每天统计评论数

data[data["date"] > "2019-07-26"].groupby("date").size().plot(kind="bar")

电影上映后每天的评论数量走势

import pandas as pd
import matplotlib.pyplot as plt

# 读取文件
df = pd.read_csv("c:/movie.csv", 
                 names=["date", "rate", "title", "uses", "name", "comment"], 
                 usecols=[0, 1, 2, 3, 4, 5])

# 去掉带null字段的数据
df.dropna(axis=0, inplace=True)

# 处理日期字段，保留年月日，去掉时分秒
df["date"] = df["date"].apply(lambda x: str(x).split(" ")[0])
df["count"] = 1

# 筛选出上映之后的评论数据
df1 = df[df["date"] > "2019-10-08"]

# 按天统计评论的个数，并且按照天数排序
# df_result = df1.groupby("date")["count"].agg(["count"]).sort_values("count", ascending=False)
# 按天统计评论的个数
df_result = df1.groupby("date")["count"].agg(["count"])

df_result.plot(kind='bar')
plt.show()

电影上映后每天的评分走势

["rate"].agg(["mean"]).sort_values("mean", ascending=False)
# 统计每天评论的平均分
df_result = df1.groupby("date")["rate"].agg(["mean"])

df_result.plot(kind='bar')
plt.show()

评分饼图

# 绘图
df_result.plot.pie(subplots=True, figsize=(6, 6), fontsize=18, counterclock=False, startangle=-270)
plt.title("评分饼图", fontsize=16, fontweight="bold")
plt.ylabel("", fontsize=12, fontweight="bold")
plt.show()

生成词云

filepath = "c:/nezha.csv"
file = open(filepath, mode="r", encoding="utf-8")
content = file.read().replace("推荐", "").replace("力荐", "")
file.close()

# 分词，并生成词云图
ls = jieba.lcut(content)
txt = " ".join(ls)
w = wordcloud.WordCloud(font_path='c:\windows\Fonts\STZHONGS.TTF', width=1200, height=500, background_color='white')
w.generate(txt)
w.to_file('movie.png')

读取出来显示一下

import matplotlib.image as imgplt
x = imgplt.imread("movie.png")
plt.imshow(x)

总结

数据分析流程

明确分析目的和思路/提出假设
数据收集
数据库业务数据 + 日志数据 + 公开出版物 + 互联网 + 市场调查
数据处理/整理
数据处理是指对收集到的大量数据进行加工、整理，把它变成适合数据分析的样式。
数据处理主要包括：数据清洗、数据转化、数据提取、数据计算等处理方法。
数据分析/验证假设
Python的Numpy/Pandas，SPSS/SAS，Matlab/R，RDBMS/MySQL/Hive
数据展现/可视化图表
柱状图，折线图，散点图，饼图，条形图，雷达图，地图，热力图，气泡图，面积图…
报告撰写
三个要求：好的分析框架 + 明确的结论 + 建议/解决方案

【Python】通过注释插桩替换代码实现开源自动化 ChrisEighteen18 python python
需求提出在特定的标签注释后写上开源后的代码实现开源替换答疑解惑调用如下的代码即可实现defreplace_java_code_in_one_line_by_tag(patch_file_path,update_java_code_line_tag):"""本方法对包含update_java_code_line_tag的之前本行内所有内容进行删除操作;适用于对java文件的代码替换，即在包含upda
python量化实战_Python与量化投资从基础到实战.pdf weixin_39841709 python量化实战
作者：王小川出版发行:北京：电子工业出版社,2018.03ISBN号：978-7-121-33857-1页数：408原书定价:99.00开本:16开主题词:软件工具-程序设计-应用-投资中图法分类号:F830.59-39(经济->财政、金融->金融、银行->金融、银行理论)内容提要:本书主要讲解如何利用Python进行量化投资，包括对数据的获取、整理、分析挖掘、信号构建、策略构建、回测、策略分析等
从面试到晋升：美团技术专家的职业发展全记录 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶面试职场和发展 ai
从面试到晋升：美团技术专家的职业发展全记录关键词：美团技术专家、技术职级体系、面试准备、晋升路径、能力模型、技术管理、职业发展摘要：本文深度解析美团技术专家的职业发展路径，从面试准备阶段的简历优化、技术笔试、多轮面试策略，到晋升过程中的能力模型构建、项目实战经验、跨团队协作技巧，结合具体案例和实战经验，完整呈现从初级工程师到资深技术专家的成长轨迹。通过剖析美团独特的T序列职级体系、能力评估标准和考
Prometheus搭建和 Node_Exporter搭建强_子 prometheus
1.Prometheus和Node_Exporter的关系●Prometheus:是一个开源的监控和告警工具，能够从各种数据源（如NodeExporter）拉取指标，并存储这些指标。它提供了一个强大的查询语言（PromQL），可以用来分析和可视化监控数据。●Node_Exporter:是Prometheus的一个官方插件，用于收集主机系统的硬件和操作系统级别的指标（如CPU使用率、内存使用情况、磁
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
ABP VNext + Kubernetes & Istio：微服务网格实战指南
ABPVNext+Kubernetes&Istio：微服务网格实战指南目录ABPVNext+Kubernetes&Istio：微服务网格实战指南一、引言二、环境与依赖️三、项目与基础部署3.1生成Kubernetes资源3.2构建Docker镜像3.3HelmChart目录结构与参数注入四、安装Istio&定义入口五、Mermaid全链路流程概览六、将服务注入IstioMesh七、流量管理与金丝雀
渗透测试视角：Web 应用常见漏洞的利用与防御策略
Web应用已成为企业业务的核心载体，但SQL注入、XSS、文件上传漏洞等安全问题频发。从渗透测试视角分析漏洞的利用原理，才能制定更有效的防御策略。本文将结合实战案例，解析Web应用常见漏洞的利用方式与防御方法。一、SQL注入漏洞：数据库的“隐形后门”SQL注入是最常见的Web漏洞之一，攻击者通过在参数中插入SQL语句，操控数据库获取数据或执行命令。漏洞原理与利用场景当Web应用未对用户输入进行过滤
Python量化实战：基于索提诺比率的价值投资策略回测量化价值投资入门到精通 python 网络开发语言 ai
Python量化实战：基于索提诺比率的价值投资策略回测关键词：Python量化分析、索提诺比率、价值投资策略、回测框架、风险调整收益、下行风险、量化实战摘要：本文深入探讨如何利用Python构建基于索提诺比率（SortinoRatio）的价值投资策略，并通过完整的回测框架验证策略有效性。首先解析索提诺比率的数学原理与核心优势，对比传统夏普比率的差异；其次详细演示价值投资策略的构建步骤，包括低估值因
iOS WebView 调试实战页面跳转失效与历史记录错乱的排查路径 2501_92835650 ios
在混合开发中，Web页面通过WebView承载后，经常会遇到这样的问题：点击跳转没有反应、历史记录错乱、后退页面空白，甚至浏览器里的history.back()无效。这些问题在浏览器调试时很难复现，却在iOSWebView容器中频繁出现。本文基于一个真实案例，拆解iOSWebView中涉及页面跳转的核心机制、调试路径与协同流程，并结合调试工具实践，包括WebDebugX在其中所完成的关键观察任务。
Python+Allpairspy实战：高效正交法测试用例设计全攻略聪明的一休哥哥测试开发技术大全 python 测试用例自动化测试
引言：正交法的核心价值正交实验法是一种通过科学筛选参数组合来优化测试用例设计的技术。其核心思想是从所有可能的参数组合中，选择最具代表性的N个组合进行测试，既能显著减少用例数量（通常可减少30%-70%），又能保证覆盖关键场景。例如：传统全组合测试：3因素×3水平=27种组合正交法优化后：仅需4-9种组合即可覆盖核心场景1、Allpairspy库安装与基础使用1.1、安装命令pipinstallal
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
Python包高级开发技术：性能优化与系统集成软考和人工智能学堂 Python开发经验深度学习强化学习 python 性能优化开发语言
引言掌握Python包的高级开发技术是构建工业级应用的关键。本文将深入探讨Python包的性能优化策略、C扩展开发、异步IO集成以及跨语言互操作等高级主题，帮助你将Python包提升到专业水平。1.性能优化技术1.1性能分析工具链#性能分析工具矩阵perf_tools={'cProfile':'标准库分析器，提供函数级耗时统计','line_profiler':'行级分析器，需要@profile装
2、Python 测试全攻略：自动化与驱动开发辣条鉴定师 Python测试自动化测试测试驱动开发
Python测试全攻略：自动化与驱动开发1.测试的乐趣与收益编程过程中，测试常被视为徒劳或浪费时间的事。但实际上，测试可以变得轻松有趣且富有成效。比如回忆一下曾遇到的恼人bug，可能是数据库模式不匹配、数据结构错误等。若有一小段代码能在恰当时间捕捉到该bug并告知你，而所有代码都配有这样易执行的测试代码，那bug存活时间会大大缩短。基本思路是用简单易写的代码片段告知计算机期望结果，让计算机在编码过
华为OD机考2025B卷 - 表达式括号匹配（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述(1+(2+3)*(3+(8+0))+1-2)这是一个简单的数学表达式,今天不是计算它的值,而是比较它的括号匹配是否正确。前面这个式子可以简化为(()(()))这样的括号我们认为它是匹配正确的,而((())这样的我们就说他是错误的。注意括号里面的表达式可能是错
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
Python.03 唯怡委员 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程是Linux中资源分配的基本单位，代表程序在内存中的执行实例，拥有独立的地址空间和系统资源。通过ps、top命令查看，kill命令终止，或使用systemctl管理服务进程。线程是进程内的轻量级执行单元，共享进程资源（如内存），切换开销小。Linux通过POSIX线程（pthread）库实现，可用htop查
Python.01 唯怡委员 python
Python.011.技术面试题（1）TCP与UDP的区别是什么？（2）DHCP和DNS的作用是什么？（3）简述Linux文件系统的目录结构，其中/boot、/var、/usr目录的作用分别是什么？（4）Linux系统突然无法访问外网，但内网通信正常。请列出至少5个可能的故障点及排查步骤。2.HR面试题（1）假如你成功入职，却发现直属领导能力远不如你，你会如何与他共事？（2）你简历上的经历并不突出
Vue 2现代模式打包：双包架构下的性能突围战 Jokerator javascript javascript vue.js
文章目录一、场景痛点：兼容性与性能的撕裂二、技术解析：ModernMode的双引擎驱动1.基础认知：什么是ModernMode？2.原理深入：HTML智能分发与Safari10修复3.性能收益对比表三、Vue2项目实战：启用Modern模式与深度优化1.基础启用步骤2.避坑指南：常见问题与解决方案3.二次优化策略（结合Modern模式）四、总结：三层认知升华面对ES2015+语法在旧浏览器的兼容包
大数据领域数据架构的实时数据可视化架构 AGI大模型与大数据研究院 AI大模型应用开发实战信息可视化大数据架构 ai
大数据领域数据架构的实时数据可视化架构关键词：大数据架构、实时数据处理、数据可视化、流式计算、数据管道、可视化工具、性能优化摘要：本文深入探讨了大数据领域中实时数据可视化架构的设计与实现。我们将从基础概念出发，逐步分析实时数据处理流程，介绍关键技术和工具，并通过实际案例展示如何构建高性能的实时可视化系统。文章将涵盖数据采集、处理、存储和可视化展示的全链路架构，同时讨论性能优化策略和未来发展趋势。1
HLA仿真程序设计实战：FoodFight_MFC案例剖析
本文还有配套的精品资源，点击获取简介：HLA仿真程序设计利用高级语言抽象构建集成分布式仿真系统，促进仿真组件之间的互操作性。以”FoodFight_MFC”为例，该案例基于MicrosoftFoundationClass(MFC)库，介绍HLA编程基础概念和实践。通过学习HLA接口、MFC应用框架、对象模型设计、数据同步机制、联邦管理和性能优化，学习者能掌握分布式仿真系统的构建和运行。1.HLA仿
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
并发编程原理与实战（十八）ReentrantLock API全面解析
上一篇讲解了Lock接口核心API和相比于synchronized的关键优势，本文来进一步学习Lock接口的具体实现类ReentrantLock。认识ReentrantLock基本行为和语义下面我们先看ReentrantLock的定义。/***Areentrantmutualexclusion{@linkLock}withthesamebasic*behaviorandsemanticsasthe
并发编程原理与实战（九）限流利器信号量的最佳实践分析帧栈 Java并发编程 java
系统掌握并发编程系列（一）精准理解线程的创建和停止系统掌握并发编程系列（二）详解Thread类的主要属性和方法系统掌握并发编程系列（三）一步步剖析线程返回值系统掌握并发编程系列（四）详细分析传统并发协同方式（synchronized与wait()notify()）系统掌握并发编程系列（五）讲透传统并发协同方式伪唤醒与加锁失效问题系统掌握并发编程系列（六）详细讲解并发协同利器CountDownLat
python爬虫-国家企业信用信息公示系统_GitHub - yong771/Crack-JS: Python3爬虫项目进阶实战、JS加解密、逆向教程 - 犀牛数据 | 美团美食 | 企名片 | 七麦... 日向夕阳
Crack-JSPython3爬虫实战、JS加解密、逆向教程犀牛数据|美团美食|企名片|七麦数据|淘大象|梦幻西游藏宝阁|漫画柜|财联社|中国空气质量在线监测分析平台|66ip代理|零度ip|国家企业信用信息公示系统|中国产品大目录Author咸鱼微信公众号咸鱼学PythonIntroduce数据解密、反爬处理、逆向教程一、代码配套说明目录JS解密案例│├──lingduip//-----零度ip
python pywebview + vue3 做桌面端妃衣 python 开发语言
pythonpywebview+vue3做桌面端Api.py#传给前端的api对象,定义了一个可以通过js调用退出当前应用的函数classApi:def__init__(self)->None:self._window=None#java运行的线程self.process=Nonedefset_process(self,_process):self.process=_processdefset_w
python的pywebview库结合Flask和waitress开发桌面应用程序简介 czliutz python 笔记 python flask 开发语言
pywebview的用途与特点用途pywebview是一个轻量级Python库，用于创建桌面应用程序（GUI）。它通过嵌入Web浏览器组件（如Windows的Edge/IE、macOS的WebKit、Linux的GTKWebKit），允许开发者使用HTML/CSS/JavaScript构建界面，并用Python处理后端逻辑。这种方式结合了Web技术的灵活性和Python的强大功能，适合快速开发跨平
Rust交叉编译自动化实战
告别手动编译地狱！用GitLabRunner让Rust程序跨平台自动构建还在为不同平台手动编译Rust程序而烦恼？还在为环境配置不一致而抓狂？今天带你解锁Rust交叉编译的自动化大法，让你的CI/CD流水线飞起来！痛点在哪里？作为一个Rust开发者，你是否遇到过这些让人头疼的问题：平台差异：在Mac上开发，部署到Linux服务器，每次都要手动交叉编译环境配置：依赖库版本不一致，OpenSSL找不到
高省app没有邀请码怎么注册？高省app总部邀请码是什么？古楼
高省是正规平台吗？高省app是杭州长孚科技有限公司旗下的一款电商导购应用，为用户打造一个电商购物优惠平台，用户可以在这个App中领取主流商城的商品隐藏优惠券以及获得返利。基于第三方电商平台海量数据挖掘与分析，“高省”APP通过内容制作、分享等方式，为消费者打通吃喝玩乐购全场景全业态，让消费者省心省钱省时省力，为平台和品牌方导流创造收入，拓展了商家新的销售渠道。高省app逐渐构筑起了集各大主流电商平
python笔记day1 w的狗子啊
01.Holleword1.pycharm快捷键ctrl+/----添加或者取消注释ctrl+s----保存ctrl+c----复制ctrl+v----粘贴ctrl+n----新建ctrl+f----搜索ctrl+r----替换ctrl+z----撤销ctrl+shift+z-----反撤销ctrl+a----全选2.注意事项在程序中涉及到的所有和语法相关的符号，都是在英文输入法下对应的符号。实际
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

python爬取豆瓣电影评论数据+情感分析可视化

豆瓣电影可视化情感分析

python爬取豆瓣电影评论数据+情感分析可视化

技术详解

python爬取豆瓣电影评论数据

豆瓣评论数据分析

数据查看

如果列宽不足，则显示其他所有列

显示数据的详细信息

查看空数据

去除空数据

查看数据信息

对日期进行统计

电影上映后每天的评论数量走势

电影上映后每天的评分走势

评分饼图

生成词云

读取出来显示一下

总结

你可能感兴趣的:(大数据分析实战,可视化,数据分析,python,数据可视化,数据挖掘)