学无止境，好好学习，天天向上！

用Python做数据商品情感分析（商品评论数据情感分析）

用Python做数据商品情感分析（商品评论数据情感分析）

现在，我们得到了一些关于XX商品的评论信息的数据，我们需要对这些评论信息的数据进行情感分析；

分析步骤

机械压缩去词
短句过滤
情感分析
分词处理（jieba分词）
去除停用词
LDA主题分析

具体过程

环境：Python3.6 + pandas0.24.2

以下文档中使用的文件可在网盘中下载：

comment.csv 链接：https://pan.baidu.com/s/1Q0kBcHRZEzHvYaZvzepYAQ 提取码：cbgh；

stoplist.txt 链接：https://pan.baidu.com/s/1RDs1B7fOJzKWRjB0FBBCxQ 提取码：e3f5；

首先读取数据

我的数据文件是在同级目录中

import pandas as pd

data_path = './comment.csv'	
df = pd.read_csv(data_path, encoding='gbk')

之后，会获得一个变量名为df的DataFrame（Pandas中的一种数据结构）；

现在，我们可以先打印一下原始数据信息；

print('原始数据信息：')
print(len(df))  # 长度
print(type(df))    # 数据类型

原始数据信息：
721
<class 'pandas.core.frame.DataFrame'>
------------------

清除缺失数据

因为我们的数据中可能存在一些缺失值，我们需要清除一下这些缺失值；

运行以下代码：

df = df.dropna()  # 消除缺失数据 NaN为缺失数据
print('清除缺失数据后：')
print(len(df))
print(type(df))
print('------------------')

清除缺失数据后：
721
<class 'pandas.core.frame.DataFrame'>
------------------

数据去重

数据中可能存在一些重复的数据，我们需要去除重复数据；

运行以下代码：

df = pd.DataFrame(df.iloc[:, 0].unique())  # 去掉第一列的重复数据；iloc[:, 0]表示索引每一行的第一列；
print('去重数据后：')
print(len(df))
print('------------------')

去重数据后：
537
------------------

我们发现数据集中有多条重复数据已经被我们清除掉；

现在，我们已经得到一些有效数据；

定义机械压缩去词函数

评论信息中，有一些评论是这样的：“我喜欢喜欢喜欢喜欢喜欢喜欢喜欢这个手机！”；

我们需要对这样的内容进行去除重复字符，我们定义这样一个函数；

def str_unique(raw_str, reverse=False):
    """
    比如：我喜欢喜欢喜欢喜欢喜欢喜欢该商品；去掉重复的“喜欢”
    :param raw_str:
    :param reverse: 是否转置
    :return:
    """
    if reverse:
        raw_str = raw_str[::-1]
    res_str = ''
    for i in raw_str:
        if i not in res_str:
            res_str += i
    if reverse:
        res_str = res_str[::-1]
    return res_str

有了这个函数，我们现在对数据应用这个函数，使用apply方法；

ser1 = df.iloc[:, 0].apply(str_unique)	# 这时，因为索引了第一列，所以结果成了Series；
print('df2', type(ser1))  # 
df2 = pd.DataFrame(ser1.apply(str_unique, reverse=True))	# 再次生成DataFrame；

print('机械压缩去词后：')
print(len(df2))
print(type(df2))
print('------------------')

df2 <class 'pandas.core.series.Series'>
机械压缩去词后：
537
<class 'pandas.core.frame.DataFrame'>
------------------

短句过滤

由于评论信息中有一些信息是没有参考价值的，我们需要过滤掉这部分信息，比如：评论信息只有4个字符的；

df3 = df2[df2.iloc[:, 0].apply(len) >= 4]
print('短句过滤后：')
print(len(df3))
print('------------------')

短句过滤后：
528
------------------

情感分析

现在，我们可以对这些数据进行情感分析了；

我们需要用到一个库：snownlp，这个库是一个情感分析语言处理库；

只需要使用命令pip install snownlp既可以安装该库；

from snownlp import SnowNLP  # 情感分析语言处理库

# 语义积极的概率，越接近1情感表现越积极
coms = df3.iloc[:, 0].apply(lambda x: SnowNLP(x).sentiments)
print('情感分析后：')
positive_df = df3[coms >= 0.9]  # 特别喜欢的
negative_df = df3[coms < 0.1]  # 不喜欢的

print('特别喜欢的')
print(positive_df)
print('------------------')
print('不喜欢的')
print(negative_df)

情感分析后：
特别喜欢的
                                                     0
0    :"再买，半价很优?惠。收到货了包装好看起来高档东西质量没得说不错这个格比我预期的太多产品描...
1    :"挺好吃的⊙▽，评买给老弟说很喜欢必须一直支持这家店官方旗舰嘛?包装 特别是松鼠君服务了多...
3    "满一大箱呢！物流超快，昨晚买的今天就到了赞价格很划算总吃坚果什么也腻小麻花挺好东西呦 客服...
4    "宝贝已收到，物美价廉的时候发现和图片描述一样超级划算！值得再次光顾滴比实体店便宜了半很好不...
...

------------------
不喜欢的
                                                     0
512  东西很好，特别是客服鼠硬币的态度我之前不小心用花呗买了一份但发现错支付方式后退款账户余额又订...
515                           吐槽一下物流，广东到西为啥要转南京再昌才回宁?慢
535                        垃圾东西影都没看到不知道让快递送哪去了客服现在还回辣鸡
...

现在，我们得到了两个DataFrame，一个是positive_df（特别喜欢的），一个是negative_df（不喜欢的）；

jieba分词

现在，我们需要对这些评价进行分词分析，分析具体喜欢与不喜欢的原因与关键字；

我们需要用到一个分词库：jieba分词库；同样，使用命令pip install jieba即可以安装该库；

import jieba

my_cut = lambda s: ' '.join(jieba.cut(s))  # 自定义简单分词函数
positive_ser = positive_df.iloc[:, 0].apply(my_cut)  # 通过“广播机制”分词，加快速度
negative_ser = negative_df.iloc[:, 0].apply(my_cut)

print('大于0.5---正面数据---分词')
print(positive_ser)
print('小于0.5---负面数据---分词')
print(negative_ser)

大于0.5---正面数据---分词
0      : " 再 买 ， 半价 很优 ? 惠 。 收到 货 了 包装 好 看起来 高档 东西 质量...
1      : " 挺好吃 的 ⊙ ▽ ， 评买 给 老弟 说 很 喜欢 必须 一直 支持 这家 店 官...
3      " 满 一大 箱 呢 ！ 物流 超快 ， 昨晚 买 的 今天 就 到 了 赞 价格 很 划算...
4      " 宝贝 已 收到 ， 物美价廉 的 时候 发现 和 图片 描述 一样 超级 划算 ！ 值得...
5      : " 货 很 新鲜 ， 吃 起来 好 味道 不错 。 下次 还会 光顾 啊 便宜 , 物流...
6      小宝贝 已 收到 ， 物美价廉 的 时候 发现 和 图片 描述 一样 超级 划算 ！ 值得 ...
...

小于0.5---负面数据---分词
510    给 朋友 买 的 年货   她 很 喜欢 满意 呦 ? 还有 就是 客服 鼠 木耳 务 态度...
512    东西 很 好 ， 特别 是 客服 鼠 硬币 的 态度 我 之前 不 小心 用花 呗 买 了 ...
515               吐槽 一下 物流 ， 广东 到 西 为啥 要 转 南京 再昌才 回宁 ? 慢
535          垃圾 东西 影都 没 看到 不 知道 让 快递 送 哪 去 了 客服 现在 还 回辣鸡

现在，我们得到了两个Series，一个是positive_ser（正面数据分词），一个是negative_ser（负面数据分词）；

去除停用词

这些分词中有一些事停用词（像：额，但是，等等，喔），我们需要去除这些词；

stop_list = './stoplist.txt'	# 我的停用词文件是在同级目录存放
stops = pd.read_csv(stop_list, encoding='gbk', header=None, sep='tipdm', engine='python')
# sep 设置分割词，由于csv默认以半角逗号为分割此，而该词恰好在停用词表中，因此会导致读取出错
# 所以解决办法是手动设置一个不存在的分割词，如tipdm；

stops = [' ', ''] + list(stops[0])  # pandas自动过滤了空格符，这里手动添加
positive_df = pd.DataFrame(positive_ser)
negative_df = pd.DataFrame(negative_ser)

positive_df[1] = positive_df[0].apply(lambda s: s.split(' '))  # 定义一个分割函数，然后用apply广播
positive_df[2] = positive_df[1].apply(lambda x: [i for i in x if i.encode('utf-8') not in stops])

negative_df[1] = negative_df[0].apply(lambda s: s.split(' '))  # 定义一个分割函数，然后用apply广播
negative_df[2] = negative_df[1].apply(lambda x: [i for i in x if i.encode('utf-8') not in stops])

print('去停用词后：positive_df')
print(positive_df)

print('------------------')
print('去停用词后：negative_df')
print(negative_df)

去停用词后：positive_df
                                                     0  ...                                                  2
0    : " 再 买 ， 半价 很优 ? 惠 。 收到 货 了 包装 好 看起来 高档 东西 质量...  ...  [:, ", 再, 买, ，, 半价, 很优, ?, 惠, 。, 收到, 货, 了, 包装,...
1    : " 挺好吃 的 ⊙ ▽ ， 评买 给 老弟 说 很 喜欢 必须 一直 支持 这家 店 官...  ...  [:, ", 挺好吃, 的, ⊙, ▽, ，, 评买, 给, 老弟, 说, 很, 喜欢, 必...
3    " 满 一大 箱 呢 ！ 物流 超快 ， 昨晚 买 的 今天 就 到 了 赞 价格 很 划算...  ...  [", 满, 一大, 箱, 呢, ！, 物流, 超快, ，, 昨晚, 买, 的, 今天, 就...
4    " 宝贝 已 收到 ， 物美价廉 的 时候 发现 和 图片 描述 一样 超级 划算 ！ 值得...  ...  [", 宝贝, 已, 收到, ，, 物美价廉, 的, 时候, 发现, 和, 图片, 描述, ...
...

------------------
去停用词后：negative_df
                                                     0  ...                                                  2
510  给 朋友 买 的 年货   她 很 喜欢 满意 呦 ? 还有 就是 客服 鼠 木耳 务 态度...  ...  [给, 朋友, 买, 的, 年货, , , 她, 很, 喜欢, 满意, 呦, ?, 还有, ...
512  东西 很 好 ， 特别 是 客服 鼠 硬币 的 态度 我 之前 不 小心 用花 呗 买 了 ...  ...  [东西, 很, 好, ，, 特别, 是, 客服, 鼠, 硬币, 的, 态度, 我, 之前, ...
515             吐槽 一下 物流 ， 广东 到 西 为啥 要 转 南京 再昌才 回宁 ? 慢  ...  [吐槽, 一下, 物流, ，, 广东, 到, 西, 为啥, 要, 转, 南京, 再昌才, 回...
535        垃圾 东西 影都 没 看到 不 知道 让 快递 送 哪 去 了 客服 现在 还 回辣鸡  ...  [垃圾, 东西, 影都, 没, 看到, 不, 知道, 让, 快递, 送, 哪, 去, 了, ...

LDA 主题分析

进行LDA主题分析时，我们需要用到一个库：gensim 库，同样使用命令pip install gensim进行安装；

from gensim import corpora, models

# 正面主题分析
pos_dict = corpora.Dictionary(positive_df[2])
pos_corpus = [pos_dict.doc2bow(i) for i in positive_df[2]]
pos_lda = models.LdaModel(pos_corpus, num_topics=3, id2word=pos_dict)
print('#正面主题分析')
for i in range(3):
    print('topic', i)
    print(pos_lda.print_topic(i))  # 输出每个主题

# 负面主题分析
neg_dict = corpora.Dictionary(negative_df[2])  # 建立词典

neg_corpus = [neg_dict.doc2bow(i) for i in negative_df[2]]  # 建立语料库

neg_lda = models.LdaModel(neg_corpus, num_topics=3, id2word=neg_dict)  # LDA 模型训练
print('#负面主题分析')
for i in range(3):
    print('topic', i)
    print(neg_lda.print_topic(i))  # 输出每个主题

#正面主题分析
topic 0
0.025*"的" + 0.023*"，" + 0.016*"很" + 0.014*"给" + 0.013*"喜欢" + 0.012*"" + 0.011*"好" + 0.010*"！" + 0.009*"了" + 0.009*"我"
topic 1
0.034*"，" + 0.023*"的" + 0.016*"很" + 0.016*"好" + 0.012*"喜欢" + 0.011*"不错" + 0.010*"。" + 0.009*"！" + 0.008*"挺" + 0.007*"满意"
topic 2
0.024*"" + 0.021*"，" + 0.020*"很" + 0.019*"的" + 0.016*"了" + 0.012*"。" + 0.011*"也" + 0.011*"！" + 0.010*"喜欢" + 0.010*"买"
#负面主题分析
topic 0
0.019*"" + 0.013*"，" + 0.012*"很" + 0.012*"的" + 0.011*"客服" + 0.009*"买" + 0.009*"！" + 0.008*"给" + 0.008*"小姐" + 0.008*"了"
topic 1
0.018*"，" + 0.016*"" + 0.015*"了" + 0.014*"客服" + 0.013*"的" + 0.010*"我" + 0.010*"鼠" + 0.009*"?" + 0.008*"让" + 0.008*"东西"
topic 2
0.014*"很" + 0.014*"客服" + 0.013*"了" + 0.011*"，" + 0.011*"" + 0.011*"鼠" + 0.010*"收货" + 0.010*"：" + 0.010*"买" + 0.009*"追加"

现在，我们会分别得到关于正面、负面的主题分析；

至此，我们的一个简单的商品情感分析就OK了。

你可能感兴趣的:(Python数据分析,Python数据分析,Python数据情感分析)

innovus命令每日精要 | setCheckMode：数字后端物理设计的必备神器数字后端物理设计知识库 innovus 命令每日精要后端性能优化
在数字后端物理设计的领域中，确保设计数据的完整性和正确性是至关重要的。今天，我们要深入探讨的是Innovus中的一个强大命令——setCheckMode。这个命令就像是你的设计流程中的“健康卫士”，能够在各个阶段帮你揪出潜在的数据问题，避免因小失大，让错误在流程中扩散。检查模式核心功能大揭秘1.设计数据完整性检查：全面扫描，无死角-all选项就像是给你的设计做一次“全身CT”，开启所有检查选项，确
做电池寿命预测有福了---2024最新退化数据集，来自cell子刊优化算法侠Swarm-Opti 深度学习数据集电池寿命预测深度学习人工智能
引言本期介绍2024年最新发表在cell子刊CellReportsPhysicalScience上的电池退化数据集。该数据集是世界上规模最大，最贴近实际运行场景，持续时间最长的电池退化数据集。在实验室和现实生活中对电池退化进行了为期4年的广泛实验调查，考虑了随机充放电电流、频率、深度以及多电池成组、环境温度的影响，涉及数百个电池和电池组的大约546,000次充放电循环。参考文献DongzhenLy
深入理解 TypeScript 中的迭代器（Iterators）与生成器（Generators）念九_ysl typescript 前端 typescript
一、为什么需要迭代协议？在现代JavaScript/TypeScript开发中，我们经常需要处理各种集合型数据：数组、Map、Set甚至是自定义数据结构。ES6引入的迭代协议（IterationProtocols）正是为了解决统一遍历机制的问题。通过迭代器模式，我们可以：为不同的数据结构提供统一的访问接口实现惰性计算（LazyEvaluation）支持现代语言特性（for...of,扩展运算符等）
「TCP/IP」图解TCP的通信机制肥肥技术宅 java tcp/ip 网络网络协议
TCP（TransmissionControlProtocol）是传输控制协议，其作用于传输层，是一种提供了面向连接通信服务的协议看TCP的英文全称就知道，其主要作用就是传输、控制，传输的是数据，控制的是在传输过程中丢包后的重发、分包乱序后的有序重组、控制数据传输的速率防止网络拥塞等这也是我们口中一直说的TCP是一种可靠的传输协议的原因。本文就将对TCP的作用过程以及一些机制进行讲解TCP的通信机
docker部署rabbitMQ 人间有清欢 docker docker rabbitmq
docker部署rabbitMQ如果用目录挂载会启动失败，要用数据卷挂载。dockerpullrabbitmq:3.8-management#挂载数据卷-vmq-plugins:/plugins\#设置主机名--hostnamemq\dockerrun\-eRABBITMQ_DEFAULT_USER=rabbitmq\-eRABBITMQ_DEFAULT_PASS=1234\-vmq-plugin
Neo4j GDS-02-graph-data-science 简单聊一聊图数据科学插件库后端java
neo4japoc系列Neo4jAPOC-01-图数据库apoc插件介绍Neo4jAPOC-01-图数据库apoc插件安装neo4jonwindows10Neo4jAPOC-03-图数据库apoc实战使用使用Neo4jAPOC-04-图数据库apoc实战使用使用apoc.path.spanningTree最小生成树Neo4jAPOC-05-图数据库apoc实战使用使用labelFilter是什么？
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
思途CMS高并发、高性能、高可用架构设计 php
一、整体架构概述思途CMS采用分层架构设计，整体架构分为客户层、接入层、站点层、数据存储层和缓存层。各层之间通过松耦合的方式协同工作，确保系统在高并发场景下的高性能和高可用性。通过分布式部署、负载均衡、多级缓存等技术手段，思途CMS能够有效应对大规模用户访问，保障系统的稳定性和响应速度。二、各层技术特点及实现方式客户层1.1CDN加速思途CMS支持与主流CDN服务商（如阿里云CDN、腾讯云CDN等
仓颉：关于封装，继承，多态繁星幽蓝悼梦影仓颉华为 harmonyos
在对于仓颉有了初步了解之后，我们自然会想在我们之前所学习，编写的简单代码上添加一些其他的功能，今天我们就来讲几个重要的小功能封装为了提高数据访问的安全性，我们可以使用访问修饰符private。那么我们应该通过什么方法提高呢，我们有两种方法：1.通过方法2.通过属性设计器。参考如下代码packagecjchapter4.chapter1publicclassUser{privatevara1:Int
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
2025年从DeepSeek到Manus：AI如何重塑企业价值报告600+份汇总解读|附PDF下载
原文链接：https://tecdat.cn/?p=41172当前全球AI技术正从实验室走向产业化深水区，本报告以企业价值重构为核心，通过技术演进路径、行业竞争范式、落地实施策略三大维度，揭示AI如何从成本中心转变为价值引擎。数据显示，2025年生成式AI在中国创造的潜在经济价值达2万亿美元，其中制造业、电子行业生产力增益最为显著。本报告汇总解读基于《发布机构：华中科技大学数智管理与传播研究团队、
YashanDB日志管理数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...日志管理章节所述范围为运维相关的日志管理，不包括与数据相关的redo/归档日志，对于redo/归档日志的管理将在文件管理章节描述。日志分类YashanDB的运维类日志分类如下：运行日志runlog：运行日志记录了数据库各服务运
从数据中心机房来看云服务器的可用性与性能！数据中心云服务器
数据中心机房是云服务器的物理承载基础，机房的硬件设施、运行环境和管理水平直接影响云服务器的可用性和性能表现。了解数据中心机房，明白哪些因素可能导致云服务器出现故障或性能下降，就能够依据数据中心机房的实际情况做出更明智的决策，保障自身业务的稳定运行。数据中心机房的硬件设施是保障云服务器可用性的基础。网络设备作为数据传输的桥梁，高性能的路由器、交换机等确保了数据的快速、准确传输。电力供应则是云服务器运
仓库可视化管理有哪几个点： wms系统
在现代仓库管理的广阔议题中，仓库可视化无疑是一个无法绕过的关键话题。无论是对现场管理进行深度优化，还是在数字化系统的选择上，企业都致力于实现仓库整体运营数据的直观展现与高效管理，以推动仓库管理水平的全面提升。仓库可视化的内涵丰富，主要包括以下几个方面：仓库运营可视化：通过智慧大屏的融入，仓库的动态数据得以生动呈现。这包括但不限于已处理订单数量、待处理订单数量、实时库存等核心运营指标。库存可视化：这
PDCA循环：从目标设定到持续改进的流程图数据可视化
通过图形天下的关系数据可视化，PDCA循环关系清晰地展现了从目标设定到改进措施的动态流程。通过计划制定、任务分解与资源配置，再到执行控制、监控调整，直至评估反馈，每个阶段紧密相连，形成持续优化的闭环。通过这种可视化方式，用户可以更容易地理解PDCA循环的本质，并应用到实际工作中去。 PDCA循环图 PDCA循环，即计划（Plan）、执行（Do）、检查（C
做数据分析，如何给业务提可行性建议——看板软件数据可视化
在为业务提供数据分析可行性建议时，看板软件的选择是一个重要环节。以下是一些建议，可以帮助您为业务选择适合的数据分析看板软件：一、明确业务需求首先，需要明确业务的具体需求，包括数据分析的目的、所需的数据类型、分析的深度与广度等。这将有助于确定所需看板软件的功能和特性。二、了解看板软件类型看板软件可以分为多种类型，如数据可视化工具、商业智能（BI）工具、项目管理工具等。了解这些类型及其特点，有助于更好
按照时间排序的分布式游标分页像云~ 记录分布式
背景最近有这么一个需求，就是在分页查询的时候，需要返回最近的pagesize条记录，即按照时间倒序的近pagesize条记录。有两个问题：一个就是这些记录来自于不同的存储位置，不能通过一次查询统一排序取数据，而需要分开查询读入，再汇总统一排序另一个就是在进行分页的时候，要保证当前页数据与上一页的连贯性，有点类似刷短视频的瀑布流。即分页查询是统一的，而数据存储是分布式的。方案由于是在高并发的场景下，
HarmonyOS TEXT 语音搜索场景学习和总结 harmonyos
在HarmonyOS中实现语音搜索功能时，涉及到麦克风权限的申请、音频数据的采集、编码和传输等多个步骤。以下是对上述代码的详细解析和补充说明：麦克风权限的申请与检查在HarmonyOS中，使用麦克风需要申请ohos.permission.MICROPHONE权限。在代码中，通过GRPermissionsUtils.checkPermissions方法来检查和申请权限。如果权限被授予，则可以继续进行
使用sqlite创建数据库 @云初 sqlite 数据库 database
使用sqlite创建数据库#sqlite3.exe数据库名.dbSQLiteversion3.36.02021-06-1818:36:39Enter".help"forusagehints.sqlite>在sqlite里面创建一张表并添加数据#.databases#.tables#createtableperson(idint,namevarchar(20),addressvarchar(20))
Websoft9 开源软件实操平台：快速积累企业级软件技能，深入理解真实业务场景开源创业
引言：打破“纸上谈兵”的实训困境当前高校技术教育普遍面临一个矛盾：学生对开源工具的理论知识掌握充分，但在真实业务场景中常因环境配置复杂、工具链割裂而难以落地。例如，部署一套完整的电商系统需协调数据库、服务器、安全策略等多环节，传统虚拟机环境难以模拟企业级复杂度。Websoft9作为开源软件自动化部署工具，通过预集成200+企业级应用模板（如GitLab、Odoo、Jenkins）和全流程管理能力，
Python自动化运维开发系列—CICD项目 weixin_46240874
导语都忘记是什么时候知道python的了，我是搞linux运维的，早先只是知道搞运维必须会shell,要做一些运维自动化的工作，比如实现一些定时备份数据啊、批量执行某个操作啊、写写监控脚本什么的。后来发现工作量大的时候shell开始变慢，实现某个功能使用shell感觉力不从心，听人说python能实现shell能做的一切功能，而且开发效率高，速度快，慢慢的就认识了python,多多少少看点简单的东
企业数据存储的几种方式对比存储
在当今信息化时代，企业常见的数据存储方式包括本地存储、云存储、网络附加存储（NAS）、对象存储等，它们在安全性、扩展性与成本方面各有优势。其中，云存储凭借高弹性、低维护成本等特点备受青睐。它利用网络将数据托管于远程服务器，企业无需自建机房，也能快速扩容并进行全球化部署，极大降低了初期投入成本。这种方式实现了随用随付、自动备份，为众多中小型企业提供了便捷且经济的选择。一、本地存储本地存储是指企业将数
乐观锁与悲观锁的 MyBatis-Plus 实现 drebander mybatis-plus mybatis
在高并发场景下，数据库的并发控制是确保数据一致性的关键。乐观锁和悲观锁是两种常见的并发控制机制，它们分别适用于不同的场景。MyBatis-Plus提供了对乐观锁的支持，使得开发者可以轻松实现并发控制。本文将详细介绍乐观锁与悲观锁的概念、MyBatis-Plus如何实现乐观锁、实现乐观锁的场景，以及如何使用@Version注解进行版本控制。1.乐观锁与悲观锁的概念1.1乐观锁（OptimisticL
每日实战：python爬虫之网页跳转-以某博为例代码CC python爬虫 python 爬虫 pandas 开发语言
一、项目背景与核心需求通过逆向分析微博热榜接口，实现实时热搜数据抓取，重点解决：话题跳转链接参数缺失问题页面数据清洗规范化处理多维度数据采集存储二、网页跳转爬虫实现原理2.1跳转链接生成逻辑原始热搜词→"雷军刚知道柯洁定了SU7Ultra"处理流程：1.添加话题标识→#雷军刚知道柯洁定了SU7Ultra#2.URL编码→%23雷军刚知道柯洁定了SU7Ultra%233.添加搜索参数→&t=31生成
数据库 + Spring Boot + Vue 全栈交互逻辑详解代码CC Java项目-开发 spring boot vue.js mysql 数据库开发语言
目录整体架构概述技术栈说明数据库设计规范SpringBoot后端架构Vue前端架构完整交互流程关键技术实现细节安全与性能优化异常处理机制整体架构概述graphTDA[Vue前端]-->|HTTP请求|B(SpringBoot后端)B-->|JDBC/ORM|C[(数据库)]C-->|返回数据|BB-->|JSON响应|AA-->|状态管理|D[VuexStore]B-->|缓存|E[Redis]B
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
成为编程大佬！！-----＞数据结构与算法（2）——顺序表！！ Elnaij 算法数据结构 c语言
前言：线性表是数据结构与算法的重中之重，所有具有线性逻辑结构的数据结构，都能称为线性表。这篇文章我们先来讨论线性表中的顺序表，顺序表和线性表都是后续实现栈，树，串和图等等结构的重要基础。目录❀简单介绍线性表❀顺序表❀顺序表的存储❀动态存储❀静态存储❀静态存储与动态存储的优缺点❀顺序表操作❀1.初始化顺序表❀2.销毁顺序表❀3.插入数据❀插入数据之判断已满否❀插入操作之尾插❀插入操作之头插❀插入数据
基于C语言的数据结构之串——带你熟练掌握串的基本操作！！超级详细！！ Elnaij 数据结构 c语言算法
目录前言1.数据结构——串1.1基本知识主串、子串、模式串1.2对几个字符串库函数的简单介绍1.2.1strcmp1.2.2strcpy1.2.3strlen1.2.4strcat1.3串的分类1.3.1静态分配内存的串1.3.2动态分配内存的串2.串的基本操作2.1初始化串2.2输出字符2.3插入子串2.4删除子串2.5取子串操作2.6撤销删除操作结束语前言掌握串之前最好先去学习好顺序表和单链表
数据分析 SQL 面试全攻略，看这篇就够了！程功学数据分析 sql 面试
数据分析SQL面试八股文（含答案）已经打包好，看文末领取在数据分析领域，SQL技能堪称基石，也是众多企业在招聘数据分析岗位时重点考察的内容。今天，就为大家深度剖析数据分析SQL面试的要点，助力大家顺利通关。一、常见面试题型大揭秘（一）简单查询这类题目通常要求考生从单表中检索数据。例如，给定一个“员工信息表”，包含员工编号、姓名、年龄、部门等字段，题目可能是“查询年龄大于30岁的员工姓名和部门”。解
C++与C语言的区别 @haihi c++c语言开发语言
前言本文主要用C语言和C++做对比来学习C++，便于个人理解。C++包含C语言，是对C语言的扩展，在C++中，支持C语言的语法使用，C++是C语言的超集一、C++与C语言的区别C语言简单高效，适合低级系统编程和硬件相关的开发。C++更加灵活、强大，适合大型项目开发，尤其是需要面向对象、代码复用和复杂数据结构的应用。1.编程范式C语言：C是一种过程式编程语言，主要关注函数和过程。程序是通过一系列函数
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他