99.99％

基于出行住宿评论数据的情感分析研究（酒店篇，含python代码）

携程酒店评论数据:
链接：https://pan.baidu.com/s/1zUtfc6Ku6W2sx99XdqeWcA
提取码：vkzs

停用词汇总：

链接：百度网盘请输入提取码
提取码：02eb

情感分析用词：
链接：https://pan.baidu.com/s/1TKR8xBFMhUH7AZPePqBGJQ
提取码：7wwz

文章目录

前言

一、数据集介绍

二、数据预处理

1.引入库

2.剔除无价值数据

三、情感信息提取及可视化

四、使用线性支持向量分类模型进行情感预测

优化处理操作——向下采样：

五、使用LDA主题分类模型进行数据分析

1. 积极评论：

2. 消极评论：

六、结果分析及结论

前言

在上一篇文章中，我进行了爱彼迎民宿评论数据的分析，而本篇是携程酒店评论数据的分析，我希望能通过数据分析，从用户体验感出发，找出民宿与酒店的不同点，发觉它们各自的优劣。

一、数据集介绍

携程酒店评论数据:
链接：https://pan.baidu.com/s/1fIhjn1DrPV8wxqnJ0DdumA
提取码：lpy3

数据集中共有7766条评论，其中5322条正向评论，2444条负向评论，已经带有评论标签，label值为1是正向评论，0为负向评论。

二、数据预处理

1.引入库

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

import jieba 
import re

plt.rcParams["font.sans-serif"] = ["SimHei"]

plt.rcParams["axes.unicode_minus"] = False
import warnings
warnings.filterwarnings("ignore")

2.剔除无价值数据

因为数据中包含部分其他类型的数据，所以要注意将评论数据通过.astype('str')统一转化为字符型。共剔除以下几类数据：

1）英文数据，由于北京、上海、重庆等城市都是国际化都市，所以数据集中包含了部分英文数据，我在预处理时首先就将数据中的英文评论和评论文本中的空白行去除，具体方法就是将空白行标记为缺失值，再将包含英文字母的评论换为缺失值，然后进行再删去文本中所有缺失值。

2）重复词，例如：携程、酒店、年月日、北京、上海、重庆、广州、杭州、南京、成都、东路、西路等，这些词虽然频繁出现，但对于分析评论特点没有帮助。

3）数字，0-9。

data["review"] = data["review"].astype('str')

import re
# 去除数字、携程等词语
strinfo = re.compile('[0-9]|酒店|携程|年月日|北京|上海|重庆|广州|杭州|南京|成都|苏州|西安|东莞|长沙|济南|深圳|西路|东路')
data["review"] =  data["review"].apply(lambda x: strinfo.sub('',x))

import re
# 由于有的时候jupyternotebook会出bug,去除一次并不能去除掉年月日，所以保险起见，再去除一次
strinfo = re.compile('[0-9]|酒店|携程|年月日')
data["review"] =  data["review"].apply(lambda x: strinfo.sub('',x))

#第一步 将空字符的行替换为nan，方便进行删除
data.replace(to_replace=r'^\s*$', value=np.nan, regex=True, inplace=True)
data.replace(to_replace=r'[a-zA-Z]', value=np.nan, regex=True, inplace=True)
print(data)

#第二步 删除所有值为nan的行
data.dropna(axis=0, how='any', inplace=True)

三、情感信息提取及可视化

由于携程酒店评论数据数据自带情感标签，所以不需要对酒店评论数据进行情感倾向修正了。直接绘制出正向和负向评论词云图并提取对应的关键词。提取出正负面评论信息：

# 提取正负面评论信息
posdata = data[data['label'] == 1]['review']
negdata = data[data['label'] == 0]['review']

绘制正面评论信息词云图：

from wordcloud import WordCloud
import jieba
import matplotlib.pyplot as plt
import PIL

text = ''
for s in posdata:
    text += s
data_cut = ' '.join(jieba.lcut(text))


path = '停用词汇总.txt'
f = open(path,"r",encoding='utf-8').read()  #设置文件对象


word_cloud = WordCloud(font_path="simsun.ttc", 
                       background_color="white", 
                       stopwords=f
                       )
 

word_cloud.generate(data_cut)

plt.subplots(figsize=(12,8))
plt.imshow(word_cloud)
plt.axis("off")
plt.show()

提取负面评论关键词：

from jieba import analyse 
key_words = jieba.analyse.extract_tags(sentence=text, topK=20, withWeight=True, allowPOS=())
key_words

绘制负面评论信息词云图：

from wordcloud import WordCloud
import jieba
import matplotlib.pyplot as plt
import PIL

text1 = ''
for s in negdata:
    text1 += s
data_cut = ' '.join(jieba.lcut(text1))


path = '停用词汇总.txt'
f = open(path,"r",encoding='utf-8').read()  #设置文件对象


word_cloud = WordCloud(font_path="simsun.ttc", 
                       background_color="white", 
                       stopwords=f
                       )
 

word_cloud.generate(data_cut)

plt.subplots(figsize=(12,8))
plt.imshow(word_cloud)
plt.axis("off")
plt.show()

提取负面评论关键词：

from jieba import analyse 
key_words = jieba.analyse.extract_tags(sentence=text1, topK=20, withWeight=True, allowPOS=())
key_words

四、使用线性支持向量分类模型进行情感预测

我将总数据集随机划分为训练集和验证集，训练集占70%的数据量，验证集占30%的数据量最终使用默认参数的LinearSVC模型，利用模型的fit函数来对数据集做训练，最终打印模型在验证集数据上的准确率。模型准确率为0.7290953545232274。

第一步：划分训练集和验证集；

from sklearn.feature_extraction.text import TfidfVectorizer as TFIDF  # 原始文本转化为tf-idf的特征矩阵
from sklearn.svm import LinearSVC
from sklearn.calibration import CalibratedClassifierCV
from sklearn.model_selection import train_test_split

# 将有标签的数据集划分成训练集和测试集
train_X,valid_X,train_y,valid_y = train_test_split(data['review'],data['label'],test_size=0.3,random_state=42)

train_X.shape,train_y.shape,valid_X.shape,valid_y.shape

第二步：模型的构建和训练；

# 模型构建
model_tfidf = TFIDF(min_df=5, max_features=5000, ngram_range=(1,3), use_idf=1, smooth_idf=1)
# 学习idf vector
model_tfidf.fit(train_X)
# 把文档转换成 X矩阵（该文档中该特征词出现的频次），行是文档个数，列是特征词的个数
train_vec = model_tfidf.transform(train_X)

# 模型训练
model_SVC = LinearSVC()
clf = CalibratedClassifierCV(model_SVC)
clf.fit(train_vec,train_y)

第三步：验证模型效果，查看准确率；

# 把文档转换成矩阵
valid_vec = model_tfidf.transform(valid_X)
# 验证
pre_valid = clf.predict_proba(valid_vec)

pre_valid = clf.predict(valid_vec)
print('正例:',sum(pre_valid == 1))
print('负例:',sum(pre_valid == 0))

from sklearn.metrics import accuracy_score

score = accuracy_score(pre_valid,valid_y)
print("准确率:",score)

优化处理操作——向下采样：

我注意到该模型负向评论为2444条，正向评论为5322条，存在着数据不平衡的情况，这里用向下采样的方法，分别采取2444条的正向评论和2444条的负向评论，这里我是参考网络上的自定义函数get_balanced_words进行的向下采样，该函数可以实现采集相同数量的不同类别数据，同时也可以通过改变采集数据总量做到欠采样和过采样。

在进行了向下采样后，模型的准确率为0.7027948193592365，仍需继续优化。

def get_balanced_words(size,
                       positive_comment=data[data['label'] == 1],
                       negtive_comment=data[data['label'] == 0]):
    word_size = size // 2
    #获取正负评论数
    num_pos = positive_comment.shape[0]
    num_neg = negtive_comment.shape[0]
    #     当 正(负)品论数中<采样数量/2 时，进行上采样，否则都是下采样；
    #     其中pandas的sample方法里的repalce参数代表是否进行上采样，默认不进行
    balanced_words = pd.concat([
        positive_comment.sample(word_size,
                                replace=num_pos < word_size,
                                random_state=0),
        negtive_comment.sample(word_size,
                               replace=num_neg < word_size,
                               random_state=0)
    ])
    #     打印样本个数
    print('样本总数：', balanced_words.shape[0])
    print('正样本数：', balanced_words[data['label'] == 1].shape[0])
    print('负样本数：', balanced_words[data['label'] == 0].shape[0])
    print('')
    return balanced_words

data_4888 = get_balanced_words(4888)

第一步：划分训练集和验证集；

from sklearn.feature_extraction.text import TfidfVectorizer as TFIDF  # 原始文本转化为tf-idf的特征矩阵
from sklearn.svm import LinearSVC
from sklearn.calibration import CalibratedClassifierCV
from sklearn.model_selection import train_test_split

# 将有标签的数据集划分成训练集和测试集
train_X,valid_X,train_y,valid_y = train_test_split(data_4888['review'],data_4888['label'],test_size=0.3,random_state=23)

train_X.shape,train_y.shape,valid_X.shape,valid_y.shape

第二步：验证模型效果，查看准确率；

# 模型构建
model_tfidf = TFIDF(min_df=2, max_features=5000, ngram_range=(1,3), use_idf=1, smooth_idf=1)
# 学习idf vector
model_tfidf.fit(train_X)
# 把文档转换成 X矩阵（该文档中该特征词出现的频次），行是文档个数，列是特征词的个数
train_vec = model_tfidf.transform(train_X)

# 模型训练
model_SVC = LinearSVC()
clf = CalibratedClassifierCV(model_SVC)
clf.fit(train_vec,train_y)

第三步：验证模型效果，查看准确率；

# 把文档转换成矩阵
valid_vec = model_tfidf.transform(valid_X)
# 验证
pre_valid = clf.predict_proba(valid_vec)

pre_valid = clf.predict(valid_vec)
print('正例:',sum(pre_valid == 1))
print('负例:',sum(pre_valid == 0))

from sklearn.metrics import accuracy_score

score = accuracy_score(pre_valid,valid_y)
print("准确率:",score)

五、使用LDA主题分类模型进行数据分析

使用LDA主题分类模型分别对正向评论（label=1）中的词汇和负向评论（label=0）中的词汇进行主题分析，在进行了多次参数调优之后，我发现正向评论中LDA设为3个主题的效果较好，负向评论中LDA设为2个主题的效果较好，如果选择分为更多主题就会出现部分主题之间的大范围重叠。

第一步：先分别删除正负面评论中是空值的行；

posdata=pd.DataFrame(posdata).dropna(axis=0)
posdata.columns=['comment']

negdata=pd.DataFrame(negdata).dropna(axis=0)
negdata.columns=['comment']

第二步：进行分词操作；

#利用jieba中文分词 
import jieba
import jieba.posseg as psg

#格式转换 否则会报错  'float' object has no attribute 'decode'
df1 = pd.DataFrame(posdata.astype(str))

def chinese_word_cut(mytext):
    return ' '.join(jieba.cut(mytext))

#增加一列数据
df1['content_cutted'] = df1['comment'].apply(chinese_word_cut)



#格对负面评论进行操作
df2 = pd.DataFrame(negdata.astype(str))

def chinese_word_cut(mytext):
    return ' '.join(jieba.cut(mytext))

#增加一列数据
df2['content_cutted'] = df2['comment'].apply(chinese_word_cut)

1. 积极评论：

第三步：去除停用词，计算tf值；

path = '停用词汇总.txt'
f = open(path,"r",encoding='utf-8').read()
stopwords=list(f)

#计算TF-IDF值
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

#设置特征数
n_features = 2000


tf_vectorizer = TfidfVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words=stopwords,
                                max_df = 0.99,
                                min_df = 0.002) #去除文档内出现几率过大或过小的词汇
tf = tf_vectorizer.fit_transform(df1.content_cutted)

print(tf.shape)
print(tf)

第四步：进行LDA主题分析；

#LDA分析
from sklearn.decomposition import LatentDirichletAllocation

#设置主题数
n_topics = 3

lda = LatentDirichletAllocation(n_components=n_topics,
                                max_iter=100,
                                learning_method='online',
                                learning_offset=50,
                                random_state=0)
lda.fit(tf)

#显示主题数 model.topic_word_
print(lda.components_)
#几个主题就是几行 多少个关键词就是几列 
print(lda.components_.shape)                         
   

#主题-关键词分布
def print_top_words(model, tf_feature_names, n_top_words):
    for topic_idx,topic in enumerate(model.components_):    # lda.component相当于model.topic_word_
        print('Topic #%d:' % topic_idx)
        print(' '.join([tf_feature_names[i] for i in topic.argsort()[:-n_top_words-1:-1]]))
        print("")

#定义好函数之后 暂定每个主题输出前20个关键词
n_top_words = 20                                       
tf_feature_names = tf_vectorizer.get_feature_names()
#调用函数
print_top_words(lda, tf_feature_names, n_top_words)

第五步：LDA分类结果可视化；

import pyLDAvis
import pyLDAvis.gensim_models
red_vis_data = pyLDAvis.sklearn.prepare(lda,tf,tf_vectorizer)
pyLDAvis.display(red_vis_data)

2. 消极评论：

第三步：去除停用词，计算tf值；

#计算TF-IDF值
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer


n_features = 2000


tf_vectorizer = TfidfVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words=stopwords,
                                max_df = 0.99,
                                min_df = 0.002)
tf = tf_vectorizer.fit_transform(df2.content_cutted)

print(tf.shape)
print(tf)

第四步：进行LDA主题分析；

#LDA分析
from sklearn.decomposition import LatentDirichletAllocation

#设置主题数
n_topics = 2

lda = LatentDirichletAllocation(n_components=n_topics,
                                max_iter=100,
                                learning_method='online',
                                learning_offset=50,
                                random_state=0)
lda.fit(tf)

#显示主题数 model.topic_word_
print(lda.components_)
#几个主题就是几行 多少个关键词就是几列 
print(lda.components_.shape)                         
   

#主题-关键词分布
def print_top_words(model, tf_feature_names, n_top_words):
    for topic_idx,topic in enumerate(model.components_):    # lda.component相当于model.topic_word_
        print('Topic #%d:' % topic_idx)
        print(' '.join([tf_feature_names[i] for i in topic.argsort()[:-n_top_words-1:-1]]))
        print("")

#定义好函数之后 暂定每个主题输出前20个关键词
n_top_words = 20                                       
tf_feature_names = tf_vectorizer.get_feature_names()
#调用函数
print_top_words(lda, tf_feature_names, n_top_words)

第五步：LDA分类结果可视化；

import pyLDAvis
import pyLDAvis.gensim_models
red_vis_data = pyLDAvis.sklearn.prepare(lda,tf,tf_vectorizer)
pyLDAvis.display(red_vis_data)

六、结果分析及结论

通过携程酒店评论数据的分析结果可以看出，用户们喜欢酒店的主要原因有以下几点：

一、酒店服务周到，早上提供早餐，入住方便且舒适；

二、酒店的网络好，配套设施齐全，干净整洁；

三、酒店的周围环境优美，空气清新，这也主要是度假酒店拥有的优点。

而使住户留下差评的原因主要有以下几点：

一、酒店设施陈旧，装修不符合住户审美；

二、酒店服务人员服务不到位，让客人不满意。

综合民宿篇（详见我的上一篇文章）和酒店篇，通过对数据分析结果的解读，我找出了民宿和酒店各自的优势和劣势。

民宿作为近些年新兴的住宿方式，优势主要依靠民间房屋独有的装修风格和民宿周边的便民设施，然而民宿由于地处社区内部，具体位置往往没有酒店好找，并且在疫情期间，很多社区的管控较严，使得原本的劣势进一步放大，并且考虑到民宿的卫生条件往往不如酒店，因此在疫情背景下，更多用户选择了更干净卫生的酒店。

此外酒店的价格标准往往是统一的，统一档次的酒店往往价格都相差不多，而民宿缺少统一标准的严格监管，民宿的具体状况完全依靠房屋所有者的自觉程度和第三方平台的监管，造成民宿配套设施、卫生条件和隔音效果参差不齐，并且由于是房屋所有者和平台第三方共同定价，民宿所有人为了得到更多利益，所以就会出现性价比差的情况。

爱彼迎作为中国大陆地区民宿预订平台的龙头企业之一，选择在此时推出大陆市场应该也是考虑到疫情环境下，国家防疫政策不可能在短时间内放松，民宿的很多缺点被进一步放大，近年来由于疫情，国内的出行住宿市场的利润就处于低位，民宿行业在这种情况下短时间很难扭转颓势，并且民宿行业自身一直以来都存在着良莠不齐的问题，所以只能依靠出行住宿市场的的整体回暖和民宿行业内部的严格监管，民宿行业才会逐步走出当前困境。

而酒店行业在当前环境下，虽然收益相对于疫情前有所下降，但依靠较为统一的价格标准和相对于民宿更齐全的服务模式，仍可以保持一定的客户量，但由于收入较少，酒店就需要降低用人成本，这就导致了服务人员素质有所下降，并且收益减少也使得酒店的设施出现翻新不及时的情况，这些因素给用户带来了不好的消费体验。

你可能感兴趣的:(python,数据分析,jupyter)

【格式化输入输出】python基础啊吧啊吧， python 开发语言
1.在字符串开头的引导前加f或F，可以在{}中输入引用的变量age=20name='张三'a=f'Heis{name}{age}'print(a)2.想快速显示变量进行调试，可以用repr()或str()函数把值转化为字符串a='watchtv'print(str(a))print(repr(a))3.生成一组整齐的列，包含给定整数及其平方与立方
华为OD机试2024年E卷-单词接龙[100分]（ Java | Python3 | C++ | C语言 | JsNode | Go）实现100%通过率梅花C 华为OD题库算法华为od java c++c语言 golang
点这里去解决这道题Go!题目描述单词接龙的规则是：可用于接龙的单词首字母必须要前一个单词的尾字母相同；当存在多个首字母相同的单词时，取长度最长的单词，如果长度也相等，则取字典序最小的单词；已经参与接龙的单词不能重复使用。现给定一组全部由小写字母组成单词数组，并指定其中的一个单词作为起始单词，进行单词接龙，请输出最长的单词串，单词串是单词拼接而成，中间没有空格。输入描述输入的第一行为一个非负整数，表
MySQL数据库表的设计 weixin_34289744 数据库 python
2019独角兽企业重金招聘Python工程师标准>>>表的约束主键约束createtablestudent(idintprimarykey,namevarchar(40));createtablestudent(idintprimarykeyauto_increment,namevarchar(20));唯一约束createtablestudent(idintprimarykeyauto_incr
python转换视频格式为mp4 宁君 Python python
1.第一种方法电脑下载安装ffmpeg方法见mac电脑安装ffmpeg两种方法然后代码如下frommoviepy.editorimportVideoFileClipimportosimportffmpegdefconvert_video_to_mp4(input_video_path,output_video_path):'''速度慢,CPU狂飙:paraminput_video_path::pa
华为OD机试E卷 --寻找符合要求的最长子串 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述给你一个字符串s，字符串s首尾相连成一个环形，请你在环中找出‘l’、‘o’、‘x’字符都恰好出现了偶数次最长子字符串的长度。输入描述输入是一串小写的字母组成的字符串输出描述输出是一个整数备注•1≤s.length≤5*10^5•s只包含小写英文字母用例输入alolobo输出6
华为OD机试E卷 --最大值--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述给定—组整数(非负)，重排顺序后输出一个最大的整数。示例1输入:[10,9]输出:910说明:输出结果可能非常大，所以你需要返回一个字符串而不是整数。输入描述数字组合输出描述最大的整数用例输入109输出910说明无题目解析给定一组非负整数，我们需要对这些整数进行重排，使得重新
华为OD机试C卷-- 字符串变换最小字符串（Java & JS & Python & C）飞码创造者华为OD机试题库华为od c语言 java javascript python
获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述给定一个字符串s，最多只能进行一次变换，返回变换后能得到的最小字符串（按照字典序进行比较）。变换规则：交换字符串中任意两个不同位置的字符。输入描述一串小写字母组成的字符串s输出描述按照要求进行变换得到的最小字符串。备注s是都是小写字符组成1≤s.
【Triton 教程】持久矩阵乘法 (Persistent Matmul)
Triton是一种用于并行编程的语言和编译器。它旨在提供一个基于Python的编程环境，以高效编写自定义DNN计算内核，并能够在现代GPU硬件上以最大吞吐量运行。更多Triton中文文档可访问→https://triton.hyper.ai/该脚本展示了使用Triton进行矩阵乘法的持久化内核实现(persistentkernelimplementations)。包含多种矩阵乘法方法，例如基础的朴
《CPython Internals》阅读笔记：p151-p151 python
《CPythonInternals》学习第9天，p151-p1510总结，总计1页。一、技术总结无。二、英语总结(生词：1)1.marshal(1)marshalingMarshallingormarshaling(USspelling)istheprocessoftransformingthememoryrepresentationofanobjectintoadataformsuitablef
python实现自动登录12306抢票 -- selenium python
python实现自动登录12306抢票--selenium前言其实网上也出现了很多12306的代码，但是都不是最新的，我也是从网上找别人的帖子，看B站视频，然后写成了这个程序，想分享一下。其中我会说自己遇到的问题以及自己的一个改进。一、遇到的问题？1.url-正确的表头：就是首先url不要写错了，然后一定要加正确的表头，才可以拿到数据，就是我日期填写错误，然后生成的url就有问题，浪费了好多时间。
Python单例模式中的问题后端python
一、装饰器形式的单例模式首先先给出Python中装饰器的单例模式：python代码解读复制代码importthreadingdefsingleton(cls):_instances={}_lock=threading.Lock()defget_instance(*args,**kwargs):ifclsnotin_instances:with_lock:ifclsnotin_instances:_
《CPython Internals》阅读笔记：p118-p150 python
《CPythonInternals》学习第8天，p118-p150总结，总计33页。一、技术总结补充一些本人整理的关于Context-FreeGrammar(CFG)的知识。1.symbol(符号)Amathematicalsymbolisafigureoracombinationoffiguresthatisusedtorepresentamathematicalobject（符号是一个数字或数
巧夺天工：VSCode Python 终端环境隔离的背后原理
每个写Python的小伙伴都会感慨，VSCode对Python环境的支持太好了！当你切换Python解释器后，新开的终端会自动激活对应的环境，不同项目互不干扰，用起来简直不要太舒服。但是，你知道这背后的实现原理吗？终端环境隔离的本质：环境变量首先，我们要理解终端中环境激活的本质。当我们在终端中执行sourcevenv/bin/activate或condaactivateenv_name时，这些命令
为什么在 Python 中 hash(-1) == hash(-2)? python
英文：https://omairmajid.com/posts/2021-07-16-why-is-hash-in-python作者：OmairMajid译者：豌豆花下猫&Claude-3.5-Sonnet时间：原文发布于2021.07.16，翻译于2025.01.11收录于：Python为什么系列https://github.com/chinesehuazhou/python-whydo当我在等
深入探讨聚合函数（COUNT, SUM, AVG, MAX, MIN）：分析和总结数据的新视野
title:深入探讨聚合函数（COUNT,SUM,AVG,MAX,MIN）：分析和总结数据的新视野date:2025/1/13updated:2025/1/13author:cmdragonexcerpt:在数据分析和数据库管理领域，聚合函数（AggregateFunctions）是获取数据总结和统计信息的关键工具。聚合函数如COUNT、SUM、AVG、MAX和MIN能够有效地分析大量数据，帮助用
《CPython Internals》阅读笔记：p97-p117 python
《CPythonInternals》学习第7天，p97-p117总结，总计21页。一、技术总结1.词法分析(lexicalanalysis)根据《Compilers-Principles,Techniques,andTools》(《编译原理》第2版)第5页：Thefirstphaseofacompileriscalledlexicalanalysisorscanning.Thelexcicalan
《CPython Internals》阅读笔记：p96-p96 python
《CPythonInternals》学习第6天，p96-p96总结，总计1页。一、技术总结1.parser-tokenizerp92,Creatingaconcretesyntaxtreeusingaparser-tokenizer,orlexer.p96,CPythonhasaparser-tokenizermodule,writteninC.当做这在92页提到parser-tokenizer的
Python列表方法 L_lemo004 Python python
目录添加元素Pythonappend()方法添加元素Pythonextend()方法添加元素Pythoninsert()方法插入元素删除元素del：根据索引值删除元素pop()：根据索引值删除元素remove()：根据元素值进行删除clear()：删除列表所有元素修改元素修改单个元素修改一组元素查找元素index()方法count()方法添加元素实际开发中，经常需要对Python列表进行更新，包括
requests库的安装和使用指南
Requests库安装与使用指南Requests是一个功能强大且易于使用的PythonHTTP库，广泛应用于发送各种HTTP请求，如GET、POST等。以下内容将详细介绍Requests库的安装和使用方法，帮助您高效地在Python中进行HTTP操作。️安装Requests库要使用Requests库，首先需要确保已安装pip工具。然后，在终端或命令行中运行以下命令进行安装：pipinstallre
用Python在Excel工作表中创建数据透视图
数据透视图是基于数据透视表创建的Excel图标，它能够帮助我们从复杂的数据集中提炼出有价值的信息，提供直观且易于理解的数据视图。对于需要频繁更新或处理大量数据集的人员以及任何依赖数据做出决策的人来说，用Python在Excel中创建数据透视图能够根据最新的数据快速调整和生成新的分析图表，从而提高工作效率并增强数据分析的灵活性。本文将介绍如何使用Python在Excel工作表中创建数据透视图。用Py
深入探讨外联接（OUTER JOIN）：丰富数据查询的利器
title:深入探讨外联接（OUTERJOIN）：丰富数据查询的利器date:2025/1/10updated:2025/1/10author:cmdragonexcerpt:外联接（OUTERJOIN）是数据库查询中极为重要的一种操作，它允许从两个或多个表中获取完整的记录，即使某些表中没有匹配的记录。通过外联接，用户可以获取更多的信息，特别是在数据分析和报表生成的过程中。categories:前
数据分析系统：驱动企业决策的智能引擎 qingyunliushuiyu 数据分析数据分析数据分析系统数据分析系统体系数据分析体系数据仓库ETL
数据作为当今企业重要的资产，已经受到企业的重视。随着企业的不断发展壮大，传统的数据分析已经跟不上现代商业环境。所以高效的数据分析系统是企业在竞争环境当中脱颖而出的重要屏障。数聚就从多年的实施角度来为企业畅想构建数据分析系统应用，为企业发展壮大提供数据服务。一、数据分析系统的定义数据分析系统是指通过一系列工具和技术，对收集到的数据进行整理、分析和解释，以支持决策的过程。这些系统不仅能够处理大量的结构
pip工具安装第三方库 nfenghklibra pip python
使用pip+cmd引入第三方库pip是Python包管理工具，提供了对Python包的查找、下载、安装、卸载的功能。注意：pip已内置于Python3.4和2.7及以上版本，其他版本需另行安装常规命令：pipinstall安装第三方库的库名（以json为例）pipinstalljson指定版本号：pipinstall库名==库的版本号pipinstalljieba==0.42.1卸载库：pipun
python 词云示例布道天下 python
python词云示例以2021年中央1号文件和政府工作报告文件为例，输出50个关键词。#testPython.pyimportjiebaimportwordclouddefoutputWordCloud(text,outPngName):#配置词云对象参数temp=wordcloud.WordCloud(width=1000,height=1000,font_path="msyh.ttc",max
requests库的安装和使用指南
Requests库安装与使用指南Requests是一个简洁且功能强大的Python库，用于发送HTTP请求。它广泛应用于数据采集、API调用等场景。本文将详细介绍Requests库的安装与基本使用方法，并通过实例和图表帮助您快速掌握其核心功能。目录安装Requests库导入Requests库发送GET请求发送POST请求添加Headers处理响应处理JSON响应异常处理附加参数会话管理文件下载工作
【Python基础字典】汽车限行学Python的小趴菜 python
最近在准备期末机考，看实验课的代码，发现有提升效率的空间，就改了改测评过了。这个效率提升是砍掉了循环结构判断车牌号末尾数字的奇偶，改用纯数学方法（提取数字判断奇偶）任务描述为缓解城市交通压力，武汉市交管局对于长江一桥及江汉一桥实行限行，规定如下：‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭
Python小项目：利用U-net完成细胞图像分割
利用U-Net完成细胞图像分割的详细指南在生物医学领域，细胞图像分割是一个关键步骤，能够帮助研究人员分析细胞结构和功能。U-Net作为一种强大的卷积神经网络结构，广泛应用于医学图像分割任务。本文将详细介绍如何利用U-Net完成细胞图像分割项目，涵盖从数据准备到模型部署的各个步骤。项目步骤概览数据准备数据预处理构建U-Net模型训练模型模型评估图像分割结果可视化调优和优化部署和应用1.数据准备收集数
json相关内容(python) 大哥喝阔落 json python 开发语言
JSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。Python提供了json模块来处理JSON数据。以下是关于Python中JSON的详细内容：1.导入json模块importjson2.将Python对象转换为JSON字符串使用json.dumps()函数可以将Python对象（如字典、列表、字符串、数字等）转换为JS
PyEcharts 基本图表之词云图开不开心少年头哥题目 python 开发语言
第1关：WordCloud：词云图任务描述本关任务：利用所学知识，按要求自行绘制一个词云图。相关知识为了完成本关任务，你需要掌握：1.Python的基本语法，2.PyEcharts词云图的相关内容。编程要求根据以上介绍，在右侧编辑器补充代码，使用给定数据绘制一个词云图，要求：系列名称设置为空，数据项为data，单词字体大小范围设置为20到100，词云图轮廓设置为全局变量中的SymbolType.D
Nginx Proxy Manager 反代本地服务502错误——基于 1panel 部署遇到的问题解决方案 nginx后端python
参考：NginxProxyManager反代本地服务502错误我的需求如下：我有一个需求：我有一台云服务器，ip地址为114.55.xxx.xxx然后在这个机器上部署了一个python服务http://114.55.xxx.xxx:8086我需要实现一个功能：部署一个nginx当我访问云服务器的80端口的时候，可以帮我反向代理访问python服务，我应该如何设置nginx呢？给我对应的配置文件配置
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt