Fantasy!

酒店评论数据分析和挖掘-展现数据分析全流程（一）报告展示篇

本系列文章应该会出四篇博客展现数据分析的整个流程

数据报告成品展示（本文）
描述性数据分析
关键字提取分析
评论情感分类建模
LDA主题模型分析

下面是本文的写作框架：

1. 分析背景

1.1 分析原理—为什么选择分析酒店网络评论

随着互联网的发展, 我们的生活也愈加便捷, 网上购物及预订酒店和景点门票已是多少数人的选择。移动互联网时代，酒店业的市场更加风云变幻，其中最为显著的问题就是酒店该如何正确理解消费者的期望，据此评估自己服务质量的表现，并针对性的加以改善呢？

1.2 分析目的

在本项目中的分析目的主要有4个：

对酒店数据进行描述性分析，主要针对出差类型、酒店房型及评分等方面；
通过文本分类对酒店评论进行情感分类标注，便于进行下一步分析；
依据情感分类标注对数据级，对正负样本分别进行LDA主题分析探索评论数据；
将杂芜无序的结构化数据和非结构化数据进行可视化，展现数据之美

1.3 分析方法— 分析工具和分析类型

python3.7.4 (编程语言)
numpy (数组转换)
pandas (数据转换)
Gensim (词向量、主题模型)
Scikit-Learn（分类）
Jieba(分词和关键词提取)
matplotlib (可视化)
Tableau (可视化)

使用上述数据分析工具, 我将进行两类数据分析: 第一类是比较传统的、针对数值型数据的描述下统计分析，如评论量、评论分数等在时间维度上的分布；另一类将进行深层次的数据挖掘, 包括 关键字提取、情感分类、评论内容LDA主题模型提取

2. 数据采集和文本预处理

2.1 数据采集

使用 Python 爬取网络订购酒店网站的网络评价，数据采集的时间区间为2016.12~2019.12，共计35,867条，采集的字段为评论日期、酒店评分、评论内容、出差类型及酒店房型, 然后经过人工提取4个特征，主要是时间特征（时点和周几）和评论长度特征（标题字数和文章字数），数据如下图所示:

2.2 文本预处理

数据分析/挖掘领域有一条金科玉律：“Garbage in, Garbage out”，**做好数据预处理，对于取得理想的分析结果来说是至关重要的。**本文的数据规整主要是对文本数据进行清洗，处理的条目如下：

（1）分词

要进行文本挖掘，分词是最为关键的一步，它直接影响后续的分析结果。本次使用jieba来对文本进行分词处理，它有3类分词模式，即全模式、精确模式、搜索引擎模式：

精确模式：试图将句子最精确地切开，适合文本分析；
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

现以“做好数据预处理对于取得理想的分析结果来说是至关重要的”为例，3种分词模式的结果如下：

【全模式】: 做好/数据/预处理/处理/对于/取得/理想/的/分析/结果/来说/是/至关/至关重要/重要/的

【精确模式】: 做好/数据/预处理/对于/取得/理想/的/分析/结果/来说/是/至关重要/的

【搜索引擎模式】: 做好/数据/处理/预处理/对于/取得/理想/的/分析/结果/来说/是/至关/重要/至关重要/的

为了避免歧义和切出符合预期效果的词汇，本次采取的是精确（分词）模式。

（2）去停用词

这里的停用词主要包括以下三类：

标点符号：’!’, ‘"’, ‘#’, ‘$’, ‘%’, ‘&’, “’”, ‘(’, ‘)’, ‘*’, ‘+’,
特殊符号：’［①①］’, ‘［①②］’, ❤❥웃유♋☮✌
无意义的虚词：‘他’, ‘他人’, ‘他们’, ‘以’, ‘以上’, ‘以下’, ‘以为’

3. 描述性分析

本环节主要对数值型类型的数据进行探索性数据分析，了解数据分布，从数据中获得有用的信息，它属于较为常规的数据分析，能揭示出一些问题，做到知其然。

3.1 评论数量、评分变化走势及出游类型

从下图可以看出从（2017.01-2019.12）平均评分起伏波动不大，在均值 4.7 上下波动，进入2019年酒店评论数有上升趋势，每年的第3季度为酒店高峰期。

下面是一张复合图，左上角的图主要描述的是房型在每年的排名凹凸图，我们可以发现高级大床房一直都是比较受欢迎的房型，从环形图我们可以看出大部分游客都是商务出差和亲子旅游，从平均评分来看商务出差的平均评分是最低的，这样的结果让人深思，应该从哪些角度去改善呢？最下面的折线图是以月为单位评论数据的趋势，橙色为预测评论数量结果。

4. 文本挖掘

数据挖掘是从有结构的数据库中鉴别出有效的、新颖的、可能有用的并最终可理解的模式；而文本挖掘（在文本数据库也称为文本数据挖掘或者知识发现）是从大量非结构的数据中提炼出模式，也就是有用的信息或知识的半自动化过程。

4.1 关键字提取

衡量指标：一个词在文章中出现的次数越多，则它就越重要。因而，本次采用的是TF-IDF（termfrequency–inverse document frequency）的关键词提取方法：

它用以评估一字/词对于一个文件集或一个语料库中的其中一份文件的重要程度，字/词的重要性会随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

由此可见，在提取某段文本的关键信息时，关键词提取较词频统计更为可取，能提取出对某段文本具有重要意义的关键词。

下面是本次利用jieba在经预处理后的、近32万的评论词料中抽取出的TOP50关键词。

从宏观角度来看，从上面可以明显的识别出4类关键词：

酒店服务：服务员、热情、服务态度、态度、前台、接待
酒店周边：地理位置、机场、公园、停车场、购物、便利、古镇
酒店设施：房间、大堂、客房、装修、游泳池、设施、餐厅
其他关键字：早餐、安静、孩子、便利、整洁、吃饭、行李

由上可得：客户在考量一家酒店上多方面的，酒店的服务，房间是否干净卫生，网络订票是否方便快捷，设施是否完善。在收集数据中我也了解了一些信息，比如：有些客户带着小孩，酒店是否有婴儿床，是否能给小孩一个舒适的休息环境、有些客户早晨起的比较晚，卡在早上餐厅快关闭的时候去吃饭，结果餐厅提前关闭，所以很懊恼，从微观角度来看，居于首要位置的就是“服务”

下图上按照一个服务员的图片为背景生成的一个酒店关键字词云图：

4.2 情感分类

基于网络开源的酒店评论语料库，对正负面情绪的评论各进行关键字提取，然后使用 Gensim 做出词向量模型，然后使用 SVM（支持向量机）进行训练，最后使用模型将收集的酒店评论进行情感分类，进行情感分类的目的是为了使用LDA主题模型分析的时候能够精准提取到酒店的优缺点的主题，下图是情感分类后的数据展示：

正向情感分类数据：
负面情感分类数据：

4.3 LDA主题模型分析

在前面的一个环境里我们针对关键词的分类较为粗略，且人为划分，难免有失偏颇，达不到全面的效果。因此，我们使用情感分类后的数据进行LDA主题模型来发现该评论语料中的关于酒店优缺点。

首先我们将正面情绪的评论进行LDA分析

0.072*"酒店" + 0.062*"服务" + 0.043*"不错" + 0.038*"环境" + 0.031*"房间" + 0.031*"设施" + 0.025*"干净" + 0.020*"交通" + 0.019*"下次" + 0.019*"入住"
0.033*"酒店" + 0.031*"房间" + 0.027*"床" + 0.020*"舒服" + 0.018*"孩子" + 0.017*"住" + 0.015*"早餐" + 0.014*"不错" + 0.013*"赞" + 0.013*"适合"
0.064*"分钟" + 0.034*"还行" + 0.029*"地铁" + 0.026*"##" + 0.025*"铁站" + 0.017*"万科" + 0.016*"高铁" + 0.014*"距离" + 0.013*"绝佳" + 0.013*"十分钟"
0.033*"贵阳" + 0.029*"市区" + 0.029*"中心" + 0.021*"近" + 0.018*"酒店" + 0.018*"周边" + 0.017*"贵阳市" + 0.017*"市中心" + 0.017*"离市" + 0.015*"距离"
0.058*"酒店" + 0.044*"位置" + 0.026*"购物" + 0.022*"中心" + 0.021*"地理" + 0.021*"地理位置" + 0.018*"楼" + 0.018*"不错" + 0.017*"房间" + 0.015*"周边"
0.063*"服务" + 0.040*"前台" + 0.037*"酒店" + 0.027*"热情" + 0.025*"入住" + 0.021*"房间" + 0.015*"特别" + 0.013*"感谢" + 0.013*"升级" + 0.013*"人员"
0.036*"房间" + 0.023*"性价比" + 0.017*"金源" + 0.016*"高速" + 0.014*"世纪" + 0.013*"比高" + 0.013*"价比高" + 0.011*"干净" + 0.010*"宾客" + 0.008*"高"
0.150*"方便" + 0.141*"时间" + 0.024*"火车" + 0.020*"火车站" + 0.019*"车站" + 0.013*"柔软" + 0.013*"生日" + 0.012*"效率" + 0.011*"蛋糕" + 0.007*"顶顶"
0.064*"不错" + 0.063*"酒店" + 0.021*"早餐" + 0.016*"五星" + 0.014*"房间" + 0.014*"高" + 0.013*"服务" + 0.013*"价格" + 0.013*"性价比" + 0.011*"星级"
0.106*"停车" + 0.066*"泳池" + 0.054*"游泳" + 0.049*"车场" + 0.048*"停车场" + 0.040*"游泳池" + 0.033*"健身" + 0.029*"早餐" + 0.029*"健身房" + 0.017*"免费"

因为LDA主题模型算法是一个 “从概率的角度看文学” 的算法，每次运行结果都不相同，通过几次运行我们收集了比较有参考性质的四个主题：

服务	房间	地理位置	硬件设施
办理	舒适	市中心	游泳池
热情	孩子	地铁	健身房
工作人员	柔软	高铁	酒廊
帮忙	套房	购物	小吃
行李	干净	距离	餐厅
入住	床	方便	开心
前台	早餐	高速	停车场

服务：主题中的高频特征词有办理、工作人员、热情、行李等说明酒店办理入住的前台很热情，而且有些酒店的工作人员还会帮客户主动拿行李，会令顾客感到很满意。
房间：主题中的高频特征词有床、舒适、孩子、干净等，说明酒店房间很干净床比较柔软并且带孩子旅游的顾客还有婴儿床并且有早餐，会令顾客给予好评。
地理位置：主题中的高频特征词有市中心、地铁、购物、方便说明酒店的地理位置好，方便购物也是不可缺德的优势。
硬件设施：主题中有游泳池、健身房、酒廊、餐厅、停车场、开心等，酒店的硬件设施好，也会令顾客心情好

综合以上主题，我们可以分析到酒店的服务质量、房间质量、地理位置、硬件设施都是客户所关心的地方，因为我们分析的是正向评论所以如果从用户的角度出发，前台服务态度好、房间干净舒适、地理位置方便、硬件设施完善如果做到以下几点，就是人们心目中的五星级酒店。

下面对负面情绪的评论进行LDA主题分析：

0.009*"感觉" + 0.009*"泉水" + 0.008*"矿泉水" + 0.008*"矿泉" + 0.007*"厕所" + 0.006*"有感" + 0.005*"住" + 0.004*"房间" + 0.004*"打扫" + 0.004*"毛巾"
0.069*"酒店" + 0.043*"服务" + 0.025*"房间" + 0.016*"五星" + 0.016*"设施" + 0.014*"早餐" + 0.012*"前台" + 0.011*"星级" + 0.011*"住" + 0.011*"贵阳"
0.013*"酒店" + 0.012*"房" + 0.011*"前台" + 0.011*"間" + 0.011*"務" + 0.010*"服" + 0.008*"還" + 0.007*"這" + 0.006*"##" + 0.005*"送"
0.015*"早餐" + 0.012*"还好" + 0.006*"楼梯" + 0.006*"早" + 0.006*"黄果" + 0.006*"黄果树" + 0.006*"果树" + 0.005*"吃" + 0.005*"瀑布" + 0.004*"工会"
0.146*"好好" + 0.026*"55" + 0.018*"楼" + 0.016*"古镇" + 0.007*"电梯" + 0.006*"青岩" + 0.004*"活动" + 0.004*"大堂" + 0.004*"市场" + 0.004*"空气"
0.030*"酒店" + 0.016*"房" + 0.015*"床" + 0.014*"携程" + 0.008*"订" + 0.008*"租车" + 0.008*"出租" + 0.008*"元" + 0.007*"出租车" + 0.005*"入住"
0.012*"城区" + 0.009*"老城" + 0.008*"老城区" + 0.005*"订" + 0.005*"预定" + 0.004*"敲" + 0.003*"大学" + 0.003*"水量" + 0.003*"ok" + 0.003*"大学城"
0.030*"酒店" + 0.024*"服务" + 0.021*"前台" + 0.021*"说" + 0.016*"入住" + 0.016*"房间" + 0.010*"住" + 0.009*"电话" + 0.008*"服务员" + 0.008*"退房"
0.044*"房间" + 0.023*"空调" + 0.018*"停车" + 0.017*"酒店" + 0.016*"声音" + 0.012*"卫生" + 0.011*"太" + 0.010*"车场" + 0.010*"停车场" + 0.010*"晚上"

处理方式和正向情感一样，我们运行几次提收集其中有参考价值的主题高频特征词，通过几次运行我们归纳为下面几类主题：

主题1	主题2	主题3	主题4	主题5	主题6
空调	有待	携程	淋浴	专业	车位
坏	马桶	押金	洗澡	工作人员	停车场
晚上	脏	预定	坏	态度	地下
吵	卫生	发票	漏水	费用	导航
温度	早餐	损失	不好	服务员	房间
隔音	价格	前台	洗手间	一般	车位

主题1：主要在吐槽房间里的空调，和房间里的隔音，在收集数据中发现：有些客户在房间发现空调或者其他地方有问题的时候报修，修理不及时或者没人搭理导致客户体验不好，给予差评。
主题2：主要体现出酒店酒店卫生差，早餐价格昂贵的问题。
主题3：因我们本次的数据都是通过携程订酒店，所以会牵扯到发票押金的问题，在收集过程中发现：有些酒店将费用从押金直接扣除，可是在携程客户已经付过账，酒店说在携程里面可以退，携程客服又全是机器人客服，处理和响应都不及时等问题，还有就是发票问题，有些人是例行公事，想省钱在携程上订酒店，遇到网上订单不开发票的酒店，只能自己掏腰包。
主题4：主题体现出洗手间淋浴间漏水的问题。
主题5：可以看出某些酒店工作人员不专业，态度不友好，服务质量一般，收费不明细令顾客不满意，在收集数据过程中发现有些酒店房间里的矿泉水顾客以为是免费的结果8块一瓶，标记不明的物品令顾客不满意。
主题6：说明了有些酒店目的地与导航不符合，停车场管理不好，客户在停车时体验不好。

综合以上主题，我们发现：基础设施故障问题主要体现在空调坏了或者声音大和淋浴间漏水等问题；环境卫生问题主要体现在卫生间或者马桶等卫生问题；押金和发票问题主要体现在线上和线下双重扣费，开发票等问题。

根据对携程贵州五星级酒店评论的LDA主题分析，我对酒店提出以下建议：

定时排差房间基础设施是否正常，不要让客户发现问题，要自己发现问题。
优化线上和线上订购管理，避免多重收费，及时主动向顾客开发票。
保洁工作一定要加大力度，尤其是卫生间，注意卫生死角。
工作人员态度一定要友好，主动帮住客人解决问题。
房间里的东西价格一定要明细，每个房间免费提供矿泉水
优化停车场管理，不要让客户在停车场浪费时间，积极指导客户停车和注明车位。

通过以上改善措施，满足消费者需求，以此在众多酒店中凸显优势。

Python aiohttp YOYO__2018
客户端importaiohttpimportasyncioasyncdeffetch(session,url):asyncwithsession.get(url)asresponse:returnawaitresponse.text()asyncdefmain():asyncwithaiohttp.ClientSession()assession:html=awaitfetch(session,'
Python如何播放本地音乐并在web页面播放玩人工智能的辣条哥开源项目AI Sphere Butler python 前端开发语言
环境：Python问题描述：Python如何播放本地音乐并在web页面播放解决方案：要在Python中播放本地音乐并在Web页面中播放，您可以采用两种不同的方法：一种是在服务器端使用Python播放音频文件，另一种是创建一个Web应用程序，在客户端通过HTML5的标签来播放音频文件。下面我将分别介绍这两种方法。方法1:使用Python播放本地音乐如果您只是想在服务器端（例如在开发环境中）播放本地音
翻译TypeError: GetPath() takes 1 positional argument but 2 were given 李姝瑶
这个错误是Type错误：GetPath()函数只需要1个位置参数，但是给了2个。该错误通常发生在Python代码中，因为该语言要求函数的参数数量必须与函数定义中声明的参数数量相同。在这个例子中，GetPath()函数只接受1个参数，但是在调用函数时给出了2个参数，这导致了TypeError错误。要解决此错误，您需要检查函数调用并确保只传递一个参数给GetPath()函数。如果您需要传递多个参数，请
python aiohttp简易使用教程 Amos_x python python aiohttp 异步
0.前言本文翻译自aiohttp的官方文档，如有纰漏，欢迎指出。aiohttp分为服务器端和客户端，本文只介绍客户端。另外我已经对aiohttp和asyncio进行了封装，可以参考我的github地址：https://github.com/web-trump/ahttp由于上下文的缘故，请求代码必须在一个异步的函数中进行：asyncdeffn():pass1.aiohttp安装pip3instal
python aiohttp_Python-异步之aiohttp weixin_39864101 python aiohttp
什么是aiohttp？一个异步的HTTP客户端\服务端框架，基于asyncio的异步模块。可用于实现异步爬虫，更快于requests的同步爬虫。aiohttp和requestsrequests版爬虫requests同步方式连续30次简单爬取http://httpbin.org网站importrequestsfromdatetimeimportdatetimedeffetch(url):r=requ
券商接口api有哪些类型？不同类型的接口在股票交易中有何作用？财云量化 python炒股自动化量化交易程序化交易券商接口api 类型股票交易行情接口股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
【2023】LeetCode HOT 100——哈希「已注销」 leetcode 算法数据结构
目录1.两数之和1.1C++实现1.2Python实现1.3时空分析2.字母异位词分组2.1C++实现2.2Python实现2.3时空分析3.最长连续序列3.1C++实现3.2Python实现3.3时空分析1.两数之和原题链接：1.两数之和不妨设i<ji<ji<
Python使用aiohttp库进行异步处理 HTTP 请求和响应飞起来fly呀 Python http 网络协议 python
aiohttp是一个非常强大的Python库，专为异步HTTP客户端和服务器开发而设计，它利用了Python的asyncio核心库来实现高效的非阻塞网络编程。这使得开发者可以在处理I/O密集型任务，如网络请求时，更加有效地利用系统资源，从而提升程序的并发性能。安装aiohttp要开始使用aiohttp，首先需要安装这个库。可以通过pip，Python的包管理工具来安装：pipinstallaioh
记录使用python smtplib邮件发送 Wiktok python 前端 javascript
基于多源异构数据存储管理系统开发时遇到的邮件发送问题，这里做一下记录。importsmtplib#导入smtplib模块，用于发送邮件fromemail.mime.textimportMIMEText#从email.mime.text导入MIMEText类，用于构建文本邮件fromemail.headerimportHeader#从email.header导入Header类，用于设置邮件头部ema
买卖股票的逻辑究竟藏于何处？是基于公司基本面，还是市场趋势等因素？股票程序化交易接口量化交易股票API接口 Python股票量化交易大数据股票买卖公司基本面市场趋势投资者决策股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>公司基本面与股票买卖逻辑公司业绩与价值评估公司的业绩是衡量其价值的重要指标。净利润、营收增长等数据反映公司的盈利能力。一家公司连续多年保持稳定的盈利增长，通常意味着它具有良好的经营状况。投资者会根据这些数据评估公司的内在价值，若股票价
Python实现前缀和 Syhaswm python前缀和 python 开发语言
文章目录系列文章目录前言一、前缀和是什么？二、一维前缀和与二维前缀和三、前缀和应用场景四、实现前缀和的方法1.运用函数实现前缀和（包括求区间和）2.引入accumulate第三方库3.for循环总结前言在算法和数据结构的领域中，前缀和是一种极为实用且基础的算法思想。它能显著提升我们处理数组或矩阵相关问题的效率，将原本可能需要多次重复计算的过程优化为常数时间的操作。无论是在竞赛编程中，还是在实际的软
Python+Requests+Pytest+YAML+Allure实现接口自动化测试界晓晓软件测试 python pytest 自动化软件测试功能测试自动化测试程序人生
本项目实现接口自动化的技术选型：Python+Requests+Pytest+YAML+Allure，主要是针对之前开发的一个接口项目来进行学习，通过Python+Requests来发送和处理HTTP协议的请求接口，使用Pytest作为测试执行器，使用YAML来管理测试数据，使用Allure来生成测试报告一、项目说明本项目在实现过程中，把整个项目拆分成请求方法封装、HTTP接口封装、关键字封装、测
奥比中光3D机器视觉相机能连接halcon吗？视觉人机器视觉机器视觉3D 3d 数码相机视觉检测 c#
奥比中光的设备与Halcon的兼容性可以通过以下方式实现：数据接口的通用性奥比中光的相机（如AstroPro、大白等）支持通过UVC协议获取彩色图像，深度数据则通过OpenNI或ROS2接口传输105。若Halcon支持这些协议或标准接口（如ROS消息、OpenCV图像流），则可通过直接调用或二次开发实现连接。例如，通过Python或C#脚本将图像数据从相机传输至Halcon的处理流程中。SDK与
一个最简单的方法解决Python的TypeError: xxx() takes 1 positional argument but 2 were given Wiktok python 开发语言
当我们在类内写了函数进行调用的时候，有时侯并没有传递参数，所编写的函数方法也不需要参数，但运行会报错：TypeError:xxx()takes1positionalargumentbut2weregiven，参数请求的错误，某并未深究其中原因，但单纯就解决这个问题而言，根据某实际经验，只需要在你的目标调用函数里定义空参数即可解决报错问题。演示如下：假设报错：classMainPro:def__in
基于pytest+requests+allure+yaml实现接口自动化测试框架 csdn950212 测试开发 pytest 接口自动化测试
1.项目背景和目标：这是一个基于Python的接口自动化测试框架，主要目标是：-提供一个稳定、可维护的接口测试解决方案-实现测试用例与测试数据的解耦-提供详细的测试报告和日志记录-支持多环境配置和灵活的用例管理2.技术栈选型框架采用了以下核心技术：pytest：作为测试执行引擎，提供了强大的用例管理和参数化能力requests：处理HTTP请求，支持各种接口调用场景allure：生成美观的测试报告
Python标准库之OS库星浩前进中 #金融量化 python 开发语言
目录一、介绍二、目录操作1、获取当前工作目录2、删除目录(空目录)2.1、删除当前目录2.2、递归删除目录3、删除目录(非空目录)4、创建目录5、递归创建目录6、判断是否为目录7、改变当前目录到指定目录三、文件操作1、创建文件2、删除文件3、文件重命名4、判断是否为文件5、获取文件信息四、其他操作1、判断路径对象是否存在2、获取路径下所有的文件和目录3、深层遍历指定路径下的所有子文件夹、文件4、路
python+postgresql+psycopg2实现自动化数据库生成（数据库迁移） bao1771148504 数据库 postgresql 自动化 python
python+pgsql+psycopg2实现一键数据库生成1.tipsNavcat转储sql文件，存在主键自增，加入下面代码。CREATESEQUENCEIFNOTEXISTSt表名_id_seqSTART1000;手动导入表不全时，也请检查主键自增情况，加入上面代码。importpsycopg2frompsycopg2.extensionsimportISOLATION_LEVEL_AUTOC
python异常处理链与自定义异常体系设计懒大王爱吃狼 python python 开发语言 linux 数据库 python学习 Python基础
在Python中，异常处理链和自定义异常体系是两个重要的概念，它们有助于更好地管理程序中的错误和异常情况。异常处理链异常处理链指的是在捕获一个异常后，能够将其信息保留并传递给另一个异常或日志系统。这在多层调用或复杂系统中尤其有用，因为它允许你追踪异常最初发生的位置，同时也可以在每一层添加额外的上下文信息。Python本身并不直接支持异常链的某些高级特性（如Java中的initCause方法），但你
Python正则懒大王爱吃狼 python python 开发语言 Python基础学习 python学习
正则表达式（RegularExpressions，简称regex）是一种强大的文本处理工具，可以用于搜索、替换和解析字符串。Python的re模块提供了对正则表达式的支持。以下是一些基本用法和示例：导入re模块首先，你需要导入Python的re模块：importre基本匹配匹配单个字符.匹配除换行符以外的任意单个字符。[]匹配括号内的任意一个字符。例如[abc]匹配a、b或c。[^...]匹配不在
Python网络编程懒大王爱吃狼 python python 网络开发语言 pycharm Python基础 pycharm安装
Python网络编程涉及使用Python语言来创建网络应用程序，这些应用程序可以在网络上与其他计算机进行通信。Python提供了多个库和框架来简化网络编程的过程，其中一些最常用的包括socket库、http.server模块、asyncio库以及第三方库如requests、Twisted和aiohttp等。以下是一些Python网络编程的基本概念和使用示例：1.套接字编程（SocketProgra
Python+DeepSeek，奔跑吧大模型 Bj陈默 python 开发语言
在当今数字化浪潮中，人工智能与编程语言的融合正以前所未有的速度重塑着技术生态。Python作为最受欢迎的编程语言之一，以其简洁易读的语法、丰富的库和广泛的应用场景，成为了无数开发者的首选。而DeepSeek，作为人工智能领域的一颗新星，凭借其强大的大模型能力，为开发者们打开了一扇通往全新世界的大门。当Python遇上DeepSeek，一场技术的盛宴就此拉开帷幕。一、为什么选择Python与Deep
第五章序列 MPCTHU python python
在数学领域里，序列也称为数列，是一列有序的数。在程序设计中，序列是一类数据结构，用来存储一组有序排列的元素，并提供各种读写操作接口。5.1认识序列在python中，序列主要包括列表list，元组tuple，对象range、字符串str、字节串bytes、字节数组bytearray。大多数序列类型，包括可变类型和不可变类型支持下表的通用操作5.2操作序列5.2.1索引序列是以非负整数作为索引的有限有
【Python】Python与C的区别（超详细总结） Reese_Cool Python python c语言 java
文章目录语句结束符代码块表示变量声明函数定义注释格式Python的标识符数据输入input()函数数据输出print()函数语句结束符C语言C语言中每条语句必须以分号;结束。例如，inta=10;、printf("Hello,World!");。分号是语句的一部分，用于告诉编译器一条语句在哪里结束。如果忘记添加分号，编译器会报错，提示语法错误。Python语言Python语句一般不需要特定的结束符
Selenium 对页面元素的操作动作及其语法静静在思考 #Selenium selenium 测试工具
Selenium提供了丰富的操作动作，用于模拟用户在浏览器中的各种交互行为。以下为你详细介绍常见操作动作及其语法，并结合百度网站为例给出Python代码示例。1.打开网页语法：使用driver.get(url)方法，其中driver是浏览器驱动实例，url是要打开的网页地址。示例代码：fromseleniumimportwebdriverdriver=webdriver.Chrome()drive
Python教学-最常用的标准库之一——OS库懒大王爱吃狼 python python 服务器开发语言 Python基础 python学习 python爬虫
os库是Python标准库中的一个模块，它提供了一种方便的方式来使用操作系统相关的功能。os模块提供了很多函数，可以用来处理文件和目录、访问环境变量、执行系统命令等。以下是一些常用的os模块的功能和示例：1.文件和目录操作1.1当前工作目录os.getcwd()：获取当前工作目录。os.chdir(path)：改变当前工作目录。importoscurrent_dir=os.getcwd()prin
LeetCode--------接雨水python newica LeetCode
题目不重述了。小菜一枚，思路还是比较欠缺，按照leetcode题解的精选，用python写了一下。加深理解吧。按行接雨水：思路：首先寻找数组的最大值，即最多一共有几行。然后分别求每一行的雨水量。从第一行开始，第一种情况是遇到比第一行低的块，可以存到一方水；第二种情况是遇到和第一行一样高或者比第一行要高的块，重新开始计算雨水量。直到最高行，雨水量计算完毕。思路比较清晰，可以看力扣官网题解精选有图。p
python tkinter 自制文本编辑器 ocean35 tkinter python 文本编辑器 tkinter python
成品如图：代码fromtkinterimport*fromtkinterimportfiledialogfromtkinterimportmessageboximporttimedefnodefined():pass#打开文件函数defopenfile():filename=filedialog.askopenfilename()f=open(filename,'r')f2=f.read()f.c
Java 基于 SpringBoot+Vue 的动漫平台（附源码，文档）程序员徐师兄 java spring boot vue.js 动漫平台动漫网站
博主介绍：✌程序员徐师兄、8年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战*✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《500套》Java微信小程序项目实战《200套》Python项目实战《200套
python Kivy SDL2报错: Unable to load image 岁月缱绻浮半生
pythonKivySDL2报错:Unabletoloadimage国内玩kivy的真的很少，教程也少。断断续续弄了两天，终于弄好了首先看一下我的报错[INFO][Logger]RecordloginC:\Users\AlucaRd\.kivy\logs\kivy_20-12-15_11.txt[INFO][deps]Successfullyimported"kivy_deps.gstreamer
成功解决 python+kivy的raise Exception(‘SDL2: Unable to load image‘) Unable to get a Window, abort. projectnone2019 python 开发语言后端
运行python+kivy一个小程序出错，代码如下：fromkivy.appimportAppfromkivy.uix.floatlayoutimportFloatLayoutclassSizeFloat(FloatLayout):def__init__(self,**kwargs):super().__init__(**kwargs)classSizeApp(App):defbuild(self
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

酒店评论数据分析和挖掘-展现数据分析全流程（一）报告展示篇

1. 分析背景

2. 数据采集和文本预处理

3. 描述性分析

4. 文本挖掘

你可能感兴趣的:(python,数据挖掘)