play_big_knife

Python实战案例：旅游方面博文的数据分析

一、旅游方面博文数据展示

数据分析的出现便利了每个人，企业，竞争者。在以前的时候，如果想要了解市场的动向，就设计了调查问卷或者现场采访的方式，以至于被很多人误以为不法之举。而如今如果在想了解市场，我们只需要简单的设计和建立一个数据库，以此来监测人们的行为和动向，一段时间之后，数据结果自然会告知你一切。在很多的时候，爬虫工程师爬取数据之后，都需要进行后续的数据分析。

这里以旅游微博的数据分析为例。旅游微博的数据是以excel表展现的，这个项目中的excel表有五个表格。

其中all表是第一张表格，表中的数据是具体微博的每一篇博文，对应每篇博文的转发数，评论数和点赞数，以及发表博文的时间。表中的内容如下图所示。

其中sf表说明省份名的简称。表中的内容如下图所示。

其中sfweibo表说明微博名称及省份简称的对应关系。表中的内容如下图所示。

其中base_info表说明微博的名称及微博的信息情况，如发表的微博数、粉丝数及微博的关注数。表中的内容如下图所示。

其中crawl_info是从网上爬取的各旅游局四月份的微博情况，从网上爬取相关的粉丝数、微博数、转发数。

其中最后形成的final表中的结果。

二、旅游方面博文的数据处理

首先，这些数据是存储在excel表中的，需要从excel表中把数据读取出来。读取excel表的方法是read_excel，代码如下。

data=pandas.read_excel('test1.xlsx')

如果读取的是其中某个表格，则把表格的名字带上就可以。

data=pandas.read_excel('test1.xlsx',sheet_name=”sf”)

这样的语句就是读取text1.xlsx中的sf表。

如果没有加sheet_name，则默认会读取第一张表。

读出的数据字段包括了很多，这里有的字段是有分析的必要，有的字段不需要使用。输出表中所有字段的语句是：

data.columns

执行此语句后，最终的输出结果如下图所示。

从图中可以看出，从“用户名”开始，到“点赞数”为止，是对数据分析有意义的字段，可以通过切片的方法对几列的数据进行提取。代码如下。

data=data.iloc[:,11:-1]

这句实际上就是使用切片的方法提取从11列到倒数第二列的有意义的列数据。

提取到有效字段的数据以后，需要查看数据中是否有重复数据，判断数据中是否重复是data.duplicated()，语句可以输出布尔型数据，这些在布尔型数据表明了数据是否是重复的。具体哪些数据是重复的，可以通过data[data.duplicated()==True]这种语句形式显示出来，如果需要引用前几十条数据，可以通过语句data[data.duplicated()==True][：20]，这样显示的是前20条重复的数据。调用语句后最终的结果如图所示。

从执行结果的图示来看，表中的数据是有重复数据的，对于博文来讲，重复的数据就没有任何意义了，直接删除掉即可，pandas模块中drop_duplicates(inplace=True)方法可以删除重复的数据，inplace=True表示删除重复数据后的数据是覆盖原数据的，如果没有inplace=True删除后的数据不覆盖原有数据。执行结果如下图所示。

执行删除指令后的数据，再执行data[data.duplicated()==True][:20]语句查看重复数据的前20条数据，最终显示的数据就是空数据了。

从图中可以看出，已经没有重复数据了。

然后，可以使用pandas.describe()函数进行一些统计信息的收集，自动统计的字段有count（非空值数）、unique（唯一值数）、top（频数最高者）、freq（最高频数）。把去重后的data数据describe之后的结果如下图所示。

从上图中看，微博内容的count值为6122，用户名的统计为6159，两个数字不相等，可能微博内容会有空数据。Is_null()是判断空数据的方法，dropna()是删除空数据的方法。执行data.dropnal(inplace=True)语句即可删除空数据，删除以后可以通过data.describe()继续统计数据情况，执行结果如图所示。

从执行结果上看，用户名和微博内容的count值达到了一致，通过dropna方法已经把空数据删除掉了。

接下来可以检查一下数据类型，在微博读取维度中的“转发数”、“评论数”、“点赞数”按道理来说，都应该是数字，但从统计的结果上来看，有“转发”和“评论”的中文显示，实际上“转发”和“评论”表示的是转发量为0，即没有转发，字段中出现“评论”也是因为评论量为0，即没有评论。如果需要计算“转发量”、“评论量”及“点赞量”是需要检查对应维度的数据类型的。通过data.dtypes来检查每个维度的数据类型。执行语句后的运行结果如下图所示。

从图中输出的结果上看，“转发数”、“评论数”和“点赞数”均为object字符串类型，需要将“转发数”、“评论数”和“点赞数”转化成为整型。

通过统计会知道，“转发数”中有哪些数据不是整型数的异常，“评论数”中有些数据不是整型数的异常，“点赞数”还不知道有没有异常，这里也可以通过unique方法把“转发数”、“评论数”和“点赞数”三个维度中的数据列举出来，对于不是数值数据可以进行数据类型的转换。执行“转发数”的unique()方法的结果如下图所示。

从图中看，这里有文字“转发”，需要把“转发”变成数字0。

接下来，继续执行data["评论数"].unique()方法的结果如下图所示。

从图中看，这里有文字“评论”，需要把“评论”变成数据0。

接下来，继续执行data["点赞数"].unique()方法的结果如下图所示。

从图中看，这里有文字“赞”，需要把“赞”变成数据0。

这里把上述“转发数”、“评论数”和“点赞数”中的“转发”、“评论”和“赞”转换成0。可以使用下面的语句。

把“评论数”的“评论”值设置为0的语句代码如下。

data['评论数'][data['评论数']=='评论']=0

把“转发数”的“转发”值设置为0的语句代码如下。

data['转发数'][data['转发数']=='转发']=0

把“点赞数”的“赞”值设置为0的语句代码如下。

data['点赞数'][data['点赞数']=='赞']=0

把数据转换成功后，进行数据类型的转换，把object转换成int代码如下。

把“转发数”数据类型转成int代码如下。

data['转发数']=data['转发数'].astype(int)

把“评论数”数据类型转成int代码如下。

data['评论数']=data['评论数'].astype('int')

把“点赞数”数据类型转成int代码如下。

data['点赞数']=data['点赞数'].astype('int')

再继续利用data.dtypes查看数据类型，结果如下。

三、旅游局四月博文的转发数、评论数等内容的统计

关于旅游局四月博文的转发数、评论数等内容的统计内容，比如某个旅游局博客在四月份转发数一共有多少，可以通过透视表技术来进行统计，pandas的透视表使用pivot_table来实现。具体格式如下。

pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],aggfunc=[np.mean,len])

其中df是需要透视表统计的表格DataFrame，index参数决定的是统计表格时的索引项，values是需要汇总统计的具体值，aggfunc对汇总统计的值采用的运算方式是什么。np.sum采用的是求和运算，np.mean采用的是求平均数的运算。

现在使用pivot_table透视表技术统计每个旅游局的合计转发数，评论数、点赞数，微博量。具体代码如下。

all_data=data.pivot_table(values=['转发数','评论数','点赞数','微博内容'],index='用户名',aggfunc={'转发数':numpy.sum,'评论数':numpy.sum,'点赞数':numpy.sum,'微博内容':numpy.size})

代码的最终执行结果如下图所示。

对于任何一下旅游局微博来说，“点赞数”、“评论数”、“转发数”均可以认为是旅游局的微博活动量，将“点赞数”、“评论数”、“转发数”三个数值相加就是旅游局的微博活量。如下图所示。

四、省份和省份微博对应的表格读取

接下来处理对省份的简称及省份对应的旅游微博的对应关系，也就是pandas在数据分析上常常使有的两表相连，这里需要通过特定的字段来进行连接。根据两个表格的结构对比，如下图所示。

上图所示的两表相连，两个表读取后会发现，省份名是连接两个表的唯一标志，但是两个表的省份名也不是完全相同，需要通过一些技术手段的处理，这里的技术手段就是截取两个字段中内容的前两位即可。处理方法是添加一个新的字段，存储的内容是省份名称中的前两位字符。

代码如下。

import numpy
sf=pandas.read_excel('test1.xlsx',sheet_name='sf')
sfweibo=pandas.read_excel('test1.xlsx',sheet_name='sfweibo')
sf['省份前两位']=numpy.nan
sfweibo['省份前两位']=numpy.nan
sf['省份前两位']=sf['省份名'].str.slice(0,2)
sfweibo['省份前两位']=sfweibo['省份名'].str.slice(0,2)

运行代码合可以输出sf表格的内容如下图所示。

再输出sfweibo表格的内容如下图所示。

从图中可以看到，两个表现在有了一个意义相同的字段，即“省份前两位”，pandas可以用“省份前两位”进行字段进行整合，merge方法是把两个表合成一个表的方法。格式如下。

pd.merge(df_1,df_2, on = '城市',  how = 'right')

merge中的第一个参数df1是第一个需要合并的DataFrame表格，第二个参数df2是第二个需要合并的DataFrame表格，on是两个表需要合并的指定字段，how表示连接的方式，是外连接、左连接还是右连接。

现在使用pandas中merge的方法实现两个省份表的连接，具体代码如下。

sf_data=pandas.merge(sf,sfweibo,on='省份前两位')

代码执行后的输出两表连接后的结果如下图所示。

现在两个省份表连接了起来。

五、多表连接和其它维度的增加

省份表连接后，现在将省份表及微博活动量表进行合并，形成一个大的表格，把每个微博对应的省份及简称也加入到表格中。这里通过“微博用户名”字段进行连结。代码如下。

all_sf=pandas.merge(sf_data,all_data,left_on='微博用户名',right_on='用户名')

连接后，可以改变维度显示的顺序，可以使用[[]]，在内中括号中写入维度的具体顺序。代码如下。

all_sf=all_sf[['微博用户名','转发数','评论数','点赞数','单条最大活动量','微博内容','简称']]

输出all_sf的结果如下图所示。

继续读出baseinfo微博的名称及微博的信息情况。将合并的allsf表和base_info两个表相连。合并的字段依据“微博用户名”和“昵称”进行合并。

base_info=pandas.read_excel('test1.xlsx',sheet_name='base_info')
all_base=pandas.merge(all_sf,base_info,left_on='微博用户名',right_on='昵称')

代码运行后的字段显示如图所示。

根据图中字段显示的内容，把“微博用户名”改成为“昵称”，把原来的“昵称”字段去掉。使用drop方法删除原有的“昵称”字段，用rename方法把原有的“微博用户名”改成“昵称”，代码及运行结果如下图所示。

从crawl_info表中的地址上看，如下图所示的特点。

博文链接中的地址就是home之前的地址与后面的“?profileftype=1&isall=1#0”内容的结合，而home之间的内容在baseinfo中有所体现，如下表所示。

图中的主页链接内容到home就结束了，只需将主页链接内容加上字符串内容“?profileftype=1&isall=1#_0”就可以实现全部博文链接的内容。代码如下。

alllink='?profile_ftype=1&is_all=1#_0'
all_base.insert(12,'全部博文链接',all_base['主页链接']+alllink)

insert方法就是在表格中插入数据的方法，第一个参数12是列数的意思，第二个参数是列的名字，意思是在12列插入的列名为“全部博文链接”，具体内容决定了第三个参数，第三个参数就是把all_base表中的“主页链接”字段的内容加上alllink字符串的内容。

同理，当月的博文链接也出现如下图的特点。

也同样使用insert方法插入到具体的列中，代码如下。

monthlink='?is_ori=1&is_forward=1&is_text=1&is_pic=1&is_video=1&is_music=1&is_article=1&key_word=&start_time=2017-04-01&end_time=2017-04-30&is_search=1&is_searchadv=1#_0'
all_base.insert(14,'当月博文链接',all_base['主页链接']+monthlink)

代码执行后对应的截图如下所示。

利用这些数据，还可以计算“当月的原创数”，代码如下。

all_base.insert(16,'当月原创数',all_base['当月总微博数']-all_base['当月转发数'])

这样这个微博博文数据表的维度已经扩展到了很多方面。输出具体维度的运行截图如下图所示。

六、根据微博博文的用户名进行分组排序

数据分析在很多程度上都需要进行分组和排序，只有分组和排序才能看清一些数据的具体排名，根据具体的排名才能更好的分析具体的问题。

pandas是用groupby进行分组的，排名的方法可以使用sort_values来进行的。

先用pandas.groupby对“用户名”进行分组，代码如下。

gb=data.groupby('用户名')

分组后可以获取分组后的大小和索引值，相当于计算统计旅游局发展了多少篇微博各获取过的分组索引名。代码如下。

gb1=gb.size()
gbindex=gb1.index

size()方法获取分组的大小。

index属性是获取分组后的索引

输出size大小和index索引的信息结果如下图所示.

从图中的结果可以看出,每个旅游局的微博的发表的数量.

接下来就可对数据进行排序,可以比较出哪一个旅游局发表的文章是最多的,哪一个旅游局发表的文章是最少的.哪一个旅游局博文被转发的量是最大的,哪一个旅游局博文被评论量的最大的.这些都是数据分析进行分析展示的根本。具体代码如下。

按用户转发量的大小排序。

sortallf=data.sort_values(by=['用户名','转发数'],ascending=[True,False])

ascending表示用户名的排序是升序,转发数的排序是降序.

按用户的评论量大小排序。

sortallc=data.sort_values(by=['用户名','评论数'],ascending=[True,False])

ascending表示用户名的排序是升序,转发数的排序是降序。

按用户的点赞数大小排序。

sortalll=data.sort_values(by=['用户名','点赞数'],ascending=[True,False])

ascending表示用户名的排序是升序,转发数的排序是降序。

其转发量大小排序的结果如下图所示。

七、微博数据分析的总结

微博数据分析重要的在于pandas模块中对数据分析方法的使用，去重去空清洗提纯的方法，异常值是如何判断出来的，如何把异常值做一些转化处理，数据分析常用的方法有哪些，如何进行group by分组，如何sort_values排序，这些内容都是数据分析必须掌握的技术能力，旨在通过微博数据的分析过程，对数据分析的常用方法有一个总体上的掌握。

代码的github地址：https://github.com/wawacode/travel_weibo_analyse

MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
Pandas 学习（数学建模篇）停走的风数学建模 pandas 学习
今天学习数学建模2023年C篇（228）优秀论文2023高教社杯全国大学生数学建模竞赛C题论文展示（C228）-2023C题论文-中国大学生在线一.pd.DataFramepd.DataFrame()是pandas库中用于创建二维表格数据结构（DataFrame）的核心函数。它的作用是将各种格式的数据（如字典、列表、Series等）转换为带有行索引和列标签的表格形式，便于数据处理和分析.impor
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
使用FinancialDatasets工具包进行财务数据分析 Zbb159 数据分析数据挖掘
##技术背景介绍在现代金融分析中，获取准确且及时的财务数据是至关重要的。FinancialDatasets提供了一个强大的API，可以获取超过16,000个股票的财务数据，时间跨度超过30年。通过与OpenAI的集成，我们能够创建智能化的财务分析助手，为投资者提供深度的市场洞察。##核心原理解析FinancialDatasets工具包通过RESTAPI接口访问财务数据，为每个公开交易的公司提供详细
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

Python实战案例：旅游方面博文的数据分析