未来村村长

数据分析初级操作学习【预处理、集中与离散分析、相关分析】

数据分析初级学习

大家好！我是未来村村长！就是那个“请你跟我这样做，我就跟你那样做！”的村长‍！
上次发布了[Pandas库的使用教程，每个程序都配图，两万字保姆教学轻松学会]，接着上次的教程，和我进一步拓展数据分析之路!

一、数据预处理

1、数据去重

十分简单，只需要调用**duplicated()**函数就可以知道哪行数据出现了重复。

调用**drop_duplicates()**即可直接删除重复行。

df = pd.read_csv(r'C:\Users\官二的磊子\Desktop\总体信息3.csv',header=0,names=['店铺名称','评论分数','评论人数','人均价格','口味','环境','服务'])
print(df.duplicated())
df2 = df.drop_duplicates()
print(df2)

2、数据清理

① 缺失值处理

三个相关操作

函数	说明
dropna()	删去含有丢失数据行或列
fillna()	填充缺失数据
isnull/notnull	检查是否含有缺失数据

dropna()

df.dropna(axis=0,how=‘any’ ,subset=None,inplace=False)

参数	简介
axis	数据删除维度
how	any：删除带有Nan的行；all：删除全为Nan的行
subset	删除指定列空值数据
inplace	是否用新生成的列表替换原列表

#删除指定列含有空值的行
df.dropna(how='any',subset=['服务'],inplace=True)
#删除带有空值的行
df.dropna(how='any',inplace=True)
#删除全为空值的列
df.dropna(axis='columns',how='all',inplace=True)

fillna()

method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None

pad/ffill：用前一个非缺失值去填充该缺失值
backfill/bfill：用下一个非缺失值填充该缺失值
None:指定一个值去替换缺失值

方法一：全部填写为同一特定值

df.fillna(value=10
          ,method=None
          ,axis=None
          ,inplace=False)
#均值
df.fillna(value=df.mean())
#中位数
df.fillna(value=df.median())
#最值
df.fillna(value=df.max())
df.fillna(value=df.min())

方法二：按列填写不同特定值

values = {
     'A':11,'B':22,'C':33,'D':44}
df.fillna(value=values
          ,method=None
          ,axis=None
          ,inplace=False)

#或写为
df.fillna({
     'A':11,'B':22,'C':33,'D':44})

方法三：‘ffill’ 填充或bfill填充

df.fillna(method='ffill'
          ,axis=None
          ,inplace=False)

统计缺失值占比

# 计算data每一行有多少个缺失值的值，即按行统计缺失值
rows_null = df.isnull().sum(axis=1)
# 下面则是按列统计缺失值
col_null = df.isnull().sum(axis=0)
# 统计整个df的缺失值
all_null = df.isnull().sum().sum()
# 统计某一列的缺失值
idx_null = df['人均价格'].isnull().sum(axis=0)
# 统计缺失占比
null_rate = df.isnull().sum(axis=0).sum()/df['店铺名称'].size

② 数据行列的删除

有时候我们得到的数据有一些无关紧要或者我们不关系的数据，我们可以直接删除。

行的删除

方法一：使用index参数 []内是索引名，不是序号，要注意！

df.drop(index=[0,1],inplace=False)

方法二：使用labels和axis参数

df.drop(labels=[0,1],axis=0,inplace=False)

列的删除

方法一：使用columns参数

df.drop(columns=['A','B'],inplace=False)

方法二：使用labels和axis参数

df.drop(labels=['A','B'],axis=1,inplace=False)

3、变量操作

① 修改变量名

rename(index,columns,inplace)

df.rename(index={
     0:'第一家',1:'第二家'},columns={
     "店铺名称":'店铺名'},inplace=True)

② 根据条件创建变量

df[‘属性1’] = np.where(df[‘属性2’]运算符和变量,‘符合变量’,‘不符合变量’)

df['是否超出我的消费水平'] = np.where(df['人均价格']>50,'贵死了','还可以')

③ 创建哑变量

df.join(pd.get_dummies(df[类别属性’]))

函数介绍

join(self, other, on=None, how=“left”, lsuffix="", rsuffix="", sort=False)

other：DataFrame, Series, or list of DataFrame，另外一个dataframe, series，或者dataframe list。
on: 参与join的列，与sql中的on参数类似。如果两个表中行索引和列索引重叠，那么当使用join()方法进行合并时，使用参数on指定重叠的列名即可
how: {‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘left’，与sql中的join方式类似
lsuffix: 左DataFrame中重复列的后缀
rsuffix: 右DataFrame中重复列的后缀
sort: 按字典序对结果在连接键上排序

get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

data: DataFrame或Series对象
prefix: 编码后特征名称的前缀
prefix_sep: 编码后特征名称的前缀，默认使用“_”进行分隔

实例

df2 = df.join(pd.get_dummies(df['地点'],prefix_sep="DD"))

离散化装箱

pd.cut(df[],ndarray)

df2 = df.join(pd.get_dummies(pd.cut(df['人均价格'],[50,100,300]),prefix="价格"))

pd.cut(df[‘属性’],bins=[],labels=[‘对应箱名1’,‘对应箱名2’,‘对应箱名3’])

cut将根据值本身来选择箱子均匀间隔，即每个箱子的间距都是相同的

qcut是根据这些值的频率来选择箱子的均匀间隔，即每个箱子中含有的数的数量是相同的

④ 删除变量

函数	说明
del	del直接影响原DataFrame
pop	pop函数返回被删除的数据
drop	drop可以制定多列删除

del df['属性名']
df.pop('属性名')
df.drop(['属性名1','属性名2'],axis='columns')

⑤ 选择变量

df2 = df1['属性名1']
df2 = df1[['属性名1','属性名2']]

注意这里是[[]]，即多个属性要使用两个双括号

4、样本选择

① 利用索引选择

#前五行
df[:5]
#中间制定行数
df[5:10]

② 利用条件选择

df[df['属性名']运算式子]

③ 随机抽样选择

df.sample(n=行数,replace=False)

#随机抽取df中的5行,无放回
df.sample(n=5)
#有放回
df.sample(n=5,replace=True)

5、数据集操作

一般纵向拼接使用concat，横向拼接使用merge较合适。

① merge

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)

left: 拼接的左侧DataFrame对象
right: 拼接的右侧DataFrame对象
on: 要加入的列或索引级别名称。必须在左侧和右侧DataFrame对象中找到。如果未传递且left_index和right_index为False，则DataFrame中的列的交集将被推断为连接键。
how: One of ‘left’, ‘right’, ‘outer’, ‘inner’. 默认inner。inner是取交集，outer取并集。比如left：[‘A’,‘B’,‘C’];right[’'A,‘C’,‘D’]；inner取交集的话，left中出现的A会和right中出现的买一个A进行匹配拼接，如果没有是B，在right中没有匹配到，则会丢失。'outer’取并集，出现的A会进行一一匹配，没有同时出现的会将缺失的部分添加缺失值。

df = pd.read_csv(r'C:\Users\官二的磊子\Desktop\总体信息3.csv',header=0,names=['店铺名称','评论分数','评论人数','人均价格','口味','环境','服务'])
df2 = pd.DataFrame({
     "地点":['贵州','上海','重庆','武汉','上海']})
df3 = df2.join(df['店铺名称'])
print(df3)
df4 = pd.merge(df,df3,on='店铺名称')
print(df4)

② concat

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True

objs：Series，DataFrame或Panel对象的序列或映射。如果传递了dict，则排序的键将用作键参数，除非它被传递，在这种情况下，将选择值（见下文）。任何无对象将被静默删除，除非它们都是无，在这种情况下将引发一个ValueError。
axis：默认为0，纵向合并，若定义1，则为横向合并
join：{‘inner’，‘outer’}，默认为“outer”。如何处理其他轴上的索引。outer为并集和inner为交集。
ignore_index：boolean，default False。如果为True，请不要使用并置轴上的索引值。结果轴将被标记为0，…，n-1。如果要连接其中并置轴没有有意义的索引信息的对象，这将非常有用。注意，其他轴上的索引值在连接中仍然受到尊重。
join_axes：Index对象列表。用于其他n-1轴的特定索引，而不是执行内部/外部设置逻辑。
keys：序列，默认值无。使用传递的键作为最外层构建层次索引。如果为多索引，应该使用元组。
levels：序列列表，默认值无。用于构建MultiIndex的特定级别（唯一值）。否则，它们将从键推断。
names：list，default无。结果层次索引中的级别的名称。
verify_integrity：boolean，default False。检查新连接的轴是否包含重复项。这相对于实际的数据串联可能是非常昂贵的。
copy：boolean，default True。如果为False，请勿不必要地复制数据。

df = pd.read_csv(r'C:\Users\官二的磊子\Desktop\总体信息3.csv',header=0,names=['店铺名称','评论分数','评论人数','人均价格','口味','环境','服务'])
df2 = pd.DataFrame({
     "地点":['贵州','上海','重庆','武汉','上海']})
df3 = df2.join(df['店铺名称'])
df4 = pd.concat([df,df3],axis=1)
print(df4)

df = pd.read_csv(r'C:\Users\官二的磊子\Desktop\总体信息3.csv',header=0,names=['店铺名称','评论分数','评论人数','人均价格','口味','环境','服务'])
df2 = pd.DataFrame({
     "地点":['贵州','上海','重庆','武汉','上海']})
df3 = df2.join(df['店铺名称'])
df4 = pd.concat([df,df3],axis=0,join='outer',ignore_index=True)
print(df4)

df4 = pd.concat([df,df3],axis=0,join=‘outer’,ignore_index=True)

二、数据分析初级

describe() #数据描述函数

#数值类型强制转换
df[['评论分数','评论人数','人均价格','口味','环境','服务']]=df[['评论分数','评论人数','人均价格','口味','环境','服务']].astype('float64')
#---
print(df.describe())

1、集中趋势

计算集中趋势时，不建议直接对表格进行操作，因为含有不能取到的字段。

① 算术平均数

df.mean()

② 中位数

df.median()

③ 分位数

df.describe()

25%，50%，75%分别表示第一个四分位数、第二个四分位数、第三个四分位数

④ 众数

df['属性名'].mode()

⑤ 几何平均数

几何平均数是n个变量值连乘积的n次方根

from scipy import stats
stats.gmean(df)

2、离散程度

① 极差与四分位差

极差是描述离散程度最简单的测量值，只能说明两个极端变量值的差异范围，不能反映各个单位变量值的变异程度，易受极端数值的影响。

四分位差反映中间50%数据的离散程度，其数值越小，说明中间的数据越集中；数值越大，说明中间的数据越分散。

stat = df.describe()
stat.loc['R'] = stat.loc['max'] - stat.loc['min']
stat.loc['Q'] = stat.loc['75%'] - stat.loc['25%']
print(stat)

loc[var]，这里默认取的是行，若取列则为loc[:,var]

③ 平均离差

平均差也称平均离差，是各变量与其平均数之差的绝对值之和的平均数。

一般平均差的数值越大，其平均数的代表性越小，说明该组变量值分布越分散；反之，平均差的数值越小，其平均数的代表性越大，说明该组变量值分布越集中。

df..mad()
#df.loc[:,:].mad()

④ 标准差与方差

标准差又称均方差，是各样本变量与其平均数之差的平方的平均数的方根。

标准差的本质是求各变量与其平均数的距离和，即先求出各变量值与其平均数离差的平方，再求其平均数，最后开方。

再正态分布条件下，它和平均数有明确的数量关系，是真正度量离散趋势的标准。

df.std()
#df.loc[:,:].std()

方差是各变量值与其算术平均数之差的平方和的平均数，即标准差的平方

df.var()

⑥ 离散系数

必将两个样本集的离散程度时，若度量单位或平均数不同，就不能用标准差来比较，要用离散系数比较，即标准差与平均数的比值。

stat = df.describe()
stat.loc['V'] = stat.loc['std']/stat.loc['mean']
print(stat)

3、分布状态

① 分布的偏态[偏态系数]

利用众数、中位数、平均数之间的关系可以判断数据的分布是对称、左偏还是右偏。但要测量偏斜程度则需要计算偏态系数。

当偏态系数为正数，表示正偏离差值较大，可判断为正偏或右偏。当偏态系数为负数，表示负偏离差值较大，可判断为负偏或左偏。偏态系数越接近0，则偏斜度越小，偏态系数越接近±3，则偏斜度越大。

df.skew()

② 分布的峰度[峰度系数]

峰度是分布集中趋势高峰的形状，再变量的分布特征中，常以正态分布为标准，观察变量分布曲线顶峰的尖平程度。

若分布形状比正态分布更高更瘦，则为尖峰分布。若分布形状比正态分布更矮更胖，则为平峰分布。

若峰度系数大于0，则为尖峰分布；若峰度系数小于0，则为平顶分布。

df.kurt()

4、相关分析

相关分析即对两个变量的因果关系分析，查看两者是否有关联。确定变量之间的相关关系，一般可以通过图形观测和指标度量来确定相关关系。图形观测方法可以通过变量之间的散点图来进行分析确定，指标度量观测是通过计算相关系数来确定。

① 散点图

import matplotlib.pyplot as plt
plt.scatter(df['人均价格'],df['评论分数'])
plt.xlabel('人均价格')
plt.ylabel('评论分数')
plt.show()

可以看出：其实不太好看出。

② 相关系数

print(df.loc[:,['评论分数','评论人数','人均价格','口味','环境','服务']].corr())

可绘制关系矩阵图

import seaborn as sns

df.rename(columns={
     '评论分数':'Score','评论人数':'P_number','人均价格':'Price','口味':'Taste','环境':'Environ','服务':'Server'},inplace=True)
corr = df.loc[:,['Score','P_number','Price','Taste','Environ','Server']].corr()
sns.heatmap(corr,linewidths=0.1,vmax=1.0, square=True,linecolor='white', annot=True)
plt.show()

Seaborn 是以 matplotlib为底层，更容易定制化作图的Python库。

Seaborn 其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易。

在大多数情况下使用Seaborn就能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图，换句话说，matplotlib更加灵活，可定制化，而seaborn像是更高级的封装，使用方便快捷。

经验：这里需要将字体改为英文否则会报错，所以最好拿到数据，我们就将其属性名命名为英文。

Python基础---Dict（字典） grace666 Python
1.字典以键值对组成，包含在{}中，字典的键必须为hashable，即不可变（字符串、元组、数字），并且唯一；值可以是任何类型#dict1={[1]:1}#报错：TypeError:unhashabletype:'list'#dict1={{1}:1}#报错：TypeError:unhashabletype:'set'dict1={(1,):1}print(dict1)#{(1,):1}dict1
Markdown 到 PowerPoint 转换工具——md2pptx 伍盛普Silas
Markdown到PowerPoint转换工具——md2pptxmd2pptxMarkdownToPowerPointconverter项目地址:https://gitcode.com/gh_mirrors/md/md2pptxmd2pptx是一个开源项目，它可以将Markdown格式的文本转换为PowerPoint演示文稿。该项目主要使用Python编程语言实现。项目基础介绍md2pptx是一个
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
无人机遥感技术：从植被监测到生理参数反演的进阶之路 KY_chenzhao 无人机植被遥感参数反演
在当今的生态学和农林业研究中，无人机遥感技术已经成为获取植被信息的重要手段。它不仅能够快速覆盖大面积区域，还能提供高分辨率的多光谱和高光谱数据，为植被健康监测、生长状况评估和生理参数反演提供了强大的技术支持。今天，我们就来深入了解一下无人机遥感技术在植被定量监测中的应用。一、无人机遥感：为何备受青睐？无人机遥感技术结合了无人机的灵活性和遥感传感器的高精度，能够快速获取植被的多维度信息。与传统的卫星
python 山脊图_（数据科学学习手札98）纯Python绘制满满艺术感的山脊地图 weixin_39780255 python 山脊图
1简介下面的这幅图可能很多读者朋友们都看到过，这是英国摇滚乐队JoyDivision在1979年发行的其第一张录音室专辑UnknownPleasures的封面，由艺术家PeterSaville基于射电脉冲星信号的数据图创作而成，成为了一种流行文化的符号标志。图1类似图1的风格，在地图制作中也存在着一种山脊地图，基于记录地表海拔信息的高程数据，我们可以利用水平方向上的基于实际位置海拔高度的曲线，来对
【Python 学习 / 5】函数详解（定义、参数、作用域、lambda、内置函数）卜及中 Python基础 python 学习开发语言
文章目录一、函数1.定义函数1.1基本函数定义1.2带参数的函数1.3带返回值的函数2.参数传递2.1位置参数2.2默认参数2.3可变参数2.3.1使用`*args`2.3.2使用`**kwargs`2.4参数的混合使用3.作用域3.1局部和全局变量3.2`global`关键字输出：3.3`nonlocal`关键字输出：4.lambda表达式4.1基本用法4.2与`map()`、`filter()
leetcode简单(181-200)python 九日火 leetcode python
762.PrimeNumberofSetBitsinBinaryRepresentation(e-181)GiventwointegersLandR,findthecountofnumbersintherange[L,R](inclusive)havingaprimenumberofsetbitsintheirbinaryrepresentation.(Recallthatthenumberofs
PaddleOCR面板恢复python脚本--针对pdf的面板恢复 zsh669 paddlepaddle ocr 百度 python pdf
问题在做一个项目的时候，使用PaddleOCR提供的模型，实现对图片或者pdf进行面板恢复，并保存为.docx文档。但是，官方的文档只提供了针对图片进行面板恢复的python脚本，没有提供pdf进行面板恢复的python脚本，官方只提供了pdf面板恢复的命令行使用方法，因此，我去看了PaddleOCR的源码，将命令行方法转换为python脚本准备工作环境配置和文档请参考：\ppstructure/
Python库 - transformers 司南锤 PYTHON库 python机器学习 python 开发语言
transformers库是由HuggingFace开发的一个非常流行的Python库，用于自然语言处理（NLP）任务。它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。以下是关于transformers库的详细介绍：1.主要特点预训练模型：transformers库包含了多种预训练的语言模型，如BERT、GPT、T5、XLNet等。这些模型在大规模文本
【NLP-04】tranformers库保姆级使用教程---以BERT模型为例云天徽上 NLP bert 人工智能深度学习自然语言处理机器学习 numpy 信息可视化
安装要安装一个非常轻量级的Transformers库，您可以执行以下步骤：1、打开终端或命令提示符。2、运行以下命令来安装Transformers库：pipinstalltransformers这将使用pip工具从PythonPackageIndex（PyPI）下载并安装Transformers库。请确保您的计算机上已经安装了pip。然后，您可以在Python代码中导入Transformers库：
利用 OpenCV 进行棋盘检测与透视变换萧鼎 python基础到进阶教程 opencv 人工智能计算机视觉
利用OpenCV进行棋盘检测与透视变换1.引言在计算机视觉领域，棋盘检测与透视变换是一个常见的任务，广泛应用于摄像机标定、文档扫描、增强现实（AR）等场景。本篇文章将详细介绍如何使用OpenCV进行棋盘检测，并通过透视变换将棋盘区域转换为一个标准的矩形图像。我们将基于一段Python代码进行分析，代码的主要任务包括：读取图像并进行预处理（灰度转换、自适应直方图均衡化、去噪）检测边缘并提取棋盘区域计
conda更换环境版本（比如torch版本）挨打且不服66 python python
找到想要的torch版本pytorch官网torch过往的版本创建新环境condacreate--namemyenvpython=3.8condaactivatemyenvconda虚拟环境中安装CUDA和CUDNN深度学习用显卡训练的时候，需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的，而pytorch版本和cuda版本之间又是互相依赖的，所以如果可以
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
用conda虚拟环境解决py+torch环境问题 SevenZS Note anaconda python
要事先安装wheelpipinstallwheelcondainstallnb_conda安装nb_conda这样可以在shell切换虚拟环境启动jupyternotebook后切换到虚拟环境创建虚拟环境condacreate-npython36python=3.6condaactivatepython36加载后再pip安装torch1.4+cu101所有版本torch放在某个文件夹，比如桌面后p
【报错】ImportError: cannot import name ‘get_refined_artifact_map‘ from ‘basicsr.losses.loss_util‘ 之群害马 python 深度学习 pytorch
ImportError:cannotimportname'get_refined_artifact_map'from'basicsr.losses.loss_util'(xxx/lib/python3.10/site-packages/basicsr/losses/loss_util.py)解决办法：找到basicsr库网站缺失的部分如下，补充到原来的xxx/lib/python3.10/site
Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战医学小达人 NLP LLMs GPT 深度学习人工智能 transformer python 机器学习
1.Transformer简介Transformer模型被提出的主要动机是解决序列处理任务的长距离依赖问题。传统的RNN和LSTM虽然能够处理序列任务，但因为它们在处理序列时需要一步步前进，因此其他信息无法立即对其产生影响，当序列变长时，长距离依赖的信息很可能会被丢失。为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直
python正则表达式快速入门_Python 正则表达式入门 weixin_39955938 python正则表达式快速入门
本文主要为没有使用正则表达式经验的新手入门所写。转载请写明出处引子首先说正则表达式是什么？正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语：RegularExpression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那
python正则表达式必知必会的基础豆子前端 python基础 python 正则表达式
文章目录正则表达式re.match()和re.search()SRE_Matchobjectre.match()re.search()（重点）re.flags小结re.sub()re.split()re.findall()re.fullmatch()re.compile()小结方法分类注意细节正则表达式网站参考资料正则表达式本文主要讲的是正则表达式在python中的简单使用，只介绍关键的几个方法函
在conda虚拟环境中安装jupyter lab-----deepseek问答记录溯源006 deepseek回答记录 conda jupyter ide
在Conda虚拟环境中安装JupyterLab的步骤如下：1.创建并激活Conda虚拟环境如果你还没有创建虚拟环境，可以使用以下命令创建一个新的虚拟环境并激活它：condacreate-nmyenvpython=3.x#将`myenv`替换为你的环境名称，`3.x`替换为所需的Python版本condaactivatemyenv2.安装JupyterLab在激活的虚拟环境中，使用以下命令安装Jup
单片机、嵌入式Linux开发大学自学路径 Oriental Son 嵌入式 MCU 单片机单片机学习 stm32 mcu linux
笔者所修读的专业为物联网工程，物联网工程是一门新兴的、热门的专业，其所涉及的学科更是又多又杂，既有计算机方向的编程语言（如C、C++、Java、Python等）、数据结构与算法、操作系统、移动端应用开发、机器学习等；软硬结合的方向有数字电路单片机开发、嵌入式Linux开发等；硬件、电路方向有电路分析、数字电路、模拟电路、传感器原理、RFID、FPGA开发等；涉及信号处理的有信号与系统、通信原理等。
深入解析 Poetry：Python 项目依赖管理的新宠，安装、使用及最佳实践潘智祥 python java 人工智能
在Python的世界里，管理项目依赖和虚拟环境一直是一个令人头疼的问题。虽然有pip和virtualenv这样的工具，但随着项目的复杂性增加，它们的局限性也逐渐显露出来。这时候，Poetry作为一个现代化的依赖管理工具应运而生。它不仅解决了项目依赖管理的问题，同时也集成了虚拟环境管理、发布等功能，成为了Python开发者的新宠。Poetry是什么？Poetry是一个用于管理Python项目依赖和构
从宇树科技机器人 G1 爆火，看机器人发展现状与未来 zhz5214 AI 算法机器人人工智能 AI写作
近日，科技圈被一则重磅消息点燃：宇树科技的机器人G1迅速走红，不仅现身美国街头自由“漫步”，与外国友人亲切互动握手，更是以7万美刀（折合人民币约49万元）的价格出口美国，引发全球科技爱好者和行业专家的高度关注。这一现象不仅成为科技领域的热门话题，更如同一束强光，照亮了机器人产业正在经历的深刻变革之路。今天，就让我们一同深入剖析机器人的当下发展态势与未来走向。宇树科技机器人G1，缘何能在市场中脱颖而
APP开发实战130-APP三方服务介绍 xjbclz Android-综合 APP开发实战
32三方服务介绍在开发APP的时候，有许多服务功能可以集成三方SDK实现，以下是一些常用的SDK：数据分析：腾讯MTA、友盟、阿里云消息推送：极光、个推、友盟、小米、华为、阿里云阿里云的推送里集成了小米和华为的推送服务，建议推送选择阿里云，这样不用自己集成小米和华为的推送服务。IM：环信、融云、极光位置服务：高德、百度高德的导航功能比百度好，尤其在一些小地方性能监测：OneAPM、听云、透视宝、博
【JAVA工程师从0开始学AI】，第二步：从强类型到动态语言：Java工程师的Python语法避坑指南架构默片 JAVA工程师从0开始学AI python java windows
这是一篇介绍Python语法与JAVA语法区别文章，让我们以对比的方式，来学习一下Python的语法。首先我们看一下下面的Python代码，和具体在java当中分别代表了什么意思numbers=[1,2,3,4,5,6,7,8,9]#①创建数字列表（像Java的ArrayList，但不用写泛型）odd_numbers=[]#②准备装奇数的空列表（类似Java的newArrayListnumbers
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）一个有趣的昵称 python 爬虫开发语言
爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robot
为一位经验丰富的程序员量身定制Python学习路线人工智能首选语言：python Python新技术小黄人软件 chatGPT python 学习人工智能
人工智能首选语言：python必学。解释型语言(无编译这个环节)，直接执行代码，面向对象，脚本语言没基础在这里学为一位经验丰富的程序员量身定制Python学习路线，主要应关注于深化已有的编程知识和技能，并探索Python特有的高级特性。以下是推荐的学习路线：基础复习：如果对Python基础不熟悉，先从Python的基础语法、数据类型、控制流程等开始复习。高级语言特性：深入理解装饰器、上下文管理器、
强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
【Python基础】Python闭包：如何让你的代码拥有‘读心术’？陈序不懂程序 python 服务器 apache 网络开发语言数据库学习
第1章闭包概念与背景1.1闭包定义与理论基础闭包，这一术语源自数学逻辑，如今在计算机科学中占据着核心地位，尤其在面向对象和函数式编程领域中发挥着无可替代的作用。它是一种特殊的函数对象，不仅包含自身的代码逻辑，还携带着其定义时所处环境的部分状态，即对外部自由变量的引用。这种独特的“携带状态”特性赋予了闭包强大的功能和灵活性，使其成为实现抽象、封装、数据隐藏以及控制程序执行的关键工具。1.1.1闭包的
python学习列表字典集合面对对象编程闭包装饰器函数式编程作用域异常处理 Scikit-learn 机器学习 python 算法 python 学习开发语言
SIGIA_4Ppython学习列表字典集合面对对象编程闭包装饰器函数式编程作用域异常处理本文连接简介SIGIA_4P网址a.课程OKRObjectivesandKeyResults即目标与关键成果法目标，Objectives：掌握AI领域的Python开发成果1KR1linux目录结构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r864ykpN-16917885
尚硅谷爬虫note007 CSDNy666999 爬虫
一、urllib—异常1.urllib.error.HTTPError2.urllib.error.URLError#_*_coding:utf-8_*_#@Time:2025/2/1411:33#@Author:20250206-里奥#@File:demo26_异常#@Project:PythonProject10-14importurllib.requestimporturllib.error
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc