Schanappi

【学习笔记】《深入浅出Pandas》第7章：Pandas数据合并与对比

文章目录

7.1 数据追加df.append()
- 7.1.1 基本语法
- 7.1.2 相同结构
- 7.1.3 不同结构
- 7.1.4 忽略索引
- 7.1.5 重复内容
- 7.1.6 追加序列
- 7.1.7 追加字典
7.2 数据连接pd.concat
- 7.2.1 基本语法
- 7.2.2 简单连接
- 7.2.3 按列连接
- 7.2.4 合并交集
- 7.2.5 与序列合并
- 7.2.6 指定索引
- 7.2.7 多文件合并
- 7.2.8 目录文件合并
7.3 数据合并pd.merge
- 7.3.1 基本语法
- 7.3.2 连接键
- 7.3.3 索引连接
- 7.3.4 多连接键
- 7.3.5 连接方法
- 7.3.6 连接指示
7.4 按元素合并
- 7.4.1 df.combine_first()
- 7.4.2 df.combine()
- 7.4.3 df.update()
7.5 数据对比df.compare
- 7.5.1 简单对比
- 7.5.2 对齐方式
- 7.5.3 显示相同值
- 7.5.4 保持形状
7.6 本章小结

7.1 数据追加df.append()

7.1.1 基本语法

df.append(self, other, ignore_index=False, vertify_integrity=False, sort=False)
# other:调用方要追加的其他DataFrame或者类似序列内容。
		可以放入一个由DataFrame组成的列表，将所有DataFrame追加起来。
# ignore_index:如果为True，则重新进行自然索引。
# verify_integrity:如果为True，则遇到重复索引内容时报错。
# sort:排序

7.1.2 相同结构

如果数据的字段相同，直接使用第一个DataFrame的append()方法，传入第二个DataFrame。如果需要追加多个DataFrame，可以将它们组成一个列表再传入。

df1.append(df2)	追加一个
df1.append([df2, df2, df2]) # 追加多个

7.1.3 不同结构

对于不同结构的追加，一方有而另一方没有的列会增加，没有内容的位置会用NaN来填充。

7.1.4 忽略索引

追加操作索引默认为原数据的，不会改变，如果需要忽略，可以传入ignore_index=True，此时索引会重新排列。
或者，可以根据自己需要重新设置索引。

7.1.5 重复内容

重复内容默认是可以追加的，如果传入vetify_integrity=True，则会检测追加内容是否重复，如果重复会报错。

7.1.6 追加序列

append除了追加DataFrame外，还可以追加一个Series，经常用于数据添加更新场景。

# eg：追加一名新同学信息
lily = pd.Series(['lily', 'C', 55, 56, 57, 58], index=['name', 'team', 'Q1', 'Q2', 'Q3', 'Q4'])
df = df.append(lily, ignore_index=True) # 并重新排列索引

7.1.7 追加字典

append还可以追加字典。

lily = {'name':lily, 'team':'C', 'Q1':55, 'Q2':56, 'Q3':57, 'Q4':58}
df = df.append(lily, ignore_index=True) # 并重新排列索引

7.2 数据连接pd.concat

7.2.1 基本语法

pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None,
		  levels=None, names=None, sort=False, verify_integrity=False, copy=True)
# objs:需要连接的数据，可以是多个DataFrame或者Series。它是必传参数。
# axis:连接轴的方法，默认值是0，按列连接，追加在行后面。值为1时追加到列后面。
# join:合并方式。其它轴上的数据是按交集（inner）还是并集（outer）进行合并。
# ignore_index:是否保留原来的索引。
# keys:连接关系，使用传递的键作为最外层级别来构造层次结构索引，就是给每个表指定一个一级索引。
# names：索引名称，包括多层索引。
# verify_integrity:是否检测内容重复。参数为True时，如果合并数据与原数据包含索引相同的行，会报错。
# copy:如果为False，则不要深拷贝。

# pd.concat返回一个合并后的DataFrame

7.2.2 简单连接

pd.concat()的基本操作可以实现df.append()功能：

pd.concat([df1, df2])
df1.append(df2) # 效果同上

7.2.3 按列连接

如果要将多个DataFrame按列拼接在一起，可以传入axis=1参数，这会将不同的数据追加到列的后面，索引无法对应的位置上将值填充为NaN。
此操作会得到两个表内容的并集（默认是join=‘outer’）。

# df1				df2
	x	y			x	y
0	1	3		0	5	7
1	2	4 		1	6	8
				2	0	0
pd.concat([df1, df2], axis=1)
# new
	x	y	x	y
0	1	3	5	7
1	2	4	6	8
2	NaN	NaN	0	0

7.2.4 合并交集

# 按列合并交集,保留共有部分
pd.concat([df1, df2], axis=1, join='inner') 
# df1				df2
	x	y			x	y
0	1	3		0	5	7
1	2	4 		1	6	8
				2	0	0
# new
	x	y	x	y
0	1	3	5	7
1	2	4	6	8

另外，reindex()方法也可以实现以上取交集功能：

# 两种方法
pd.concat([df1, df2], axis=1).reindex(df1.index)
pd.concat([df1, df2.reindex(df1.reindex)], axis=1)

7.2.5 与序列合并

z = pd.Series([9, 9], name='z')
# 将序列添加到新列
pd.concat([df1, z], axis=1)

但是，还是建议使用df.assign()来指定一个新列，逻辑会更加简单：

df.assign(z=z)

7.2.6 指定索引

可以再给每个表一个一级索引，形成多层索引。

# 指定索引名
pd.concat([df1, df2], keys=['a', 'b'])
		x	y
a	0	1	3
	1	2	4
b	0	5	7
	1	6	8

# 以字典形式传入
pieces = {'a': df1, 'b': df2}
pd.concat(pieces) # 效果同上

# 横向合并，指定索引
pd.concat([df1, df2], axis=1, keys=['a', 'b'])
	a		b
	x	y	x	y
0	1	3	5	7
1	2	4	6	8

7.2.7 多文件合并

最简单的方法是先把数据一个一个取出来，然后合并：

# 通过各种方式读取数据
df1 = pd.DataFrame(data1)
df2 = pd.read_excel('tmp.xlsx')
df3 = pd.read_csv('tmp.csv')

# 合并数据
merged_df = pd.concat([df1, df2, df3])

注意，不要一个表格用一次concat，这样性能很差，可以先把所有表格添加到列表里，然后一次性合并：

# process_your_file(f)方法将文件读取为DataFrame
frames = [process_your_file(f) for f in files]
# 合并
result = pd.concat(frames)

7.2.8 目录文件合并

有时会将体量较大的数据分片放到同一个硬盘目录下，在使用时进行合并。可以使用官方库glob来识别目录文件：

import glob
# 取出目录下所有XLSX格式的文件
files = glob.glob("data/*.xlsx")
cols = ['ID', '时间', '名称'] # 只取这些列
# 列表推导出对象
dflist = [pd.read_excel(i, usecols=cols) for i in files]
df = pd.concat(dflist) # 合并

使用Python内置map函数进行操作：

# 使用pd.read_csv逐一读取文件，然后合并
pd.concat(map(pd.read_csv, ['data/d1.csv', 'data/d2.csv', 'data/d3.csv']))

# 使用pd.read_excel逐一读取文件，然后合并
pd.concat(map(pd.read_excel, ['data/d1.xlsx', 'data/d2.xlsx', 'data/d3.xlsx']))

以下是一些其他方法：

# 目录下的所有文件
from os import listdir
filepath = [f for f in listdir("./data") if f.endwith('.csv')]
df = pd.concat(map(pd.read_csv, filepaths))

# 其他方法
import glob
df.concat(map(pd.read_csv, glob.glob('data/*.csv')))
df.concat(map(pd.read_excel, glob.glob('data/*.xlsx')))

在实际使用中。熟练掌握其中一个即可。

7.3 数据合并pd.merge

7.3.1 基本语法

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
		 left_index=False, right_index=False, sort=True,
		 suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
# 可以将两个DataFrame或Series合并，最终返回合并后的DataFrame。
# left、right:需要连接的两个DataFrame或Series，一左一右。
# how:数据连接方式，默认为inner，还可以设置为outer、left或right。
# on:作为连接键的字段，左右数据中都必须存在，否则需要用left_on和right_on来指定。
# left_on:左表的连接键字段。
# right_on:右表的连接键字段。
# left_index:为True时将左表的索引作为连接键，默认为False。
# right_index:为True时将右表的索引作为连接键，默认为False。
# suffixes:如果左右数据出现重复列，新数据表头会用此后缀进行区分，默认为_x和_y。

7.3.2 连接键

在数据连接时，如果没有指定根据哪一列（连接键）进行连接，Pandas会自动找到相同列名的列进行连接，并按左边数据的顺序取交集数据。为了代码的可阅读性和严谨性，推荐通过on参数指定连接键。

df1 = pd.DataFrame({'a': [1, 2], 'x':[5, 6]})
df2 = pd.DataFrame({'a': [2, 1, 0], 'y':[6, 7 ,8]})
pd.merge(df1, df2, on='a')

#	df1				df2
	a	x			a	y
0	1	5		0	2	6	
1	2	6		1	1	7
				2	0	8
# new 注意要按df1的a连接值确定值的位置
	a	x	y
0	1	5	7
1	2	6	6

7.3.3 索引连接

可以直接按索引进行连接，将left_index和right_index设置为True，会以两个表的索引作为连接键。

pd.merge(df1, df2, left_index=True, right_index=True, suffixes=('_1', '_2'))
# new
	a_1	x	a_2	y
0	1	5	2	6
1	2	6	1	7

本例中，两个表都有同名的a列，用suffixes参数设置了后缀来区分。

7.3.4 多连接键

如果在合并数据时需要用到多个连接键，可以以列表的形式将这些连接键传入on中。

pd.merge(df1, df2, on=['a', 'b']) # a列和b列都作为连接键

7.3.5 连接方法

how参数可以指定数据的合并方法，可以设置为inner、outer、left或right。

默认方式是inner join，取交集，也就是保留左、右表的共同内容；如果是left join，左边表所有内容保留；如果是right join，右边表的所有内容保留；如果是outer join，则左右表所有内容都保留。关联不上的内容为NaN。

# 有重复连接键
left = pd.DataFrame({'A':[1, 2], 'B':[2, 2]})
right = pd.DataFrame({'A':[4, 5, 6], 'B':[2, 2 ,2]})
pd.merge(left, right, on='B', how='outer')
# new
	A_x		B		A_y
0	1		2		4
1	1		2		5
2	1		2		6
3	2		2		4
4	2		2		5
5	2		2		6

7.3.6 连接指示

如果想知道数据连接后是左表内容还是右表内容，可以使用indicator参数显示连接方式。如果将indicator设置为True，则会增加名为_merge的列，显示这列是从何而来。
_merge列有以下三个取值：

left_only：只在左表中；
right_only：只在右表中；
both：两者都有。

# 显示连接指示列
pd.merge(df1, df2, on='a', how='outer', indicator=True)
# new
	a	x		y	_merge
0	1	5.0		7	both
1	2	6.0		6	both
2	0	NaN		8	right_only

7.4 按元素合并

在数据合并过程中，需要对对应位置的数值进行计算，比如相加、平均、对空值补齐等，Pandas提供了df.combine_first()和df.combine()等方法。

7.4.1 df.combine_first()

使用相同位置的值更新空元素，只有在df1有空元素时才能替换值。如果数据结构不一致，所得DataFrame的行索引和列索引将是两者的并集。

# eg1:df1的A和B的空值将被df2相同位置的值替换
df1 = pd.DataFrame({'A':[None, 1], 'B':[None, 2]})
df2= pd.DataFrame({'A':[3, 3], 'B':[4, 4]})
df1.combine_first(df2)

	df1				df2
	A	B			A	B
0	NaN	NaN		0	3	4
1	1.0	2.0		1	3	4
# new
	A		B
0	3.0		4.0
1	1.0		2.0

# eg2:df1的A中的空值由于没有B中相同位置的值来替换，仍然为空
df1 = pd.DataFrame({'A':[None, 1], 'B':[None, 2]})
df2= pd.DataFrame({'A':[3, 3], 'C':[4, 4]}, index=[1, 2])
df1.combine_first(df2)

	df1				df2
	A	B			A	C
0	NaN	NaN		1	3	4
1	1.0	2.0		2	3	4
# new
	A		B
0	NaN		NaN
1	1.0		2.0
2	3.0		4.0

7.4.2 df.combine()

可以与另一个DataFrame进行按列组合。使用函数通过计算将一个DataFrame与其他DataFrame合并，以逐元素方式合并列。所得DataFrame的行索引和列索引将是两者的并集。这个函数中有两个参数，分别是两个df中对应的Series，计算后返回一个Series或标量。

# eg:合并时取对应位置大的值作为合并结果
df1 = pd.DataFrame({'A':[1, 2], 'B':[3, 4]})
df2= pd.DataFrame({'A':[0, 3], 'B':[2, 1]})
df1.combine(df2, lambda s1, s2: np.where(s1>s2, s1, s2)) # 返回大的值

也可以直接使用Numpy的函数：

df1.combine(df2, np.maximum) # 取最大值
df1.combine(df2, np.minimum) # 取最小值

7.4.3 df.update()

可以使用来自另一个DataFrame的非NaN值来修改DataFrame，而原DataFrame被更新。

df1 = pd.DataFrame({'a':[None, 2], 'b':[5, 6]})
df2= pd.DataFrame({'a':[0, 2], 'b':[None, 7]})
df1.update(df2) # df1已经更新，如果不想更新df1，传入参数overwrite=True

	df1					df2
	a		b			a		b
0	NaN		5		0	0		NaN
1	2.0		6		1	2		7.0
# df1
	a		b
0	0.0		5.0
1	2.0		7.0

7.5 数据对比df.compare

7.5.1 简单对比

注意，只能对比形状相同的两个数据。

# eg1
df1 = pd.DataFrame({'a':[1, 2], 'b':[5, 6]})
df2 = pd.DataFrame({'a':[0, 2], 'b':[5, 7]})
df1.compare(df2)

"""
	a				b
	self	other	self	other
0	1.0		0.0		NaN		NaN
1	NaN		NaN		6.0		7.0
"""
# 只关心差异部分，self和other分别显示数值用于对比
# 相同部分用NaN表示

# eg2
df1 = pd.DataFrame({'a':[1, 2], 'b':[5, 6]})
df2 = pd.DataFrame({'a':[1, 2], 'b':[5, 7]})
df1.compare(df2)
"""
	b
	self	other
1	6.0		7.0
"""
# a列数据相同，不显示，仅显示不同的b列第二行

7.5.2 对齐方式

默认情况下，将不同的数据显示在列方向上，还可以传入参数align_axis=0将不同数据显示在行方向上：

df1 = pd.DataFrame({'a':[1, 2], 'b':[5, 6]})
df2 = pd.DataFrame({'a':[0, 2], 'b':[5, 7]})
df1.compare(df2, align_axis=0)
"""
			a		b
0	self	1.0		NaN
	other	0.0		NaN
1	self	NaN		6.0
	other	NaN		7.0
"""

7.5.3 显示相同值

在对比时，传入参数keep_equal=True，可以将相同的值显示出来：

df1 = pd.DataFrame({'a':[1, 2], 'b':[5, 6]})
df2 = pd.DataFrame({'a':[0, 2], 'b':[5, 7]})
df1.compare(df2, keep_equal=True)
"""
	a				b
	self	other	self	other
0	1		0		5		5
1	2		2		6		7
"""

7.5.4 保持形状

为了方便知道不同的数据的位置，可以传入参数keep_shape=True来显示原来数据的形态，不过相同数据会被替换为NaN来占位：

df1 = pd.DataFrame({'a':[1, 2], 'b':[5, 6]})
df2 = pd.DataFrame({'a':[1, 2], 'b':[5, 7]})
df1.compare(df2, keep_shape=True)
"""
	a				b
	self	other	self	other
0	NaN		NaN		NaN		NaN
1	NaN		NaN		6.0		7.0
"""

如果想看到原始值，可以同时传入keep_equal=True：

df1.compare(df2, keep_shape=True, keep_equal=True)
"""
	a				b
	self	other	self	other
0	1		1		5		5
1	2		2		6		7
"""

7.6 本章小结

本章介绍了数据的合并和对比操作，对比非常简单，用df.compare操作可以清晰地看到两个数据之间的差异。

合并有df.append()和pd.concat()、pd.merge()三个方法：

df.append()适合在原数据上做简单的追加，一般用于数据内容的追加；
pd.concat()\既可以合并多个数据，也可以合并多个数据文件；
pd.merge()可以做类似SQL语句中的join操作。

以上几个方法可以整理多个数据并合并成一个完整的DataFrame，以便我们对数据进行整体分析。

震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
程序代码篇---Pyqt的密码界面 Ronin-Lotus 程序代码篇上位机知识篇 pyqt 数据库 python ubuntu
文章目录前言一、代码二、代码解释2.1用户数据库定义2.2窗口初始化2.3认证逻辑2.5角色处理2.6错误处理优化2.7功能扩展说明2.7.1用户类型区分管理员普通用户其他用户2.7.2安全增强建议三、运行效果四、运行命令五、界面改进建议5.1密码显示5.2用户头像显示5.3输入框动画效果5.4加载进度显示5.5键盘快捷键前言本文简单介绍了在Ubuntu系统上使用Python的Pyqt创建密码登录
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
Python读取.nc文件的方法与技术详解傻啦嘿哟关于python那些事儿人工智能前端服务器
目录一、引言二、使用netCDF4库读取.nc文件安装netCDF4库导入netCDF4库打开.nc文件获取变量读取变量数据案例与代码三、使用xarray库读取.nc文件安装xarray库导入xarray库打开.nc文件访问变量数据案例与代码四、性能与优化分块读取使用Dask进行并行计算减少不必要的变量加载五、其他注意事项文件路径变量命名数据类型文件关闭六、总结一、引言.nc文件，即NetCDF（
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
Python画词云图，Python画圆形词云图，API详解请一直在路上 python 开发语言
在Python中，词云图的常用库是wordcloud。以下是核心API参数的详细讲解，以及一个完整的使用示例。一、参数类型默认值说明参数类型默认值说明widthint400词云图的宽度（像素）heightint200词云图的高度（像素）background_colorstr“black”背景颜色，可以是颜色名称（如“white”）或十六进制值（如“#FFFFFF”）colormapstr/matp
23、nc文件快速切片与索引爱转呼啦圈的小兔子气象数据处理与可视化 python 气象气象可视化气候变化
1前言在气象、海洋学和环境科学等领域，.nc（NetCDF）格式文件是存储和共享多维科学数据的常用格式。这些数据文件通常包含大量的经度、纬度、时间和垂直层次数据。在处理这些数据时，研究人员常常需要根据特定的地理和时间范围提取数据，以便进行深入分析。为此，我们开发了一个名为nc_slice的Python函数，用于从一个或多个.nc格式文件中高效地筛选和提取数据。nc_slice函数提供了一种简洁而灵
【最新】TensorFlow、cuDNN、CUDA三者之间的最新版本对应及下载地址江上_酒开发环境及工具配置 TensorFlow CUDA cuDNN
TensorFlow、cuDNN、CUDA对应关系官网查询地址CUDA下载地址cuDNN下载地址VersionPythonversionCompilerBuildtoolscuDNNCUDAtensorflow_gpu-2.9.03.7-3.10MSVC2019Bazel5.0.08.111.2tensorflow_gpu-2.8.03.7-3.10MSVC2019Bazel4.2.18.111.
Python读取nc文件的几种方式请一直在路上 python
在Python中，有多种方式可以读取NetCDF(.nc)文件。常见的方法包括使用以下库：1.netCDF4这是最常用的库之一，提供了直接读取、写入和处理NetCDF文件的功能。它支持版本3和版本4的NetCDF文件格式。安装：pipinstallnetCDF4用法：importnetCDF4asnc#打开文件dataset=nc.Dataset('example.nc')#查看文件的维度prin
网络空间安全专业培养方案及学习建议菜根Sec 学习网络安全网络空间安全信息安全大学专业
一、网络空间安全专业培养方案（示例）本文以武汉大学网络空间安全专业培养方案为例，列举本科期间学习的课程。详情参见：https://cse.whu.edu.cn/rcpy/lxspy/zyjs/wlkjaqzypyfa.htm1、培养目标网络空间安全学科是综台计算机、通信、电子、数学、物理、生物、管理、法律和教育等学科，并发展演绎而形成的交叉学科。培养的本科生要求掌握网络空间安全学科的基本理论、基本
网络安全证书培训机构有哪些菜根Sec web安全安全网络安全
一、前言少叙记得刚入行的时候，想考一个证书来装装门面，结果发现费用太高了，比当时一个月的工资都高，感叹网络安全这帮人真舍得花钱，遂放弃。后来入职网络安全公司，考了一个CISP，在工作中逐渐发现，证书这个东西还是要根据自身需求来，并非越多越好。当前笔者的主要任务还是通过学习来增强自己的能力，后续看看是否有机会既能让读者享受物美价廉的考试认证服务，又能让培训机构及时找到生源，实现双赢。如果找到合适的培
UV - Python 包管理丽英y Python uv python 开发语言
文章目录创建uv项目已有项目已有uv项目创建uv项目#创建项目uvinitm3#创建环境cdm3uvvenv--python3.11#激活环境source.venv/bin/activate#添加库uvaddflask如果创建项目后，给库取别的名字，add的时候，会自动创建.venv文件夹>uvvenv--python3.12e312[0]UsingCPython3.12.8interpreter
嵌入式Linux驱动开发：从基础知识到实践精通坚持坚持那些年
本文还有配套的精品资源，点击获取简介：嵌入式Linux由于其稳定性、可定制性和丰富资源，在智能设备领域得到广泛应用。掌握嵌入式Linux驱动程序设计对于开发者至关重要。本课程从基础知识点出发，详细介绍了内核接口理解、设备树编程、I/O操作、字符与块设备驱动、网络驱动、电源管理、调试技巧、硬件抽象层、设备模型和模块化编程等关键技能，并通过实际操作实践来强化学习，帮助开发者成长为嵌入式Linux驱动开
漫谈JVM weixin_34111790 运维 java python
2019独角兽企业重金招聘Python工程师标准>>>背景介绍创建了一个技术类公众号:一起源码分析，里面会分享最新的开源代码、源码解读、开发技巧等，欢迎大家关注。JVM已经是Java开发的必备技能了，JVM相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台
开发语言漫谈-脚本语言大道不孤,众行致远技术杂谈开发语言
前面讲的都称之为编程语言，就是做系统用的。还有一大类称之为脚本语言的语言，这类语言数量极多，大部分程序员用不上，也不关心，这是系统维护人员专用的邻域。这个定义其实也很不准确，不必较真。更准确的来讲，能直接运行的文本都可以称之为脚本语言，按这个标准，python也是。但是python同样用于做系统。我们今天讲的脚本语言纯粹用于系统维护邻域。我们重点将编程语言，对这些脚本语言就打包一起介绍了bash：
Python环境管理新利器：UV工具详解云水木石 python uv 开发语言
Python包和环境管理最好的工具无疑是Anaconda，但我在之前的一篇文章《注意，使用这款Python软件可能会带来麻烦》写过，个人使用完全没有问题。如果在公司内使用，就需要格外小心，可能会招来官司。在我们公司，Anaconda（包括Miniconda）就是禁止安装的软件之一。但是在工作中，确实又存在需要切换不同Python版本的需求，比如编译Chromium需要Python3.8以上的版本，
Python新手入门 python流程控制基础1——条件语句if~~else；if~elif~else；不爱纸片人 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、条件语句是什么？二、语句使用方法1.if.....2.if.......elif......3.if.......elif......else.......总结一、条件语句是什么？在Python中，条件语句用于根据不同的条件执行不同的代码块二、语句使用方法一共有三种if…if’…elif…if…elif…else…1.if
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
使用 NetworkX 进行图论分析与可视化 aiweker 跟我学python 图论 python
使用NetworkX进行图论分析与可视化NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了丰富的图论算法和数据结构，适用于各种网络分析任务。本文将分点介绍NetworkX的主要功能，并通过代码示例进行详细说明。1.安装NetworkX在开始使用NetworkX之前，首先需要安装它。可以通过pip进行安装：pipinstallnetworkx2.创建图NetworkX支持多
使用 UV 管理 Python 项目 | python小知识 aiweker 跟我学python uv python 人工智能
使用UV管理Python项目|python小知识1.引言在Python开发中，项目管理工具是必不可少的。常见的工具如pip、pipenv、poetry等，它们各有优缺点。近年来，uv作为一个新兴的Python项目管理工具，逐渐受到开发者的关注。uv旨在提供更快的依赖解析和安装速度，同时保持与现有工具的兼容性。本文将详细介绍uv的功能和应用场景，并通过代码示例展示其使用方法。最后，我们将对比uv与其
Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
Python 常用内建模块-venv 赔罪 Python 系统学习 python 开发语言
目录venv小结venv在开发Python应用程序的时候，系统安装的Python3只有一个版本：3.x。所有第三方的包都会被pip安装到Python3的site-packages目录下。如果我们要同时开发多个应用程序，那这些应用程序都会共用一个Python，就是安装在系统的Python3。如果应用A需要jinja2.7，而应用B需要jinja2.6怎么办？这种情况下，每个应用可能需要各自拥有一套“
python Qt Solkatt's
最近帮朋友做了一个将文本文件按条件导出到excel里面的小程序。使用了PyQT，发现Python真是一门强大的脚本语言，开发效率极高。首先需要引用fromPyQt4importQtGui,uic,QtCore很多控件像QPushButton是从QtGui的空间中得来的，下面def__init__(self,parent=None)中定义了界面的设计及与控件相互联系的方法。classAddressB
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
回归任务中的评价指标MAE，MSE，RMSE，R-Squared 旺旺棒棒冰统计学习方法机器学习回归评价指标 r2 mse
转自博客。仅供自己学习使用，如有侵权，请联系删除分类任务的评价指标有准确率，P值，R值，F1值，而回归任务的评价指标就是MSE，RMSE，MAE、R-SquaredMSE均方误差MSE是真实值与预测值的差值的平方和然后求平均。通过平方的形式便于求导，所以常被用作线性回归的损失函数。MSE=1m∑i=1m(yi−y^i)2MSE=\frac{1}{m}\sum_{i=1}^{m}\left(y_{i
实时光线追踪技术：Ray Tracing_2024-07-21_02-55-16.Tex chenjj4003 游戏开发 python 算法人工智能矩阵线性代数骨骼绑定开发语言
实时光线追踪技术：RayTracing实时光线追踪技术教程基础知识光线追踪原理光线追踪是一种渲染技术，它通过模拟光线在场景中的传播和反射来生成图像。在实时光线追踪中，这一过程被优化以在有限的时间内完成，通常用于游戏和实时动画。其核心原理是逆向追踪，即从观察者（摄像机）发出光线，而不是从光源发出，这样可以减少计算量。示例：光线追踪的基本算法#Python示例代码，展示如何计算光线与场景中物体的交点c
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen