sosososoon

Pandas学习——变形

长宽表的变形

什么是长表？什么是宽表？这个概念是对于某一个特征而言的。例如：一个表中把性别存储在某一个列中，那么它就是关于性别的长表；如果把性别作为列名，列中的元素是某一其他的相关特征数值，那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表：

# 长表
pd.DataFrame({
     'Gender':['F','F','M','M'],'Height':[163, 160, 175, 180]})

	Gender	Height
0	F	163
1	F	160
2	M	175
3	M	180

# 宽表
pd.DataFrame({
     'Height: F':[163, 160],'Height: M':[175, 180]})

	Height: F	Height: M
0	163	175
1	160	180

显然这两张表从信息上是完全等价的，它们包含相同的身高统计数值，只是这些数值的呈现方式不同，而其呈现方式主要又与性别一列选择的布局模式有关，即到底是以 long 的状态存储还是以 wide 的状态存储。因此， pandas 针对此类长宽表的变形操作设计了一些有关的变形函数。

pivot

pivot 是一种典型的长表变宽表的函数，首先来看一个例子：下表存储了张三和李四的语文和数学分数，现在想要把语文和数学分数作为列来展示。

df = pd.DataFrame({
     'Class':[1,1,2,2],'Name':['San Zhang','San Zhang','Si Li','Si Li'],'Subject':['Chinese','Math','Chinese','Math'],'Grade':[80,75,90,85]})
df

	Class	Name	Subject	Grade
0	1	San Zhang	Chinese	80
1	1	San Zhang	Math	75
2	2	Si Li	Chinese	90
3	2	Si Li	Math	85

对于一个基本的长变宽的操作而言，最重要的有三个要素，分别是变形后的行索引、需要转到列索引的列，以及这些列和行索引对应的数值，它们分别对应了 pivot 方法中的 index, columns, values 参数。新生成表的列索引是 columns 对应列的 unique 值，而新表的行索引是 index 对应列的 unique 值，而 values 对应了想要展示的数值列。

df.pivot(index='Name', columns='Subject', values='Grade')

Subject	Chinese	Math
Name
San Zhang	80	75
Si Li	90	85

利用 pivot 进行变形操作需要满足唯一性的要求，即由于在新表中的行列索引对应了唯一的 value ，因此原表中的 index 和 columns 对应两个列的行组合必须唯一。例如，现在把原表中第二行张三的数学改为语文就会报错，这是由于 Name 与 Subject 的组合中两次出现 (“San Zhang”, “Chinese”) ，从而最后不能够确定到底变形后应该是填写80分还是75分。

df.loc[1, 'Subject'] = 'Chinese'

try:
    df.pivot(index='Name', columns='Subject', values='Grade')
except Exception as e: 
    Err_Msg = e
    
Err_Msg

ValueError('Index contains duplicate entries, cannot reshape')

pandas 从 1.1.0 开始， pivot 相关的三个参数允许被设置为列表，这也意味着会返回多级索引。这里构造一个相应的例子来说明如何使用：下表中六列分别为班级、姓名、测试类型（期中考试和期末考试）、科目、成绩、排名。

df = pd.DataFrame({
     'Class':[1, 1, 2, 2, 1, 1, 2, 2],
                   'Name':['San Zhang', 'San Zhang', 'Si Li', 'Si Li','San Zhang', 'San Zhang', 'Si Li', 'Si Li'],
                   'Examination': ['Mid', 'Final', 'Mid', 'Final','Mid', 'Final', 'Mid', 'Final'],
                   'Subject':['Chinese', 'Chinese', 'Chinese', 'Chinese','Math', 'Math', 'Math', 'Math'],
                   'Grade':[80, 75, 85, 65, 90, 85, 92, 88],'rank':[10, 15, 21, 15, 20, 7, 6, 2]})
df

	Class	Name	Examination	Subject	Grade	rank
0	1	San Zhang	Mid	Chinese	80	10
1	1	San Zhang	Final	Chinese	75	15
2	2	Si Li	Mid	Chinese	85	21
3	2	Si Li	Final	Chinese	65	15
4	1	San Zhang	Mid	Math	90	20
5	1	San Zhang	Final	Math	85	7
6	2	Si Li	Mid	Math	92	6
7	2	Si Li	Final	Math	88	2

现在想要把测试类型和科目联合组成的四个类别（期中语文、期末语文、期中数学、期末数学）转到列索引，并且同时统计成绩和排名：

pivot_multi = df.pivot(index = ['Class', 'Name'],columns = ['Subject','Examination'],values = ['Grade','rank'])
pivot_multi

		Grade				rank
	Subject	Chinese		Math		Chinese		Math
	Examination	Mid	Final	Mid	Final	Mid	Final	Mid	Final
Class	Name
1	San Zhang	80	75	90	85	10	15	20	7
2	Si Li	85	65	92	88	21	15	6	2

根据唯一性原则，新表的行索引等价于对 index 中的多列使用 drop_duplicates ，而列索引的长度为 values 中的元素个数乘以 columns 的唯一组合数量（与 index 类似）。从下面的示意图中能够比较容易地理解相应的操作：

pivot_table

pivot 的使用依赖于唯一性条件，那如果不满足唯一性条件，那么必须通过聚合操作使得相同行列组合对应的多个值变为一个值。例如，张三和李四都参加了两次语文考试和数学考试，按照学院规定，最后的成绩是两次考试分数的平均值，此时就无法通过 pivot 函数来完成。

df = pd.DataFrame({
     'Name':['San Zhang', 'San Zhang','San Zhang', 'San Zhang','Si Li', 'Si Li', 'Si Li', 'Si Li'],
                   'Subject':['Chinese', 'Chinese', 'Math', 'Math','Chinese', 'Chinese', 'Math', 'Math'],
                   'Grade':[80, 90, 100, 90, 70, 80, 85, 95]})
df

	Name	Subject	Grade
0	San Zhang	Chinese	80
1	San Zhang	Chinese	90
2	San Zhang	Math	100
3	San Zhang	Math	90
4	Si Li	Chinese	70
5	Si Li	Chinese	80
6	Si Li	Math	85
7	Si Li	Math	95

pandas 中提供了 pivot_table 来实现，其中的 aggfunc 参数就是使用的聚合函数。上述场景可以如下写出：

df.pivot_table(index = 'Name',columns = 'Subject',values = 'Grade',aggfunc = 'mean')

Subject	Chinese	Math
Name
San Zhang	85	95
Si Li	75	90

这里传入 aggfunc 包含了上一章中介绍的所有合法聚合字符串，此外还可以传入以序列为输入标量为输出的聚合函数来实现自定义操作，上述功能可以等价写出：

df.pivot_table(index = 'Name',columns = 'Subject',values = 'Grade',aggfunc = lambda x:x.mean())

Subject	Chinese	Math
Name
San Zhang	85	95
Si Li	75	90

此外， pivot_table 具有边际汇总的功能，可以通过设置 margins=True 来实现，其中边际的聚合方式与 aggfunc 中给出的聚合方法一致。下面就分别统计了语文均分和数学均分、张三均分和李四均分，以及总体所有分数的均分：

df.pivot_table(index = 'Name',columns = 'Subject',values = 'Grade',aggfunc='mean',margins=True)

Subject	Chinese	Math	All
Name
San Zhang	85	95.0	90.00
Si Li	75	90.0	82.50
All	80	92.5	86.25

Question: 在上面的边际汇总例子中，行或列的汇总为新表中行元素或者列元素的平均值，而总体的汇总为新表中四个元素的平均值。这种关系一定成立吗？若不成立，请给出一个例子来说明。

melt

长宽表只是数据呈现方式的差异，但其包含的信息量是等价的，前面提到了利用 pivot 把长表转为宽表，那么就可以通过相应的逆操作把宽表转为长表， melt 函数就起到了这样的作用。在下面的例子中， Subject 以列索引的形式存储，现在想要将其压缩到一个列中。

df = pd.DataFrame({
     'Class':[1,2],'Name':['San Zhang', 'Si Li'],'Chinese':[80, 90],'Math':[80, 75]})
df

	Class	Name	Chinese	Math
0	1	San Zhang	80	80
1	2	Si Li	90	75

df_melted = df.melt(id_vars = ['Class', 'Name'],value_vars = ['Chinese', 'Math'],var_name = 'Subject',value_name = 'Grade')
df_melted

	Class	Name	Subject	Grade
0	1	San Zhang	Chinese	80
1	2	Si Li	Chinese	90
2	1	San Zhang	Math	80
3	2	Si Li	Math	75

melt 的主要参数和压缩的过程如下图所示：

前面提到了 melt 和 pivot 是一组互逆过程，那么就一定可以通过 pivot 操作把 df_melted 转回 df 的形式：

df_unmelted = df_melted.pivot(index = ['Class', 'Name'],columns='Subject',values='Grade')
df_unmelted # 下面需要恢复索引，并且重命名列索引名称

	Subject	Chinese	Math
Class	Name
1	San Zhang	80	80
2	Si Li	90	75

df_unmelted = df_unmelted.reset_index().rename_axis(columns={
     'Subject':''})
df_unmelted.equals(df)

True

wide_to_long

melt 方法中，在列索引中被压缩的一组值对应的列元素只能代表同一层次的含义，即 values_name 。现在如果列中包含了交叉类别，比如期中期末的类别和语文数学的类别，那么想要把 values_name 对应的 Grade 扩充为两列分别对应语文分数和数学分数，只把期中期末的信息压缩，这种需求下就要使用 wide_to_long 函数来完成。

df = pd.DataFrame({
     'Class':[1,2],'Name':['San Zhang', 'Si Li'],
                   'Chinese_Mid':[80, 75], 'Math_Mid':[90, 85],
                   'Chinese_Final':[80, 75], 'Math_Final':[90, 85]})

df

	Class	Name	Chinese_Mid	Math_Mid	Chinese_Final	Math_Final
0	1	San Zhang	80	90	80	90
1	2	Si Li	75	85	75	85

pd.wide_to_long(df,stubnames=['Chinese', 'Math'],i = ['Class', 'Name'],j='Examination',sep='_',suffix='.+')

			Chinese	Math
Class	Name	Examination
1	San Zhang	Mid	80	90
1	San Zhang	Final	80	90
2	Si Li	Mid	75	85
2	Si Li	Final	75	85

具体的变换过程由下图进行展示，属相同概念的元素使用了一致的颜色标出：

下面给出一个比较复杂的案例，把之前在 pivot 一节中多列操作的结果（产生了多级索引），利用 wide_to_long 函数，将其转为原来的形态。其中的 str.split 函数，目前暂时只需将其理解为对序列按照某个分隔符进行拆分即可。

res = pivot_multi.copy() 
res.columns = res.columns.map(lambda x:'_'.join(x))
res = res.reset_index()
res

	Class	Name	Grade_Chinese_Mid	Grade_Chinese_Final	Grade_Math_Mid	Grade_Math_Final	rank_Chinese_Mid	rank_Chinese_Final	rank_Math_Mid	rank_Math_Final
0	1	San Zhang	80	75	90	85	10	15	20	7
1	2	Si Li	85	65	92	88	21	15	6	2

res = pd.wide_to_long(res, stubnames=['Grade', 'rank'],
                      i = ['Class', 'Name'],
                      j = 'Subject_Examination',
                      sep = '_',
                      suffix = '.+')

res = res.reset_index()
res

	Class	Name	Subject_Examination	Grade	rank
0	1	San Zhang	Chinese_Mid	80	10
1	1	San Zhang	Chinese_Final	75	15
2	1	San Zhang	Math_Mid	90	20
3	1	San Zhang	Math_Final	85	7
4	2	Si Li	Chinese_Mid	85	21
5	2	Si Li	Chinese_Final	65	15
6	2	Si Li	Math_Mid	92	6
7	2	Si Li	Math_Final	88	2

res[['Subject', 'Examination']] = res['Subject_Examination'].str.split('_', expand=True)

res = res[['Class', 'Name', 'Examination','Subject', 'Grade', 'rank']].sort_values('Subject') 

res

	Class	Name	Examination	Subject	Grade	rank
0	1	San Zhang	Mid	Chinese	80	10
1	1	San Zhang	Final	Chinese	75	15
4	2	Si Li	Mid	Chinese	85	21
5	2	Si Li	Final	Chinese	65	15
2	1	San Zhang	Mid	Math	90	20
3	1	San Zhang	Final	Math	85	7
6	2	Si Li	Mid	Math	92	6
7	2	Si Li	Final	Math	88	2

res = res.reset_index(drop=True)

res

	Class	Name	Examination	Subject	Grade	rank
0	1	San Zhang	Mid	Chinese	80	10
1	1	San Zhang	Final	Chinese	75	15
2	2	Si Li	Mid	Chinese	85	21
3	2	Si Li	Final	Chinese	65	15
4	1	San Zhang	Mid	Math	90	20
5	1	San Zhang	Final	Math	85	7
6	2	Si Li	Mid	Math	92	6
7	2	Si Li	Final	Math	88	2

索引的变形

stack与unstack

前面提到了利用 swaplevel 或者 reorder_levels 进行索引内部的层交换，下面就要讨论行列索引之间的交换，由于这种交换带来了 DataFrame 维度上的变化，因此属于变形操作。在第一节中提到的4种变形函数与其不同之处在于，它们都属于某一列或几列元素和列索引 之间的转换，而不是索引之间的转换。

unstack函数的作用是把行索引转为列索引，例如下面这个简单的例子：

df = pd.DataFrame(np.ones((4,2)),index = pd.Index([('A', 'cat', 'big'),('A', 'dog', 'small'),
                                                   ('B', 'cat', 'big'),('B', 'dog', 'small')]),
                  columns=['col_1', 'col_2'])
df

			col_1	col_2
A	cat	big	1.0	1.0
A	dog	small	1.0	1.0
B	cat	big	1.0	1.0
B	dog	small	1.0	1.0

df.unstack()

		col_1		col_2
		big	small	big	small
A	cat	1.0	NaN	1.0	NaN
A	dog	NaN	1.0	NaN	1.0
B	cat	1.0	NaN	1.0	NaN
B	dog	NaN	1.0	NaN	1.0

unstack 的主要参数是移动的层号，默认转化最内层，移动到列索引的最内层，同时支持同时转化多个层：

df.unstack(2)

		col_1		col_2
		big	small	big	small
A	cat	1.0	NaN	1.0	NaN
A	dog	NaN	1.0	NaN	1.0
B	cat	1.0	NaN	1.0	NaN
B	dog	NaN	1.0	NaN	1.0

df.unstack([0,2])

	col_1				col_2
	A		B		A		B
	big	small	big	small	big	small	big	small
cat	1.0	NaN	1.0	NaN	1.0	NaN	1.0	NaN
dog	NaN	1.0	NaN	1.0	NaN	1.0	NaN	1.0

类似于 pivot 中的唯一性要求，在 unstack 中必须保证被转为列索引的行索引层和被保留的行索引层构成的组合是唯一的，例如把前两个列索引改成相同的破坏唯一性，那么就会报错：

my_index = df.index.to_list()
my_index[1] = my_index[0]
df.index = pd.Index(my_index)
df

			col_1	col_2
A	cat	big	1.0	1.0
A	cat	big	1.0	1.0
B	cat	big	1.0	1.0
B	dog	small	1.0	1.0

try:
    df.unstack()
except Exception as e:
    Err_Msg = e

Err_Msg

ValueError('Index contains duplicate entries, cannot reshape')

与 unstack 相反， stack 的作用就是把列索引的层压入行索引，其用法完全类似。

df = pd.DataFrame(np.ones((4,2)),
                  index = pd.Index([('A', 'cat', 'big'),
                                    ('A', 'dog', 'small'),
                                    ('B', 'cat', 'big'),
                                    ('B', 'dog', 'small')]),
                  columns=['index_1', 'index_2']).T

df

	A		B
	cat	dog	cat	dog
	big	small	big	small
index_1	1.0	1.0	1.0	1.0
index_2	1.0	1.0	1.0	1.0

df.stack()

		A		B
		cat	dog	cat	dog
index_1	big	1.0	NaN	1.0	NaN
index_1	small	NaN	1.0	NaN	1.0
index_2	big	1.0	NaN	1.0	NaN
index_2	small	NaN	1.0	NaN	1.0

df.stack([1, 2])

			A	B
index_1	cat	big	1.0	1.0
index_1	dog	small	1.0	1.0
index_2	cat	big	1.0	1.0
index_2	dog	small	1.0	1.0

聚合与变形的关系

在上面介绍的所有函数中，除了带有聚合效果的 pivot_table 以外，所有的函数在变形前后并不会带来 values 个数的改变，只是这些值在呈现的形式上发生了变化。在上一章讨论的分组聚合操作，由于生成了新的行列索引，因此必然也属于某种特殊的变形操作，但由于聚合之后把原来的多个值变为了一个值，因此 values 的个数产生了变化，这也是分组聚合与变形函数的最大区别。

其他变形函数

crosstab

crosstab 并不是一个值得推荐使用的函数，因为它能实现的所有功能 pivot_table 都能完成，并且速度更快。在默认状态下， crosstab 可以统计元素组合出现的频数，即 count 操作。例如统计 learn_pandas 数据集中学校和转系情况对应的频数：

df = pd.read_csv('G:\代码\joyful-pandas-master\data\learn_pandas.csv') 
df.head()

	School	Grade	Name	Gender	Height	Weight	Transfer	Test_Number	Test_Date	Time_Record
0	Shanghai Jiao Tong University	Freshman	Gaopeng Yang	Female	158.9	46.0	N	1	2019/10/5	0:04:34
1	Peking University	Freshman	Changqiang You	Male	166.5	70.0	N	1	2019/9/4	0:04:20
2	Shanghai Jiao Tong University	Senior	Mei Sun	Male	188.9	89.0	N	2	2019/9/12	0:05:22
3	Fudan University	Sophomore	Xiaojuan Sun	Female	NaN	41.0	N	2	2020/1/3	0:04:08
4	Fudan University	Sophomore	Gaojuan You	Male	174.0	74.0	N	2	2019/11/6	0:05:22

pd.crosstab(index = df.School, columns = df.Transfer)

Transfer	N	Y
School
Fudan University	38	1
Peking University	28	2
Shanghai Jiao Tong University	53	0
Tsinghua University	62	4

这等价于如下 crosstab 的如下写法，这里的 aggfunc 即聚合参数：

pd.crosstab(index = df.School, columns = df.Transfer,values = [0]*df.shape[0], aggfunc = 'count')

Transfer	N	Y
School
Fudan University	38.0	1.0
Peking University	28.0	2.0
Shanghai Jiao Tong University	53.0	NaN
Tsinghua University	62.0	4.0

同样，可以利用 pivot_table 进行等价操作，由于这里统计的是组合的频数，因此 values 参数无论传入哪一个列都不会影响最后的结果：

df.pivot_table(index = 'School',columns = 'Transfer',values = 'Name',aggfunc = 'count')

Transfer	N	Y
School
Fudan University	38.0	1.0
Peking University	28.0	2.0
Shanghai Jiao Tong University	53.0	NaN
Tsinghua University	62.0	4.0

从上面可以看出这两个函数的区别在于， crosstab 的对应位置传入的是具体的序列，而 pivot_table 传入的是被调用表对应的名字，若传入序列对应的值则会报错。

除了默认状态下的 count 统计，所有的聚合字符串和返回标量的自定义函数都是可用的，例如统计对应组合的身高均值：

pd.crosstab(index = df.School, columns = df.Transfer,values = df.Height, aggfunc = 'mean')

Transfer	N	Y
School
Fudan University	162.043750	177.20
Peking University	163.429630	162.40
Shanghai Jiao Tong University	163.953846	NaN
Tsinghua University	163.253571	164.55

explode

explode 参数能够对某一列的元素进行纵向的展开，被展开的单元格必须存储 list, tuple, Series, np.ndarray 中的一种类型。

df_ex = pd.DataFrame({
     'A': [[1, 2],'my_str',{
     1, 2},pd.Series([3, 4])],'B': 1})
df_ex

	A	B
0	[1, 2]	1
1	my_str	1
2	{1, 2}	1
3	0 3 1 4 dtype: int64	1

df_ex.explode('A')

	A	B
0	1	1
0	2	1
1	my_str	1
2	{1, 2}	1
3	3	1
3	4	1

get_dummies

get_dummies 是用于特征构建的重要函数之一，其作用是把类别特征转为指示变量。例如，对年级一列转为指示变量，属于某一个年级的对应列标记为1，否则为0：

pd.get_dummies(df.Grade).head()

	Freshman	Senior	Sophomore
0	1	0	0
1	1	0	0
2	0	1	0
3	0	0	1
4	0	0	1

数据分析与挖掘方向毕业设计选题推荐：大数据 Python 微光DeepLearning 毕设选题大数据 python 数据挖掘
亲爱的同学们，转眼间我们已经迎来了大四，这一年充满了挑战与机遇。大家忙着备考研究生、公务员、教师资格证，或是寻找实习机会，同时还要面对毕业设计的重任。对于毕业设计，很多同学可能会感到陌生，不知道从何下手，也不确定自己适合哪些方向的课题。为此，我整理了一个毕业设计选题专栏，希望能为大家提供一些灵感和建议。无论你对毕业设计有任何疑问，欢迎随时来问我哦！对毕设有任何疑问都可以问学长哦!前言在计算机专业的
【AI大数据】数据中台的数据分析与挖掘：从数据到业务的决策 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录1.前言2.基本概念术语说明2.1数据模型及其实体关系实体（Entity）属性（Attribute）实体关系（EntityRelationships）2.2数据仓库2.3分析引擎2.4噪声数据2.5数据湖2.6数据总线2.7数据仓库模型3.核心算法原理和具体操作步骤以及数学公式讲解3.1数据挖掘技术概览（1）数据预处理（2）数据探查（3）数据清洗（4）数据转换（5）数据挖掘（6）知识发现（
AI提示工程实战：从零开始利用提示工程学习应用大语言模型【附PDF】程序员丸子人工智能学习语言模型大模型自然语言处理 AI提示工程提示工程
01内容简介本书旨在探讨AI提示工程(通常简称提示工程或Prompt工程)在各领域的应用。大语言模型是人工智能领域的重要成果，在自然语言处理和生成任务中发挥着重要的作用。读者通过深入了解和应用提示工程，能充分挖掘和利用大语言模型的潜力，提升效率、促进创新，并解决实际问题。本书涵盖人工智能发展历程，提示工程的概念和设计原则、策略和技巧、不同领域的典型应用，以及数据分析与挖掘领域的应用。本书旨在以通俗
知识图谱智能应用系统：数据分析与挖掘技术文档光芒再现0394 知识图谱数据分析人工智能
一、概述在知识图谱智能应用系统中，数据分析与挖掘模块是实现知识发现和智能应用的核心环节。该模块负责处理和分析来自数据采集与预处理模块的结构化和半结构化数据，提取有价值的知识，并将其转化为可用于知识图谱构建和应用的三元组数据。本技术文档详细介绍了数据分析与挖掘模块中使用到的关键技术，包括SparkML、StanfordNLP、JNA、Jena、Python调用以及定时调度。二、技术栈介绍（一）Spa
文武双全！为什么数据分析师需要既懂业务又懂技术 R3eE9y2OeFcU40
感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。在企业中，数据分析
从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版 weixin_37988176
给大家带来的一篇关于数据挖掘相关的电子书资源，介绍了关于Python、数据分析、数据挖掘方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小67.8MB，刘顺祥编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.5。内容介绍从零开始学Python数据分析与挖掘本书以Python3版本作为数据分析与挖掘实战的应用工具，从Pyhton的基础语法开始，陆续介绍有关数值计算的Numpy、数
商业分析能力是怎样炼成的？ R3eE9y2OeFcU40
感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。作者：接地气的陈老师链接：https://www.zhihu.com/question/
阿里云服务器内存型r7、r8a、r8y实例区别参考阿里云最新优惠和活动汇总
在阿里云目前的活动中，属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y这几个实例规格，相比于活动内的经济型e、通用算力型u1实例来说，这些实例规格等性能更强，与计算型和通用型相比，它的内存更大，因此这些内存型实例规格主要适用于数据库、中间件和数据分析与挖掘，Hadoop、Spark集群等场景，本文为大家介绍内存型r7、r8a、r8y实例区别及最新活动价格，以供参考。2核16G可
python金融数据分析与挖掘实战黄恒秋_金融数据分析与挖掘——股票时间序列数据处理... weixin_39849930 黄恒秋
1、什么是时间序列分析时间序列分析(timeseriesanalysis)方法,强调的是通过对一个区域进行一定时间段内的连续观察计算，提取相关特征，并分析其变化过程。时间序列分析主要有确定性变化分析和随机性变化分析确定性变化分析：移动平均法，移动方差和标准差、移动相关系数随机性变化分析：AR、ARMA模型2、移动平均法2.1移动窗口主要用在时间序列的数组变换，不同作用的函数将它们统称为移动窗口函数
阿里云服务器内存型r7、r8a、r8y实例区别及最新活动价格参考阿里云最新优惠和活动汇总
在阿里云目前的活动中，属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y这几个实例规格，相比于活动内的经济型e和通用算力型u1等实例规格来说，这些实例规格等性能更强，适用于数据分析与挖掘，Hadoop、Spark集群、数据库、中间件、大数据等场景。本文为大家介绍内存型r7、r8a、r8y实例区别及最新活动价格，以供参考。一、内存型实例规格族r7性能介绍1、r7的内存型、存储、网络
numpy和matplotlib小例子 Roy Teng numpy matplotlib
最近准备学《Python数据分析与挖掘实战》这本书，刚看到第二章numpy和matplotlib这一部分，发现这个图挺有意思的，就做个笔记记录一下，日后发现有意思的继续更。importnumpyasnpimportmatplotlib.pyplotaspltx=np.linspace(0,10,1000)y=np.sin(x)+1z=np.cos(x**2)+1plt.figure(figsize
Python3数据分析与挖掘建模（7）使用matplotlib和seaborn画图鮀城小帅 python 数据分析 matplotlib python 柱状图饼图
1.可视化分析1.1概述可视化分析是数据分析中重要的一环，它可以帮助我们更直观地理解数据的特征、趋势和关系。在Python中，有多个库可以用于数据可视化，包括matplotlib、seaborn和plotly等。1.2常用的可视化方法和对应的库：（1）折线图和曲线图：用于显示数据随时间或其他连续变量的变化趋势。可以使用matplotlib和seaborn来创建这些图形。（2）柱状图和条形图：用于比
面试算法LeetCode刷题班—BAT面试官带你刷真题、过笔试 Dan Boneh 高级程序设计算法
课程名称:《面试算法LeetCode刷题班》——BAT面试官带你刷真题、过笔试主讲老师:林老师BAT资深研发工程师(T7/P8级)，致力于搜索引擎及其子系统的研发、迭代与优化，数据分析与挖掘领域专家，多年担任校园招聘、社会招聘面试官，丰富的面试候选人经验。课程简介:掌握算法与数据结构是成为优秀程序员的必经之路，众多国内外知名互联网企业都将算法面试作为程序员招聘的重要和必需途径，只有高效应对各类题目
python财政收入预测分析_python 数据分析-- 实战1（收入预测分析） weixin_39572152 python财政收入预测分析
说明：本文用途只做学习记录：参考书籍：从零开始学Python数据分析与挖掘／刘顺祥著．—北京：清华大学出版社，2018首先看一下刘老师介绍的数据分析和数据挖掘的区别：1.预览数据集，明确分析目的通过Excel工具打开income文件，可发现该数据集一共有32561条样本数据，共有15个数据变量，其中9个离散型变量，6个数值型变量。数据项主要包括：年龄，工作类型，受教育程度，收入等，具体可见下面两个
阿里云服务器2核16G、4核32G、8核64G配置最新收费标准及活动价格阿里云最新优惠和活动汇总
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8，这种配比的云服务器一般适用于数据分析与挖掘，Hadoop、Spark集群和数据库，缓存等内存密集型场景，因此，多为企业级用户选择，目前用户购买2核16G配置活动价格最低为2439.24元/1年起，购买4核32G配置活动价格最低为4499.88元/1年起，购买8核64G配置活动价格最低为8621.16元/1年起，本文介绍这些配置
《Python数据分析与挖掘实战》第12章——电子商务网站用户行为分析及服务推荐（协同推荐）数据探索分析篇①1 背景与目标分析2.数据探索分析 marraybug python
文章目录1背景与目标分析2.数据探索分析2.1网页类型分析2.1.1统计各个网页类型所占的比例2.1.2网页107类型中的内部统计2.1.3统计带"?"问号网址类型统计2.1.4统计199类型中的具体类型占比2.1.5统计瞎逛用户中各个类型占比2.2点击次数分析2.2.1统计点击次数2.2.2点击次数与用户数量关系2.2.3统计1~7次数及7次以上的点击数2.2.4浏览一次的用户行为分析2.3网页
阿里云服务器2024年2核16G、4核32G、8核64G配置最新收费标准及活动价格 qq_3304559116 阿里云阿里云服务器云计算
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8，这种配比的云服务器一般适用于数据分析与挖掘，Hadoop、Spark集群和数据库，缓存等内存密集型场景，因此，多为企业级用户选择，目前用户购买2核16G配置活动价格最低为1473.41元/1年起，购买4核32G配置活动价格最低为2896.42元/1年起，购买8核64G配置活动价格最低为5742.43元/1年起，本文介绍这些配置
并行化K-means聚类算法的实现与分析 OverlordDuke 聚类算法算法 kmeans 聚类并行聚类算法
并行化K-means聚类算法并行化K-means聚类算法的实现与分析项目背景与意义算法原理与串行实现分析并行化策略与关键细节实验结果与讨论未来改进方向结语并行化K-means聚类算法的实现与分析在大数据时代，对数据进行高效的聚类是数据分析与挖掘的重要工具之一。本文将介绍并讨论使用OpenMP在C++中实现的并行化K-means聚类算法。我们将深入探讨算法的原理、并行化策略以及实验结果，以期为相关领
从零开始学python第二版_从零开始学Python数据分析与挖掘-从零开始学Python数据分析与挖掘第二版pdf下载电子版-精品下载... weixin_39874366 从零开始学python第二版
从零开始学Python数据分析与挖掘第二版以Python3.7版本作为数据分析与挖掘实战的应用工具，从Python的基础语法开始，陆续介绍有关数值计算的numpy、数据处理的pandas、数据可视化的matplotlib和数据挖掘的sklearn等内容编辑推荐"为满足用人单位对数据分析和挖掘人员在编程方面的技能要求，本书遵循由浅入深的原则，详细地介绍了利用Python及其相关工具实现数据分析和挖掘
【毕设选题指导】2024 数据分析与挖掘方向毕业设计选题推荐 Mini_hailang_IT 毕设选题指导人工智能毕业设计算法数据挖掘数据分析毕设
目录前言数据挖掘方向选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。对毕设有任何疑问都可以问学
【大数据分析与挖掘技术】概述 Francek Chen 大数据技术基础数据分析数据挖掘 Mahout
目录一、数据挖掘简介（一）数据挖掘对象（二）数据挖掘流程（三）数据挖掘的分析方法（四）经典算法二、Mahout（一）Mahout简介（二）主要特性（三）Mahout安装与配置一、数据挖掘简介需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市
【大数据分析与挖掘技术】Mahout推荐算法 Francek Chen 大数据技术基础数据分析人工智能数据挖掘 Mahout
目录一、推荐的定义与评估（一）推荐的定义（二）推荐的评估二、Mahout中的常见推荐算法（一）基于用户的推荐算法（二）基于物品的推荐算法（三）基于SVD的推荐算法（四）基于线性插值的推荐算法（五）基于聚类的推荐算法三、对GroupLens数据集进行推荐与评价（一）如何使用推荐器进行推荐（二）如何评估推荐器的好坏推荐是Mahout机器学习算法的主题之一，它极大地渗透到了人们日常生活的方方面面，比如，
数据中台概念大数据驱动 #8数据中台-S级信息可视化大数据
数据中台1.数据中台模块数据采集数据存储数据处理数据分析数据应用2.数据中台的核心功能数据采集与集成数据清洗与预处理数据建模与存储数据分析与挖掘数据可视化与报告数据质量管理数据安全与隐私保护数据共享与开放3.如何建立数据中台确定业务需求收集数据源数据清洗和预处理数据建模和存储数据分析和挖掘数据可视化和报告数据质量管理数据安全和隐私保护数据共享和开放持续优化和升级4.数据中台的优点5.数据中台的缺点
1688商品数据API接口的数据分析与挖掘技巧爱吃猫的菜菜 api接口数据分析 java 数据库安全大数据
随着电子商务的发展，越来越多的商家开始将业务拓展到线上。而1688作为中国最大的B2B电商平台之一，其商品数量和交易额均居于世界前列。因此，对于商家来说，了解商品的实时信息非常重要，可以帮助他们更好地管理商品、制定营销策略等。本文将介绍如何使用API接口来获取1688商品详情。一、API简介1688提供了丰富的API接口，用于获取商品数据、交易数据、用户数据等。其中，商品详情API是常用的接口之一
Python环境下基于自适应滤波器的音频信号（wav格式）降噪方法哥廷根数学学派 python 开发语言
Python的集成环境我一般使用的是Winpython，Winpytho脱胎于pythonxy，面向科学计算，兼顾数据分析与挖掘；Anaconda主要面向数据分析与挖掘方面，在大数据处理方面有自己特色的一些包；Winpytho强调便携性，被做成绿色软件，不写入注册表，安装其实就是解压到某个文件夹，移动文件夹甚至放到U盘里在其他电脑上也能用。抛开软件包的差异，我个人也推荐初学者用winpython，
数据分析与挖掘简介数据蜗牛
20世纪40年代第一台数字计算机出现到90年代中期之前，信息化建设可归为以单机应用为主要特征的数字化阶段（可称为信息化1.0），而第一次的信息化浪潮，始自20世纪80年代个人计算机的大规模普及应用。从90年代中期开始，以美国提出“信息高速公路”建设计划为重要标志，互联网开始了其大规模商用进程，带来了信息化建设的第二次浪潮，即以联网应用为主要特征的网络化阶段（可称为信息化2.0）。当前，信息化建设的
电商API接口的大数据分析与挖掘技巧爱吃猫的菜菜 api接口数据分析信息可视化数据挖掘大数据数据库
随着电商行业的快速发展，电商平台上的交易数据量也越来越大。如何对这些数据进行分析和挖掘，从中获取有价值的信息，已经成为电商企业和开发者关注的重点。本文将介绍电商API接口的大数据分析与挖掘技巧。一、数据采集1.确定分析目标：在进行大数据分析之前，需要明确分析的目标和问题，以便针对性地采集数据。2.选择数据源：根据分析目标，选择合适的数据源。电商平台提供的API接口是获取数据的重要途径，可以通过调用
大数据分析与挖掘-期末复习大纲[HBU] 洛杉矶县牛肉板面 AI学习数据分析数据挖掘
前言这篇博客针对河北大学大数据分析与挖掘课程期末复习，目的是给同学们一个比较清晰的复习方向，具体的学习还需要平时认真听讲、写作业。我们使用的教材是这本：练习题目我只更新了部分答案，至于剩下的答案老师上课的时候会带着讲解的。在这里我只是为同学们提供一个复习纲要和复习方向。希望大家能快速抓到考试重点，不在其他方向上浪费精力。选择题答案：1.C2.D判断题答案：1.X2.√3.X4.X(若答案有误，请及
Pytorch环境下基于Transformer的滚动轴承故障诊断哥廷根数学学派 pytorch python 人工智能
关于python的集成环境，我一般Anaconda和winpython都用，windows下主要用Winpython，IDE为spyder（类MATLAB界面）。winpython脱胎于pythonxy，面向科学计算，兼顾数据分析与挖掘；Anaconda主要面向数据分析与挖掘方面，在大数据处理方面有自己特色的一些包；winpython强调便携性，被做成绿色软件，不写入注册表，安装其实就是解压到某个
Python+MySQL+PowerBI 抖音用户浏览行为数据分析与挖掘材哥儿 mysql python 数据库数据分析 powerbi 数据挖掘
项目概述：抖音作为当下最火热的短视频软件，探索其产生的数据可以得到极高的价值。本项目模拟从将csv文件导入python工具进行数据分析并对用户点赞预测建模分析，且将python处理后的数据存储到MySQL数据库中，最后用可视化工具输出分析结果，最终可以更好地进行内容优化、产品运营。数据具体字段信息：字段字段说明字段字段说明uid用户idlike是否点赞user_city用户城市music_id音乐
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http