大地之灯

Pandas进阶修炼120题-第二期（Pandas数据处理，21-50题）

文章目录

往期回顾：
- 第一期：Pandas基础（1-20题）
- 第二期：Pandas数据处理（21-50题）
- 第三期：Pandas金融数据处理（51-80题）
Pandas进阶修炼120题
- 第二期 Pandas数据处理
- - 21.读取本地EXCEL数据
  - 22.查看df数据前5行
  - 23.将salary列数据转换为最大值与最小值的平均值
  - - 方法一：正则表达式（分别使用apply()，applymap(),map()来实现）
    - 方法二：apply + 自定义函数
  - 24.将数据根据学历进行分组并计算平均薪资
  - 25.将createTime列时间转换为月-日
  - - 方法一：数据由时间戳格式转为时间日期格式，再修改格式
    - 方法二：常规方法（挨个修改）
    - 方法三：分别使用apply,applymap,map使用lambda 函数批量修改
  - 26.查看索引、数据类型和内存信息
  - 27.查看数值型列的汇总统计
  - 28.新增一列根据salary将数据分为三组
  - - 方法一：pd.cut() 自定义箱子
    - 方法二：pd.qcut() 自动划分为数量大致相等的箱子
  - 29.按照salary列对数据降序排列
  - 30.取出第33行数据
  - - 方法一：df.loc[n]
    - 方法二：df.iloc[n]
    - 方法三：df.iloc[n-1,:]
    - 方法四：df[n-1:n]
    - 方法五：df.iloc[n:n+1],df.loc[n:n+1]
  - 31.计算salary列的中位数
  - 32.绘制薪资水平频率分布直方图
  - - 方法一：直接使用自带的plot绘制
    - 方法二：使用matplotlib.pyplot绘制
    - 方法三：方法二的拓展，添加数据标签
  - 33.绘制薪资水平密度曲线
  - - 方法一：直接使用plot绘制
    - 方法二：使用seaborn画图
  - 34.删除最后一列categories
  - - 方法一：指定labels,axis
    - 方法二：方法一(labels,axis = 1)的替代方法，columns = labels
  - 35.将df的第一列与第二列合并为新的一列
  - 36.将education列与salary列合并为新的一列
  - 37.计算salary最大值与最小值之差
  - - 方法一：直接计算
    - 方法二：分别使用apply,applymap,map,并使用lambda函数来实现
  - 38.将第一行与最后一行拼接
  - - 1.分步执行
    - 2.直接一句话执行
  - 39.将第8行数据添加至末尾
  - 40.查看每列的数据类型
  - 41.将createTime列设置为索引
  - 42.生成一个和df长度相同的随机数DataFrame
  - 43.将上一题生成的DataFrame与df合并
  - 44.生成新的一列new为salary列减去之前生成随机数列
  - 45.检查数据中是否含有任何缺失值
  - - 方法一：判断行，列，行&列空值的方法
    - 方法二：标准答案使用.values的原因就是为了避免连续使用any()
  - 46.将salary列类型转换为浮点数
  - 47.计算salary大于10000的次数
  - 48.查看每种学历出现的次数
  - 49.查看education列共有几种学历
  - 50.提取salary与new列的和大于60000的最后3行
  - - 方法一：布尔索引 + tail()
    - 方法二：标准答案解析

自己再写一遍的pandas习题，相比于标准答案添加了自己的理解与注释，也可直接下载链接上的习题
链接：https://pan.baidu.com/s/1arrqcBFZKqJngzRzUB2QfA?pwd=29eb
提取码：29eb
–来自百度网盘超级会员V3的分享

往期回顾：

第一期：Pandas基础（1-20题）
第二期：Pandas数据处理（21-50题）
第三期：Pandas金融数据处理（51-80题）

Pandas进阶修炼120题

第二期 Pandas数据处理

21.读取本地EXCEL数据

import pandas as pd
df = pd.read_excel('pandas120_21_50.xlsx')

22.查看df数据前5行

df.head()

	createTime	education	salary
0	2020-03-16 11:30:18	本科	20k-35k
1	2020-03-16 10:58:48	本科	20k-40k
2	2020-03-16 10:46:39	不限	20k-35k
3	2020-03-16 10:45:44	本科	13k-20k
4	2020-03-16 10:20:41	本科	10k-20k

23.将salary列数据转换为最大值与最小值的平均值

方法一：正则表达式（分别使用apply()，applymap(),map()来实现）

总结

· apply：应用在DataFrame的行或列中，也可以应用到单独一个Series的每个元素中

· map：应用在单独一个Series的每个元素中

· applymap：应用在DataFrame的每个元素中

import re

def func_re(x):
    """
    x:待解析的字符串
    方法：通过正则表达式解析最小值与最大值，然后输出平均值
    return：返回中间值
    """
    pattern = r'(\d+)k-(\d+)'
    matches = re.findall(r'(\d+)k-(\d+)k',x)[0]
    average_num = int(((int(matches[0]) + int(matches[1])) / 2) * 1000)
    return average_num

# 使用apply()进行数据转换
t_df = df[:].copy()

t_df['salary'] = t_df['salary'].apply(func_re)
t_df

	createTime	education	salary
0	2020-03-16 11:30:18	本科	27500
1	2020-03-16 10:58:48	本科	30000
2	2020-03-16 10:46:39	不限	27500
3	2020-03-16 10:45:44	本科	16500
4	2020-03-16 10:20:41	本科	15000
...	...	...	...
130	2020-03-16 11:36:07	本科	14000
131	2020-03-16 09:54:47	硕士	37500
132	2020-03-16 10:48:32	本科	30000
133	2020-03-16 10:46:31	本科	19000
134	2020-03-16 11:19:38	本科	30000

135 rows × 3 columns

# 使用map()进行数据转换
t_df = df[:].copy()

t_df['salary'] = t_df['salary'].map(func_re)
t_df

	createTime	education	salary
0	2020-03-16 11:30:18	本科	27500
1	2020-03-16 10:58:48	本科	30000
2	2020-03-16 10:46:39	不限	27500
3	2020-03-16 10:45:44	本科	16500
4	2020-03-16 10:20:41	本科	15000
...	...	...	...
130	2020-03-16 11:36:07	本科	14000
131	2020-03-16 09:54:47	硕士	37500
132	2020-03-16 10:48:32	本科	30000
133	2020-03-16 10:46:31	本科	19000
134	2020-03-16 11:19:38	本科	30000

135 rows × 3 columns

# 使用apply()进行数据转换
t_df = df[:].copy()

t_df['salary'] = t_df[['salary']].applymap(func_re) # 注意series是没有applymap的，需要对花式索引后的结果（DataFrame类型）使用
t_df

	createTime	education	salary
0	2020-03-16 11:30:18	本科	27500
1	2020-03-16 10:58:48	本科	30000
2	2020-03-16 10:46:39	不限	27500
3	2020-03-16 10:45:44	本科	16500
4	2020-03-16 10:20:41	本科	15000
...	...	...	...
130	2020-03-16 11:36:07	本科	14000
131	2020-03-16 09:54:47	硕士	37500
132	2020-03-16 10:48:32	本科	30000
133	2020-03-16 10:46:31	本科	19000
134	2020-03-16 11:19:38	本科	30000

135 rows × 3 columns

方法二：apply + 自定义函数

和方法一不同的是使用已有的函数来对字符串提取分离

t_df = df[:].copy()

def func(df):
    lst = df['salary'].split('-')
    smin = int(lst[0].strip('k'))
    smax = int(lst[1].strip('k'))
    df['salary'] = int((smin + smax) / 2 * 1000)
    return df


t_df = t_df.apply(func, axis=1)
t_df

	createTime	education	salary
0	2020-03-16 11:30:18	本科	27500
1	2020-03-16 10:58:48	本科	30000
2	2020-03-16 10:46:39	不限	27500
3	2020-03-16 10:45:44	本科	16500
4	2020-03-16 10:20:41	本科	15000
...	...	...	...
130	2020-03-16 11:36:07	本科	14000
131	2020-03-16 09:54:47	硕士	37500
132	2020-03-16 10:48:32	本科	30000
133	2020-03-16 10:46:31	本科	19000
134	2020-03-16 11:19:38	本科	30000

135 rows × 3 columns

# strip()函数用于去除字符串两侧的空格,也可以去除别的字符比如strip(k)

def func(df):
    # 先将字符串以'-'分割
    lst = df['salary'].split('-') # 这个地方有点奇怪，函数外直接这么写是错的，会报错AttributeError: 'Series' object has no attribute 'split'
    # 分割后的字符串去除掉‘k’，再转为整形，即为最小值与最大值
    smin = int(lst[0].strip('k'))
    smax = int(lst[1].strip('k'))
    df['salary'] = int((smin + smax) / 2 * 1000)
    return df

df = df.apply(func,axis = 1) #注意函数中如果是直接对df某一列操作的，需要说明axis = 1
df

	createTime	education	salary
0	2020-03-16 11:30:18	本科	27500
1	2020-03-16 10:58:48	本科	30000
2	2020-03-16 10:46:39	不限	27500
3	2020-03-16 10:45:44	本科	16500
4	2020-03-16 10:20:41	本科	15000
...	...	...	...
130	2020-03-16 11:36:07	本科	14000
131	2020-03-16 09:54:47	硕士	37500
132	2020-03-16 10:48:32	本科	30000
133	2020-03-16 10:46:31	本科	19000
134	2020-03-16 11:19:38	本科	30000

135 rows × 3 columns

24.将数据根据学历进行分组并计算平均薪资

# 方法一：
df.groupby(by = ['education'])[['salary']].mean()

	salary
education
不限	19600.000000
大专	10000.000000
本科	19361.344538
硕士	20642.857143

# 方法二：标准答案，可以看出groupby后直接.mean()只会对salary奏效
df.groupby(by = ['education']).mean()

C:\Users\Cheng\AppData\Local\Temp\ipykernel_9028\3549734645.py:2: FutureWarning: The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.
  df.groupby(by = ['education']).mean()

	salary
education
不限	19600.000000
大专	10000.000000
本科	19361.344538
硕士	20642.857143

25.将createTime列时间转换为月-日

to_pydatetime()函数：用于将时间序列数据转换为Python的datetime对象

strftime()函数：用于将日期时间格式化为字符串。它接受一个日期时间对象和一个格式化字符串作为参数，并返回一个格式化后的字符串。

思路：先将字符串转换为datetime对象，在确定格式后重新已字符串的形式存储

此外，标准答案中的ix要被版本淘汰了，尽量使用其他的做替换

方法一：数据由时间戳格式转为时间日期格式，再修改格式

要将createTime列转换为月-日格式，可以使用strftime()函数修改格式，但它需要接受日期时间对象。

可以使用pandas中的dt访问器，它提供了对Series值的datetime属性的访问。

t_df = df[:].copy()

# t_df['createTime'] = t_df['createTime'].to_datetime() # 直接写这句会报错，AttributeError: 'Series' object has no attribute 'to_datetime'
t_df['createTime'] = pd.to_datetime(t_df['createTime'])
t_df['createTime'] = t_df['createTime'].dt.strftime("%m-%d") # .strftime("%m-%d")
t_df

	createTime	education	salary
0	03-16	本科	27500
1	03-16	本科	30000
2	03-16	不限	27500
3	03-16	本科	16500
4	03-16	本科	15000
...	...	...	...
130	03-16	本科	14000
131	03-16	硕士	37500
132	03-16	本科	30000
133	03-16	本科	19000
134	03-16	本科	30000

135 rows × 3 columns

方法二：常规方法（挨个修改）

要将createTime列转换为月-日格式，可以使用strftime()函数修改格式，但它需要接受日期时间对象。

可以使用iloc访问并修改每个时间戳的格式，使用to_pydatetime()来转换格式。

t_df = df[:].copy()

length = len(t_df)
for i in range(length):
    t_df.iloc[i,0] = t_df.iloc[i,0].to_pydatetime().strftime("%m-%d")
t_df

	createTime	education	salary
0	03-16	本科	27500
1	03-16	本科	30000
2	03-16	不限	27500
3	03-16	本科	16500
4	03-16	本科	15000
...	...	...	...
130	03-16	本科	14000
131	03-16	硕士	37500
132	03-16	本科	30000
133	03-16	本科	19000
134	03-16	本科	30000

135 rows × 3 columns

方法三：分别使用apply,applymap,map使用lambda 函数批量修改

方法二的lambda函数版本

t_df = df[:].copy()

t_df['createTime'] = t_df['createTime'].apply(lambda x:x.to_pydatetime().strftime("%m-%d"))
t_df

	createTime	education	salary
0	03-16	本科	27500
1	03-16	本科	30000
2	03-16	不限	27500
3	03-16	本科	16500
4	03-16	本科	15000
...	...	...	...
130	03-16	本科	14000
131	03-16	硕士	37500
132	03-16	本科	30000
133	03-16	本科	19000
134	03-16	本科	30000

135 rows × 3 columns

t_df = df[:].copy()

t_df['createTime'] = t_df[['createTime']].applymap(lambda x:x.to_pydatetime().strftime("%m-%d"))
t_df

	createTime	education	salary
0	03-16	本科	27500
1	03-16	本科	30000
2	03-16	不限	27500
3	03-16	本科	16500
4	03-16	本科	15000
...	...	...	...
130	03-16	本科	14000
131	03-16	硕士	37500
132	03-16	本科	30000
133	03-16	本科	19000
134	03-16	本科	30000

135 rows × 3 columns

df['createTime'] = df['createTime'].map(lambda x:x.to_pydatetime().strftime("%m-%d"))
df

	createTime	education	salary
0	03-16	本科	27500
1	03-16	本科	30000
2	03-16	不限	27500
3	03-16	本科	16500
4	03-16	本科	15000
...	...	...	...
130	03-16	本科	14000
131	03-16	硕士	37500
132	03-16	本科	30000
133	03-16	本科	19000
134	03-16	本科	30000

135 rows × 3 columns

26.查看索引、数据类型和内存信息

df.info()


RangeIndex: 135 entries, 0 to 134
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   createTime  135 non-null    object
 1   education   135 non-null    object
 2   salary      135 non-null    int64 
dtypes: int64(1), object(2)
memory usage: 3.3+ KB

27.查看数值型列的汇总统计

df.describe()

	salary
count	135.000000
mean	19159.259259
std	8661.686922
min	3500.000000
25%	14000.000000
50%	17500.000000
75%	25000.000000
max	45000.000000

28.新增一列根据salary将数据分为三组

方法一：pd.cut() 自定义箱子

t_df = df[:].copy()

bins = [0,5000,15000,float('inf')]
labels = ['low','middle','high']

t_df['salary-category'] = pd.cut(t_df['salary'],bins = bins,labels = labels)
t_df

	createTime	education	salary	salary-category
0	03-16	本科	27500	high
1	03-16	本科	30000	high
2	03-16	不限	27500	high
3	03-16	本科	16500	high
4	03-16	本科	15000	middle
...	...	...	...	...
130	03-16	本科	14000	middle
131	03-16	硕士	37500	high
132	03-16	本科	30000	high
133	03-16	本科	19000	high
134	03-16	本科	30000	high

135 rows × 4 columns

t_df.groupby(by = ['salary-category'])['salary'].count()

salary-category
low        9
middle    47
high      79
Name: salary, dtype: int64

方法二：pd.qcut() 自动划分为数量大致相等的箱子

labels = ['low','middle','high']

df['salary-category'] = pd.qcut(df['salary'],q = 3,labels = labels)
df

	createTime	education	salary	salary-category
0	03-16	本科	27500	high
1	03-16	本科	30000	high
2	03-16	不限	27500	high
3	03-16	本科	16500	middle
4	03-16	本科	15000	low
...	...	...	...	...
130	03-16	本科	14000	low
131	03-16	硕士	37500	high
132	03-16	本科	30000	high
133	03-16	本科	19000	middle
134	03-16	本科	30000	high

135 rows × 4 columns

df.groupby(by = ['salary-category'])['salary'].count()

salary-category
low       56
middle    41
high      38
Name: salary, dtype: int64

29.按照salary列对数据降序排列

df.sort_values(by = ['salary'],ascending = False,inplace = True,ignore_index = True)
df

	createTime	education	salary	salary-category
0	03-16	本科	45000	high
1	03-16	本科	40000	high
2	03-16	本科	37500	high
3	03-16	本科	37500	high
4	03-16	硕士	37500	high
...	...	...	...	...
130	03-16	本科	4500	low
131	03-16	本科	4000	low
132	03-16	本科	4000	low
133	03-16	不限	3500	low
134	03-16	本科	3500	low

135 rows × 4 columns

30.取出第33行数据

方法一：df.loc[n]

df.loc[32]

createTime         03-16
education             本科
salary             25000
salary-category     high
Name: 32, dtype: object

方法二：df.iloc[n]

df.iloc[32]

createTime         03-16
education             本科
salary             25000
salary-category     high
Name: 32, dtype: object

方法三：df.iloc[n-1,:]

df.iloc[32,:]

createTime         03-16
education             本科
salary             25000
salary-category     high
Name: 32, dtype: object

方法四：df[n-1:n]

df[32:33]

	createTime	education	salary	salary-category
32	03-16	本科	25000	high

方法五：df.iloc[n:n+1],df.loc[n:n+1]

需要注意的是，’ iloc ‘和’ loc '也可以接受一个范围，例如 df .iloc[N:N+1] or df.loc[N:N+1] ，这些也会返回一个DataFrame。

df.loc[32:33]

	createTime	education	salary	salary-category
32	03-16	本科	25000	high
33	03-16	本科	25000	high

31.计算salary列的中位数

df['salary'].median()

17500.0

np.median(df['salary'])

17500.0

32.绘制薪资水平频率分布直方图

方法一：直接使用自带的plot绘制

df['salary'].plot(kind = 'hist',edgecolor = 'black')

方法二：使用matplotlib.pyplot绘制

import matplotlib.pyplot as plt

plt.hist(df['salary'],bins = 10,edgecolor = 'black') # bins默认为10
plt.title('Frequency Distribution of Salary Levels')
plt.xlabel('Salary')
plt.ylabel('Frequency')
plt.show()

方法三：方法二的拓展，添加数据标签

n,bins,patches = plt.hist(df[‘salary’]， bins=10, edgecolor=‘black’)创建直方图并返回三个对象:n(直方图bins的值)，bins (bins的边缘)和patches(用于创建直方图的单个patch)。

for循环遍历直方图中的每个patch。对于每个补丁，plt.text()用于添加文本标签。plt.text()的前两个参数指定文本的位置(在本例中是补丁上边缘的中心)，第三个参数是要添加的文本(在本例中是bin的值，格式为整数)。ha = 'center’指定文本水平居中。

其余的代码与前面相同。

import matplotlib.pyplot as plt

n, bins, patches = plt.hist(df['salary'],bins = 10,edgecolor = 'black')

"""
print(n) # [12.  8. 36. 31. 12.  8. 20.  3.  4.  1.]
print(bins) # [ 3500.  7650. 11800. 15950. 20100. 24250. 28400. 32550. 36700. 40850. 45000.]
print(patches) # 
"""

# Add labels to each bin
for i in range(len(patches)):
    plt.text(
        patches[i].get_x()+patches[i].get_width()/2.,
        patches[i].get_height(),
        f'{n[i]:.0f}',
        ha = 'center'
    )
plt.title('Frequency Distribution of Salary Levels')
plt.xlabel('Salary')
plt.ylabel('Frequency')
plt.show()

33.绘制薪资水平密度曲线

直方图和密度曲线的关系：

直方图和密度曲线(也称为水平曲线或核密度估计)都是可用于分析数据集分布的图形表示。它们提供了类似的信息，但它们的呈现方式略有不同。

直方图:直方图是数据集分布的图形表示。它是对一个连续变量的概率分布的估计。要构造一个直方图，第一步是对范围内的值进行“分组”——也就是说，将整个范围内的值分成一系列的区间——然后计算每个区间内有多少个值。箱子通常被指定为一个变量的连续的、不重叠的间隔。绘制的值表示每个bin内的观测值计数。

密度曲线(平坦度曲线):密度曲线是直方图的平滑版本，用于可视化分布的“形状”。它是直方图的一种变体，使用核平滑来绘制值，通过平滑噪声来实现更平滑的分布。密度图的峰值有助于显示值在区间内的集中位置。y轴表示密度:曲线在给定x值处的高度表示该值出现的概率密度。

两者之间的关系是，它们都提供了数据分布的可视化解释。直方图只提供每个箱中值的原始计数，而密度曲线提供了更平滑的分布估计。密度图曲线下的面积(或直方图中条形图的总面积)之和为1。

在许多情况下，密度图可能受箱宽选择的影响较小，并且通常可以更好地理解分布的形状，使其成为许多数据分析师的首选，而不是直方图。然而，直方图对于非技术人员来说可能更直观，因为它们提供了不同类别中数据计数的直观表示。

方法一：直接使用plot绘制

df.salary.plot(kind = 'kde',xlim = (0,80000))

方法二：使用seaborn画图

import seaborn as sns
import matplotlib.pyplot as plt

sns.kdeplot(df['salary'],color = 'darkblue')
plt.title('Density Plot of Salary Levels')
plt.xlabel('Salary')
plt.ylabel('Density')
plt.show()

34.删除最后一列categories

注意:默认情况下，drop不会修改DataFrame;它返回一个删除指定行或列的新DataFrame。

如果你想就地修改DataFrame，你可以传递inplace=True给drop。

方法一：指定labels,axis

t_df = df[:].copy()

t_df.drop(labels = ['salary-category'],axis = 1,inplace = True)
t_df.head()

	createTime	education	salary
0	03-16	本科	45000
1	03-16	本科	40000
2	03-16	本科	37500
3	03-16	本科	37500
4	03-16	硕士	37500

方法二：方法一(labels,axis = 1)的替代方法，columns = labels

df.drop(columns = ['salary-category'],inplace = True)
df.head()

	createTime	education	salary
0	03-16	本科	45000
1	03-16	本科	40000
2	03-16	本科	37500
3	03-16	本科	37500
4	03-16	硕士	37500

35.将df的第一列与第二列合并为新的一列

df['new_Column'] = df['createTime'] + df['education']
df.head()

	createTime	education	salary	new_Column
0	03-16	本科	45000	03-16本科
1	03-16	本科	40000	03-16本科
2	03-16	本科	37500	03-16本科
3	03-16	本科	37500	03-16本科
4	03-16	硕士	37500	03-16硕士

36.将education列与salary列合并为新的一列

df['new_Column2'] = df['education'] + df['salary'].map(str)
df.head()

	createTime	education	salary	new_Column	new_Column2
0	03-16	本科	45000	03-16本科	本科45000
1	03-16	本科	40000	03-16本科	本科40000
2	03-16	本科	37500	03-16本科	本科37500
3	03-16	本科	37500	03-16本科	本科37500
4	03-16	硕士	37500	03-16硕士	硕士37500

37.计算salary最大值与最小值之差

方法一：直接计算

df['salary'].max() - df['salary'].min()

方法二：分别使用apply,applymap,map,并使用lambda函数来实现

pandas中的map、apply和applymap函数分别用于将函数应用于series、series/dateframe或dataframe的元素。但是，计算列的最大值和最小值之间的差值是对整个序列的操作，而不是对单个元素的操作，因此通常不会使用这些函数来完成。

话虽如此，如果你真的想使用map, apply和applymap与lambda函数来解决这个问题，你可以做下面的事情:

1:使用apply:

apply用于沿dateframe的axis应用函数。

在此代码中，lambda函数计算“salary”列的最大值和最小值之间的差值。

你可以这样使用它:

df[['salary']].apply(lambda x:x.max()-x.min())

salary    41500
dtype: int64

2:使用map:

map用于series中每个元素的函数。

在这段代码中，lambda函数从每个工资中减去最低工资，然后使用max()找到这些值中的最大值，即最高工资和最低工资之间的差值。

df['salary'].map(lambda x:x-df['salary'].min()).max()

3:使用applymap:

applymap用于dataframe中每个元素的函数。所以需要选择‘salary’列作为dataframe而非series。

这段代码与前面的代码类似，但是df[[‘salary’]]用于选择’salary’列作为dataframe，并且使用applymap代替map。

df[['salary']].applymap(lambda x:x-df['salary'].min()).max()

salary    41500
dtype: int64

38.将第一行与最后一行拼接

1.分步执行

# 获取第一行
first_row = df.iloc[[0]]
# 获取最后一行
last_row = df.iloc[[-1]]
# 拼接
frames = [first_row,last_row]
df_concat = pd.concat(frames,ignore_index = True)
# 重置索引
df_concat.reset_index(drop = True,inplace = True)

df_concat

	createTime	education	salary	new_Column	new_Column2
0	03-16	本科	45000	03-16本科	本科45000
1	03-16	本科	3500	03-16本科	本科3500

2.直接一句话执行

df_concat = pd.concat([df[:1],df[-2:-1]],ignore_index = True).reset_index(drop = True)
df_concat

	createTime	education	salary	new_Column	new_Column2
0	03-16	本科	45000	03-16本科	本科45000
1	03-16	不限	3500	03-16不限	不限3500

39.将第8行数据添加至末尾

df.append(df.iloc[[7]])

C:\Users\Cheng\AppData\Local\Temp\ipykernel_9028\3138359087.py:1: FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.
  df.append(df.iloc[[7]])

	createTime	education	salary	new_Column	new_Column2
0	03-16	本科	45000	03-16本科	本科45000
1	03-16	本科	40000	03-16本科	本科40000
2	03-16	本科	37500	03-16本科	本科37500
3	03-16	本科	37500	03-16本科	本科37500
4	03-16	硕士	37500	03-16硕士	硕士37500
...	...	...	...	...	...
131	03-16	本科	4000	03-16本科	本科4000
132	03-16	本科	4000	03-16本科	本科4000
133	03-16	不限	3500	03-16不限	不限3500
134	03-16	本科	3500	03-16本科	本科3500
7	03-16	本科	35000	03-16本科	本科35000

136 rows × 5 columns

40.查看每列的数据类型

df.dtypes

createTime     object
education      object
salary          int64
new_Column     object
new_Column2    object
dtype: object

41.将createTime列设置为索引

df.set_index('createTime')
df

	createTime	education	salary	new_Column	new_Column2
0	03-16	本科	45000	03-16本科	本科45000
1	03-16	本科	40000	03-16本科	本科40000
2	03-16	本科	37500	03-16本科	本科37500
3	03-16	本科	37500	03-16本科	本科37500
4	03-16	硕士	37500	03-16硕士	硕士37500
...	...	...	...	...	...
130	03-16	本科	4500	03-16本科	本科4500
131	03-16	本科	4000	03-16本科	本科4000
132	03-16	本科	4000	03-16本科	本科4000
133	03-16	不限	3500	03-16不限	不限3500
134	03-16	本科	3500	03-16本科	本科3500

135 rows × 5 columns

42.生成一个和df长度相同的随机数DataFrame

df_1 = pd.DataFrame(pd.Series(np.random.randint(1,10,135)))
df_1

	0
0	3
1	8
2	2
3	2
4	7
...	...
130	6
131	5
132	5
133	1
134	4

135 rows × 1 columns

43.将上一题生成的DataFrame与df合并

df = pd.concat([df,df_1],ignore_index = True,axis = 1)
df.columns = ['createTime','education','salary','new_Column','new_Column2','randint']
df

	createTime	education	salary	new_Column	new_Column2	randint
0	03-16	本科	45000	03-16本科	本科45000	3
1	03-16	本科	40000	03-16本科	本科40000	8
2	03-16	本科	37500	03-16本科	本科37500	2
3	03-16	本科	37500	03-16本科	本科37500	2
4	03-16	硕士	37500	03-16硕士	硕士37500	7
...	...	...	...	...	...	...
130	03-16	本科	4500	03-16本科	本科4500	6
131	03-16	本科	4000	03-16本科	本科4000	5
132	03-16	本科	4000	03-16本科	本科4000	5
133	03-16	不限	3500	03-16不限	不限3500	1
134	03-16	本科	3500	03-16本科	本科3500	4

135 rows × 6 columns

44.生成新的一列new为salary列减去之前生成随机数列

df['new'] = df['salary'] - df['randint']
df

	createTime	education	salary	new_Column	new_Column2	randint	new
0	03-16	本科	45000	03-16本科	本科45000	3	44997
1	03-16	本科	40000	03-16本科	本科40000	8	39992
2	03-16	本科	37500	03-16本科	本科37500	2	37498
3	03-16	本科	37500	03-16本科	本科37500	2	37498
4	03-16	硕士	37500	03-16硕士	硕士37500	7	37493
...	...	...	...	...	...	...	...
130	03-16	本科	4500	03-16本科	本科4500	6	4494
131	03-16	本科	4000	03-16本科	本科4000	5	3995
132	03-16	本科	4000	03-16本科	本科4000	5	3995
133	03-16	不限	3500	03-16不限	不限3500	1	3499
134	03-16	本科	3500	03-16本科	本科3500	4	3496

135 rows × 7 columns

45.检查数据中是否含有任何缺失值

在Python中，DataFrame通常与pandas库相关联。要检查DataFrame中的空缺或缺失值，可以使用pandas提供的’ isnull() ‘或’ isna() '函数。

在上面的例子中，’ isnull() ‘函数返回与原始形状相同的DataFrame，但包含指示每个元素是否缺失的布尔值。然后，’ any() '函数检查每列或每行中是否有任何值为True， ’ any().any() '检查整个DataFrame中是否有任何True值。

方法一：判断行，列，行&列空值的方法

# 判断行是否有空值
column_vacancies = df.isnull().any()
# 判断列是否有空值
row_vacancies = df.isnull().any(axis = 1)
# 判断整个DataFrame中是否有空值
is_vacant = df.isnull().any().any()

# 打印结果
print(column_vacancies)
print("-------------------------------")
print(row_vacancies)
print("-------------------------------")
print(is_vacant)

createTime     False
education      False
salary         False
new_Column     False
new_Column2    False
randint        False
new            False
dtype: bool
-------------------------------
0      False
1      False
2      False
3      False
4      False
       ...  
130    False
131    False
132    False
133    False
134    False
Length: 135, dtype: bool
-------------------------------
False

方法二：标准答案使用.values的原因就是为了避免连续使用any()

df.isnull().values.any()

False

46.将salary列类型转换为浮点数

df['salary'] = df['salary'].astype('float')
df.dtypes

createTime      object
education       object
salary         float64
new_Column      object
new_Column2     object
randint          int32
new              int64
dtype: object

47.计算salary大于10000的次数

len(df[df['salary']>10000])

48.查看每种学历出现的次数

df['education'].value_counts()

本科    119
硕士      7
不限      5
大专      4
Name: education, dtype: int64

49.查看education列共有几种学历

df['education'].nunique()

50.提取salary与new列的和大于60000的最后3行

方法一：布尔索引 + tail()

filtered_df = df[df['salary'] + df['new'] > 60000]
filtered_df.tail(3)

	createTime	education	salary	new_Column	new_Column2	randint	new
6	03-16	本科	35000.0	03-16本科	本科35000	9	34991
7	03-16	本科	35000.0	03-16本科	本科35000	6	34994
8	03-16	本科	32500.0	03-16本科	本科32500	1	32499

方法二：标准答案解析

df1 = df[['salary','new']] # 通过花式索引选择salary和new列为新的DataFrame df1

rowsums = df1.apply(np.sum,axis = 1) # rowsums是df1中包含每一行的和的值的Series。np.sum沿着axis=1去计算每一行的值

# 基于rowsums大于60000的条件对df进行筛选
# 其中，np.where(rownums > 60000)[0]当条件为True的时候返回索引序列
# [-3:] 从索引序列中选择后三个索引
# 最后df.iloc用于根据索引从是原始DataFrame中选择对应的行，":",用于选择所有的列
res = df.iloc[np.where(rowsums > 60000)[0][-3:], :]

res

	createTime	education	salary	new_Column	new_Column2	randint	new
6	03-16	本科	35000.0	03-16本科	本科35000	9	34991
7	03-16	本科	35000.0	03-16本科	本科35000	6	34994
8	03-16	本科	32500.0	03-16本科	本科32500	1	32499

你可能感兴趣的:(数据分析实战,pandas,python,开发语言)

【python】setuptools Eternal-Student Python python 开发语言
setuptools是Python的一个核心工具包，用于构建、打包和分发Python项目。它是Python生态系统中最重要的工具之一，主要用于定义项目的元数据（如名称、版本、依赖等）以及构建和安装过程。以下是关于setuptools的详细介绍：1.setuptools的主要功能setuptools提供了以下核心功能：项目元数据管理：定义项目的名称、版本、作者、描述、依赖等信息。通过setup()函
【Visual Studio 2019 C++ 编译器的路径添加到系统 PATH 环境变量】 Eternal-Student Windows visual studio c++java
对于某些Python包，特别是那些涉及本地扩展或需要编译C/C++代码的包，需要一个支持C++开发的环境。VisualStudio是一个全面的开发环境，它提供了编译器、调试器以及其他许多工具，这些工具对于开发和编译C++代码非常有用。下载网址：ThankYouforDownloadingVisualStudioCommunityEdition(microsoft.com)以下是安装VisualSt
元组（tuple）转换为列表（list） Eternal-Student Python list windows 数据结构
在编程中，特别是在Python中，经常需要将元组（tuple）转换为列表（list）。元组通常使用圆括号()表示，如(x,y)，而列表使用方括号[]表示，如[x,y]。以下是如何将(x,y)转换为[x,y]的详细方法和示例。一、单个元组转换为列表方法1：使用list()函数Python提供了内置的list()函数，可以将元组直接转换为列表。示例代码：#定义一个元组tuple_point=(3,5)
【python】flask-Web 应用程序框架 3L_csdn #python flask python 前端 python web框架 http
目录简介一、简单示例二、Flask详细使用总结1、HTML转义2、路由2.1、使用route()装饰器将函数绑定到URL。2.2、变量规则2.3、唯一的URLs/重定向行为2.4、网址构建2.5、HTTP方法2.5、有json体返回的HTTPGET请求示例(请求中不带参数)2.6、有json体返回的HTTPGET请求示例(请求中带参数)简介Flask是一个轻量级的WSGIWeb应用程序框架。它旨在
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
Pycharm中import torch报错解决方案（Python+Pycharm+Pytorch cpu版）波波仔86 人工智能 python pycharm pytorch import 解释器配置
pycharm环境搭建完毕后，编写一个py文件demo，importtorch报错，提示没有。设置python解释器：选择conda环境，使用现有环境，conda执行文件找到Anaconda安装路径下Scripts文件夹内的conda.exe，最后选择含有torch软件包的虚拟环境，题主创建名为pytorch。创建完解释器后，下方会显示出该解释器/虚拟环境下的所有软件包，看到有pytorch包即选
flask--基础知识点--6--flask高并发处理 Raging__Fire #flask python flask
Flask是一个轻量级的PythonWeb框架，适合构建中小型应用。但是，对于高并发场景，Flask本身可能需要一些辅助工具和配置来提升性能。以下是一些优化Flask应用以处理高并发的方法：1.使用WSGI服务器Flask自带的开发服务器性能和稳定性不足以应对生产环境中的高并发请求，可以考虑使用更强大的WSGI服务器，如：Gunicorn:一个基于Python的WSGIHTTP服务器。uWSGI:
【python error】cannot import name ‘TorchDispatchMode‘ from ‘torch.utils._python_dispatch‘ Eternal-Student Jetson Orin NX Python python 开发语言
报错：cannotimportname‘TorchDispatchMode’from‘torch.utils._python_dispatch’(/home/nvidia/.conda/envs/pytorch/lib/python3.8/site-packages/torch/utils/_python_dispatch.py)File“/media/nvidia/Ubuntu/xxxxx/ev
全自动量化交易软件是否真的可靠？使用过程中有哪些潜在风险需要注意财云量化 python炒股自动化量化交易程序化交易全自动量化交易软件可靠性潜在风险数据准确性股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
【测试语言篇四】Python进阶篇之json模块 m0_37135615 编程语言 python php 开发语言
一、json模块介绍JSON（JavaScript对象表示法）是一种轻量级数据格式，用于数据交换。在Python中具有用于编码和解码JSON数据的内置json模块。只需导入它，就可以使用JSON数据了：importjsonJSON的一些优点：JSON作为“字节序列”存在，在我们需要通过网络传输（流）数据的情况下非常有用。与XML相比，JSON小得多，可转化为更快的数据传输和更好的体验。JSON非常
DeepSeek API 客户端使用文档老大白菜 python 人工智能数据库
1.简介deep.py是一个用于与DeepSeekAPI交互的Python客户端封装。它提供了简单易用的接口，支持对话历史管理、日志记录等功能，使得与DeepSeekAPI的交互更加便捷和可靠。2.功能特点简单的接口设计自动管理对话历史完整的日志记录灵活的配置选项异常处理机制3.安装依赖pipinstallopenai4.配置环境在项目根目录创建.env文件：#WindowssetDEEPSEEK
信息检索系统评估指标的层级分析：从单点精确度到整体性能度量人工智能深度学习llm检索系统
在构建搜索引擎系统时，有效的评估机制是保证系统质量的关键环节。当用户输入查询词如"machinelearningtutorialspython"，系统返回结果列表后，如何客观评估这些结果的相关性和有效性？这正是信息检索评估指标的核心价值所在。分析用户与搜索引擎的交互模式，我们可以观察到以下行为特征：用户主要关注结果列表的前几项对顶部结果的关注度显著高于底部结果用户基于多次搜索体验形成对搜索系统整体
HarmonyNext实战：基于ArkTS的跨平台3D图形渲染应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨平台3D图形渲染应用开发引言3D图形渲染是现代应用开发中的一个重要领域，尤其在游戏、虚拟现实和增强现实等场景中。HarmonyOSNext作为新一代操作系统，提供了强大的图形渲染能力，而ArkTS作为其核心开发语言，为开发者提供了高效、简洁的开发体验。本文将深入探讨如何在HarmonyNext平台上使用ArkTS开发一个跨平台的3D图形渲染应用，涵盖3
python系列【仅供参考】：python tornado 集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案坦笑&&life #python python tornado redis
pythontornado集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案pythontornado集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案封装redis异步类pythontornado集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案封装redis异步类sys_redis_helper.pyimportredis
Python通过SSH隧道访问数据库 Java菜鸟在北京 python sshtunnel paramiko SSH隧道访问数据库
本文介绍通过sshtunnel类库建立SSH隧道，使用paramiko通过SSH来访问数据库。实现了两种建立SSH方式：公私钥验证、密码验证。公私钥可读本地，也可读取AwsS3上的私钥文件。本质上就是在本机建立SSH隧道，然后将访问DB转发到本地SSH内去访问数据库。简单易懂，上代码：fromsshtunnelimportSSHTunnelForwarderfromsqlalchemyimport
用Python写一个天气预报小程序穿梭的编织者 Python脚本 python 小程序
一、界面效果二、完整代码importtkinterastkfromtkinterimportttkimportrequestsimportjsonfromdatetimeimportdatetimefromPILimportImage,ImageTkimportiofromttkbootstrapimportStyleclassWeatherApp:def__init__(self,root):s
Python写一个脚本——30行代码——1秒实现PDF任意页码拆分穿梭的编织者 Python精选 pdf python
一、引入库importosfromPyPDF2importPdfReader,PdfWriter二、定义拆分方法defsplit_pdf(input_path,output_dir,ranges):ifnotos.path.exists(output_dir):os.makedirs(output_dir)withopen(input_path,'rb')asfile:pdf=PdfReader(
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
python start函数_Python中10个常用的内置函数半残大叔霁天 python start函数
大家好，我是小张在3.8版本中，Python解释器有近69个内置函数可供使用，有了它们能极大地提高编码效率，数量虽然不少，但在日常搬砖中只用到其中一部分，根据使用频率和用法，这里列出来几个本人认为不错的内置函数，结合一些例子介绍给大家complex()返回一个形如a+bj的复数，传入参数分为三种情况：参数为空时，返回0j参数为字符串时，将字符串表达式解释为复数形式并返回参数为两个整数(a,b)时，
一个完整的python webSockets游戏服务器，每100ms接收并广播玩家位置小宝哥Code Python基础及AI开发 python 游戏服务器
PythonWebSockets游戏服务器下面是一个完整的PythonWebSockets游戏服务器实现，它每100ms接收并广播玩家位置信息。这个服务器使用websockets和asyncio库来处理WebSocket连接和异步操作。完整代码#!/usr/bin/envpython3"""实时游戏位置广播服务器每100ms接收玩家位置并广播给所有连接的客户端"""importasyncioimp
32路模拟采集PCI总线带DIO用什么采集卡阿尔泰1999 数据分析嵌入式硬件科技
北京阿尔泰科技PCI5659是一-款多功能数据采集卡，具有32路12位100K采集频率，AD带16K字FIFO缓存，保证数据的连续性，并带16路可设方向的DIO功能。产品支持阿尔泰科技最新的ART-DAQ数据管理软件，提供QT、PYTHON、LABVIEW、VC、VB、VB.NET、C#等例子程序。模拟量输入通道数32路精度12位*大采样频率100KsPs多通道采样速度各通道*大采样频率/设置的采
Python 爬虫实战：艺术品市场趋势分析与交易平台数据抓取西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，艺术品市场正经历着前所未有的变革。随着互联网技术的飞速发展，越来越多的艺术品交易转移到了线上平台，这为我们提供了海量的数据资源。通过Python爬虫技术，我们可以抓取艺术品交易平台上的数据，进而分析艺术品市场的趋势，为投资者、收藏家以及艺术爱好者提供有价值的参考。本文将带领读者深入探索Python爬虫在艺术品市场的应用。从爬虫的基本原理到实际代码实现，再到数据的清洗、分析
【2025年饿了么春招-3月14日-第二题（200分）- 小红的排列构造】（题目+思路+Java&C++&Python解析+在线测试) 塔子哥学算法 java c++python 算法数据结构饿了么
题目内容小红希望你构造一个长度为nnn的排列，满足∑i=1n∗i\sum_{i
贪心算法在背包问题上的运用（Python） MATLAB卡尔曼智能算法的MATLAB实现贪心算法 python 算法
背包问题有n个物品，它们有各自的体积和价值，现有给定容量的背包，如何让背包里装入的物品具有最大的价值总和？这就是典型的背包问题(又称为0-1背包问题)，也是具体的、没有经过任何延伸的背包问题模型。背包问题的传统求解方法较为复杂，现定义有一个可以载重为8kg的背包，另外还有4个物品，物品的价值和质量数据如下表，不考虑背包的容量。4个物品的总质量大于8kg，所以要想在有限载重的背包携带更多质量的物品，
接口测试中加密参数如何处理？海姐软件测试接口测试 python 开发语言测试工具职场和发展
1.加密类型及应对策略①对称加密（AES/DES）特点：加密解密使用同一密钥。处理方法：向开发获取密钥和加密算法（如AES-CBC、AES-ECB）。使用代码或工具解密响应数据：python复制fromCrypto.CipherimportAESimportbase64defdecrypt_aes(key,encrypted_data):cipher=AES.new(key.encode(),AE
用Python玩转Hyperledger：构建企业级区块链解决方案 Echo_Wish Python！实战！perl python opencv 人工智能
用Python玩转Hyperledger：构建企业级区块链解决方案大家好，我是Echo_Wish。在区块链技术的炙手可热中，“企业级区块链”俨然成为了下一个重磅关键词。相比于公有区块链，企业级区块链更注重隐私性、灵活性和高效性。而在这片“蓝海”中，Hyperledger项目无疑是企业级区块链解决方案的标杆。如果再搭配上Python这种“高效工具”，简直让人事半功倍！那么，如何将Python与Hyp
Android自动化测试工具海棠如醉 web技术自动化运维
细解自动化测试工具Airtest-CSDN博客以下是几种常见的Android应用自动化测试工具：Appium：支持多种编程语言，如Java、Python、Ruby、JavaScript等。可以用于Web应用程序和原生应用程序的自动化测试，并支持iOS和Android平台。Espresso：由Google开发的AndroidUI测试框架，可用于测试应用程序的用户界面和与用户的交互。Espresso支
Python说明一一代码 python
Python的主要特点：1.**易读易写**：Python的语法简洁明了，代码可读性高。2.**跨平台**：Python可以在多种操作系统上运行，如Windows、macOS、Linux等。3.**丰富的库**：Python拥有庞大的标准库和第三方库，涵盖了从Web开发到数据科学的多个领域。4.**动态类型**：Python是动态类型语言，变量不需要显式声明类型。5.**解释型语言**：Pytho
使用 Excel 实现绩效看板的自动化 chenchihwen 自动化运维
引言在日常工作中，团队的绩效监控和管理是确保项目顺利进行的重要环节。然而，面临着以下问题：数据分散：系统中的数据难以汇总，缺乏一个宏观的团队执行情况视图。看板缺失：系统本身可能无法提供合适的Dashboard，导致数据分析困难。手动操作繁琐：数据采集、汇总和分析过程繁琐且耗时。本文将介绍如何利用免费的软件和工具（如Python、MySQL、Excel等）实现绩效看板的自动化。通过邮件自动推送和接收
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

Pandas进阶修炼120题-第二期（Pandas数据处理，21-50题）

文章目录

往期回顾：

第一期：Pandas基础（1-20题）

第二期：Pandas数据处理（21-50题）

第三期：Pandas金融数据处理（51-80题）

Pandas进阶修炼120题

第二期 Pandas数据处理

21.读取本地EXCEL数据

22.查看df数据前5行

23.将salary列数据转换为最大值与最小值的平均值

方法一：正则表达式（分别使用apply()，applymap(),map()来实现）

方法二：apply + 自定义函数

24.将数据根据学历进行分组并计算平均薪资

25.将createTime列时间转换为月-日

方法一：数据由时间戳格式转为时间日期格式，再修改格式

方法二：常规方法（挨个修改）

方法三：分别使用apply,applymap,map使用lambda 函数批量修改

26.查看索引、数据类型和内存信息

27.查看数值型列的汇总统计

28.新增一列根据salary将数据分为三组

方法一：pd.cut() 自定义箱子

方法二：pd.qcut() 自动划分为数量大致相等的箱子

29.按照salary列对数据降序排列

30.取出第33行数据

方法一：df.loc[n]

方法二：df.iloc[n]

方法三：df.iloc[n-1,:]

方法四：df[n-1:n]

方法五：df.iloc[n:n+1],df.loc[n:n+1]

31.计算salary列的中位数

32.绘制薪资水平频率分布直方图

方法一：直接使用自带的plot绘制

方法二：使用matplotlib.pyplot绘制

方法三：方法二的拓展，添加数据标签

33.绘制薪资水平密度曲线

方法一：直接使用plot绘制

方法二：使用seaborn画图

34.删除最后一列categories

方法一：指定labels,axis

方法二：方法一(labels,axis = 1)的替代方法，columns = labels

35.将df的第一列与第二列合并为新的一列

36.将education列与salary列合并为新的一列

37.计算salary最大值与最小值之差

方法一：直接计算

方法二：分别使用apply,applymap,map,并使用lambda函数来实现

38.将第一行与最后一行拼接

1.分步执行

2.直接一句话执行

39.将第8行数据添加至末尾

40.查看每列的数据类型

41.将createTime列设置为索引

42.生成一个和df长度相同的随机数DataFrame

43.将上一题生成的DataFrame与df合并

44.生成新的一列new为salary列减去之前生成随机数列

45.检查数据中是否含有任何缺失值

方法一：判断行，列，行&列空值的方法

方法二：标准答案使用.values的原因就是为了避免连续使用any()

46.将salary列类型转换为浮点数

47.计算salary大于10000的次数

48.查看每种学历出现的次数

49.查看education列共有几种学历

50.提取salary与new列的和大于60000的最后3行

方法一：布尔索引 + tail()

方法二：标准答案解析

你可能感兴趣的:(数据分析实战,pandas,python,开发语言)