罗迪尼亚的熔岩

pandas练习_____

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = {"grammer":["Python","C","Java","GO",np.nan,"SQL","PHP","Python"],
       "score":[1,2,np.nan,4,5,6,7,10]}

data

{'grammer': ['Python', 'C', 'Java', 'GO', nan, 'SQL', 'PHP', 'Python'],
 'score': [1, 2, nan, 4, 5, 6, 7, 10]}

df = pd.DataFrame(data)
df

	grammer	score
0	Python	1.0
1	C	2.0
2	Java	NaN
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0
7	Python	10.0

3提取含有字符串"Python"的行

df['grammer'] == 'Python'

0     True
1    False
2    False
3    False
4    False
5    False
6    False
7     True
Name: grammer, dtype: bool

df[df['grammer'] == 'Python']

	grammer	score
0	Python	1.0
7	Python	10.0

df.columns

Index(['grammer', 'score'], dtype='object')

4.修改第二列列名为’popularity’

df.rename(columns={"score":"popularity"},inplace=True)

df

	grammer	popularity
0	Python	1.0
1	C	2.0
2	Java	NaN
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0
7	Python	10.0

5.统计grammer列中每种编程语言出现的次数

df["grammer"].value_counts()

Python    2
C         1
Java      1
PHP       1
SQL       1
GO        1
Name: grammer, dtype: int64

df1 = df.copy()
df2 = df.copy()

df1

	grammer	popularity
0	Python	1.0
1	C	2.0
2	Java	NaN
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0
7	Python	10.0

6,将空值用上下值的平均值填充

df1['popularity'] = df1['popularity'].fillna(df1['popularity'].interpolate())
df1

	grammer	popularity
0	Python	1.0
1	C	2.0
2	Java	3.0
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0
7	Python	10.0

### 把0值替换为na的方法：df.replace(0,np.nan)

df2.iloc[:,1] = df2.iloc[:,1].fillna(df2.iloc[:,1].interpolate())

df2

	grammer	popularity
0	Python	1.0
1	C	2.0
2	Java	3.0
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0
7	Python	10.0

df

	grammer	popularity
0	Python	1.0
1	C	2.0
2	Java	NaN
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0
7	Python	10.0

df["popularity"].fillna(df["popularity"].interpolate(),inplace=True)

df

	grammer	popularity
0	Python	1.0
1	C	2.0
2	Java	3.0
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0
7	Python	10.0

保留popularity列大于3的值

df[df.iloc[:,1]>3]

	grammer	popularity
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0
7	Python	10.0

去除grammar列重复值

df.drop_duplicates("grammer",inplace = True)
df

	grammer	popularity
0	Python	1.0
1	C	2.0
2	Java	3.0
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0

df["popularity"].mean()

4.0

10，将grammer列转换为list

df["grammer"].to_list()

['Python', 'C', 'Java', 'GO', nan, 'SQL', 'PHP']

11.将DataFrame保存为EXCEL

df.to_csv("./test.csv")

df.to_excel('test.xlsx',index=False)

df[(df["popularity"]>3) & (df["popularity"]<7)]

	grammer	popularity
3	GO	4.0
4	NaN	5.0
5	SQL	6.0

14.交换两列位置

cols = df.columns[[1,0]]

cols

Index(['popularity', 'grammer'], dtype='object')

cols_1 = df.columns[[0,1]]
cols_1

Index(['grammer', 'popularity'], dtype='object')

type(cols_1)

pandas.core.indexes.base.Index

df = df[cols]
df

	popularity	grammer
0	1.0	Python
1	2.0	C
2	3.0	Java
3	4.0	GO
4	5.0	NaN
5	6.0	SQL
6	7.0	PHP

### 方法2
temp = df['popularity']
df.drop(labels=['popularity'], axis=1,inplace = True)
df.insert(0, 'popularity', temp)
df

E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\pandas\core\frame.py:4167: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,

	popularity	grammer
0	1.0	Python
1	2.0	C
2	3.0	Java
3	4.0	GO
4	5.0	NaN
5	6.0	SQL
6	7.0	PHP

15.提取popularity列最大值所在行

df["popularity"] == df["popularity"].max()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
Name: popularity, dtype: bool

df[df["popularity"] == df["popularity"].max() ]

	popularity	grammer
6	7.0	PHP

16查看最后五行

df.tail()

	popularity	grammer
2	3.0	Java
3	4.0	GO
4	5.0	NaN
5	6.0	SQL
6	7.0	PHP

df

	popularity	grammer
0	1.0	Python
1	2.0	C
2	3.0	Java
3	4.0	GO
4	5.0	NaN
5	6.0	SQL
6	7.0	PHP

17 删掉一行，一列

df.drop("popularity",axis=1)

	grammer
0	Python
1	C
2	Java
3	GO
4	NaN
5	SQL
6	PHP

df.drop(6,axis=0)

	popularity	grammer
0	1.0	Python
1	2.0	C
2	3.0	Java
3	4.0	GO
4	5.0	NaN
5	6.0	SQL

18.添加一行数据[‘Perl’,6.6]

df.columns[[1,0]]

Index(['grammer', 'popularity'], dtype='object')

df = df[df.columns[[1,0]]]

df

	grammer	popularity
0	Python	1.0
1	C	2.0
2	Java	3.0
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0

a = {"grammer":"perl","popularity":6.6}

df.append(a,ignore_index=True)

	grammer	popularity
0	Python	1.0
1	C	2.0
2	Java	3.0
3	GO	4.0
4	NaN	5.0
5	SQL	6.0
6	PHP	7.0
7	perl	6.6

添加一列数据

a = "grammar" ## 新的列名
a

'grammar'

b = df["grammer"]
b

0    Python
1         C
2      Java
3        GO
4       NaN
5       SQL
6       PHP
Name: grammer, dtype: object

df.insert(0,a,b) # 插入的位置， 列名 ，内容

df

	grammar	grammer	popularity
0	Python	Python	1.0
1	C	C	2.0
2	Java	Java	3.0
3	GO	GO	4.0
4	NaN	NaN	5.0
5	SQL	SQL	6.0
6	PHP	PHP	7.0

19.对数据按照"popularity"列值的大小进行排序

df["popularity"].sort_values()

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
6    7.0
Name: popularity, dtype: float64

df.sort_values("popularity")

	grammar	grammer	popularity
0	Python	Python	1.0
1	C	C	2.0
2	Java	Java	3.0
3	GO	GO	4.0
4	NaN	NaN	5.0
5	SQL	SQL	6.0
6	PHP	PHP	7.0

20.统计grammer列每个字符串的长度

df = pd.DataFrame(data)
df['grammer'] = df['grammer'].fillna('R')
df

	grammer	score
0	Python	1.0
1	C	2.0
2	Java	NaN
3	GO	4.0
4	R	5.0
5	SQL	6.0
6	PHP	7.0
7	Python	10.0

df['len_str'] = df['grammer'].map(lambda x: len(x))
df

	grammer	score	len_str
0	Python	1.0	6
1	C	2.0	1
2	Java	NaN	4
3	GO	4.0	2
4	R	5.0	1
5	SQL	6.0	3
6	PHP	7.0	3
7	Python	10.0	6

第二期

23 将salary列数据转换为最大值与最小值的平均值

df = pd.read_excel("./pandas1206855/pandas120.xlsx")

df.tail()

	createTime	education	salary
130	2020-03-16 11:36:07	本科	10k-18k
131	2020-03-16 09:54:47	硕士	25k-50k
132	2020-03-16 10:48:32	本科	20k-40k
133	2020-03-16 10:46:31	本科	15k-23k
134	2020-03-16 11:19:38	本科	20k-40k

import re

方法1

lst = df['salary'].values
lst[:5]

array(['20k-35k', '20k-40k', '20k-35k', '13k-20k', '10k-20k'],
      dtype=object)

b = lst[0]
b = str(b)
b

'20k-35k'

qq = b.split("-")
qq[0],qq[1]

('20k', '35k')

qqq = qq[0].strip("k")
int(qqq)

arr变为list

list_1 = [i for i in lst]

用“-”分割

qa = [i.split("-") for i in list_1]

1个列表中嵌套列表，用推导式分开

list_min = [i[0] for i in qa]
list_max = [i[1] for i in qa]

list_min[:5],list_max[:5]

(['20k', '20k', '20k', '13k', '10k'], ['35k', '40k', '35k', '20k', '20k'])

去掉列表中的k

list_min_1 = [i.strip("k") for i in list_min]
list_max_1 = [i.strip("k") for i in list_max]

list_min_1[:5],list_max_1[:5]

(['20', '20', '20', '13', '10'], ['35', '40', '35', '20', '20'])

字符串化为整型

arr_min_2 = np.array(list_min_1,dtype=np.int32)
arr_max_2 = np.array(list_max_1,dtype=np.int32)

arr_min_2[:5],arr_max_2[:5]

(array([20, 20, 20, 13, 10]), array([35, 40, 35, 20, 20]))

求取平均值

salary_1 = (arr_max_2+arr_min_2)/2*1000

df["salary"] = salary_1
df.tail()

	createTime	education	salary
130	2020-03-16 11:36:07	本科	14000.0
131	2020-03-16 09:54:47	硕士	37500.0
132	2020-03-16 10:48:32	本科	30000.0
133	2020-03-16 10:46:31	本科	19000.0
134	2020-03-16 11:19:38	本科	30000.0

方法3：

df = pd.read_excel("./pandas1206855/pandas120.xlsx")

for index,row in df.iterrows():
    nums = re.findall('\d+',row[2])
    df.iloc[index,2] = int(eval(f'({nums[0]} + {nums[1]}) / 2 * 1000'))

df.tail()

	createTime	education	salary
130	2020-03-16 11:36:07	本科	14000
131	2020-03-16 09:54:47	硕士	37500
132	2020-03-16 10:48:32	本科	30000
133	2020-03-16 10:46:31	本科	19000
134	2020-03-16 11:19:38	本科	30000

方法2

df = pd.read_excel("./pandas1206855/pandas120.xlsx")

def func(df):
    lst = df['salary'].split('-')
    smin = int(lst[0].strip('k'))
    smax = int(lst[1].strip('k'))
    df['salary'] = int((smin + smax) / 2 * 1000)
    return df

df = df.apply(func,axis=1)

df.tail()

	createTime	education	salary
130	2020-03-16 11:36:07	本科	14000
131	2020-03-16 09:54:47	硕士	37500
132	2020-03-16 10:48:32	本科	30000
133	2020-03-16 10:46:31	本科	19000
134	2020-03-16 11:19:38	本科	30000

24.将数据根据学历进行分组并计算平均薪资

df.groupby("education").mean()

	salary
education
不限	19600.000000
大专	10000.000000
本科	19361.344538
硕士	20642.857143

25.将createTime列时间转换为月-日

for i in range(len(df)):
    df.iloc[i,0] = df.iloc[i,0].to_pydatetime().strftime("%m-%d")  
df.head()

	createTime	education	salary
0	03-16	本科	27500
1	03-16	本科	30000
2	03-16	不限	27500
3	03-16	本科	16500
4	03-16	本科	15000

27.查看数值型列的汇总统计

df.describe()

	salary
count	135.000000
mean	19159.259259
std	8661.686922
min	3500.000000
25%	14000.000000
50%	17500.000000
75%	25000.000000
max	45000.000000

28 新增一列根据salary将数据分为三组

bins = [0,10000, 20000, 50000]
group_names = ['低', '中', '高']
df['categories'] = pd.cut(df['salary'], bins, labels=group_names)
df

	createTime	education	salary	categories
0	03-16	本科	27500	高
1	03-16	本科	30000	高
2	03-16	不限	27500	高
3	03-16	本科	16500	中
4	03-16	本科	15000	中
...	...	...	...	...
130	03-16	本科	14000	中
131	03-16	硕士	37500	高
132	03-16	本科	30000	高
133	03-16	本科	19000	中
134	03-16	本科	30000	高

135 rows × 4 columns

29.按照salary列对数据降序排列

df.sort_values('salary', ascending=False) # ascending：升  descend 下降

	createTime	education	salary	categories
53	03-16	本科	45000	高
37	03-16	本科	40000	高
101	03-16	本科	37500	高
16	03-16	本科	37500	高
131	03-16	硕士	37500	高
...	...	...	...	...
123	03-16	本科	4500	低
126	03-16	本科	4000	低
110	03-16	本科	4000	低
96	03-16	不限	3500	低
113	03-16	本科	3500	低

135 rows × 4 columns

30.取出第30行

df.iloc[32]

createTime    03-16
education        硕士
salary        22500
categories        高
Name: 32, dtype: object

31 计算salary列的中位数

np.median(df["salary"])

17500.0

32.绘制薪资水平频率分布直方图

df.salary.plot(kind='hist')
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mC61mIJO-1606139752537)(output_117_0.png)]

33.绘制薪资水平密度曲线

df.salary.plot(kind='kde',xlim=(0,80000))
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mZjj1pqp-1606139752538)(output_119_0.png)]

34.删除最后一列categories

axis：使用0值表示沿着每一列或行标签\索引值向下执行方法，使用1值表示沿着每一行或者列标签模向执行对应的方法

df.drop(columns=["categories"])

	createTime	education	salary
0	03-16	本科	27500
1	03-16	本科	30000
2	03-16	不限	27500
3	03-16	本科	16500
4	03-16	本科	15000
...	...	...	...
130	03-16	本科	14000
131	03-16	硕士	37500
132	03-16	本科	30000
133	03-16	本科	19000
134	03-16	本科	30000

135 rows × 3 columns

df.drop(labels=“categories”,axis=1)

35.将df的第一列与第二列合并为新的一列

df["test"] = df["education"]+df["createTime"]

df.tail()

	createTime	education	salary	categories	test
130	03-16	本科	14000	中	本科03-16
131	03-16	硕士	37500	高	硕士03-16
132	03-16	本科	30000	高	本科03-16
133	03-16	本科	19000	中	本科03-16
134	03-16	本科	30000	高	本科03-16

df.columns

Index(['createTime', 'education', 'salary', 'categories', 'test'], dtype='object')

df.columns[[]]

Index([], dtype='object')

df.columns[[4,0,1,2,3]]

Index(['test', 'createTime', 'education', 'salary', 'categories'], dtype='object')

df[df.columns[[4,0,1,2,3]]].tail()

	test	createTime	education	salary	categories
130	本科03-16	03-16	本科	14000	中
131	硕士03-16	03-16	硕士	37500	高
132	本科03-16	03-16	本科	30000	高
133	本科03-16	03-16	本科	19000	中
134	本科03-16	03-16	本科	30000	高

36.将education列与salary列合并为新的一列

df["test_1"] = str(df["salary"])+df["education"]

df.tail()

	createTime	education	salary	categories	test	test_1
130	03-16	本科	14000	中	本科03-16	0 27500\n1 30000\n2 27500\n3 ...
131	03-16	硕士	37500	高	硕士03-16	0 27500\n1 30000\n2 27500\n3 ...
132	03-16	本科	30000	高	本科03-16	0 27500\n1 30000\n2 27500\n3 ...
133	03-16	本科	19000	中	本科03-16	0 27500\n1 30000\n2 27500\n3 ...
134	03-16	本科	30000	高	本科03-16	0 27500\n1 30000\n2 27500\n3 ...

df["test_1"] = df["salary"].map(str)+df["education"]
df.tail()

	createTime	education	salary	categories	test	test_1
130	03-16	本科	14000	中	本科03-16	14000本科
131	03-16	硕士	37500	高	硕士03-16	37500硕士
132	03-16	本科	30000	高	本科03-16	30000本科
133	03-16	本科	19000	中	本科03-16	19000本科
134	03-16	本科	30000	高	本科03-16	30000本科

37.计算salary最大值与最小值之差

df[‘name’]#得到的是不包含列索引的Series结构
df[[‘name’]]#得到是包含列索引的DataFrame结构
df.name#得到是不包含列索引的Series结构

df[["salary"]].tail()

	salary
130	14000
131	37500
132	30000
133	19000
134	30000

df["salary"].tail()

130    14000
131    37500
132    30000
133    19000
134    30000
Name: salary, dtype: int64

df.salary.tail()

130    14000
131    37500
132    30000
133    19000
134    30000
Name: salary, dtype: int64

df[["salary"]].apply(lambda x : x.max()-x.min())

salary    41500
dtype: int64

38.将第一行与最后一行拼接

pd.concat([df[:1],df[-2:-1]])

	createTime	education	salary	categories	test	test_1
0	03-16	本科	27500	高	本科03-16	27500本科
133	03-16	本科	19000	中	本科03-16	19000本科

39.将第8行数据添加至末尾

df[8:9]

	createTime	education	salary	categories	test	test_1
8	03-16	不限	7000	低	不限03-16	7000不限

df.iloc[8,:]

createTime      03-16
education          不限
salary           7000
categories          低
test          不限03-16
test_1         7000不限
Name: 8, dtype: object

df.iloc[:,[2,4]]

	salary	test
0	27500	本科03-16
1	30000	本科03-16
2	27500	不限03-16
3	16500	本科03-16
4	15000	本科03-16
...	...	...
130	14000	本科03-16
131	37500	硕士03-16
132	30000	本科03-16
133	19000	本科03-16
134	30000	本科03-16

135 rows × 2 columns

df.iloc[[2,4],:]

	createTime	education	salary	categories	test	test_1
2	03-16	不限	27500	高	不限03-16	27500不限
4	03-16	本科	15000	中	本科03-16	15000本科

df.iloc[[8]]

	createTime	education	salary	categories	test	test_1
8	03-16	不限	7000	低	不限03-16	7000不限

df.append(df[8:9])

	createTime	education	salary	categories	test	test_1
0	03-16	本科	27500	高	本科03-16	27500本科
1	03-16	本科	30000	高	本科03-16	30000本科
2	03-16	不限	27500	高	不限03-16	27500不限
3	03-16	本科	16500	中	本科03-16	16500本科
4	03-16	本科	15000	中	本科03-16	15000本科
...	...	...	...	...	...	...
131	03-16	硕士	37500	高	硕士03-16	37500硕士
132	03-16	本科	30000	高	本科03-16	30000本科
133	03-16	本科	19000	中	本科03-16	19000本科
134	03-16	本科	30000	高	本科03-16	30000本科
8	03-16	不限	7000	低	不限03-16	7000不限

136 rows × 6 columns

41.将createTime列设置为索引

df.set_index("createTime")

	education	salary	categories	test	test_1
createTime
03-16	本科	27500	高	本科03-16	27500本科
03-16	本科	30000	高	本科03-16	30000本科
03-16	不限	27500	高	不限03-16	27500不限
03-16	本科	16500	中	本科03-16	16500本科
03-16	本科	15000	中	本科03-16	15000本科
...	...	...	...	...	...
03-16	本科	14000	中	本科03-16	14000本科
03-16	硕士	37500	高	硕士03-16	37500硕士
03-16	本科	30000	高	本科03-16	30000本科
03-16	本科	19000	中	本科03-16	19000本科
03-16	本科	30000	高	本科03-16	30000本科

135 rows × 5 columns

42.生成一个和df长度相同的随机数dataframe

df1 = pd.DataFrame(pd.Series(np.random.randint(1, 10, 135)))
df1

	0
0	5
1	1
2	2
3	9
4	3
...	...
130	2
131	9
132	9
133	4
134	7

135 rows × 1 columns

43.将上一题生成的dataframe与df合并

df= pd.concat([df,df1],axis=1)
df

	createTime	education	salary	categories	test	test_1	0
0	03-16	本科	27500	高	本科03-16	27500本科	5
1	03-16	本科	30000	高	本科03-16	30000本科	1
2	03-16	不限	27500	高	不限03-16	27500不限	2
3	03-16	本科	16500	中	本科03-16	16500本科	9
4	03-16	本科	15000	中	本科03-16	15000本科	3
...	...	...	...	...	...	...	...
130	03-16	本科	14000	中	本科03-16	14000本科	2
131	03-16	硕士	37500	高	硕士03-16	37500硕士	9
132	03-16	本科	30000	高	本科03-16	30000本科	9
133	03-16	本科	19000	中	本科03-16	19000本科	4
134	03-16	本科	30000	高	本科03-16	30000本科	7

135 rows × 7 columns

44.生成新的一列new为salary列减去之前生成随机数列

df["new"] = df["salary"] - df[0]
df

	createTime	education	salary	categories	test	test_1	0	new
0	03-16	本科	27500	高	本科03-16	27500本科	5	27495
1	03-16	本科	30000	高	本科03-16	30000本科	1	29999
2	03-16	不限	27500	高	不限03-16	27500不限	2	27498
3	03-16	本科	16500	中	本科03-16	16500本科	9	16491
4	03-16	本科	15000	中	本科03-16	15000本科	3	14997
...	...	...	...	...	...	...	...	...
130	03-16	本科	14000	中	本科03-16	14000本科	2	13998
131	03-16	硕士	37500	高	硕士03-16	37500硕士	9	37491
132	03-16	本科	30000	高	本科03-16	30000本科	9	29991
133	03-16	本科	19000	中	本科03-16	19000本科	4	18996
134	03-16	本科	30000	高	本科03-16	30000本科	7	29993

135 rows × 8 columns

45.检查数据中是否含有任何缺失值

df.isnull().values.any()

False

46.将salary列类型转换为浮点数

df['salary'].astype(np.float64)

0      27500.0
1      30000.0
2      27500.0
3      16500.0
4      15000.0
        ...   
130    14000.0
131    37500.0
132    30000.0
133    19000.0
134    30000.0
Name: salary, Length: 135, dtype: float64

47.计算salary大于10000的次数

len(df[df['salary']>8000])

48.查看每种学历出现的次数

df.education.value_counts()

本科    119
硕士      7
不限      5
大专      4
Name: education, dtype: int64

df["education"].value_counts()

本科    119
硕士      7
不限      5
大专      4
Name: education, dtype: int64

df[["education"]].value_counts()

education
本科           119
硕士             7
不限             5
大专             4
dtype: int64

49.查看education列共有几种学历

df["education"].unique()

array(['本科', '不限', '硕士', '大专'], dtype=object)

df["education"].nunique()

50.提取salary与new列的和大于60000的最后3行

df1 = df[['salary','new']]
rowsums = df1.apply(np.sum, axis=1)
res = df.iloc[np.where(rowsums > 60000)[0][-3:], :]
res

	createTime	education	salary	categories	test	test_1	0	new
92	03-16	本科	35000	高	本科03-16	35000本科	5	34995
101	03-16	本科	37500	高	本科03-16	37500本科	3	37497
131	03-16	硕士	37500	高	硕士03-16	37500硕士	9	37491

df1.tail()

	salary	new
130	14000	13998
131	37500	37491
132	30000	29991
133	19000	18996
134	30000	29993

rowsums

0      54995
1      59999
2      54998
3      32991
4      29997
       ...  
130    27998
131    74991
132    59991
133    37996
134    59993
Length: 135, dtype: int64

51.使用绝对路径读取本地Excel数据

url_one = r'D:\exercise\pandas1206855\600000.SH.xls'

df = pd.read_excel(url_one)

WARNING *** OLE2 inconsistency: SSCS size is 0 but SSAT size is non-zero

df.head(3)

	代码	简称	日期	前收盘价(元)	开盘价(元)	最高价(元)	最低价(元)	收盘价(元)	成交量(股)	成交金额(元)	涨跌(元)	涨跌幅(%)	均价(元)	换手率(%)	A股流通市值(元)	总市值(元)	A股流通股本(股)	市盈率
0	600000.SH	浦发银行	2016-01-04	16.1356	16.1444	16.1444	15.4997	15.7205	42240610	754425783	-0.4151	-2.5725	17.8602	0.2264	3.320318e+11	3.320318e+11	1.865347e+10	6.5614
1	600000.SH	浦发银行	2016-01-05	15.7205	15.4644	15.9501	15.3672	15.8618	58054793	1034181474	0.1413	0.8989	17.8139	0.3112	3.350163e+11	3.350163e+11	1.865347e+10	6.6204
2	600000.SH	浦发银行	2016-01-06	15.8618	15.8088	16.0208	15.6234	15.9855	46772653	838667398	0.1236	0.7795	17.9307	0.2507	3.376278e+11	3.376278e+11	1.865347e+10	6.6720

53.查看每列数据缺失值情况

df.isnull().sum()

代码           1
简称           2
日期           2
前收盘价(元)      2
开盘价(元)       2
最高价(元)       2
最低价(元)       2
收盘价(元)       2
成交量(股)       2
成交金额(元)      2
涨跌(元)        2
涨跌幅(%)       2
均价(元)        2
换手率(%)       2
A股流通市值(元)    2
总市值(元)       2
A股流通股本(股)    2
市盈率          2
dtype: int64

54.提取日期列含有空值的行

df[df["日期"].isnull()]

	代码	简称	日期	前收盘价(元)	开盘价(元)	最高价(元)	最低价(元)	收盘价(元)	成交量(股)	成交金额(元)	涨跌(元)	涨跌幅(%)	均价(元)	换手率(%)	A股流通市值(元)	总市值(元)	A股流通股本(股)	市盈率
327	NaN	NaN	NaT	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
328	数据来源：Wind资讯	NaN	NaT	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

55.输出每列缺失值具体行数

for columname in df.columns:
    if df[columname].count() != len(data):
        loc = df[columname][df[columname].isnull().values==True].index.tolist()
        print('列名："{}", 第{}行位置有缺失值'.format(columname,loc))

列名："代码", 第[327]行位置有缺失值
列名："简称", 第[327, 328]行位置有缺失值
列名："日期", 第[327, 328]行位置有缺失值
列名："前收盘价(元)", 第[327, 328]行位置有缺失值
列名："开盘价(元)", 第[327, 328]行位置有缺失值
列名："最高价(元)", 第[327, 328]行位置有缺失值
列名："最低价(元)", 第[327, 328]行位置有缺失值
列名："收盘价(元)", 第[327, 328]行位置有缺失值
列名："成交量(股)", 第[327, 328]行位置有缺失值
列名："成交金额(元)", 第[327, 328]行位置有缺失值
列名："涨跌(元)", 第[327, 328]行位置有缺失值
列名："涨跌幅(%)", 第[327, 328]行位置有缺失值
列名："均价(元)", 第[327, 328]行位置有缺失值
列名："换手率(%)", 第[327, 328]行位置有缺失值
列名："A股流通市值(元)", 第[327, 328]行位置有缺失值
列名："总市值(元)", 第[327, 328]行位置有缺失值
列名："A股流通股本(股)", 第[327, 328]行位置有缺失值
列名："市盈率", 第[327, 328]行位置有缺失值

56.删除所有存在缺失值的行

'''
备注
axis：0-行操作（默认），1-列操作
how：any-只要有空值就删除（默认），all-全部为空值才删除
inplace：False-返回新的数据集（默认），True-在原数据集上操作
'''
data = df
df.dropna(axis=0, how='any', inplace=True)
df.tail()

	代码	简称	日期	前收盘价(元)	开盘价(元)	最高价(元)	最低价(元)	收盘价(元)	成交量(股)	成交金额(元)	涨跌(元)	涨跌幅(%)	均价(元)	换手率(%)	A股流通市值(元)	总市值(元)	A股流通股本(股)	市盈率
322	600000.SH	浦发银行	2017-05-03	15.16	15.16	15.16	15.05	15.08	14247943	215130847	-0.08	-0.5277	15.0991	0.0659	3.260037e+11	3.260037e+11	2.161828e+10	6.1395
323	600000.SH	浦发银行	2017-05-04	15.08	15.07	15.07	14.90	14.98	19477788	291839737	-0.10	-0.6631	14.9832	0.0901	3.238418e+11	3.238418e+11	2.161828e+10	6.0988
324	600000.SH	浦发银行	2017-05-05	14.98	14.95	14.98	14.52	14.92	40194577	592160198	-0.06	-0.4005	14.7323	0.1859	3.225447e+11	3.225447e+11	2.161828e+10	6.0744
325	600000.SH	浦发银行	2017-05-08	14.92	14.78	14.90	14.51	14.86	43568576	638781010	-0.06	-0.4021	14.6615	0.2015	3.212476e+11	3.212476e+11	2.161828e+10	6.0500
326	600000.SH	浦发银行	2017-05-09	14.86	14.69	14.84	14.66	14.76	19225492	283864640	-0.10	-0.6729	14.765	0.0889	3.190858e+11	3.190858e+11	2.161828e+10	6.0093

57.绘制收盘价的折线图

import matplotlib.pyplot as plt 
plt.style.use('seaborn-darkgrid') # 设置画图的风格
plt.rc('font',  size=6) #设置图中字体和大小
plt.rc('figure', figsize=(4,3), dpi=150) # 设置图的大小
df["收盘价(元)"].plot()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BY6RLYWY-1606139752541)(output_189_1.png)]

# 等价于
import matplotlib.pyplot as plt
plt.plot(df['收盘价(元)'])
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GTSU9MFt-1606139752543)(output_190_0.png)]

58.同时绘制开盘价与收盘价

df[['收盘价(元)','开盘价(元)']].plot()





E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 25910 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 30424 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 20215 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 20803 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 24320 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 25910 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 30424 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 20215 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 20803 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 24320 missing from current font.
  font.set_text(s, 0, flags=flags)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1oGzXF0M-1606139752544)(output_192_2.png)]

59.绘制涨跌幅的直方图

plt.hist(df['涨跌幅(%)'])
# 等价于
df['涨跌幅(%)'].hist()
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-99LGRTuT-1606139752545)(output_194_0.png)]

data = df
data['涨跌幅(%)'].hist(bins = 30) ##更细致

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xvW5p9k0-1606139752546)(output_195_1.png)]

60.让直方图更细致

data['涨跌幅(%)'].hist(bins = 30)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9TaQG7nW-1606139752547)(output_197_1.png)]

61.以data的列名创建一个dataframe

temp = pd.DataFrame(columns = data.columns.to_list())

data.columns

Index(['代码', '简称', '日期', '前收盘价(元)', '开盘价(元)', '最高价(元)', '最低价(元)', '收盘价(元)',
       '成交量(股)', '成交金额(元)', '涨跌(元)', '涨跌幅(%)', '均价(元)', '换手率(%)', 'A股流通市值(元)',
       '总市值(元)', 'A股流通股本(股)', '市盈率'],
      dtype='object')

data.columns.to_list()

['代码',
 '简称',
 '日期',
 '前收盘价(元)',
 '开盘价(元)',
 '最高价(元)',
 '最低价(元)',
 '收盘价(元)',
 '成交量(股)',
 '成交金额(元)',
 '涨跌(元)',
 '涨跌幅(%)',
 '均价(元)',
 '换手率(%)',
 'A股流通市值(元)',
 '总市值(元)',
 'A股流通股本(股)',
 '市盈率']

62.打印所有换手率不是数字的行

for i in range(len(data)):
    if type(data.iloc[i,13]) != float:
        temp = temp.append(data.loc[i])

temp

	代码	简称	日期	前收盘价(元)	开盘价(元)	最高价(元)	最低价(元)	收盘价(元)	成交量(股)	成交金额(元)	均价(元)	换手率(%)	A股流通市值(元)	总市值(元)	A股流通股本(股)	市盈率
26	600000.SH	浦发银行	2016-02-16	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
27	600000.SH	浦发银行	2016-02-17	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
28	600000.SH	浦发银行	2016-02-18	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
29	600000.SH	浦发银行	2016-02-19	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
30	600000.SH	浦发银行	2016-02-22	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
31	600000.SH	浦发银行	2016-02-23	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
32	600000.SH	浦发银行	2016-02-24	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
33	600000.SH	浦发银行	2016-02-25	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
34	600000.SH	浦发银行	2016-02-26	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
35	600000.SH	浦发银行	2016-02-29	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
36	600000.SH	浦发银行	2016-03-01	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
37	600000.SH	浦发银行	2016-03-02	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
38	600000.SH	浦发银行	2016-03-03	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
39	600000.SH	浦发银行	2016-03-04	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
40	600000.SH	浦发银行	2016-03-07	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
41	600000.SH	浦发银行	2016-03-08	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
42	600000.SH	浦发银行	2016-03-09	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
43	600000.SH	浦发银行	2016-03-10	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801

63.打印所有换手率为–的行

data[data['换手率(%)'].isin(['--'])]

	代码	简称	日期	前收盘价(元)	开盘价(元)	最高价(元)	最低价(元)	收盘价(元)	成交量(股)	成交金额(元)	均价(元)	换手率(%)	A股流通市值(元)	总市值(元)	A股流通股本(股)	市盈率
26	600000.SH	浦发银行	2016-02-16	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
27	600000.SH	浦发银行	2016-02-17	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
28	600000.SH	浦发银行	2016-02-18	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
29	600000.SH	浦发银行	2016-02-19	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
30	600000.SH	浦发银行	2016-02-22	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
31	600000.SH	浦发银行	2016-02-23	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
32	600000.SH	浦发银行	2016-02-24	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
33	600000.SH	浦发银行	2016-02-25	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
34	600000.SH	浦发银行	2016-02-26	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
35	600000.SH	浦发银行	2016-02-29	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
36	600000.SH	浦发银行	2016-03-01	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
37	600000.SH	浦发银行	2016-03-02	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
38	600000.SH	浦发银行	2016-03-03	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
39	600000.SH	浦发银行	2016-03-04	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
40	600000.SH	浦发银行	2016-03-07	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
41	600000.SH	浦发银行	2016-03-08	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
42	600000.SH	浦发银行	2016-03-09	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801
43	600000.SH	浦发银行	2016-03-10	16.2946	16.2946	16.2946	16.2946	16.2946	--	--	--	--	3.441565e+11	3.441565e+11	1.865347e+10	6.801

64.重置data的行号

data = data.reset_index()

65.删除所有换手率为非数字的行

k =[]
for i in range(len(data)):
    if type(data.iloc[i,13]) != float:
        k.append(i)
data.drop(labels=k,inplace=True)

66.绘制换手率的密度曲线

data['换手率(%)'].plot(kind='kde')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jL73dTog-1606139752549)(output_211_1.png)]

67.计算前一天与后一天收盘价的差值

data['收盘价(元)'].diff()

0         NaN
1      0.1413
2      0.1237
3     -0.5211
4     -0.0177
        ...  
322   -0.0800
323   -0.1000
324   -0.0600
325   -0.0600
326   -0.1000
Name: 收盘价(元), Length: 309, dtype: float64

68.计算前一天与后一天收盘价变化率

data['收盘价(元)'].pct_change()

0           NaN
1      0.008988
2      0.007799
3     -0.032598
4     -0.001145
         ...   
322   -0.005277
323   -0.006631
324   -0.004005
325   -0.004021
326   -0.006729
Name: 收盘价(元), Length: 309, dtype: float64

69.设置日期为索引

data = data.set_index('日期')

data.tail()

	index	代码	简称	前收盘价(元)	开盘价(元)	最高价(元)	最低价(元)	收盘价(元)	成交量(股)	成交金额(元)	涨跌(元)	涨跌幅(%)	均价(元)	换手率(%)	A股流通市值(元)	总市值(元)	A股流通股本(股)	市盈率
日期
2017-05-03	322	600000.SH	浦发银行	15.16	15.16	15.16	15.05	15.08	14247943	215130847	-0.08	-0.5277	15.0991	0.0659	3.260037e+11	3.260037e+11	2.161828e+10	6.1395
2017-05-04	323	600000.SH	浦发银行	15.08	15.07	15.07	14.90	14.98	19477788	291839737	-0.10	-0.6631	14.9832	0.0901	3.238418e+11	3.238418e+11	2.161828e+10	6.0988
2017-05-05	324	600000.SH	浦发银行	14.98	14.95	14.98	14.52	14.92	40194577	592160198	-0.06	-0.4005	14.7323	0.1859	3.225447e+11	3.225447e+11	2.161828e+10	6.0744
2017-05-08	325	600000.SH	浦发银行	14.92	14.78	14.90	14.51	14.86	43568576	638781010	-0.06	-0.4021	14.6615	0.2015	3.212476e+11	3.212476e+11	2.161828e+10	6.0500
2017-05-09	326	600000.SH	浦发银行	14.86	14.69	14.84	14.66	14.76	19225492	283864640	-0.10	-0.6729	14.765	0.0889	3.190858e+11	3.190858e+11	2.161828e+10	6.0093

70.以5个数据作为一个数据滑动窗口，在这个5个数据上取均值(收盘价)

data['收盘价(元)'].rolling(5).mean()

日期
2016-01-04         NaN
2016-01-05         NaN
2016-01-06         NaN
2016-01-07         NaN
2016-01-08    15.69578
                ...   
2017-05-03    15.14200
2017-05-04    15.12800
2017-05-05    15.07000
2017-05-08    15.00000
2017-05-09    14.92000
Name: 收盘价(元), Length: 309, dtype: float64

71.以5个数据作为一个数据滑动窗口，计算这五个数据总和(收盘价)

data['收盘价(元)'].rolling(5).sum()

日期
2016-01-04        NaN
2016-01-05        NaN
2016-01-06        NaN
2016-01-07        NaN
2016-01-08    78.4789
               ...   
2017-05-03    75.7100
2017-05-04    75.6400
2017-05-05    75.3500
2017-05-08    75.0000
2017-05-09    74.6000
Name: 收盘价(元), Length: 309, dtype: float64

72.将收盘价5日均线、20日均线与原始数据绘制在同一个图上

data['收盘价(元)'].plot()
data['收盘价(元)'].rolling(5).mean().plot()
data['收盘价(元)'].rolling(20).mean().plot()
plt.show()

E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 26085 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 26399 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 26085 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 26399 missing from current font.
  font.set_text(s, 0, flags=flags)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9fkJ9O1H-1606139752550)(output_224_1.png)]

73.按周为采样规则，取一周收盘价最大值

data['收盘价(元)'].resample('W').max()

日期
2016-01-10    15.9855
2016-01-17    15.8265
2016-01-24    15.6940
2016-01-31    15.0405
2016-02-07    16.2328
               ...   
2017-04-16    15.9700
2017-04-23    15.5600
2017-04-30    15.2100
2017-05-07    15.1600
2017-05-14    14.8600
Freq: W-SUN, Name: 收盘价(元), Length: 71, dtype: float64

74.绘制重采样数据与原始数据

data['收盘价(元)'].plot()
data['收盘价(元)'].resample('7D').max().plot()





E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 26085 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 26399 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 26085 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 26399 missing from current font.
  font.set_text(s, 0, flags=flags)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r26wfrk2-1606139752551)(output_228_2.png)]

75.将数据往后移动5天

data.shift(5)

	index	代码	简称	前收盘价(元)	开盘价(元)	最高价(元)	最低价(元)	收盘价(元)	成交量(股)	成交金额(元)	涨跌(元)	涨跌幅(%)	均价(元)	换手率(%)	A股流通市值(元)	总市值(元)	A股流通股本(股)	市盈率
日期
2016-01-04	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2016-01-05	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2016-01-06	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2016-01-07	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2016-01-08	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
2017-05-03	317.0	600000.SH	浦发银行	15.00	15.02	15.10	14.99	15.05	12975919	195296862	0.05	0.3333	15.0507	0.06	3.253551e+11	3.253551e+11	2.161828e+10	6.1273
2017-05-04	318.0	600000.SH	浦发银行	15.05	15.06	15.11	15.00	15.05	14939871	225022668	0.00	0.0000	15.0619	0.0691	3.253551e+11	3.253551e+11	2.161828e+10	6.1273
2017-05-05	319.0	600000.SH	浦发银行	15.05	15.05	15.25	15.03	15.21	22887645	345791526	0.16	1.0631	15.1082	0.1059	3.288140e+11	3.288140e+11	2.161828e+10	6.1925
2017-05-08	320.0	600000.SH	浦发银行	15.21	15.15	15.22	15.08	15.21	15718509	238419161	0.00	0.0000	15.1681	0.0727	3.288140e+11	3.288140e+11	2.161828e+10	6.1925
2017-05-09	321.0	600000.SH	浦发银行	15.21	15.21	15.22	15.13	15.16	12607509	191225527	-0.05	-0.3287	15.1676	0.0583	3.277331e+11	3.277331e+11	2.161828e+10	6.1721

309 rows × 18 columns

76.将数据向前移动5天

data.shift(-5)

	index	代码	简称	前收盘价(元)	开盘价(元)	最高价(元)	最低价(元)	收盘价(元)	成交量(股)	成交金额(元)	涨跌(元)	涨跌幅(%)	均价(元)	换手率(%)	A股流通市值(元)	总市值(元)	A股流通股本(股)	市盈率
日期
2016-01-04	5.0	600000.SH	浦发银行	15.4467	15.1994	15.4114	14.9786	15.0581	90177135	1550155933	-0.3886	-2.5157	17.1901	0.4834	3.180417e+11	3.180417e+11	1.865347e+10	6.2849
2016-01-05	6.0	600000.SH	浦发银行	15.0581	15.1641	15.4732	15.0846	15.4114	55374454	964061502	0.3533	2.3460	17.4099	0.2969	3.255031e+11	3.255031e+11	1.865347e+10	6.4324
2016-01-06	7.0	600000.SH	浦发银行	15.4114	15.5174	15.8088	15.3231	15.3584	47869312	843717365	-0.0530	-0.3438	17.6254	0.2566	3.243839e+11	3.243839e+11	1.865347e+10	6.4102
2016-01-07	8.0	600000.SH	浦发银行	15.3584	15.0140	15.8883	14.9168	15.8265	54838833	966117848	0.4681	3.0477	17.6174	0.294	3.342702e+11	3.342702e+11	1.865347e+10	6.6056
2016-01-08	9.0	600000.SH	浦发银行	15.8265	15.7205	16.0296	15.4732	15.5262	46723139	836146426	-0.3003	-1.8973	17.8958	0.2505	3.279280e+11	3.279280e+11	1.865347e+10	6.4803
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
2017-05-03	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2017-05-04	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2017-05-05	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2017-05-08	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2017-05-09	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

309 rows × 18 columns

77.使用expending函数计算开盘价的移动窗口均值

data['开盘价(元)'].expanding(min_periods=1).mean()

日期
2016-01-04    16.144400
2016-01-05    15.804400
2016-01-06    15.805867
2016-01-07    15.784525
2016-01-08    15.761120
                ...    
2017-05-03    16.041489
2017-05-04    16.038314
2017-05-05    16.034769
2017-05-08    16.030695
2017-05-09    16.026356
Name: 开盘价(元), Length: 309, dtype: float64

78.绘制上一题的移动均值与原始数据折线图

data['expanding Open mean']=data['开盘价(元)'].expanding(min_periods=1).mean()
data[['开盘价(元)', 'expanding Open mean']].plot(figsize=(16, 6))





E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 26085 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 26399 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 24320 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 30424 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 20215 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 20803 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 26085 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 26399 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 24320 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 30424 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 20215 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 20803 missing from current font.
  font.set_text(s, 0, flags=flags)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y3WeqcaC-1606139752552)(output_236_2.png)]

79.计算布林指标

data['former 30 days rolling Close mean']=data['收盘价(元)'].rolling(20).mean()
data['upper bound']=data['former 30 days rolling Close mean']+2*data['收盘价(元)'].rolling(20).std()#在这里我们取20天内的标准差
data['lower bound']=data['former 30 days rolling Close mean']-2*data['收盘价(元)'].rolling(20).std()

80.计算布林线并绘制

data[['收盘价(元)', 'former 30 days rolling Close mean','upper bound','lower bound' ]].plot(figsize=(16, 6))





E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 26085 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 26399 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 25910 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 30424 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 20215 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:238: RuntimeWarning: Glyph 20803 missing from current font.
  font.set_text(s, 0.0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 26085 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 26399 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 25910 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 30424 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 20215 missing from current font.
  font.set_text(s, 0, flags=flags)
E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\matplotlib\backends\backend_agg.py:201: RuntimeWarning: Glyph 20803 missing from current font.
  font.set_text(s, 0, flags=flags)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aGno7OXK-1606139752553)(output_240_2.png)]

81.导入并查看pandas与numpy版本

import pandas as pd
import numpy as np
print(np.__version__)
print(pd.__version__)

1.19.1
1.1.1

82.从NumPy数组创建DataFrame

#备注 使用numpy生成20个0-100随机数
tem = np.random.randint(1,100,20)
df1 = pd.DataFrame(tem)
df1.tail()

	0
15	36
16	62
17	63
18	10
19	33

#备注 使用numpy生成20个0-100固定步长的数
tem = np.arange(0,100,5)
df2 = pd.DataFrame(tem)
df2.tail()

	0
15	75
16	80
17	85
18	90
19	95

84.从NumPy数组创建DataFrame

#备注 使用numpy生成20个指定分布(如标准正态分布)的数
tem = np.random.normal(0, 1, 20)
df3 = pd.DataFrame(tem)
df3.tail()

	0
15	-0.379478
16	1.326701
17	0.670421
18	-0.291537
19	0.817611

85.将df1，df2，df3按照行合并为新DataFrame

df = pd.concat([df1,df2,df3],axis=0,ignore_index=True)
df.tail()

	0
55	-0.379478
56	1.326701
57	0.670421
58	-0.291537
59	0.817611

df = pd.concat([df1,df2,df3],axis=1,ignore_index=True)
df.tail()

	0	1	2
15	36	75	-0.379478
16	62	80	1.326701
17	63	85	0.670421
18	10	90	-0.291537
19	33	95	0.817611

87.查看df所有数据的最小值、25%分位数、中位数、75%分位数、最大值

print(np.percentile(df, q=[0, 25, 50, 75, 100]))

[-1.80791481  0.6438385  12.5        56.25       95.        ]

88.修改列名为col1,col2,col3

df.columns = ['col1','col2','col3']
df.tail()

	col1	col2	col3
15	36	75	-0.379478
16	62	80	1.326701
17	63	85	0.670421
18	10	90	-0.291537
19	33	95	0.817611

89.提取第一列中不在第二列出现的数字

df['col1'][~df['col1'].isin(df['col2'])] # 不在：是在前面加一个~

0      2
1      7
2     74
3     67
4     72
5      8
6     29
7     87
8      4
10    91
11    43
13     3
14     7
15    36
16    62
17    63
19    33
Name: col1, dtype: int32

90.提取第一列和第二列出现频率最高的三个数字

temp = df['col1'].append(df['col2'])
temp.value_counts().index[:3]

Int64Index([25, 10, 7], dtype='int64')

temp.value_counts().head(10)

25    3
10    2
7     2
2     1
67    1
4     1
65    1
5     1
70    1
87    1
dtype: int64

92.计算第一列数字前一个与后一个的差值

df['col1'].diff().tolist()

[nan,
 5.0,
 67.0,
 -7.0,
 5.0,
 -64.0,
 21.0,
 58.0,
 -83.0,
 21.0,
 66.0,
 -48.0,
 -18.0,
 -22.0,
 4.0,
 29.0,
 26.0,
 1.0,
 -53.0,
 23.0]

93.将col1,col2,clo3三列顺序颠倒

b = a[i:j] 表示复制a[i]到a[j-1]，以生成新的list对象

a = [0,1,2,3,4,5,6,7,8,9]
b = a[1:3] # [1,2]
当i缺省时，默认为0，即 a[:3]相当于 a[0:3]
当j缺省时，默认为len(alist), 即a[1:]相当于a[1:10]
当i,j都缺省时，a[:]就相当于完整复制一份a

b = a[i:j:s]表示：i,j与上面的一样，但s表示步进，缺省为1.
所以a[i:j:1]相当于a[i:j]
当s<0时，i缺省时，默认为-1. j缺省时，默认为-len(a)-1
所以a[::-1]相当于 a[-1:-len(a)-1:-1]，也就是从最后一个元素到第一个元素复制一遍，即倒序。

df.iloc[:, ::-1]

	col3	col2	col1
0	-1.049610	0	2
1	0.120536	5	7
2	-0.472164	10	74
3	1.208551	15	67
4	-1.807915	20	72
5	-0.608977	25	8
6	0.564092	30	29
7	-0.208467	35	87
8	-0.645818	40	4
9	0.973554	45	25
10	-0.064707	50	91
11	0.148113	55	43
12	-0.250823	60	25
13	-0.334750	65	3
14	1.626963	70	7
15	-0.379478	75	36
16	1.326701	80	62
17	0.670421	85	63
18	-0.291537	90	10
19	0.817611	95	33

94.提取第一列位置在1,10,15的数字

df['col1'].take([1,10,15])

1      7
10    91
15    36
Name: col1, dtype: int32

# 等价于
df.iloc[[1,10,15],0]

1      7
10    91
15    36
Name: col1, dtype: int32

95.查找第一列的局部最大值位置

tem = np.diff(np.sign(np.diff(df['col1'])))
np.where(tem == -2)[0] + 1

array([ 2,  4,  7, 10, 17], dtype=int64)

96.按行计算df的每一行均值

df[['col1','col2','col3']].mean(axis=1)

0      0.316797
1      4.040179
2     27.842612
3     27.736184
4     30.064028
5     10.797008
6     19.854697
7     40.597178
8     14.451394
9     23.657851
10    46.978431
11    32.716038
12    28.249726
13    22.555083
14    26.208988
15    36.873507
16    47.775567
17    49.556807
18    33.236154
19    42.939204
dtype: float64

97.对第二列计算移动平均值

np.convolve(df['col2'], np.ones(3)/3, mode='valid')

array([ 5., 10., 15., 20., 25., 30., 35., 40., 45., 50., 55., 60., 65.,
       70., 75., 80., 85., 90.])

98.将数据按照第三列值的大小升序排列

df.sort_values("col3",inplace=True)

df["col3"]

4    -1.807915
0    -1.049610
8    -0.645818
5    -0.608977
2    -0.472164
15   -0.379478
13   -0.334750
18   -0.291537
12   -0.250823
7    -0.208467
10   -0.064707
1     0.120536
11    0.148113
6     0.564092
17    0.670421
19    0.817611
9     0.973554
3     1.208551
16    1.326701
14    1.626963
Name: col3, dtype: float64

99.将第一列大于50的数字修改为’高’

df.col1[df['col1'] > 50]= '高'

E:\ProgramData\Anaconda3\envs\tf2.3\lib\site-packages\ipykernel_launcher.py:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.

df['col1']

4      高
0      2
8      4
5      8
2      高
15    36
13     3
18    10
12    25
7      高
10     高
1      7
11    43
6     29
17     高
19    33
9     25
3      高
16     高
14     7
Name: col1, dtype: object

df.col1

4      高
0      2
8      4
5      8
2      高
15    36
13     3
18    10
12    25
7      高
10     高
1      7
11    43
6     29
17     高
19    33
9     25
3      高
16     高
14     7
Name: col1, dtype: object

100.计算第二列与第三列之间的欧式距离

np.linalg.norm(df['col2']-df['col3'])

247.48229970698026

101.从CSV文件中读取指定数据

df = pd.read_csv('数据1.csv',encoding='gbk', usecols=['positionName', 'salary'],nrows = 10)
df

	positionName	salary
0	数据分析	37500
1	数据建模	15000
2	数据分析	3500
3	数据分析	45000
4	数据分析	30000
5	数据分析	50000
6	数据分析	30000
7	数据建模工程师	35000
8	数据分析专家	60000
9	数据分析师	40000

102.从CSV文件中读取指定数据

df = pd.read_csv('数据2.csv',converters={'薪资水平': lambda x: '高' if float(x) > 10000 else '低'} )
df

	学历要求	薪资水平
0	本科	高
1	硕士	高
2	本科	低
3	本科	高
4	不限	高
...	...	...
1149	硕士	高
1150	本科	高
1151	本科	高
1152	本科	高
1153	本科	高

1154 rows × 2 columns

103.从上一题数据中，对薪资水平列每隔20行进行一次抽样

df.iloc[::20, :][['薪资水平']]

	薪资水平
0	高
20	高
40	高
60	高
80	高
100	高
120	高
140	高
160	高
180	高
200	高
220	高
240	高
260	高
280	低
300	高
320	高
340	低
360	高
380	高
400	高
420	高
440	高
460	低
480	高
500	高
520	高
540	高
560	高
580	高
600	高
620	高
640	高
660	低
680	低
700	高
720	高
740	高
760	高
780	高
800	高
820	高
840	高
860	低
880	高
900	高
920	高
940	高
960	高
980	高
1000	高
1020	高
1040	高
1060	高
1080	高
1100	高
1120	高
1140	高

104.将数据取消使用科学计数法

df = pd.DataFrame(np.random.random(10)**10, columns=['data'])
df

	data
0	2.353154e-01
1	5.046102e-10
2	1.210372e-02
3	3.320882e-01
4	5.618341e-03
5	7.634267e-01
6	4.067364e-01
7	2.449082e-11
8	6.759164e-12
9	1.013198e-11

df.round(3)

	data
0	0.235
1	0.000
2	0.012
3	0.332
4	0.006
5	0.763
6	0.407
7	0.000
8	0.000
9	0.000

105.将上一题的数据转换为百分数

df.style.format({'data': '{0:.2%}'.format})

	data

106.查找上一题数据中第3大值的行号

df['data'].argsort()[::-1][7]

107.反转df的行

df.iloc[::-1, :]

	data
9	1.013198e-11
8	6.759164e-12
7	2.449082e-11
6	4.067364e-01
5	7.634267e-01
4	5.618341e-03
3	3.320882e-01
2	1.210372e-02
1	5.046102e-10
0	2.353154e-01

108.按照多列对数据进行合并

df1= pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
'key2': ['K0', 'K1', 'K0', 'K1'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})

df2= pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
'key2': ['K0', 'K0', 'K0', 'K0'],
'C': ['C0', 'C1', 'C2', 'C3'],
'D': ['D0', 'D1', 'D2', 'D3']})

pd.merge(df1, df2, on=['key1', 'key2'])

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K1	K0	A2	B2	C1	D1
2	K1	K0	A2	B2	C2	D2

109.按照多列对数据进行合并

pd.merge(df1, df2, how='left', on=['key1', 'key2'])

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN

110.再次读取数据1并显示所有的列

df = pd.read_csv('数据1.csv',encoding='gbk')
pd.set_option("display.max.columns", None)
df

	positionId	positionName	companyId	companyLogo	companySize	industryField	financeStage	companyLabelList	firstType	secondType	thirdType	skillLables	positionLables	industryLables	createTime	formatCreateTime	district	businessZones	salary	workYear	jobNature	education	positionAdvantage	imState	lastLogin	publisherId	approve	subwayline	stationname	linestaion	latitude	longitude	hitags	resumeProcessRate	resumeProcessDay	score	newScore	matchScore	matchScoreExplain	query	explain	isSchoolJob	adWord	plus	pcShow	appShow	deliver	gradeDescription	promotionScoreExplain	isHotHire	count	aggregatePositionIds	famousCompany
0	6802721	数据分析	475770	i/image2/M01/B7/3E/CgoB5lwPfEaAdn8WAABWQ0Jgl5s...	50-150人	移动互联网,电商	A轮	['绩效奖金', '带薪年假', '定期体检', '弹性工作']	产品\|需求\|项目类	数据分析	数据分析	['SQL', '数据库', '数据运营', 'BI']	['电商', '社交', 'SQL', '数据库', '数据运营', 'BI']	['电商', '社交', 'SQL', '数据库', '数据运营', 'BI']	2020/3/16 11:00	11:00发布	余杭区	['仓前']	37500	1-3年	全职	本科	五险一金、弹性工作、带薪年假、年度体检	today	2020/3/16 11:00	12022406	1	NaN	NaN	NaN	30.278421	120.005922	NaN	50	1	233	0	15.101875	NaN	NaN	NaN	0	0	NaN	0	0	0	NaN	NaN	0	0	[]	False
1	5204912	数据建模	50735	image1/M00/00/85/CgYXBlTUXeeAR0IjAABbroUk-dw97...	150-500人	电商	B轮	['年终奖金', '做五休二', '六险一金', '子女福利']	开发\|测试\|运维类	数据开发	建模	['算法', '数据架构']	['算法', '数据架构']	[]	2020/3/16 11:08	11:08发布	滨江区	['西兴', '长河']	15000	3-5年	全职	本科	六险一金,定期体检,丰厚年终	disabled	2020/3/16 11:08	5491688	1	NaN	NaN	NaN	30.188041	120.201179	NaN	23	1	176	0	32.559414	NaN	NaN	NaN	0	0	NaN	0	0	0	NaN	NaN	0	0	[]	False
2	6877668	数据分析	100125	image2/M00/0C/57/CgqLKVYcOA2ADcFuAAAE8MukIKA74...	2000人以上	移动互联网,企业服务	上市公司	['节日礼物', '年底双薪', '股票期权', '带薪年假']	产品\|需求\|项目类	数据分析	数据分析	['数据库', '数据分析', 'SQL']	['数据库', 'SQL']	[]	2020/3/16 10:33	10:33发布	江干区	['四季青', '钱江新城']	3500	1-3年	全职	本科	五险一金周末双休不加班节日福利	today	2020/3/16 10:33	5322583	1	4号线	江锦路	4号线_城星路;4号线_市民中心;4号线_江锦路	30.241521	120.212539	NaN	11	4	80	0	14.972357	NaN	NaN	NaN	0	0	NaN	0	0	0	NaN	NaN	0	0	[]	False
3	6496141	数据分析	26564	i/image2/M01/F7/3F/CgoB5lyGAQGAZeI-AAAdOqXecnw...	500-2000人	电商	D轮及以上	['生日趴', '每月腐败基金', '每月补贴', '年度旅游']	开发\|测试\|运维类	数据开发	数据分析	[]	['电商']	['电商']	2020/3/16 10:10	10:10发布	江干区	NaN	45000	3-5年	全职	本科	年终奖等	threeDays	2020/3/16 10:10	9814560	1	1号线	文泽路	1号线_文泽路	30.299404	120.350304	NaN	100	1	68	0	12.874153	NaN	NaN	NaN	0	0	NaN	0	0	0	NaN	NaN	0	0	[]	True
4	6467417	数据分析	29211	i/image2/M01/77/B8/CgoB5l1WDyGATNP5AAAlY3h88SY...	2000人以上	物流丨运输	上市公司	['技能培训', '免费班车', '专项奖金', '岗位晋升']	产品\|需求\|项目类	数据分析	数据分析	['BI', '数据分析', '数据运营']	['BI', '数据运营']	[]	2020/3/16 09:56	09:56发布	余杭区	['仓前']	30000	3-5年	全职	大专	五险一金	disabled	2020/3/16 09:56	6392394	1	NaN	NaN	NaN	30.282952	120.009765	NaN	20	1	66	0	12.755375	NaN	NaN	NaN	0	0	NaN	0	0	0	NaN	NaN	0	0	[]	True
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
100	6884346	数据分析师	21236	i/image/M00/43/F6/CgqKkVeEh76AUVPoAAA2Bj747wU6...	500-2000人	移动互联网,医疗丨健康	C轮	['技能培训', '年底双薪', '节日礼物', '绩效奖金']	产品\|需求\|项目类	数据分析	数据分析	['数据库', '商业', '数据分析', 'SQL']	['医疗健康', '数据库', '商业', '数据分析', 'SQL']	['医疗健康', '数据库', '商业', '数据分析', 'SQL']	2020/3/11 16:45	2020/3/11	萧山区	NaN	25000	3-5年	全职	不限	大牛老板，开放环境，民生行业，龙头公司	threeDays	2020/3/16 09:49	1665167	1	NaN	NaN	NaN	30.203078	120.247069	NaN	96	1	0	0	0.314259	NaN	NaN	NaN	0	0	NaN	0	0	0	NaN	NaN	0	0	[]	False
101	6849100	商业数据分析	72076	i/image2/M01/92/A4/CgotOV2LPUmAR_8dAAB_DlDMiXA...	500-2000人	移动互联网,电商	C轮	['节日礼物', '股票期权', '带薪年假', '年度旅游']	市场\|商务类	市场\|营销	商业数据分析	['市场', '数据分析', '行业分析', '市场分析']	['电商', '市场', '数据分析', '行业分析', '市场分析']	['电商', '市场', '数据分析', '行业分析', '市场分析']	2020/3/14 17:38	2天前发布	余杭区	NaN	35000	1-3年	全职	硕士	五险一金、带薪休假	threeDays	2020/3/14 17:38	1732416	1	NaN	NaN	NaN	30.276694	119.990918	NaN	2	3	0	0	0.283276	NaN	NaN	NaN	0	0	NaN	0	0	0	NaN	NaN	0	0	[]	False
102	6803432	奔驰·耀出行-BI数据分析专家	751158	i/image3/M01/64/93/Cgq2xl48z2mAeYRoAAD6Qf_Jeq8...	150-500人	移动互联网	不需要融资	[]	开发\|测试\|运维类	数据开发	数据分析	['MySQL', '数据处理', '数据分析']	['MySQL', '数据处理', '数据分析']	[]	2020/3/14 22:39	2天前发布	滨江区	['西兴']	30000	3-5年	全职	本科	奔驰吉利世界500强	threeDays	2020/3/14 22:39	4785643	1	1号线	滨和路	1号线_滨和路;1号线_江陵路;1号线_滨和路;1号线_江陵路	30.208562	120.219225	NaN	63	1	0	0	0.256719	NaN	NaN	NaN	0	0	NaN	0	0	0	NaN	NaN	0	0	[]	False
103	6704835	BI数据分析师	52840	i/image2/M00/26/CA/CgoB5lofsguAfk9ZAACoL3r4p24...	2000人以上	电商	上市公司	['技能培训', '年底双薪', '节日礼物', '绩效奖金']	开发\|测试\|运维类	数据开发	数据分析	['SQLServer', '数据分析']	['电商', '新零售', 'SQLServer', '数据分析']	['电商', '新零售', 'SQLServer', '数据分析']	2020/3/9 15:00	2020/3/9	余杭区	['仓前']	20000	3-5年	全职	本科	阿里巴巴；商业智能；	threeDays	2020/3/16 10:15	5846350	1	NaN	NaN	NaN	30.280177	120.023521	['16薪', '一年调薪2次']	0	0	0	0	0.281062	NaN	NaN	NaN	0	0	NaN	0	0	0	NaN	NaN	0	0	[]	True
104	6728058	数据分析专家-LQ(J181203029)	2474	i/image2/M01/14/4D/CgoB5lyq5fqAAHHzAAAa148hbk8...	2000人以上	汽车丨出行	不需要融资	['弹性工作', '节日礼物', '岗位晋升', '技能培训']	产品\|需求\|项目类	数据分析	其他数据分析	[]	['滴滴']	['滴滴']	2020/3/13 18:24	3天前发布	西湖区	NaN	21500	5-10年	全职	本科	广阔平台诱人福利	disabled	2020/3/13 19:51	6799495	1	NaN	NaN	NaN	30.290746	120.074315	NaN	0	0	0	0	0.159343	NaN	NaN	NaN	0	0	NaN	0	0	0	NaN	NaN	0	0	[]	True

105 rows × 53 columns

111.查找secondType与thirdType值相等的行号

np.where(df.secondType == df.thirdType)

(array([  0,   2,   4,   5,   6,  10,  14,  23,  25,  27,  28,  29,  30,
         33,  37,  38,  39,  40,  41,  48,  49,  52,  53,  55,  57,  61,
         65,  66,  67,  71,  73,  74,  75,  79,  80,  82,  85,  88,  89,
         91,  96, 100], dtype=int64),)

112.查找薪资大于平均薪资的第三个数据

df[df['salary'] > df['salary'].mean()]['salary'].index[2]

113.将上一题数据的salary列开根号

df[['salary']].apply(np.sqrt)

	salary
0	193.649167
1	122.474487
2	59.160798
3	212.132034
4	173.205081
...	...
100	158.113883
101	187.082869
102	173.205081
103	141.421356
104	146.628783

105 rows × 1 columns

114.将上一题数据的linestaion列按_拆分

df['split'] = df['linestaion'].str.split('_')

df['linestaion'].tail()

100                                NaN
101                                NaN
102    1号线_滨和路;1号线_江陵路;1号线_滨和路;1号线_江陵路
103                                NaN
104                                NaN
Name: linestaion, dtype: object

df.tail()

	positionId	positionName	companyId	companyLogo	companySize	industryField	financeStage	companyLabelList	firstType	secondType	thirdType	skillLables	positionLables	industryLables	createTime	formatCreateTime	district	businessZones	salary	workYear	jobNature	education	positionAdvantage	imState	lastLogin	publisherId	approve	subwayline	stationname	linestaion	latitude	longitude	hitags	resumeProcessRate	resumeProcessDay	matchScore	matchScoreExplain	query	explain	plus	gradeDescription	promotionScoreExplain	aggregatePositionIds	famousCompany	split
100	6884346	数据分析师	21236	i/image/M00/43/F6/CgqKkVeEh76AUVPoAAA2Bj747wU6...	500-2000人	移动互联网,医疗丨健康	C轮	['技能培训', '年底双薪', '节日礼物', '绩效奖金']	产品\|需求\|项目类	数据分析	数据分析	['数据库', '商业', '数据分析', 'SQL']	['医疗健康', '数据库', '商业', '数据分析', 'SQL']	['医疗健康', '数据库', '商业', '数据分析', 'SQL']	2020/3/11 16:45	2020/3/11	萧山区	NaN	25000	3-5年	全职	不限	大牛老板，开放环境，民生行业，龙头公司	threeDays	2020/3/16 09:49	1665167	1	NaN	NaN	NaN	30.203078	120.247069	NaN	96	1	0.314259	NaN	NaN	NaN	NaN	NaN	NaN	[]	False	NaN
101	6849100	商业数据分析	72076	i/image2/M01/92/A4/CgotOV2LPUmAR_8dAAB_DlDMiXA...	500-2000人	移动互联网,电商	C轮	['节日礼物', '股票期权', '带薪年假', '年度旅游']	市场\|商务类	市场\|营销	商业数据分析	['市场', '数据分析', '行业分析', '市场分析']	['电商', '市场', '数据分析', '行业分析', '市场分析']	['电商', '市场', '数据分析', '行业分析', '市场分析']	2020/3/14 17:38	2天前发布	余杭区	NaN	35000	1-3年	全职	硕士	五险一金、带薪休假	threeDays	2020/3/14 17:38	1732416	1	NaN	NaN	NaN	30.276694	119.990918	NaN	2	3	0.283276	NaN	NaN	NaN	NaN	NaN	NaN	[]	False	NaN
102	6803432	奔驰·耀出行-BI数据分析专家	751158	i/image3/M01/64/93/Cgq2xl48z2mAeYRoAAD6Qf_Jeq8...	150-500人	移动互联网	不需要融资	[]	开发\|测试\|运维类	数据开发	数据分析	['MySQL', '数据处理', '数据分析']	['MySQL', '数据处理', '数据分析']	[]	2020/3/14 22:39	2天前发布	滨江区	['西兴']	30000	3-5年	全职	本科	奔驰吉利世界500强	threeDays	2020/3/14 22:39	4785643	1	1号线	滨和路	1号线_滨和路;1号线_江陵路;1号线_滨和路;1号线_江陵路	30.208562	120.219225	NaN	63	1	0.256719	NaN	NaN	NaN	NaN	NaN	NaN	[]	False	[1号线, 滨和路;1号线, 江陵路;1号线, 滨和路;1号线, 江陵路]
103	6704835	BI数据分析师	52840	i/image2/M00/26/CA/CgoB5lofsguAfk9ZAACoL3r4p24...	2000人以上	电商	上市公司	['技能培训', '年底双薪', '节日礼物', '绩效奖金']	开发\|测试\|运维类	数据开发	数据分析	['SQLServer', '数据分析']	['电商', '新零售', 'SQLServer', '数据分析']	['电商', '新零售', 'SQLServer', '数据分析']	2020/3/9 15:00	2020/3/9	余杭区	['仓前']	20000	3-5年	全职	本科	阿里巴巴；商业智能；	threeDays	2020/3/16 10:15	5846350	1	NaN	NaN	NaN	30.280177	120.023521	['16薪', '一年调薪2次']	0	0	0.281062	NaN	NaN	NaN	NaN	NaN	NaN	[]	True	NaN
104	6728058	数据分析专家-LQ(J181203029)	2474	i/image2/M01/14/4D/CgoB5lyq5fqAAHHzAAAa148hbk8...	2000人以上	汽车丨出行	不需要融资	['弹性工作', '节日礼物', '岗位晋升', '技能培训']	产品\|需求\|项目类	数据分析	其他数据分析	[]	['滴滴']	['滴滴']	2020/3/13 18:24	3天前发布	西湖区	NaN	21500	5-10年	全职	本科	广阔平台诱人福利	disabled	2020/3/13 19:51	6799495	1	NaN	NaN	NaN	30.290746	120.074315	NaN	0	0	0.159343	NaN	NaN	NaN	NaN	NaN	NaN	[]	True	NaN

115.查看上一题数据中一共有多少列

df.shape[1]

116.提取industryField列以’数据’开头的行

df[df['industryField'].str.startswith('数据')].tail()

	positionId	positionName	companyId	companyLogo	companySize	industryField	financeStage	companyLabelList	firstType	secondType	thirdType	skillLables	positionLables	industryLables	createTime	formatCreateTime	district	businessZones	salary	workYear	jobNature	education	positionAdvantage	imState	lastLogin	publisherId	approve	subwayline	stationname	linestaion	latitude	longitude	hitags	resumeProcessRate	resumeProcessDay	score	matchScore	matchScoreExplain	query	explain	isSchoolJob	plus	gradeDescription	promotionScoreExplain	aggregatePositionIds	famousCompany	split
92	6813626	资深数据分析专员	165939	i/image3/M01/65/71/CgpOIF5CFp2ACoo9AAD3IkKwlv8...	150-500人	数据服务	不需要融资	['年底双薪', '带薪年假', '午餐补助', '定期体检']	开发\|测试\|运维类	数据开发	数据分析	['数据分析']	['数据分析']	[]	2020/3/15 12:21	1天前发布	余杭区	NaN	30000	3-5年	全职	不限	阿里旗下、大数据	today	2020/3/15 13:13	8519805	1	NaN	NaN	NaN	30.281507	120.018621	NaN	1	1	1	0.440405	NaN	NaN	NaN	0	NaN	NaN	NaN	[]	False	NaN
94	6818950	资深数据分析师	165939	i/image3/M01/65/71/CgpOIF5CFp2ACoo9AAD3IkKwlv8...	150-500人	数据服务	不需要融资	['年底双薪', '带薪年假', '午餐补助', '定期体检']	开发\|测试\|运维类	数据开发	数据分析	['数据分析']	['数据分析']	[]	2020/3/15 12:21	1天前发布	余杭区	NaN	30000	5-10年	全职	不限	阿里旗下、大数据	today	2020/3/15 13:13	8519805	1	NaN	NaN	NaN	30.281507	120.018621	NaN	1	1	1	0.407209	NaN	NaN	NaN	0	NaN	NaN	NaN	[]	False	NaN
97	6718750	旅游大数据分析师（杭州）	122019	i/image/M00/1A/4A/CgqKkVb583WABT4BAABM5RuPCmk9...	50-150人	数据服务,企业服务	A轮	['年底双薪', '股票期权', '午餐补助', '定期体检']	开发\|测试\|运维类	数据开发	数据治理	['数据分析', '数据处理']	['旅游', '大数据', '数据分析', '数据处理']	['旅游', '大数据', '数据分析', '数据处理']	2020/3/12 16:38	2020/3/12	上城区	['湖滨', '吴山']	30000	1-3年	全职	本科	管理扁平潜力项目五险一金周末双休	sevenDays	2020/3/13 08:48	11347630	1	2号线	中河北路	1号线_定安路;1号线_龙翔桥;1号线_凤起路;1号线_定安路;1号线_龙翔桥;1号线_凤起...	30.254169	120.164651	NaN	3	0	1	0.826756	NaN	NaN	NaN	0	NaN	NaN	NaN	[]	False	[1号线, 定安路;1号线, 龙翔桥;1号线, 凤起路;1号线, 定安路;1号线, 龙翔桥;...
98	6655562	数据分析建模工程师	117422215	i/image2/M01/AF/6D/CgotOV3ki4iAOuo3AABbilI8DfA...	50-150人	数据服务,信息安全	A轮	['午餐补助', '带薪年假', '16到18薪', '法定节假日']	开发\|测试\|运维类	人工智能	机器学习	['机器学习', '建模', '数据挖掘', '算法']	['机器学习', '建模', '数据挖掘', '算法']	[]	2020/3/14 19:00	2天前发布	西湖区	NaN	30000	1-3年	全职	本科	海量数据全链路建模实践 16-18薪	threeDays	2020/3/16 09:30	8810336	1	2号线	丰潭路	2号线_古翠路;2号线_丰潭路	30.291494	120.113955	NaN	0	0	0	0.356308	NaN	NaN	NaN	0	NaN	NaN	NaN	[]	False	[2号线, 古翠路;2号线, 丰潭路]
99	6677939	数据分析建模工程师（校招）	117422215	i/image2/M01/AF/6D/CgotOV3ki4iAOuo3AABbilI8DfA...	50-150人	数据服务,信息安全	A轮	['午餐补助', '带薪年假', '16到18薪', '法定节假日']	开发\|测试\|运维类	人工智能	算法工程师	['机器学习', '建模', '算法', '数据挖掘']	['机器学习', '建模', '算法', '数据挖掘']	[]	2020/3/14 19:00	2天前发布	西湖区	NaN	36500	应届毕业生	全职	本科	海量数据全链路建模实践 16-18薪	threeDays	2020/3/16 09:30	8810336	1	2号线	丰潭路	2号线_古翠路;2号线_丰潭路	30.291494	120.113955	NaN	0	0	0	0.338603	NaN	NaN	NaN	1	NaN	NaN	NaN	[]	False	[2号线, 古翠路;2号线, 丰潭路]

117.按列制作数据透视表

pd.pivot_table(df,values=["salary","score"],index="positionId")

	salary	score
positionId
5203054	30000	4.0
5204912	15000	176.0
5269002	37500	1.0
5453691	30000	4.0
5519962	37500	14.0
...	...	...
6882983	27500	15.0
6884346	25000	0.0
6886661	37500	5.0
6888169	42500	1.0
6896403	30000	3.0

95 rows × 2 columns

118.同时对salary、score两列进行计算

df[["salary","score"]].agg([np.sum,np.mean,np.min])

	salary	score
sum	3.331000e+06	1335.000000
mean	3.172381e+04	12.714286
amin	3.500000e+03	0.000000

119.对salary求平均，对score列求和

df.agg({"salary":np.sum,"score":np.mean})

salary    3.331000e+06
score     1.271429e+01
dtype: float64

120.计算并提取平均薪资最高的区

df[['district','salary']].groupby(by='district').mean().sort_values('salary',ascending=False).head(1)

	salary
district
萧山区	36250.0

你可能感兴趣的:(数据分析)

2025年2月9日（数据分析_2） Mason Lin Python学习数据分析数据挖掘
散点图frommatplotlibimportpyplotaspltfrommatplotlibimportfont_manager#字体相关#字体font_path=r"C:\Windows\Fonts\msyh.ttc"my_font=font_manager.FontProperties(fname=font_path)x=list(range(31))x2=list(range(31,62
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
毕业论文如何降低AIGC率？ kexiaoya2013 AIGC 论文笔记论文阅读
在Deepseek爆火的当下，AI生成内容已经渗透到各个领域，包括论文写作。如果你的论文使用了AI工具辅助写作，那么，如何降低AIGC率呢？一、控制使用比例将AI工具用于辅助性任务，如文献检索、语法检查、词汇替换等，而非核心内容的生成。论文的研究方法、数据分析、结论等核心部分应尽量手动完成。完全依赖AI生成论文会导致AI率过高，而将AI用于辅助性任务则能有效降低AI率。二、采用不同模型不同AI模型
BP 神经网络在考古数据分析中的应用 fanxbl957 人工智能理论与实践神经网络数据分析人工智能
BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。通过丰富的代码示例展示了如何运用BP神经网络进行考古文物的分类鉴定、年代预测以及遗址空间分布分析等任务，涵盖数据预处理、网络构建、模型训练与评估等关键环节。分析了该应用的优势与局限性，并对其在考古数据分
市场波动中的数据分析与策略优化 QQ3990385023 数据分析区块链人工智能
市场波动中的数据分析与策略优化在市场交易中，价格的波动往往受到多种因素影响，包括资金流向、经济数据、政策调整等。如何利用数据分析优化交易策略，提升市场适应能力，是投资者需要重点关注的问题。借助科学的分析方法，结合技术指标，可以更精准地识别趋势，提高交易稳定性。一、市场数据分析的核心要素1.价格趋势分析市场价格的变动通常会形成一定的趋势，例如上涨趋势、震荡趋势或下跌趋势。通过均线（MA）等技术指标，
2024亚马逊数据分析！ KJYHS 数据分析数据挖掘
整体财务数据23净销售额：全年净销售额达6380亿美元，同比增长11%。净利润：全年净利润为592亿美元，较上年同期的304亿美元增长95%。经营活动现金流：经营活动现金流达1159亿美元，同比增加了36%。各业务板块数据AWS业务1第四季度营收：2024年第四季度，AWS业务实现营收288亿美元，同比增长19%；经营利润达106亿美元，同比增长34亿美元。广告业务5全年营收：2024年广告业务总
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
【数据分析】通过个体和遗址层面的遗传相关性网络分析生信学习者1 数据分析数据分析数据挖掘 r语言数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理应用场景加载R包数据下载函数个体层面的遗传相关性网络分析导入数据数据预处理构建遗传相关性的个体网络对个体网络Nij进行可视化评估和选择最佳模型评估和选择最佳模型最佳模型进行总结拟合优度检验遗址层面的遗传相关性网络分析导入数据数据预处理构建遗址之间的遗传相关性网络可视化图条件边预测与模型评估总结系统信息介绍个
探索天气预警API：精准预测，守护安全 api
引言在当今这个快速变化的世界中，天气的波动直接影响着人们的日常生活、农业生产、交通出行乃至公共安全。为了有效应对各种极端天气事件，天气预警API应运而生，成为连接气象数据与公众服务的重要桥梁。本文将深入探讨天气预警API的工作原理、应用场景以及其对社会的积极影响。天气预警API的工作原理天气预警API基于先进的气象监测技术和大数据分析，通过收集全球范围内的气象卫星、雷达、地面观测站等数据源，进行实
Redis 全方位解析：从入门到实战 kiss strong redis 数据库缓存
引言在当今互联网快速发展的时代，高并发、低延迟的应用场景越来越普遍。Redis，作为一款高性能的开源数据库，以其卓越的性能和灵活的功能，成为了许多开发者的首选工具。无论是在缓存、消息队列，还是在实时数据分析等领域，Redis都展现出了强大的能力。本文将从Redis的基本介绍、官网、安装、特性，到具体的存储类型、Java代码实例、SpringBoot整合，以及Redis的主要作用和应用场景，进行全面
深入解析：Tableau在数据可视化中的高级应用 Echo_Wish 实战高阶大数据信息可视化数据分析数据挖掘
深入解析：Tableau在数据可视化中的高级应用引言在大数据时代，数据可视化已成为数据分析中不可或缺的一部分。作为一款广受欢迎的数据可视化工具，Tableau以其强大的功能和灵活性，赢得了众多数据分析师的青睐。然而，许多人在使用Tableau时，仅停留在基本操作层面，未能充分发挥其潜力。本文将深入探讨Tableau的高级应用，展示其在复杂数据分析中的强大能力，并以具体实例说明其实际应用效果。数据预
Anaconda 配置镜像源猿代码_xiao python pytorch python 深度学习
Anaconda镜像使用帮助Anaconda是一个用于科学计算的Python发行版，支持Linux,Mac,Windows,包含了众多流行的科学计算、数据分析的Python包。Anaconda安装包可以到https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/下载。TUNA还提供了Anaconda仓库与第三方源（conda-forge、msys2
python panda下载_pandas python下载|Pandas for python v0.25.0官方版 v0.25.0官方版 - 哩咯下载站... weixin_39647458 python panda下载
Pandas是python的数据分析包，最初被作为金融数据分析工具而开发出来，提供pandas.whl包下载，有需要的赶快下载吧！软件介绍Pandas是python的一个数据分析包，最初由AQRCapitalManagement于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被
数据分析利器：COMEX外盘期货主力连续合约与月份合约研究方法银河金融数据库外盘期货高频历史行情数据下载数据分析区块链数据挖掘金融
数据分析利器：COMEX外盘期货主力连续合约与月份合约研究方法为了促进学习和研究，我们在此分享一部分匿名处理的外盘期货高频历史行情数据集。外盘期货分钟高频历史行情数据链接:https://pan.baidu.com/s/19zhe1CCpDM56amDKO2nMwQ?pwd=4wpq提取码:4wpq请注意，分享这些数据的目的是为了教育和研究，不构成任何投资建议。关键词：量化;量化;贵金属;计算能力
阿里云 MaxCompute MaxQA 开启公测，解锁近实时高效查询体验阿里云大数据AI技术阿里云云原生 MaxCompute 大数据实时数仓
随着实时、近实时数据分析需求的持续增长，查询响应时间在现代数据分析和业务应用中变得越来越重要。为减少查询响应时间，提升数据效率，阿里云云原生大数据计算服务MaxCompute推出MaxQA（原MCQA2.0）查询加速功能，在独享的查询加速资源池的基础上，对管控链路、查询优化器、执行引擎、存储引擎以及缓存机制等多个环节进行全面优化，显著减少了查询响应时间，适用于BI场景、交互式分析以及近实时数仓等对
数据分析-56-深入理解假设检验的步骤和T检验的应用案例皮皮冰燃数据分析数据分析假设检验
文章目录1假设检验(HypothesisTesting)1.1假设检验的步骤1.1.1提出假设1.1.2选择显著性水平1.1.3选择检验统计量1.1.4计算检验统计量1.1.5确定临界值或p值1.2假设检验的类型1.2.1单尾检验(One-tailedtest)1.2.2双尾检验(Two-tailedtest)2T检验2.1单样本t检验2.2独立样本t检验2.3配对样本t检验3应用案例3.1单样本
EBS 性能不足？从吞吐量到 IOPS，阿里云全方位优化 Anna_Tong 阿里云云计算存储加速吞吐量优化 RAID配置云计算运维 IOPS 提升
在云计算环境中，存储性能对于业务稳定运行至关重要，尤其是数据库、大数据分析、AI计算等高IO需求的应用。然而，许多用户在使用EBS（弹性块存储）时，可能会遇到磁盘吞吐量或IOPS（每秒输入/输出操作数）不足的问题，导致应用响应变慢、数据处理延迟，甚至影响业务连续性。那么，是什么原因导致EBS性能瓶颈？如何优化吞吐量和IOPS以提升存储性能？阿里云又能提供哪些优化方案？本文将从存储架构、性能监控、优
供应链商业数据分析求职指南：技能点、工具包与业务模式全解析 xl.liu 数据分析数据挖掘
引言随着中国经济的快速发展，国内企业对供应链管理的关注度日益增加。为了应对激烈的市场竞争，企业纷纷寻求通过优化供应链来提高效率、降低成本并增强响应速度。在这个背景下，供应链商业数据分析（SupplyChainBusinessAnalytics）作为连接数据与决策的关键桥梁，逐渐成为企业不可或缺的一部分。对于有志于从事这一领域的专业人士而言，掌握必要的技能、熟悉先进的工具以及理解特定的业务模式是成功
使用Python抓取新闻媒体网站的最新头条与相关内容：深入的爬虫开发与数据分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫数据分析数据挖掘人工智能开发语言
引言在互联网时代，新闻媒体网站是人们获取信息和了解世界的重要渠道。随着新闻的即时更新，获取最新头条并进行数据分析成为许多行业领域（如媒体、广告、舆情监测等）的重要需求。通过抓取新闻媒体网站的内容，我们不仅能获取各类新闻文章，还能为后续的数据分析、情感分析、舆情监控等提供基础数据。本篇博客将详细讲解如何使用Python编写一个爬虫，抓取新闻媒体网站的最新头条及其相关内容。我们将使用最新的技术栈，包括
Python爬虫实战：获取笔趣阁图书信息，并做数据分析 ylfhpy 爬虫 python 爬虫数据分析
注意：以下内容仅供技术研究，请遵守目标网站的robots.txt规定，控制请求频率避免对目标服务器造成过大压力！1.环境准备与反爬策略pythonimportrequestsfrombs4importBeautifulSoupimportpandasaspdimportreimporttimeimportrandomfromfake_useragentimportUserAgent#需安装：pip
火山引擎 DataWind ChatBI 适配 DeepSeek-R1 及 DeepSeek-V3 大数据
2025年2月，火山引擎智能数据洞察DataWind旗下AI助手ChatBI宣布实现对DeepSeek-R1及DeepSeek-V3的适配。通过融合豆包、DeepSeek等主流大模型的先进能力，ChatBI正在为企业用户带来精准、智能的数据分析体验。作为Data+AI领域的先行者，DataWind一直致力于帮助业务达到最好的实践成果，DataWind对主流大模型始终保持高效的开放探索态度，融合前沿
生态碳汇涡度相关监测与通量数据分析岁月如歌，青春不败生态遥感数据分析碳汇生态科学涡度通量大涡模拟 MATLAB
1、以涡度通量塔的高频观测数据，基于MATLAB：2、涡度通量观测基本概况：观测技术方法、数据获取与预处理等3、涡度通量数据质量控制：通量数据异常值识别与剔除等4、涡度通量数据缺失插补：结合气象数据进行通量数据缺失插补等5、涡度通量数据组分拆分：计算生态系统呼吸和总初级生产力等6、涡度通量数据可视化分析：绘制不同通量组分数据的时间变化等7、涡度通量与气象数据相关性：时间序列相关分析、回归分析等8、
python数据分析一周速成1.先从查询开始吧噼里啪啦噼酷啪Q 数据分析 python 数据分析 CDA
写在前面众所周知，20%的知识点可以覆盖80%的使用场景。时间就是生命~~咱主打一个“用最小的成本，收获最大化”！有它了不仅不怕excel卡顿，还能实现懒人神器——办公自动化，你喝茶他干活，鼠标自由咯！快跟我来，感受一周速成的效率~~首先，安装python+编辑器（cmd下载和anaconda一个效果嗷）：下载python：来官网DownloadPython|Python.org（建议用3.8~3
如何做数据清洗,有完整的流程么? 魔王阿卡纳兹大数据治理与分析大数据数据清洗数据处理流程去除噪声干净的数据
数据清洗是数据分析和处理过程中不可或缺的一环，其目的是通过识别和纠正数据中的错误、重复、不一致等问题，提高数据的质量和可用性。根据提供的多条证据，数据清洗的完整流程可以总结如下：1.数据预处理数据预处理是数据清洗的第一步，主要包括以下几个方面：数据审查：对数据进行初步检查，识别空值、异常值和噪声数据。数据备份：在进行数据清洗之前，备份原始数据以防止数据丢失。数据筛选：根据清洗目标，对数据进行初步筛
创新市场调查方法，精准把握消费者脉搏（消费者调查） zhonglidc01 消费者调查市场调查咨询大数据人工智能
在当今竞争激烈的市场环境中，（第三方市场调查）企业要想精准把握消费者需求，制定有效的市场策略，（市场咨询公司）创新的市场调查方法至关重要。成都中立调查公司凭借17年的深厚调研经验，（问卷调查）结合线上线下调查、运用大数据分析等创新举措，致力于为客户提供更具前瞻性的市场洞察，助力企业精准把握消费者脉搏，提升市场竞争力。一、结合线上线下调查，全面覆盖消费者群体线上调研：便捷高效，触达广泛受众在互联网时
成都专业市场调查，为企业决策提供有力支持 zhonglidc01 消费者调查大数据
在风云变幻的商业世界中，（市场咨询公司）（第三方市场调查）企业每一次决策都关乎着生死存亡。精准的市场信息是企业决策的基石，而专业的市场调查机构则是获取这些信息的关键桥梁。成都中立调查公司，（市场调研公司）作为一家深耕市场调研领域17年的成都本土企业，凭借严谨的调查方法和科学的数据分析，为众多企业提供准确、可靠的市场信息，助力企业做出明智决策，有效降低市场风险。成都中立调查公司深知，严谨的调查方法是
本地部署Deepseek：从零开始，打造你的私人AI助手！软件求生 #工作建议架构微服务云原生 java 开发语言
大家好，我是小米，一个31岁、热爱技术的“技术宅”。今天我要和大家分享一个超级酷炫的技术——本地部署Deepseek！如果你对AI感兴趣，或者想拥有一个属于自己的私人AI助手，那这篇文章绝对不容错过！Deepseek是什么？在开始之前，我们先来聊聊Deepseek到底是什么。简单来说，Deepseek是一个基于深度学习的AI模型，它可以帮助你完成各种任务，比如自然语言处理、图像识别、数据分析等等。
Boss直聘-AI行业岗位与薪资水平调研姚瑞南 AI行业资讯 AI行业产品调研人工智能自然语言处理 AIGC 经验分享笔记
2022年6月更渠道公司职位名称职位类型薪资水平是否要求PMP证书JDboss直聘字节跳动智能服务运营专家运营25-50K*15薪无智能IM机器人转人工、解决率指标提升boss直聘唯品会AI产品经理PM35-65K*14薪无智能产品规划与设计、数据分析、行业调研、推动项目、协同作业boss直聘京东智能机器人产品运营运营20-40K*15薪无智能客服机器人运营boss直聘字节跳动AI训练技术项目经理
快速入门Web3开发的多个基础知识和如何进行链上开发算了吧吧吧 web3 区块链
最近我开始远程办公，因此有更多的空闲时间，打算开始进行一些区块链上数据分析的工作。然而，由于对web3的了解并不深入，我需要一些帮助来更好地理解相关知识。当然，所谓的“入门”只是一个开始，之后还有很多内容需要学习。对许多人来说，进入web3世界并不难，难的是找到正确的学习方向和路径。在网上可以找到的教程差别比较大，现有的资源零零散散，缺乏系统化的学习路径，有些内容其实现在有更好的解决方案，比如So
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN