落空空。

Python全栈开发-数据分析-03 Pandas详解 (中)

Pandas详解 (中)

一. 处理缺失值

1.1 drop函数：删除行，删除列

1、删除某列或某行数据可以用到pandas提供的方法drop
2、drop方法的用法：

drop(labels, axis=0, level=None, inplace=False, errors='raise')

– axis为0时表示删除行，axis为1时表示删除列
3、常用参数如下：

先看一下数据表

删除行：

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件015-016\删除.xlsx'
data = pd.read_excel(path,index_col='序号')
print(data.drop(2)) # 删除单行，直接写行标签
print('==='*20)
print(data.drop(labels=[1,3])) # 删除多行，使用labels，标签写成列表

运行结果为:

     姓名    语文    数学    英语
序号                       
1   丁智敏  35.0  57.0  43.0
3    王刚   NaN  67.0  55.0
4    王松  49.0  36.0  54.0
5   卢海军   NaN   NaN   NaN
6    张伊  38.0  56.0  36.0
7   张荣耀  51.0   NaN  65.0
8   王夏卓  35.0  51.0  43.0
9    杨赛  66.0  64.0  34.0
10  马志理  52.0  51.0  66.0
============================================================
     姓名    语文    数学    英语
序号                       
2   李平平   NaN   NaN   NaN
4    王松  49.0  36.0  54.0
5   卢海军   NaN   NaN   NaN
6    张伊  38.0  56.0  36.0
7   张荣耀  51.0   NaN  65.0
8   王夏卓  35.0  51.0  43.0
9    杨赛  66.0  64.0  34.0
10  马志理  52.0  51.0  66.0

删除列：

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件015-016\删除.xlsx'
data = pd.read_excel(path,index_col='序号')
print(data.drop('语文',axis=1)) # 删除单列
print('==='*20)
print(data.drop(labels=['语文','数学'],axis=1)) # 删除多列

运行结果为:

     姓名    数学    英语
序号                 
1   丁智敏  57.0  43.0
2   李平平   NaN   NaN
3    王刚  67.0  55.0
4    王松  36.0  54.0
5   卢海军   NaN   NaN
6    张伊  56.0  36.0
7   张荣耀   NaN  65.0
8   王夏卓  51.0  43.0
9    杨赛  64.0  34.0
10  马志理  51.0  66.0
============================================================
     姓名    英语
序号           
1   丁智敏  43.0
2   李平平   NaN
3    王刚  55.0
4    王松  54.0
5   卢海军   NaN
6    张伊  36.0
7   张荣耀  65.0
8   王夏卓  43.0
9    杨赛  34.0
10  马志理  66.0

1.1.1 drop函数的使用：inplace参数

注意：凡是会对原数组作出修改并返回一个新数组的，往往都有一个 inplace可选参数。如果手动设定为True（默认为False），那么原数组直接就被替换。
而采用inplace=False之后，原数组名对应的内存值并不改变，需要将新的结果赋给一个新的数组或者覆盖原数组的内存位置。

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件015-016\删除.xlsx'
data = pd.read_excel(path,index_col='序号')
print('==='*20)
data.drop(labels=['语文','数学'],axis=1,inplace=True)
print(data)

运行结果为:

============================================================
     姓名    英语
序号           
1   丁智敏  43.0
2   李平平   NaN
3    王刚  55.0
4    王松  54.0
5   卢海军   NaN
6    张伊  36.0
7   张荣耀  65.0
8   王夏卓  43.0
9    杨赛  34.0
10  马志理  66.0

1.2 查看缺失值

案例:

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件015-016\删除.xlsx'
data = pd.read_excel(path,index_col='序号')
print(data.isnull()) # 是缺失值就显示为T
print('==='*20)
print(data.notnull()) # 不是缺失值就显示为T

运行结果为:

       姓名     语文     数学     英语
序号                            
1   False  False  False  False
2   False   True   True   True
3   False   True  False  False
4   False  False  False  False
5   False   True   True   True
6   False  False  False  False
7   False  False   True  False
8   False  False  False  False
9   False  False  False  False
10  False  False  False  False
============================================================
      姓名     语文     数学     英语
序号                           
1   True   True   True   True
2   True  False  False  False
3   True  False   True   True
4   True   True   True   True
5   True  False  False  False
6   True   True   True   True
7   True   True  False   True
8   True   True   True   True
9   True   True   True   True
10  True   True   True   True

1.3 缺失值处理

格式:

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

参数说明:

axis:
axis=0: 删除包含缺失值的行
axis=1: 删除包含缺失值的列
how: 与axis配合使用
how=‘any’ :只要有缺失值出现，就删除该行或列
how=‘all’: 所有的值都缺失，才删除行或列
thresh： axis中至少有thresh个非缺失值，否则删除
比如 axis=0，thresh=10：标识如果该行中非缺失值的数量小于10，将删除这一行
subset: list

在哪些列中查看是否有缺失值
inplace: 是否在原数据上操作。如果为真，返回None否则返回新的copy，去掉了缺失值

1.3.1 去掉含有缺失值的行和列

案例:

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件015-016\删除.xlsx'
data = pd.read_excel(path,index_col='序号')
print(data.dropna()) # 删除有空值的行
print('==='*20)
print(data.dropna(axis=1)) # 删除有空值的列
print('==='*20)
print(data.dropna(how='all')) # 删除所有值为Nan的行
print('==='*20)
print(data.dropna(thresh=2)) # 至少保留两个非缺失值
print('==='*20)
print(data.dropna(subset=['语文','数学'])) # 在哪些列表中查看

运行结果为:

     姓名    语文    数学    英语
序号                       
1   丁智敏  35.0  57.0  43.0
4    王松  49.0  36.0  54.0
6    张伊  38.0  56.0  36.0
8   王夏卓  35.0  51.0  43.0
9    杨赛  66.0  64.0  34.0
10  马志理  52.0  51.0  66.0
============================================================
     姓名
序号     
1   丁智敏
2   李平平
3    王刚
4    王松
5   卢海军
6    张伊
7   张荣耀
8   王夏卓
9    杨赛
10  马志理
============================================================
     姓名    语文    数学    英语
序号                       
1   丁智敏  35.0  57.0  43.0
2   李平平   NaN   NaN   NaN
3    王刚   NaN  67.0  55.0
4    王松  49.0  36.0  54.0
5   卢海军   NaN   NaN   NaN
6    张伊  38.0  56.0  36.0
7   张荣耀  51.0   NaN  65.0
8   王夏卓  35.0  51.0  43.0
9    杨赛  66.0  64.0  34.0
10  马志理  52.0  51.0  66.0
============================================================
     姓名    语文    数学    英语
序号                       
1   丁智敏  35.0  57.0  43.0
3    王刚   NaN  67.0  55.0
4    王松  49.0  36.0  54.0
6    张伊  38.0  56.0  36.0
7   张荣耀  51.0   NaN  65.0
8   王夏卓  35.0  51.0  43.0
9    杨赛  66.0  64.0  34.0
10  马志理  52.0  51.0  66.0
============================================================
     姓名    语文    数学    英语
序号                       
1   丁智敏  35.0  57.0  43.0
4    王松  49.0  36.0  54.0
6    张伊  38.0  56.0  36.0
8   王夏卓  35.0  51.0  43.0
9    杨赛  66.0  64.0  34.0
10  马志理  52.0  51.0  66.0

1.3.2 将缺失值用某些值填充（0，平均值，中值等）

格式:

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

参数说明:

value: scalar, dict, Series, or DataFrame
dict 可以指定每一行或列用什么值填充
method： {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None
在列上操作
ffill / pad: 使用前一个值来填充缺失值
backfill / bfill:使用后一个值来填充缺失值
limit填充的缺失值个数限制。应该不怎么用

1.3.3 填充常数

案例:

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件015-016\删除.xlsx'
data = pd.read_excel(path,index_col='序号')
print(data.fillna(0)) # 用常数填充
print('==='*20)
print(data.fillna({'语文':0.1,'数学':0.2,'英语':0.3})) # 通过字典填充不同的常数

运行结果为:

     姓名    语文    数学    英语
序号                       
1   丁智敏  35.0  57.0  43.0
2   李平平   0.0   0.0   0.0
3    王刚   0.0  67.0  55.0
4    王松  49.0  36.0  54.0
5   卢海军   0.0   0.0   0.0
6    张伊  38.0  56.0  36.0
7   张荣耀  51.0   0.0  65.0
8   王夏卓  35.0  51.0  43.0
9    杨赛  66.0  64.0  34.0
10  马志理  52.0  51.0  66.0
============================================================
     姓名    语文    数学    英语
序号                       
1   丁智敏  35.0  57.0  43.0
2   李平平   0.1   0.2   0.3
3    王刚   0.1  67.0  55.0
4    王松  49.0  36.0  54.0
5   卢海军   0.1   0.2   0.3
6    张伊  38.0  56.0  36.0
7   张荣耀  51.0   0.2  65.0
8   王夏卓  35.0  51.0  43.0
9    杨赛  66.0  64.0  34.0
10  马志理  52.0  51.0  66.0

1.3.4 填充方式

ffill	用前面的值填充
bfill	用后面的值填充
pad	向后填充
backfill	向前填充

先看一下数据:

案例:

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件015-016\填充.xlsx'
data = pd.read_excel(path)
data = pd.read_excel(path)
print(data.fillna(method='ffill'))

运行结果为:

     a    b    c
0  1.0  2.0  3.0
1  1.0  2.0  3.0
2  1.0  2.0  3.0
3  1.0  2.0  3.0
4  5.0  6.0  7.0

1.3.5 限制填充数量

例如：只替换第1个值

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件015-016\填充.xlsx'
data = pd.read_excel(path)
print(data.fillna(method='ffill',limit=1))

运行结果为:

     a    b    c
0  1.0  2.0  3.0
1  1.0  2.0  3.0
2  NaN  NaN  NaN
3  NaN  NaN  NaN
4  5.0  6.0  7.0

二. 数学统计函数

2.1 数学统计函数表

2.2 describe 数据值列汇总

先看一下数据:

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件017\数据统计.xlsx'
data = pd.read_excel(path,index_col='序号')
print(data.fillna(method='ffill',limit=1))

运行结果为:

    姓名 性别  语文  数学  英语
序号                   
1   张三  男  89  60  88
2   李四  女  60  71  98
3   王五  男  73  84  68
4   小孙  男  85  96  96
5   小刘  女  70  63  97
6   小赵  女  63  63  91

只看一列

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件017\数据统计.xlsx'
data = pd.read_excel(path,index_col='序号')
print(data['语文'].describe())

运行结果为:

count     6.000000
mean     73.333333
std      11.639015
min      60.000000
25%      64.750000
50%      71.500000
75%      82.000000
max      89.000000
Name: 语文, dtype: float64

三. 重复数据的处理

先看一下数据:

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件018\去重.xlsx'
data = pd.read_excel(path,index_col='序号')
print(data['姓名'].unique()) # 唯一值，以一个列表出现
print('=='*20)
print(data['姓名'].value_counts()) # 姓名出现过几次

运行结果为:

['杨过' '小龙女' '张三丰' '郭靖' '张无忌']
========================================
杨过     2
郭靖     2
小龙女    2
张三丰    1
张无忌    1
Name: 姓名, dtype: int64

3.1 删除重复值

删除重复的方法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数说明:

keep：指定处理重复值的方法：
first：保留第一次出现的值
last：保留最后一次出现的值
False：删除所有重复值，留下没有出现过重复的
subset：用来指定特定的列，默认是所有列
inplace：是直接在原来数据上修改还是保留一个副本

案例:

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件018\去重.xlsx'
data = pd.read_excel(path,index_col='序号')
print(data.drop_duplicates(subset=['姓名'],keep='first'))

运行结果为:

     姓名 性别  分数
序号            
1    杨过  男  90
3   小龙女  女  93
5   张三丰  男  88
6    郭靖  男  87
8   张无忌  男  89

3.2 提取重复

格式:

DataFrame.duplicated(subset=None, keep='first')

参数说明:

keep：指定处理重复值的方法：
first：保留第一次出现的值
last：保留最后一次出现的值
False：删除所有重复值，留下没有出现过重复的
subset：用来指定特定的列，默认是所有列
inplace：是直接在原来数据上修改还是保留一个副本

案例:

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件018\去重.xlsx'
data = pd.read_excel(path,index_col='序号')
print(data.duplicated()) # 判断重复行
print('=='*20)
print(data.duplicated(subset='姓名')) # 判断某列重复数据
print('=='*20)
重复 = data.duplicated(subset='姓名')
print(data[重复]) # 提取重复

运行结果为:

序号
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
dtype: bool
========================================
序号
1    False
2     True
3    False
4     True
5    False
6    False
7     True
8    False
dtype: bool
========================================
     姓名 性别  分数
序号            
2    杨过  男  89
4   小龙女  女  91
7    郭靖  男  90

四. 算数运算与数据对齐

算数运算无非就是加减乘除，但是需要注意2点：

空值与数字进行计算，结果是空值！
对除数为0的处理：
1/0 = inf 无穷大
-1/0 = -inf 负无穷大
0/0 = Nan

4.1 处理空值

案例:

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件019\计算.xlsx'
data = pd.read_excel(path)
result = data['1店'] + data['2店']
print(result)

运行结果为:

无论加减乘除，结果都是空值与数字计算等于空值

0    8.0
1    NaN
2    NaN
dtype: float64

方法一：将空值填充为0

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件019\计算.xlsx'
data = pd.read_excel(path)
result = data['1店'].fillna(0) + data['2店'].fillna(0)
print(result)

运行结果为:

0    8.0
1    1.0
2    1.0
dtype: float64

方法二：灵活算术法

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件019\计算.xlsx'
data = pd.read_excel(path)
result = data['1店'].add(data['2店'],fill_value=0)
print(result)

运行结果为:

0    8.0
1    1.0
2    1.0
dtype: float64

方法	反转方法	描述
add	radd	加法
sub	rsub	减法
div	rdiv	除法
floordiv	rfloordiv	整除
mul	rmul	乘法
pow	rpow	幂次方

4.2 处理inf无穷大

如果想将inf或-inf当成NaN,可以通过以下设置

pandas.options.mode.use_inf_as_na = True

案例:

import pandas as pd
pd.options.mode.use_inf_as_na = True
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件019\无穷大.xlsx'
data = pd.read_excel(path)
result = data['1店'].div(data['2店'],fill_value=0)
print(result)

运行结果为:

0    NaN
1    NaN
2    NaN
3    1.0
dtype: float64

4.3 数据对齐

数据对齐：是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补NaN，最后也可以填充NaN
在Excel通常是先Vlookup然后再加减乘除，Pandas省去了这个过程，直接计算

先看一下数据:

案例:

import pandas as pd
path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件019\对齐.xlsx'
data1 = pd.read_excel(path,index_col='序号',sheet_name='Sheet1')
data2 = pd.read_excel(path,index_col='序号',sheet_name='Sheet2')
result = data1.add(data2,fill_value=0)
print(result.fillna(0))

运行结果为:

      t      x      y      z
序号                          
a   0.0  100.0  101.0  102.0
b   5.0  200.0  203.0  206.0
c   3.0    0.0    1.0    2.0

五. 分层索引与计算

分层索引：就是在一个轴上拥有多个（两个以上）索引级别，使用户能以低维度形式处理高维度数据.

levels	每个等级上轴标签的唯一值
labels	以整数来表示每个level上标签的位置
sortorder	按照指定level上的标签名称的字典顺序进行排序（可选参数）
names	index level的名称
copy	布尔值，默认为False。是否拷贝元数据产生新的对象
verify_integrity	布尔值，默认为Ture。检查levels/labels是否持续有效

案例:

import pandas as pd
path= r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件020\多层索引.xlsx'
data= pd.read_excel(path,index_col=[0,1],sheet_name='有序')
print(data)
print('=='*20)
print(data.index)
print('=='*20)
print(data.index.levels[0]) # 对应外层索引
print('=='*20)
print(data.index.levels[1]) # 对应内层索引

运行结果为:

       分数
班级 学号    
1班 a    1
   b    2
   c    3
2班 a    4
   b    5
   c    6
3班 a    7
   b    8
========================================
MultiIndex([('1班', 'a'),
            ('1班', 'b'),
            ('1班', 'c'),
            ('2班', 'a'),
            ('2班', 'b'),
            ('2班', 'c'),
            ('3班', 'a'),
            ('3班', 'b')],
           names=['班级', '学号'])
========================================
Index(['1班', '2班', '3班'], dtype='object', name='班级')
========================================
Index(['a', 'b', 'c'], dtype='object', name='学号')

5.1 分层索引设置与查询

1.index为有序的

import pandas as pd
path= r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件020\多层索引.xlsx'
data= pd.read_excel(path,index_col=[0,1],sheet_name='有序')
data2 = data.loc[('1班',slice(None)),:] # 切片筛选index
print(data2)

运行结果为:

       分数
班级 学号    
1班 a    1
   b    2
   c    3

2.index为无序

前面的例子对应的index列为数字或字母，是有序的，接下来我们看看index列为中文的情况

import pandas as pd
path= r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件020\多层索引.xlsx'
data = pd.read_excel(path,index_col=[0,1],sheet_name='无序') # 设置分层索引
# 数据 = 数据.set_index('课程','得分') # 也可以这样设置分层索引
# 数据2 = 数据.loc[('语文',slice(None)),:] # 不能使用这种方法，因为科目是无序的
print(data.index.is_lexsorted()) # 检查index是否有序
# 接下来，我们尝试对Index进行排序。（排序时要在level里指定index名）
data = data.sort_index(level='科目')
data2 = data.loc[('语文',slice(None)),:]
print(data2)

运行结果为:

False
       分数
科目 得分    
语文 最低  50
   最高  90

5.2 多层索引的创建的方式【行】

from_arrays	接收一个多维数组参数，高维指定高层索引，低维指定底层索引
from_tuples	接收一个元组的列表，每个元组指定每个索引（高维索引，低维索引）
from_product	接收一个可迭代对象的列表，根据多个可迭代对象元素的笛卡尔积进行创建索引

注：from_product相对于前两个方法而言，实现相对简单，但是，也存在局限。

1.from_arrays方法

from_arrays 参数为一个二维数组，每个元素（一维数组）来分别制定每层索引的内容

案例:

import pandas as pd
data = pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]],names=['x','y'])
print(data)

运行结果为:

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           names=['x', 'y'])

2.from_tuples方法

from_tuples 参数为一个（嵌套的）可迭代对象,元素为元祖类型。元祖的格式为：(高层索引内容，低层索引内容)

案例:

import pandas as pd
data = pd.MultiIndex.from_tuples([('a',1),('a',2),('b',1),('b',2)],names=['x','y'])
print(data)

运行结果为:

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           names=['x', 'y'])

3.from_product方法

使用笛卡尔积的方式来创建多层索引。参数为嵌套的可迭代对象。结果为使用每个一维数组中的元素与其他一维数组中的元素来生成索引内容。

案例:

import pandas as pd
data = pd.MultiIndex.from_product([['a', 'b'], [1, 2]],names=['x','y'])
print(data)

运行结果为:

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           names=['x', 'y'])

注：如果不在MultiIndex中设置索引名，也可以事后设置

5.3 多层索引的创建的方式【列】

在DataFrame中，行和列是完全对称的，就像行可以有多个索引层次一样，列也可以有多个层次。

案例:

import pandas as pd
import numpy as np
index = pd.MultiIndex.from_product([[2019, 2020], [5, 6]],names=['年', '月'])
columns = pd.MultiIndex.from_product([['香蕉', '苹果'], ['土豆', '茄子']],names=['水果', '蔬菜'])
data = pd.DataFrame(np.random.random(size=(4, 4)), index=index, columns=columns) 
print(data)

运行结果为:

水果            香蕉                  苹果          
蔬菜            土豆        茄子        土豆        茄子
年    月                                        
2019 5  0.098798  0.101808  0.284840  0.800074
     6  0.202283  0.144098  0.851228  0.662407
2020 5  0.403155  0.158876  0.626379  0.222655
     6  0.487665  0.452485  0.137461  0.197541

5.4 分层索引计算

多层索引：允许你在一个轴上有多个索引。

案例:

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件020\销售.xlsx'
data = pd.read_excel(path,header=[0,1]) # 设置前2行是表头，笔记2.1.2
# print(数据.columns)
# 结果1 = 数据[('土豆', '销量')]+数据[('倭瓜', '销量')] # 通过两层索引相加
# print(结果1)
# 结果2 = 数据['土豆'] +数据['倭瓜'] # 通过第一层索引相加
# print(结果2)
sum = data['土豆']+data['倭瓜']
# print(总计) # 单层索引与多层索引无法拼接
sum.columns = pd.MultiIndex.from_product([['合计'],sum.columns])
# print(总计)
result =pd.concat([data,sum],axis=1) # 横向拼接，笔记4.3.3
print(result)

运行结果为:

  土豆     倭瓜     合计    
   销量 毛利  销量 毛利  销量  毛利
0  10  5  20  6  30  11
1  11  4  30  5  41   9

附：MultiIndex参数表

六. 数据替换

前面我们使用fillna填充缺失值替换属于特殊案例。

6.1 替换全部或者某一行

先查看一下数据

6.1.1 整个表全部替换

把城八区替换为海淀区

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件021\替换.xlsx'
data = pd.read_excel(path)
data.replace('城八区','海淀区',inplace=True)
print(data)

运行结果为:

   国家   省市   城市  城市2   数值
0  中国   北京  海淀区  海淀区  100
1  中国   北京  海淀区  海淀区    A
2  中国  NaN  海淀区  海淀区    B
3  中国   北京  海淀区  海淀区    A
4  中国   北京  海淀区  海淀区    B
5  中国   北京  海淀区  海淀区    C
6  中国   北京  海淀区  海淀区    D
7  中国   北京  海淀区  海淀区    E
8  中国   北京  海淀区  海淀区    F
9  中国   北京  海淀区  海淀区    G

6.1.2 某一行替换

把城市二的城八区替换为海淀区

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件021\替换.xlsx'
data = pd.read_excel(path)
data['城市2'].replace('城八区','海淀区',inplace=True)
print(data)

运行结果为:

   国家   省市   城市  城市2   数值
0  中国   北京  城八区  海淀区  100
1  中国   北京  城八区  海淀区    A
2  中国  NaN  城八区  海淀区    B
3  中国   北京  城八区  海淀区    A
4  中国   北京  城八区  海淀区    B
5  中国   北京  城八区  海淀区    C
6  中国   北京  城八区  海淀区    D
7  中国   北京  城八区  海淀区    E
8  中国   北京  城八区  海淀区    F
9  中国   北京  城八区  海淀区    G

6.2 替换指定的某个或多个数值（用字典的形式）

个人推荐使用字典的方式

将 A 的值替换为 20, B 替换为 30

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件021\替换.xlsx'
data = pd.read_excel(path)
dict1 = {'A':20,'B':30}
data.replace(dict1,inplace=True)
print(data)

运行结果为:

   国家   省市   城市  城市2   数值
0  中国   北京  城八区  城八区  100
1  中国   北京  城八区  城八区   20
2  中国  NaN  城八区  城八区   30
3  中国   北京  城八区  城八区   20
4  中国   北京  城八区  城八区   30
5  中国   北京  城八区  城八区    C
6  中国   北京  城八区  城八区    D
7  中国   北京  城八区  城八区    E
8  中国   北京  城八区  城八区    F
9  中国   北京  城八区  城八区    G

这个很好理解，就是字典里的建作为原值，字典里的值作为替换的新值。

也可以用列表的方式：

运行结果和上面一样

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件021\替换.xlsx'
data = pd.read_excel(path)
data.replace(['A','B'],[20,30],inplace=True)
print(data)

进阶：如果想要替换的新值是一样的话
这种情况推荐用列表

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件021\替换.xlsx'
data = pd.read_excel(path)
data.replace(['A','B'],30,inplace=True)
print(data)

运行结果为:

   国家   省市   城市  城市2   数值
0  中国   北京  城八区  城八区  100
1  中国   北京  城八区  城八区   30
2  中国  NaN  城八区  城八区   30
3  中国   北京  城八区  城八区   30
4  中国   北京  城八区  城八区   30
5  中国   北京  城八区  城八区    C
6  中国   北京  城八区  城八区    D
7  中国   北京  城八区  城八区    E
8  中国   北京  城八区  城八区    F
9  中国   北京  城八区  城八区    G

6.3 替换某个数据部分内容

把城市列的城八字段替换为市

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件021\替换.xlsx'
data = pd.read_excel(path)
data['城市'] = data['城市'].str.replace('城八','市')
print(data)

运行结果为:

   国家   省市  城市  城市2   数值
0  中国   北京  市区  城八区  100
1  中国   北京  市区  城八区    A
2  中国  NaN  市区  城八区    B
3  中国   北京  市区  城八区    A
4  中国   北京  市区  城八区    B
5  中国   北京  市区  城八区    C
6  中国   北京  市区  城八区    D
7  中国   北京  市区  城八区    E
8  中国   北京  市区  城八区    F
9  中国   北京  市区  城八区    G

6.4 正则表达式替换

将字母A-Z全替换为 88

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件021\替换.xlsx'
data = pd.read_excel(path)
data.replace('[A-Z]',88,regex=True,inplace=True)
print(data)

运行结果为:

   国家   省市   城市  城市2   数值
0  中国   北京  城八区  城八区  100
1  中国   北京  城八区  城八区   88
2  中国  NaN  城八区  城八区   88
3  中国   北京  城八区  城八区   88
4  中国   北京  城八区  城八区   88
5  中国   北京  城八区  城八区   88
6  中国   北京  城八区  城八区   88
7  中国   北京  城八区  城八区   88
8  中国   北京  城八区  城八区   88
9  中国   北京  城八区  城八区   88

七. 离散化和分箱

后期我们会接触到机械学习，人工智能，神经网络
机械学习中的分箱处理
在机械学习中，我们经常会对数据进行分箱处理的操作，也就是把一段连续的值切分成若干段，每一段的值看成一个分类。这个把连续值转换成离散值的过程，我们
叫做分箱处理。
比如，把年龄按15岁划分成一组，0-15岁叫做少年，16-30岁叫做青年，31-45岁叫做壮年。在这个过程中，我们把连续的年龄分成了三个类别，“少年”，“青年”和“壮年”
就是各个类别的名称，或者叫做标签。

cut和qcut函数的基本介绍

在pandas中，cut和qcut函数都可以进行分箱处理操作。其中cut函数是按照数据的值进行分割，而qcut函数则是根据数据本身的数量来对数据进行分割。

cut格式:

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)

参数说明:

x，类array对象，且必须为一维，待切割的原形式

bins, 整数、序列尺度、或间隔索引。如果bins是一个整数，它定义了x宽度范围内的等宽面元数量，但是在这种情况下，x的范围在每个边上被延长1%，以保证包
括x的最小值或最大值。如果bin是序列，它定义了允许非均匀bin宽度的bin边缘。在这种情况下没有x的范围的扩展

right,布尔值。是否是左开右闭区间

labels,用作结果箱的标签。必须与结果箱相同长度。如果FALSE，只返回整数指标面元。

retbins,布尔值。是否返回面元

precision，整数。返回面元的小数点几位

include_lowest，布尔值。第一个区间的左端点是否包含

返回值：

若labels为False则返回整数填充的Categorical或数组或Series
若retbins为True还返回用浮点数填充的N维数组

qcut 格式

pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')

参数说明:

1.x
2.q,整数或分位数组成的数组。
3.labels,
4.retbins
5.precisoon
6.duplicates
结果中超过边界的值将会变成NA

7.1 指定分界点分箱【cut】

Python实现连续数据的离散化处理主要基于两个函数：
pandas.cut和pandas.qcut，pandas.cut根据指定分界点对连续数据进行分箱处理
pandas.qcut可以指定箱子的数量对连续数据进行等宽分箱处理
（注意：所谓等宽指的是每个箱子中的数据量是相同的）

案例:

import pandas as pd
year = [1992, 1983, 1922, 1932, 1973] # 待分箱数据
box = [1900, 1950, 2000] # 指定箱子的分界点
result = pd.cut(year, box)
print(result)

运行结果为:

结果说明：其中(1950, 2000]说明【年份】列表的第一个值1992位于(1950, 2000]区间

[(1950, 2000], (1950, 2000], (1900, 1950], (1900, 1950], (1950, 2000]]
Categories (2, interval[int64]): [(1900, 1950] < (1950, 2000]]

对不同箱子中的数进行计数

print(pd.value_counts(result)) # 对不同箱子中的数进行计数

运行结果为:

(1950, 2000]    3
(1900, 1950]    2
dtype: int64

labels参数为False时，返回结果中用不同的整数作为箱子的指示符

result2 = pd.cut(year, box,labels=False)
# 输出结果中的数字对应着不同的箱子
print(result2)

运行结果为:

[1 1 0 0 1]

结果说明：其中 1 说明【年份】列表的第一个值1992位于(1950, 2000]区间
其中 0 说明【年份】列表的第一个值1922位于(1900, 1950]区间

案例:

import pandas as pd
year = [1992, 1983, 1922, 1932, 1973] # 待分箱数据
box = [1900, 1950, 2000] # 指定箱子的分界点
# 可以将想要指定给不同箱子的标签传递给labels参数
name = [ '50年代前', '50年代后']
result = pd.cut(year, box, labels=name)
print(pd.value_counts(result))

运行结果为:

50年代后    3
50年代前    2
dtype: int64

7.2 等频分箱【qcut】

import pandas as pd
year = [1992, 1983, 1922, 1932, 1973, 1999, 1993, 1995] # 待分箱数据
result = pd.qcut(year,q=4) # 参数q指定所分箱子的数量
# 从输出结果可以看到每个箱子中的数据量时相同的
print(result)
print('=='*20)
print(pd.value_counts(result)) # 从输出结果可以看到每个箱子中的数据量时相同的

运行结果为:

[(1987.5, 1993.5], (1962.75, 1987.5], (1921.999, 1962.75], (1921.999, 1962.75], (1962.75, 1987.5], (1993.5, 1999.0], (1987.5, 1993.5], (1993.5, 1999.0]]
Categories (4, interval[float64]): [(1921.999, 1962.75] < (1962.75, 1987.5] < (1987.5, 1993.5] < (1993.5, 1999.0]]
========================================
(1993.5, 1999.0]       2
(1987.5, 1993.5]       2
(1962.75, 1987.5]      2
(1921.999, 1962.75]    2
dtype: int64

八. 字符串操作

先看一下数据

8.1 字符串对象方法

8.1.1 cat 和指定字符进行拼接

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['姓名'].str.cat()) # 不指定参数，所有姓名拼接
print('==='*20)
print(data['姓名'].str.cat(sep='、'))
print('==='*20)
print(data['姓名'].str.cat(['变身'] * len(data)))
print('==='*20)
# ['变身'] * len(数据) 相当于 ['变身'] * 6次
print(data['姓名'].str.cat(['变身'] * len(data),sep='^'))
# 如果一方为NaN,结果也为NaN,因此我们可以指定na_rep,表示将NaN用na_rep替换

运行结果为:

丁智敏李平平王松卢海军王刚
============================================================
丁智敏、李平平、王松、卢海军、王刚
============================================================
0    丁智敏变身
1    李平平变身
2     王松变身
3    卢海军变身
4     王刚变身
5      NaN
Name: 姓名, dtype: object
============================================================
0    丁智敏^变身
1    李平平^变身
2     王松^变身
3    卢海军^变身
4     王刚^变身
5       NaN
Name: 姓名, dtype: object

8.1.2 split 按照指定字符串分隔

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['状态'].str.split()) # 不指定分隔符，就是一列表
print('==='*20)
print(data['状态'].str.split('血')) # 和python内置split一样
print('==='*20)
print(data['状态'].str.split('血',n=-1)) # 指定n，表示分隔次数，默认是-1，全部分隔
print('==='*20)
print(data['状态'].str.split('血',expand=True))

运行结果为:

0    [满血激活]
1    [零血销毁]
2    [满血激活]
3    [零血销毁]
4    [零血销毁]
5       NaN
Name: 状态, dtype: object
============================================================
0    [满, 激活]
1    [零, 销毁]
2    [满, 激活]
3    [零, 销毁]
4    [零, 销毁]
5        NaN
Name: 状态, dtype: object
============================================================
0    [满, 激活]
1    [零, 销毁]
2    [满, 激活]
3    [零, 销毁]
4    [零, 销毁]
5        NaN
Name: 状态, dtype: object
============================================================
     0    1
0    满   激活
1    零   销毁
2    满   激活
3    零   销毁
4    零   销毁
5  NaN  NaN

# 注意这个expand，默认是False，得到是一个列表
# 如果指定为True，会将列表打开，变成多列，变成DATAFrame
# 列名则是按照0 1 2 3····的顺序，并且默认Nan值分隔后还是为Nan
# 如果分隔符不存在，还是返回DATAFrame

rsplit
和split用法一致，只不过默认是从右往左分隔

8.1.3 partition 按照指定字符分割

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['状态'].str.partition('血'))
print('==='*20)
# partition只会分隔一次
# 第一个元素：第一个分隔符之前的部分
# 第二个元素：分隔符本身
# 第三个元素：第一个分隔符之后的内容
# 如果有多个分隔符，也只会按照第一个分隔符分隔
print('BbBbB'.partition('b'))
print('==='*20)
print((data['状态'].str.partition('平')))
print('==='*20)
print((data['状态'].str.partition()))
# 上面两个情况结果是一样的

运行结果为:

     0    1    2
0    满    血   激活
1    零    血   销毁
2    满    血   激活
3    零    血   销毁
4    零    血   销毁
5  NaN  NaN  NaN
============================================================
('B', 'b', 'BbB')
============================================================
      0    1    2
0  满血激活          
1  零血销毁          
2  满血激活          
3  零血销毁          
4  零血销毁          
5   NaN  NaN  NaN
============================================================
      0    1    2
0  满血激活          
1  零血销毁          
2  满血激活          
3  零血销毁          
4  零血销毁          
5   NaN  NaN  NaN

rpartition
和partition类似，不过是默认是从右往左找到第一个分隔符

8.1.4 get 获取指定位置的字符，只能获取1个

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['状态'].str.get(2)) # 获取指定索引的字符，只能传入int

运行结果为:

0      激
1      销
2      激
3      销
4      销
5    NaN
Name: 状态, dtype: object

# 如果全部越界，那么None也为NaN，并且整体是float64类型
# 如果pandas用的时间比较长的话，一定会遇见该问题
# 像数据库、excel、csv等等，原来的类型明明为整型，但是读成DataFrame之后变成浮点型了
# 就是因为含有空值，变成float了。
"""
如果是object类型(或者理解为str)，空值可以是None，也可以是NaN,但不可以是NaT
对于整型来说，如果含有空值，那么空值为NaN。
对于时间类型来说，如果含有空值，那么空值为NaT。
即使你想转化也是没用的，如果想把NaN或者NaT变成None，只有先变成object(str)类型，才可以转化
"""

8.1.5 slice获取指定范围的字

slice 和python内置的slice一样。get相当于是[n],slice相当于是[m: n]

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['状态'].str.slice(0)) # 指定一个值的话，相当于[m:]
print('==='*30)
print(data['状态'].str.slice(0,3)) # 相当于[m:n],从0开始不包括3
print('==='*30)
print(data['状态'].str.slice(0,3,2)) # 相当于[m: n: step]
print('==='*30)
print(data['状态'].str.slice(5,9,2)) # 索引越界，默认为空字符串，原来Nan还是Nan

运行结果为:

0    满血激活
1    零血销毁
2    满血激活
3    零血销毁
4    零血销毁
5     NaN
Name: 状态, dtype: object
==========================================================================================
0    满血激
1    零血销
2    满血激
3    零血销
4    零血销
5    NaN
Name: 状态, dtype: object
==========================================================================================
0     满激
1     零销
2     满激
3     零销
4     零销
5    NaN
Name: 状态, dtype: object
==========================================================================================
0       
1       
2       
3       
4       
5    NaN
Name: 状态, dtype: object

8.1.6 slice_replace 筛选出来之后替换

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['状态'].str.slice_replace(1,3,"520"))
# 将slice为[1:3]的内容换成"distance"，既然替换，所以这里不支持步长

运行结果为:

0    满520活
1    零520毁
2    满520活
3    零520毁
4    零520毁
5      NaN
Name: 状态, dtype: object

8.1.7 join 将每个字符之间使用指定字符相连

join 将每个字符之间使用指定字符相连，相当于sep.join(list(value))

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['状态'].str.join('a'))

运行结果为:

0    满a血a激a活
1    零a血a销a毁
2    满a血a激a活
3    零a血a销a毁
4    零a血a销a毁
5        NaN
Name: 状态, dtype: object

8.1.8 contains 判断字符串是否含有指定子串，返回的是bool类型

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['状态'].str.contains('血')) # NaN还是返回Nan
print('==='*20)
print(data['状态'].str.contains('血',na=False))
print('==='*20)
print(data['状态'].str.contains('血',na=True))
print('==='*20)
print(data['状态'].str.contains('血',na="没有"))

运行结果为:

0    True
1    True
2    True
3    True
4    True
5     NaN
Name: 状态, dtype: object
============================================================
0     True
1     True
2     True
3     True
4     True
5    False
Name: 状态, dtype: bool
============================================================
0    True
1    True
2    True
3    True
4    True
5    True
Name: 状态, dtype: bool
============================================================
0    True
1    True
2    True
3    True
4    True
5      没有
Name: 状态, dtype: object

8.1.9 startswith 是否某个子串开头

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['状态'].str.startswith('满'))
# NaN还是返回Nan，可按照 na= False 或 na = True 替换

运行结果为:

0     True
1    False
2     True
3    False
4    False
5      NaN
Name: 状态, dtype: object

8.1.10 endswith 判断是否以某个子串结尾

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['状态'].str.endswith('满'))
# NaN还是返回Nan，可按照 na= False 或 na = True 替换

运行结果为:

0    False
1    False
2    False
3    False
4    False
5      NaN
Name: 状态, dtype: object

8.1.11 repeat 重复字符串

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['姓名'].str.repeat(3)) # 把姓名重复3次

运行结果为:

0    丁智敏丁智敏丁智敏
1    李平平李平平李平平
2       王松王松王松
3    卢海军卢海军卢海军
4       王刚王刚王刚
5          NaN
Name: 姓名, dtype: object

8.1.12 pad 将每一个元素都用指定的字符填充，记住只能是一个字符

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
# 表示要占5个长度，用"&"填充,默认填在左边的
print(data['姓名'].str.pad(5,fillchar='&'))
print('==='*20)
# 表示要占5个长度，用"&"填充,指定填在右边
print(data["姓名"].str.pad(5, fillchar="<", side="right"))
print('==='*20)
# 指定side为both，会填在两端
print(data["姓名"].str.pad(5, fillchar="<", side="both"))

运行结果为:

0    &&丁智敏
1    &&李平平
2    &&&王松
3    &&卢海军
4    &&&王刚
5      NaN
Name: 姓名, dtype: object
============================================================
0    丁智敏<<
1    李平平<<
2    王松<<<
3    卢海军<<
4    王刚<<<
5      NaN
Name: 姓名, dtype: object
============================================================
0    <丁智敏<
1    <李平平<
2    <<王松<
3    <卢海军<
4    <<王刚<
5      NaN
Name: 姓名, dtype: object

# 这三个是有pad变来的
"""
center(5, fillchar="<") <==> pad(5, size="both", fillchar="<")
ljust(5, fillchar="<") <==> pad(5, size="right", fillchar="<")
rjust(5, fillchar="<") <==> pad(5, size="left", fillchar="<")
"""

8.1.13 zfill 填充，只能是0，从左边填充

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['姓名'].str.zfill(10))

运行结果为:

0    0000000丁智敏
1    0000000李平平
2    00000000王松
3    0000000卢海军
4    00000000王刚
5           NaN
Name: 姓名, dtype: object

8.1.14 strip 按照指定内容，从两边去除

strip按照指定内容，从两边去除，和python字符串内置的
strip一样

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['里程'].str.strip("中远近离"))

运行结果为:

0      距
1      距
2      距
3      距
4      距
5    NaN
Name: 里程, dtype: object

lstrip 和rstrip
类比python字符串的lstrip和rstrip

8.1.15 get_dummies

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['里程'].str.get_dummies('距'))
# 按照"距"进行分割，得到列表
# 所有列表中的元素总共有"中远、近、远、离"四种

运行结果为:

   中远  离  近  远
0   0  1  1  0
1   0  1  0  1
2   0  1  1  0
3   1  1  0  0
4   0  1  0  1
5   0  0  0  0

8.1.16 translate 指定部分替换

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
dict1 = str.maketrans({'距':'ju','离':'li'})
print(data['里程'].str.translate(dict1))

运行结果为:

0     近juli
1     远juli
2     近juli
3    中远juli
4     远juli
5       NaN
Name: 里程, dtype: object

8.1.17 find 查找指定字符第一次出现的位置

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data["日期"].astype('str').str.find("-"))
print('==='*20)
# 当然可以指定范围,包括起始和结束
print(data["日期"].astype('str').str.find("-", 5))
print('==='*20)
print(data["日期"].astype('str').str.find("我")) #找不到返回-1

运行结果为:

0    4
1    4
2    4
3    4
4    4
5    4
Name: 日期, dtype: int64
============================================================
0    7
1    7
2    7
3    7
4    7
5    7
Name: 日期, dtype: int64
============================================================
0   -1
1   -1
2   -1
3   -1
4   -1
5   -1
Name: 日期, dtype: int64

8.1.18 字母大小写

print(数据.str.lower()) # 所有字符转成小写
print(数据.str.upper()) # 所有字符转成大写
print(数据.str.title()) # 每一个单词的首字母大写
print(数据.str.capitalize()) # 第一个字母大写
print(s.str.swapcase()) # 大小写交换

8.1.19 判断【返回T或F】

print(数据.str.isalpha()) # 是否全是字母
print(数据.str.isnumeric()) # 判断是否全是数字
print(数据.str.isalnum()) # 判断是否全是字母或者数字
# isdecimal只能用于Unicode数字
# isdigit用于Unicode数字，罗马数字
# isnumeric用于unicode数字，罗马数字，汉字数字
# 总的来说，isnumeric最广泛，但是实际项目中，一般很少会有这种怪异的数字出现
# 如果只是普通的阿拉伯数字，那么这三个方法基本上是一样的，可以互用
print(s4.str.isspace()) # 判断是否全是空格
print(s5.str.islower()) # 判断是否全是小写
print(s5.str.istitle()) # 判断每个单词的首字母是否是大写(其他字母小写)

8.2 正则表达式

8.2.1 match 是否匹配给定的模式

match 和python正则中的match一样，是从头开始匹配的。返回布尔型，表示是否匹配给定的模式

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data['状态'].str.match(".{2}激"))
# NaN还是返回Nan，可按照 na= False 或 na = True 替换

运行结果为:

0     True
1    False
2     True
3    False
4    False
5      NaN
Name: 状态, dtype: object

8.2.2 extract 分组捕获

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data["日期"].astype('str').str.extract("\d{4}-(\d{2})-(\d{2})"))

运行结果为:

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data["日期"].astype('str').str.extract("\d{4}-(\d{2})-(\d{2})"))
import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data["日期"].astype('str').str.extract("\d{4}-(\d{2})-(\d{2})"))
    0   1
0  05  01
1  05  02
2  05  03
3  05  04
4  05  05
5  05  06

8.2.3 replace 替换

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件023-024\字符串.xlsx'
data = pd.read_excel(path)
print(data["日期"].astype('str').str.replace("(\d+)-(\d+)-(\d+)", r"\3/\2/\1"))
# 这里面的replace是支持正则的。
# 并且一般我们会加上r表示原生的，这是在正则中
# 对于pandas来说，第一个参数是不需要加的，如match。但是第二个参数是要加上r的
# 尤其是分组替换，但如果只是简单字符串替换就不需要了。

运行结果为:

0    01/05/2020
1    02/05/2020
2    03/05/2020
3    04/05/2020
4    05/05/2020
5    06/05/2020
Name: 日期, dtype: object

你可能感兴趣的:(python,pandas,python,pandas,数据分析)

python数据可视化绘制图表（直方图，饼图圆环图，散点或气泡图，误差棒图） 2224070304 信息可视化 python 数据分析
一，直方图#先导入模块importnumpyasnp importmatplotlib.pyplotasplt#准备50个随机的数据scores=np.random.randint(0,100,50)#绘制直方图plt.hist(scores,bins=8,histtype='stepfilled')plt.show()其中，scores为数组（可为单个或多个的数列)bins=8,表示矩形的条数为
数据分析面临的三大挑战该如何解决銨靜菂等芐紶数据挖掘大数据数据分析
转载自品略图书馆http://www.pinlue.com/article/2020/09/0712/2611202048648.html有效的分析已成为决定性因素，很明显，掌握它的人会蓬勃发展。但是，实现这一目标的过程并非没有障碍。最常见的数据分析挑战是什么？公司如何自信地应对它们？下面就来介绍一下。1、浏览预算限制数据分析领导者需要在当下采取行动，但同时也需要考虑未来。平衡这些需求要求他们在制
数据分析过程中，发现数值缺失，怎么办？学掌门大数据数据分析 IT 数据分析数据挖掘
按照数据缺失机制，数据分析过程中，我们可以将其分为以下几类：（1）完全随机缺失（MCAR）：所缺失的数据发生的概率既与已观察到的数据无关，也与未观察到的数据无关。（2）随机缺失（MAR）：假设缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。MCAR与MAR均被称为是可忽略的缺失形式。（3）不可忽略的缺失（NIM）：亦称为非随机缺失，即如果不完全变量中，数据的缺失既依赖
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
freecad嵌入工作台黄河里的小鲤鱼软件开发建模 python
1Introduction导言FreeCADcanbeimportedasaPythonmoduleinotherprogramsorinastandalonePythonconsole,togetherwithallitsmodulesandcomponents.It’sevenpossibletoimporttheFreeCADuserinterfaceasapythonmodulebutwi
家用笔记本换装centos7当服务器全流程吕域服务器 windows 电脑 centos
目录1、安装centos7系统硬件准备软件和镜像准备制作启动盘2、网络连接和ssh远程登陆centos7连接网络ssh远程登陆3、笔记本闭盖不休眠（7*24小时可用）4、定时开关机（省电、保护电脑）5、配置开发环境（此处以python为例，非必要项，示需求安装）1、安装centos7系统硬件准备老旧淘汰笔记本一台（新笔记本不合算，舍不得）一个大于8G的U盘网线一根（后续联网用）软件和镜像准备软件U
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
python 函数—文档、类型注释和内省想知道哇 python python 开发语言
Python文档、类型注释和内省目录引言函数文档docstring的使用help()函数类型注释基本类型注释复杂类型注释内省技术基本内省方法inspect模块的高级内省综合示例建议引言Python提供了丰富的文档和内省机制，使开发者能够编写自解释的代码并在运行时检查对象属性。本教程详细介绍了函数文档、类型注释和内省技术。函数文档docstring的使用Python使用三引号字符串（'''或"""）
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
python异步--asyncio HWQlet python python异步编程
在python2.x和python3.x早期版本的时候，协程的主流实现方法是gevent，这个我之前讲过asyncio在python3.4后内置在python中了，在后面还有async/await，更后面有aiohttp，flask实现就有参照aiohttpasync和await分别又来替换早期协程的asyncio.coroutine和yieldfrom。从此以后，协程就是python中一个新的语
Python异步编程 - asyncio库孤寒者 Python全栈系列教程 python 异步编程 asyncio yield 协程
目录：每篇前言：异步IOPython中的异步编程实现方式：协程Python传统协程示例：实现生产者-消费者模型消费者：生产者：运行流程：整体流程：传统协程——>现代协程：asyncio库async/await每篇前言：作者介绍：【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者本文已收录于爬虫必备前端技术栈专栏：《爬虫必备前端技术栈
python输出星号等腰三角形_python打印直角三角形与等腰三角形实例代码 weixin_39644139 python输出星号等腰三角形
python打印直角三角形与等腰三角形实例代码前言本文通过示例给大家详细介绍了关于python打印三角形的相关，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧1、直角三角形#i控制行数j控制*的个数foriinrange(5):i+=1forjinrange(i):print('*',end='')#end=‘'输出空格print()/2、等腰三角形row=int(input('p
python绘制等边三角形的代码_Python打印等边三角形 weixin_39621178
示例1:#!/usr/bin/python#-*-coding:UTF-8-*-#根据输入打印rows=int(raw_input('pleaseinputnumber:'))#等边三角形foriinrange(0,rows+1):forjinrange(0,rows-i):print"",j+=1forkinrange(0,2*i-1):ifk==0ork==2*i-2ori==rows:ifi
Python写倒三角森之林 python
4.(程序题)编程显示如下所示的三角形图案。要求程序运行时，输入一个正整数，显示该整数行高度的三角形图案。#############h=int(input("请输入高度："))foriinrange(h):forjinrange(i,h):print("#",end="")forrinrange(0,i):print("",end="")print("")
python+flask计算机毕业设计基于Android平台的景区移动端旅游软件系统（程序+开题+论文） Node.js彤彤程序 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着移动互联网技术的飞速发展，智能手机已成为人们日常生活中不可或缺的一部分，特别是在旅游领域，移动端应用以其便捷性、实时性和个性化服务的特点，极大地改变了人们的旅游体验方式。当前，旅游市场日益繁荣，游客对于旅游信息获取、行程规划、景点导航、票务预订及个性化服务的需
ALO蚁狮优化算法：从背景到实战的全面解析 der丸子吱吱吱智能优化算法 ALO算法
目录引言背景2.1蚁狮优化算法的起源2.2自然启发式算法的背景2.3ALO的发展与应用原理3.1蚁狮的生物行为3.2ALO的数学建模3.3算法流程与关键步骤实战应用4.1函数优化问题4.2工程优化案例4.3组合优化与约束优化代码实现与结果分析5.1Python代码实现5.2实验设计与结果分析5.3性能评估与优化建议学习资源6.1工具推荐6.2网站与文献资源6.3ALO与AI结合的方法结论1.引言在
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
Centos7软件包管理(rpm、yum) Bulut0907 Linux centos 软件包管理 rpm yum yum源修改
目录1.rpm2.yum2.1修改yum源1.rpmRPM(RedHatPackageManager)，redhat系列操作系统里面的打包安装工具查询命令：查询安装的所有rpm软件包：rpm-qa查询指定rpm软件包，并显示详细信息：rpm-qipython3卸载命令：卸载软件包，不管是否有其它软件包依赖该软件包：rpm-e--nodeps软件包名称安装命令：安装rpm包，并显示详细信息和进度条(
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
TK矩阵系统：高效管理与智能化操作平台 m0_74891046 矩阵
随着TikTok等社交媒体平台的快速发展，短视频创作和内容运营逐渐成为互联网行业的重要组成部分。为了帮助内容创作者、品牌运营商以及数据分析人员更高效地管理多个TikTok账号并优化运营策略，TK矩阵系统提供了一种全新的解决方案，结合了先进的软件技术与硬件设施，旨在简化操作流程，提高工作效率。TK矩阵系统概述TK矩阵系统是一款集成软件与硬件的综合平台，专为TikTok内容管理和数据采集设计。系统使用
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
python中Flask模块的使用 weixin_30315905 python json
1.简介在服务器上运行Flask接口，就能使用requests模块获取该接口的值。先运行接口文件，再运行requests文件，即可获取值。2.示例2.1一个简单的flask接口1importjson2fromflaskimportFlask,request34#python类型5data={6'name':'John',7'age':18,8'location':'nanjing'910}1112
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
python中的静态方法绛洞花主敏明 python
问题：pycharm中建立新的方法，出现如下的警告：在python中建立类一般使用如下的方法：classDog(object):defrun(self):print("running")run方法是类中的普通方法声明和创建静态方法，在方法上加上staticmethod注明一下classDog(object):@staticmethoddefrun(self):print("running")如下的
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

Python全栈开发-数据分析-03 Pandas详解 (中)

Pandas详解 (中)

一. 处理缺失值

1.1 drop函数：删除行，删除列

1.1.1 drop函数的使用：inplace参数

1.2 查看缺失值

1.3 缺失值处理

1.3.1 去掉含有缺失值的行和列

1.3.2 将缺失值用某些值填充（0，平均值，中值等）

1.3.3 填充常数

1.3.4 填充方式

1.3.5 限制填充数量

二. 数学统计函数

2.1 数学统计函数表

2.2 describe 数据值列汇总

三. 重复数据的处理

3.1 删除重复值

3.2 提取重复

四. 算数运算与数据对齐

4.1 处理空值

4.2 处理inf无穷大

4.3 数据对齐

五. 分层索引与计算

5.1 分层索引设置与查询

5.2 多层索引的创建的方式【行】

5.3 多层索引的创建的方式【列】

5.4 分层索引计算

六. 数据替换

6.1 替换全部或者某一行

6.1.1 整个表全部替换

6.1.2 某一行替换

6.2 替换指定的某个或多个数值（用字典的形式）

6.3 替换某个数据部分内容

6.4 正则表达式替换

七. 离散化和分箱

7.1 指定分界点分箱 【cut】

7.2 等频分箱 【qcut】

八. 字符串操作

8.1 字符串对象方法

8.1.1 cat 和指定字符进行拼接

8.1.2 split 按照指定字符串分隔

8.1.3 partition 按照指定字符分割

8.1.4 get 获取指定位置的字符，只能获取1个

8.1.5 slice获取指定范围的字

8.1.6 slice_replace 筛选出来之后替换

8.1.7 join 将每个字符之间使用指定字符相连

8.1.8 contains 判断字符串是否含有指定子串，返回的是bool类型

8.1.9 startswith 是否某个子串开头

8.1.10 endswith 判断是否以某个子串结尾

8.1.11 repeat 重复字符串

8.1.12 pad 将每一个元素都用指定的字符填充，记住只能是一个字符

8.1.13 zfill 填充，只能是0，从左边填充

8.1.14 strip 按照指定内容，从两边去除

8.1.15 get_dummies

8.1.16 translate 指定部分替换

8.1.17 find 查找指定字符第一次出现的位置

8.1.18 字母大小写

8.1.19 判断 【返回T或F】

8.2 正则表达式

8.2.1 match 是否匹配给定的模式

8.2.2 extract 分组捕获

8.2.3 replace 替换

你可能感兴趣的:(python,pandas,python,pandas,数据分析)

7.1 指定分界点分箱【cut】

7.2 等频分箱【qcut】

8.1.19 判断【返回T或F】