别致的SmallSix

Pandas教程（非常详细）（第二部分）

接着Pandas教程（非常详细）（第一部分），继续讲述。

七、Pandas使用自定义函数

如果想要应用自定义的函数，或者把其他库中的函数应用到 Pandas 对象中，有以下三种方法：

1) 操作整个 DataFrame 的函数：pipe()
2) 操作行或者列的函数：apply()
3) 操作单一元素的函数：applymap()

如何从上述函数中选择适合的函数，这取决于函数的操作对象。下面介绍了三种方法的使用。

1、操作整个数据表 pipe()

通过给 pipe() 函数传递一个自定义函数和适当数量的参数值，从而操作 DataFrme 中的所有元素。下面示例，实现了数据表中的元素值依次加 3。

首先自定义一个函数，计算两个元素的加和，如下所示：

def adder(ele1,ele2):
    return ele1+ele2

然后使用自定义的函数对 DataFrame 进行操作：

df = pd.DataFrame(np.random.randn(4,3),columns=['c1','c2','c3'])
#传入自定义函数以及要相加的数值3
df.pipe(adder,3)

在这里np.random.randn()的用法可以参考：numpy中几种随机数生成函数的用法-CSDN博客

完整的程序，如下所示：

import pandas as pd
import numpy as np
#自定义函数
def adder(ele1,ele2):
    return ele1+ele2
#操作DataFrame
df = pd.DataFrame(np.random.randn(4,3),columns=['c1','c2','c3'])
#相加前
print(df)
#相加后
print(df.pipe(adder,3))

输出结果：

c1 c2 c3

0 1.989075 0.932426 -0.523568

1    -1.736317 0.703575 -0.819940

2   0.657279 -0.872929 0.040841

3   0.441424 1.170723 -0.629618

   c1 c2 c3

0 4.989075 3.932426 2.476432

1 1.263683 3.703575    2.180060

2   3.657279 2.127071 3.040841

3   3.441424 4.170723 2.370382

2、操作行或列 apply()

如果要操作 DataFrame 的某一行或者某一列，可以使用 apply() 方法，该方法与描述性统计方法类似，都有可选参数 axis，并且默认按列操作。示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
df.apply(np.mean)
#默认按列操作，计算每一列均值
print(df.apply(np.mean))

输出结果：

col1 0.277214

col2 0.716651

col3 -0.250487

dtype: float64

传递轴参 axis=1，表示逐行进行操作，示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
print(df)
print (df.apply(np.mean,axis=1))

输出结果：

col1 col2 col3

0 0.210370 -0.662840 -0.281454

1 -0.875735 0.531935 -0.283924

2 1.036009 -0.958771 -1.048961

3 -1.266042 -0.257666 0.403416

4 0.496041 -1.071545 1.432817

0   -0.244641

1   -0.209242

2   -0.323908

3   -0.373431

4    0.285771

dtype: float64

求每一列中，最大值与最小值之差。示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
print(df.apply(lambda x: x.max() - x.min()))

输出结果:

col1 3.538252

col2 2.904771

col3 2.650892

dtype: float64

3、操作单一元素 applymap()

DataFrame 数据表结构的 applymap() 和 Series 系列结构的 map() 类似，它们都可以接受一个 Python 函数，并返回相应的值。

示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
#自定义函数lambda函数
print(df['col1'].map(lambda x:x*100))

输出结果：

0 -18.171706

1 1.582861

2 22.398156

3 32.395690

4 -133.143543

Name: col1, dtype: float64

下面示例使用了 applymap() 函数，如下所示：

import pandas as pd
import numpy as np
#自定义函数
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
print(df.applymap(lambda x:x*10))
print(df.apply(np.mean))

输出结果：

col1 col2 col3

0 -1.055926 7.952690 15.225932

1 9.362457 -12.230732 7.663450

2 2.910049 -2.782934 2.073905

3 -12.008132 -1.444989 5.988144

4 2.877850 6.563894 8.192513

#求均值：

col1 0.041726

col2 -0.038841

col3 0.782879

dtype: float64

八、Pandas reindex重置索引

重置索引（reindex）可以更改原 DataFrame 的行标签或列标签，并使更改后的行、列标签与 DataFrame 中的数据逐一匹配。通过重置索引操作，您可以完成对现有数据的重新排序。如果重置的索引标签在原 DataFrame 中不存在，那么该标签对应的元素值将全部填充为 NaN。

1、重置行列标签

看一组简单示例：

import pandas as pd
import numpy as np
N=20
df = pd.DataFrame({
'A': pd.date_range(start='2016-01-07',periods=N,freq='D'),
'x': np.linspace(0,stop=N-1,num=N),
'y': np.random.rand(N),
'C': np.random.choice(['Low','Medium','High'],N).tolist(),
'D': np.random.normal(100, 10, size=(N)).tolist()
})
#重置行、列索引标签
df_reindexed = df.reindex(index=[0,2,5], columns=['A', 'C', 'B'])
print(df_reindexed)

输出结果：

A C B

0 2020-12-07 Medium NaN

2 2020-12-09 Low NaN

5 2020-12-12 High NaN

现有 a、b 两个 DataFrame 对象，如果想让 a 的行索引与 b 相同，您可以使用 reindex_like() 方法。示例如下：

import pandas as pd
import numpy as np
a = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
b = pd.DataFrame(np.random.randn(7,3),columns=['col1','col2','col3'])
a= a.reindex_like(b)
print(a)

输出结果：

col1 col2 col3

0 1.776556 -0.821724 -1.220195

1 -1.401443 0.317407 -0.663848

2 0.300353 -1.010991 0.939143

3 0.444041 -1.875384 0.846112

4 0.967159 0.369450 -0.414128

5 0.320863 -1.223477 -0.337110

6 -0.933665 0.909382 1.129481

上述示例，a 会按照 b 的形式重建行索引。需要特别注意的是，a 与 b 的列索引标签必须相同。

2、填充元素值

reindex_like() 提供了一个可选的参数method，使用它来填充相应的元素值，参数值介绍如下：

pad/ffill：向前填充值；
bfill/backfill：向后填充值；
nearest：从距离最近的索引值开始填充。

示例如下：

import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])
#使df2和df1行标签相同
print(df2.reindex_like(df1))
#向前填充
print(df2.reindex_like(df1,method='ffill'))

输出结果：

#填充前

col1 col2 col3

0 0.129055 0.835440 0.383065

1 -0.357231 0.379293 1.211549

2 NaN NaN NaN

3 NaN NaN NaN

4 NaN NaN NaN

5 NaN NaN NaN

#填充后

col1 col2 col3

0 0.129055 0.835440 0.383065

1 -0.357231 0.379293 1.211549

2 -0.357231 0.379293 1.211549

3 -0.357231 0.379293 1.211549

4 -0.357231 0.379293 1.211549

5 -0.357231 0.379293 1.211549

3、限制填充行数

reindex_like() 还提供了一个额外参数 limit，该参数用来控制填充的最大行数。示例如下：

import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])
print (df2.reindex_like(df1))
#最多填充2行
print (df2.reindex_like(df1,method='ffill',limit=2))

输出结果：

#填充前

col1 col2 col3

0 0.129055 0.835440 0.383065

1 -0.357231 0.379293 1.211549

2 NaN NaN NaN

3 NaN NaN NaN

4 NaN NaN NaN

5 NaN NaN NaN

#填充后

col1 col2 col3

0 0.129055 0.835440 0.383065

1 -0.357231 0.379293 1.211549

2 -0.357231 0.379293 1.211549

3 -0.357231 0.379293 1.211549

4 NaN NaN NaN

5 NaN NaN NaN

由上述示例可以看出，填充了 2、3 行缺失值，也就是只填充了 2 行数据。

4、重命名标签

rename() 方法允许您使用某些映射(dict或Series)或任意函数来对行、列标签重新命名，示例如下：

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
print (df1)
#对行和列重新命名
print (df1.rename(columns={'col1' : 'c1', 'col2' : 'c2'},index = {0 : 'apple', 1 : 'banana', 2 : 'durian'}))

输出结果：

col1 col2 col3

0 -1.762133 -0.636819 -0.309572

1 -0.093965 -0.924387 -2.031457

2 -1.231485 -0.738667 1.415724

3 -0.826322 0.206574 -0.731701

4 1.863816 -0.175705 0.491907

5 0.677361 0.870041 -0.636518

c1 c2 col3

apple -1.762133 -0.636819 -0.309572

banana -0.093965 -0.924387 -2.031457

durian -1.231485 -0.738667 1.415724

3 -0.826322 0.206574 -0.731701

4 1.863816 -0.175705 0.491907

5 0.677361 0.870041 -0.636518

rename() 方法提供了一个 inplace 参数，默认值为 False，表示拷贝一份原数据，并在复制后的数据上做重命名操作。若 inplace=True 则表示在原数据的基础上重命名。

九、Pandas iteration遍历

遍历是众多编程语言中必备的一种操作，比如 Python 语言通过 for 循环来遍历列表结构。那么 Pandas 是如何遍历 Series 和 DataFrame 结构呢？我们应该明确，它们的数据结构类型不同的，遍历的方法必然会存在差异。对于 Series 而言，您可以把它当做一维数组进行遍历操作；而像 DataFrame 这种二维数据表结构，则类似于遍历 Python 字典。

在 Pandas 中同样也是使用 for 循环进行遍历。通过for遍历后，Series 可直接获取相应的 value，而 DataFrame 则会获取列标签。示例如下：

import pandas as pd
import numpy as np
N=20
df = pd.DataFrame({
'A': pd.date_range(start='2016-01-01',periods=N,freq='D'),
'x': np.linspace(0,stop=N-1,num=N),
'y': np.random.rand(N),
'C': np.random.choice(['Low','Medium','High'],N).tolist(),
'D': np.random.normal(100, 10, size=(N)).tolist()
})
print(df)
for col in df:
    print (col)

输出结果：

A

x

y

C

D

1、内置迭代方法

如果想要遍历 DataFrame 的每一行，我们下列函数：

1) iteritems()：以键值对 (key,value) 的形式遍历；
2) iterrows()：以 (row_index,row) 的形式遍历行;
3) itertuples()：使用已命名元组的方式对行遍历。

下面对上述函数做简单的介绍：

（1） iteritems()

以键值对的形式遍历 DataFrame 对象，以列标签为键，以对应列的元素为值。

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(4,3),columns=['col1','col2','col3'])
for key,value in df.iteritems():
    print (key,value)

输出结果：

col1

0 0.561693

1 0.537196

2 0.882564

3 1.063245

Name: col1, dtype: float64

col2

0 -0.115913

1 -0.526211

2 -1.232818

3 -0.313741

Name: col2, dtype: float64

col3

0 0.103138

1 -0.655187

2 -0.101757

3 1.505089

Name: col3, dtype: float64

（2） iterrows()

该方法按行遍历，返回一个迭代器，以行索引标签为键，以每一行数据为值。示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(3,3),columns = ['col1','col2','col3'])
print(df)
for row_index,row in df.iterrows():
    print (row_index,row)

输出结果：

col1 col2 col3

0 -0.319301 0.205636 0.247029

1 0.673788 0.874376 1.286151

2 0.853439 0.543066 -1.759512

0

col1 -0.319301

col2 0.205636

col3 0.247029

Name: 0, dtype: float64

1

col1 0.673788

col2 0.874376

col3 1.286151

Name: 1, dtype: float64

2

col1 0.853439

col2 0.543066

col3 -1.759512

Name: 2, dtype: float64

注意：iterrows() 遍历行，其中 0,1,2 是行索引而 col1,col2,col3 是列索引。

（3） itertuples

itertuples() 同样将返回一个迭代器，该方法会把 DataFrame 的每一行生成一个元组，示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(3,3),columns = ['c1','c2','c3'])
for row in df.itertuples():
    print(row)

输出结果：

Pandas(Index=0,c1=0.253902385555437,c2=0.9846386610838339,c3=0.8814786409138894) Pandas(Index=1,c1=0.018667367298908943,c2=0.5954745800963542,c3=0.04614488622991075)

Pandas(Index=2,c1=0.3066297875412092,c2=0.17984210928723543,c3=0.8573031941082285)

2、迭代返回副本

迭代器返回的是原对象的副本，所以，如果在迭代过程中修改元素值，不会影响原对象，这一点需要大家注意。

看一组简单的示例：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(3,3),columns = ['col1','col2','col3'])
for index, row in df.iterrows():
    row['a'] = 15
print (df)

输出结果：

col1 col2 col3

0 1.601068 -0.098414 -1.744270

1 -0.432969 -0.233424 0.340330

2 -0.062910 1.413592 0.066311

由上述示例可见，原对象df没有受到任何影响。

十、Pandas sorting排序

Pands 提供了两种排序方法，分别是按标签排序和按数值排序。本节讲解 Pandas 的排序操作。

下面创建一组 DataFrame 数据，如下所示：

import pandas as pd
import numpy as np
#行标签乱序排列，列标签乱序排列
unsorted_df=pd.DataFrame(np.random.randn(10,2),index=[1,6,4,2,3,5,9,8,0,7],columns=['col2','col1'])
print(unsorted_df)

输出结果：

col2 col1

1 -0.053290 -1.442997

6 -0.203066 -0.702727

4 0.111759 0.965251

2 -0.896778 1.100156

3 -0.458899 -0.890152

5 -0.222691 -0.144881

9 -0.921674 0.510045

8 -0.130748 -0.734237

0 0.617717 0.456848

7 0.804284 0.653961

上述示例，行标签和数值元素均未排序，下面分别使用标签排序、数值排序对其进行操作。

1、按标签排序

使用 sort_index() 方法对行标签排序，指定轴参数（axis）或者排序顺序。或者可以对 DataFrame 进行排序。默认情况下，按照行标签序排序。

import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7],columns = ['col2','col1'])
sorted_df=unsorted_df.sort_index()
print(sorted_df)

输出结果：

col2 col1

0 2.113698 -0.299936

1 -0.550613 0.501497

2 0.056210 0.451781

3 0.074262 -1.249118

4 -0.038484 -0.078351

5 0.812215 -0.757685

6 0.687233 -0.356840

7 -0.483742 0.632428

8 -1.576988 -1.425604

9 0.776720 1.182877

（1）排序顺序

通过将布尔值传递给ascending参数，可以控制排序的顺序（行号顺序）。示例如下：

import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7],columns = ['col2','col1'])
sorted_df = unsorted_df.sort_index(ascending=False)
print(sorted_df)

输出结果：

col2 col1

9 2.389933 1.152328

8 -0.374969 0.182293

7 -0.823322 -0.104431

6 -0.566627 -1.020679

5 1.021873 0.315927

4 0.127070 -1.598591

3 0.258097 0.389310

2 -1.027768 -0.582664

1 0.766471 -0.043638

0 0.482486 -0.512309

2、按列标签排序

通过给 axis 轴参数传递 0 或 1，可以对列标签进行排序。默认情况下，axis=0 表示按行排序；而 axis=1 则表示按列排序。

import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7],columns = ['col2','col1'])
sorted_df=unsorted_df.sort_index(axis=1)
print (sorted_df)

输出结果：

col1 col2

1 -1.424992 -0.062026

4 -0.083513 1.884481

6 -1.335838 0.838729

2 -0.085384 0.178404

3 1.198965 0.089953

5 1.400264 0.213751

9 -0.992759 0.015740

8 1.586437 -0.406583

0 -0.842969 0.490832

7 -0.310137 0.485835

3、按值排序

与标签排序类似，sort_values() 表示按值排序。它接受一个by参数，该参数值是要排序数列的 DataFrame 列名。示例如下：

import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame({'col1':[2,1,1,1],'col2':[1,3,2,4]})
sorted_df = unsorted_df.sort_values(by='col1')
print (sorted_df)

输出结果：

col1 col2

1 1 3

2 1 2

3 1 4

0 2 1

注意：当对 col1 列排序时，相应的 col2 列的元素值和行索引也会随 col1 一起改变。by 参数可以接受一个列表参数值，如下所示：

import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame({'col1':[2,1,1,1],'col2':[1,3,2,4]})
sorted_df = unsorted_df.sort_values(by=['col1','col2'])
print (sorted_df）

输出结果：

col1 col2

2 1 2

1 1 3

3 1 4

0 2 1

4、排序算法

sort_values() 提供了参数kind用来指定排序算法。这里有三种排序算法：

mergesort
heapsort
quicksort

默认为 quicksort(快速排序) ，其中 Mergesort 归并排序是最稳定的算法。

import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame({'col1':[2,1,1,1],'col2':[1,3,2,4]})
sorted_df = unsorted_df.sort_values(by='col1' ,kind='mergesort')
print (sorted_df)

输出结果：

col1 col2

1 1 3

2 1 2

3 1 4

0 2 1

十一、Pandas去重函数：drop_duplicates()

“去重”通过字面意思不难理解，就是删除重复的数据。在一个数据集中，找出重复的数据删并将其删除，最终只保存一个唯一存在的数据项，这就是数据去重的整个过程。删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重，不仅可以节省内存空间，提高写入性能，还可以提升数据集的精确度，使得数据集不受重复数据的影响。

Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates()，本节对该函数的用法做详细介绍。

1、函数格式

drop_duplicates()函数的语法格式如下：

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

参数说明如下：

subset：表示要进去重的列名，默认为 None。
keep：有三个可选参数，分别是 first、last、False，默认为 first，表示只保留第一次出现的重复项，删除其余重复项，last 表示只保留最后一次出现的重复项，False 则表示删除所有重复项。
inplace：布尔值参数，默认为 False 表示删除重复项后返回一个副本，若为 Ture 则表示直接在原数据上删除重复项。

2、实际应用

首先创建一个包含有重复值的 DataFrame 对象，如下所示：

import pandas as pd

data={

'A':[1,0,1,1],
'B':[0,2,5,0],
'C':[4,0,4,4],
'D':[1,0,1,1]
}
df=pd.DataFrame(data=data)
print(df)

输出结果：

A B C D

0 1 0 4 1

1 0 2 0 0

2 1 5 4 1

3 1 0 4 1

（1）默认保留第一次出现的重复项

import pandas as pd
data={
  
    'A':[1,0,1,1],
    'B':[0,2,5,0],
    'C':[4,0,4,4],
    'D':[1,0,1,1]
}
df=pd.DataFrame(data=data)
#默认保留第一次出现的重复项
df.drop_duplicates()

输出结果：

A B C D

0 1 0 4 1

1 0 2 0 0

2 1 5 4 1

（2） keep=False删除所有重复项

import pandas as pd
data={

'A':[1,0,1,1],
'B':[0,2,5,0],
'C':[4,0,4,4],
'D':[1,0,1,1]
}
df=pd.DataFrame(data=data)
#默认保留第一次出现的重复项
df.drop_duplicates(keep=False)

输出结果：

A B C D

1 0 2 0 0

2 1 5 4 1

（3）根据指定列标签去重

import pandas as pd

data={

'A':[1,3,3,3],
'B':[0,1,2,0],
'C':[4,5,4,4],
'D':[3,3,3,3]
}
df=pd.DataFrame(data=data)
#去除所有重复项，对于B列来说两个0是重复项
df.drop_duplicates(subset=['B'],keep=False)
#简写，省去subset参数
#df.drop_duplicates(['B'],keep=False)
print(df)

输出结果：

A B C D

1 3 1 5 3

2 3 2 4 3

从上述示例可以看出，删除重复项后，行标签使用的数字是原来的，并没有从 0 重新开始，那么我们应该怎么从 0 重置索引呢？Pandas 提供的 reset_index() 函数会直接使用重置后的索引。如下所示：

import pandas as pd

data={
   
    'A':[1,3,3,3],
    'B':[0,1,2,0],
    'C':[4,5,4,4],
    'D':[3,3,3,3]
}
df=pd.DataFrame(data=data)
#去除所有重复项，对于B来说两个0是重复项
df=df.drop_duplicates(subset=['B'],keep=False)
#重置索引，从0重新开始
df.reset_index(drop=True)

输出结果：

A B C D

0 3 1 5 3

1 3 2 4 3

（4）指定多列同时去重

创建一个 DataFrame 对象，如下所示：

import numpy as np
import pandas as pd
df = pd.DataFrame({'Country ID':[1,1,2,12,34,23,45,34,23,12,2,3,4,1],
'Age':[12,12,15,18, 19, 25, 21, 25, 25, 18, 25,12,32,18],
'Group ID':['a','z','c','a','b','s','d','a','b','s','a','d','a','f']})
#last只保留最后一个重复项

df.drop_duplicates(['Age','Group ID'],keep='last')

输出结果：

Country ID Age Group ID

0 1 12 a

1 1 12 z

2 2 15 c

3 3 18 a

4 4 19 b

5 3 25 s

6 4 21 d

8 2 25 b

9 1 18 s

10 2 25 a

11 3 12 d

12 4 32 a

13 1 18 f

上述数据集中，第 7 行、第 10 行对应的列标签数据相同，我们使用参数值“last”保留最后一个重复项，也就是第 10 行数据。

十二、Python Pandas处理字符串（方法详解）

Pandas 提供了一系列的字符串函数，因此能够很方便地对字符串进行处理。在本节，我们使用 Series 对象对常用的字符串函数进行讲解。

常用的字符串处理函数如下表所示：

函数名称	函数功能和描述
lower()	将的字符串转换为小写。
upper()	将的字符串转换为大写。
len()	得出字符串的长度。
strip()	去除字符串两边的空格（包含换行符）。
split()	用指定的分割符分割字符串。
cat(sep="")	用给定的分隔符连接字符串元素。
get_dummies()	返回一个带有独热编码值的 DataFrame 结构。
contains(pattern)	如果子字符串包含在元素中，则为每个元素返回一个布尔值 True，否则为 False。
replace(a,b)	将值 a 替换为值 b。
count(pattern)	返回每个字符串元素出现的次数。
startswith(pattern)	如果 Series 中的元素以指定的字符串开头，则返回 True。
endswith(pattern)	如果 Series 中的元素以指定的字符串结尾，则返回 True。
findall(pattern)	以列表的形式返出现的字符串。
swapcase()	交换大小写。
islower()	返回布尔值，检查 Series 中组成每个字符串的所有字符是否都为小写。
issupper()	返回布尔值，检查 Series 中组成每个字符串的所有字符是否都为大写。
isnumeric()	返回布尔值，检查 Series 中组成每个字符串的所有字符是否都为数字。
repeat(value)	以指定的次数重复每个元素。
find(pattern)	返回字符串第一次出现的索引位置。

注意：上述所有字符串函数全部适用于 DataFrame 对象，同时也可以与 Python 内置的字符串函数一起使用，这些函数在处理 Series/DataFrame 对象的时候会自动忽略缺失值数据（NaN）。

1、lower()

将的字符串转换为小写。

import pandas as pd
import numpy as np
s = pd.Series(['C', 'Python', 'java', 'go', np.nan, '1125','javascript'])
print(s.str.lower)

输出结果：

0             tom

1    william rick

2            john

3         alber@t

4             NaN

5            1234

6      stevesmith

dtype: object

2、len()

得出字符串的长度。

import pandas as pd
import numpy as np
s = pd.Series(['C', 'Python', 'java', 'go', np.nan, '1125','javascript'])
print(s.str.len())

输出结果：

0 1.0

1 6.0

2 4.0

3 2.0

4 NaN

5 4.0

6 10.0

dtype: float64

3、strip()

去除字符串两边的空格（包含换行符）。

import pandas as pd
import numpy as np
s = pd.Series(['C ', ' Python', 'java', 'go', np.nan, '1125 ','javascript'])
print(s.str.strip())

输出结果：

0 C

1 Python

2 java

3 go

4 NaN

5 1125

6 javascript

dtype: object

4、split(pattern)

用指定的分割符分割字符串。

import pandas as pd
import numpy as np
s = pd.Series(['C ',' Python','java','go','1125 ','javascript'])
print(s.str.split(" "))

输出结果：

0 [C, ]

1 [, Python]

2 [java]

3 [go]

4 [1125, ]

5 [javascript]

dtype: object

5、cat(sep="")

用给定的分隔符连接字符串元素。

import pandas as pd
import numpy as np
s = pd.Series(['C', 'Python', 'java', 'go', np.nan, '1125','javascript'])
#会自动忽略NaN
print(s.str.cat(sep="_"))

输出结果：

C_Python_java_go_1125_javascript

6、get_dummies()

返回一个带有独热编码值的 DataFrame 结构。

import pandas as pd
import numpy as np
s = pd.Series(['C', 'Python', 'java', 'go', np.nan, '1125','javascript'])
print(s.str.get_dummies())

输出结果：

1125   C Python go java javascript

0 0 1 0 0 0 0

1 0 0 1 0 0 0

2   0 0 0 0 1 0

3 0 0 0 1 0 0

4 0 0 0 0 0   0

5 1 0 0 0 0   0

6 0 0 0 0 0 1

7、contains()

检查 Series 中的每个字符，如果字符中包含空格，则返回 True，否则返回 False。示例如下：

import pandas as pd
import numpy as np
s = pd.Series(['C ',' Python','java','go','1125 ','javascript'])
print(s.str.contains(" "))

输出结果：

0 True

1 True

2 False

3 False

4 True

5 False

dtype: bool

8、repeat()

以指定的次数重复每个元素。

import pandas as pd
import numpy as np
s = pd.Series(['C ',' Python','java','go','1125 ','javascript'])
print(s.str.repeat(3))

输出结果：

0 C C C

1 Python Python Python

2 javajavajava

3 gogogo

4 1125 1125 1125

5 javascriptjavascriptjavascript

dtype: object

9、startswith()

如果 Series 中的元素以指定的字符串开头，则返回 True。

import pandas as pd
import numpy as np
s = pd.Series(['C ',' Python','java','go','1125 ','javascript'])
#若以指定的"j"开头则返回True
print(s.str.startswith("j"))

输出结果：

0 False

1 False

2 True

3 False

4 False

5 True

dtype: bool

10、find()

返回字符串第一次出现的索引位置。

import pandas as pd
import numpy as np
s = pd.Series(['C ',' Python','java','go','1125 ','javascript'])
print(s.str.find("j"))

输出结果：

0 -1

1 -1

2 0

3 -1

4 -1

5 0

dtype: int64

如果返回 -1 表示该字符串中没有出现指定的字符。

11、findall()

以列表的形式返出现的字符串。

import pandas as pd
import numpy as np
s = pd.Series(['C ',' Python','java','go','1125 ','javascript'])
print(s.str.findall("j"))

输出结果：

0 []

1 []

2 [j]

3 []

4 []

5 [j]

dtype: object

12、swapcase()

交换大小写。

import pandas as pd
import numpy as np
s = pd.Series(['C ',' Python','java','go','1125 ','javascript'])
print(s.str.swapcase())

输出结果：

0 c

1 pYTHON

2 JAVA

3 GO

4 1125

5 JAVASCRIPT

dtype: object

13、isnumeric()

返回一个布尔值，用来判断是否存在数字型字符串。示例如下：

import pandas as pd
import numpy as np
s = pd.Series(['C ',' Python','java','go','1125','javascript'])
print(s.str.isnumeric())

输出结果：

0 False

1 False

2 False

3 False

4 True

5 False

dtype: bool

后面内容将在Pandas教程（非常详细）（第三部分），继续讲述。

你可能感兴趣的:(Python语言学习,pandas)

如何安装 `.whl` 文件（Python Wheel 包）喝醉酒的小白 Liunx Python模块 python 开发语言
目录标题如何安装`.whl`文件（PythonWheel包）安装前提安装方法（3种）方法1：直接使用pip安装（推荐）方法2：先进入文件目录再安装方法3：使用绝对路径（适合脚本中调用）⚠️常见问题解决问题1：版本不兼容错误问题2：缺少依赖问题3：权限不足验证安装进阶技巧如何安装.whl文件（PythonWheel包）.whl文件是Python的二进制分发格式（Wheel格式），用于快速安装Pyth
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
Anaconda插件开发 lyh1344 数据库开发
开发环境准备安装Anaconda或Miniconda，确保conda命令可用。推荐使用Python3.7及以上版本。创建独立的开发环境以避免依赖冲突：condacreate-nplugin_devpython=3.8condaactivateplugin_dev插件结构设计Anaconda插件通常采用Python包的标准结构。核心文件包括__init__.py和setup.py。典型目录结构如下：
Python3 数字(Number) froginwe11 开发语言
Python3数字(Number)引言在编程语言中，数字是构成程序的基础元素之一。Python3作为一种高级编程语言，提供了丰富的数字类型和操作方法。本文将详细介绍Python3中的数字类型，包括整数、浮点数、复数等，并探讨它们的特性和应用。整数（Integer）整数是Python3中最基本的数据类型之一，用于表示没有小数部分的数值。在Python3中，整数类型没有大小限制，可以表示任意大小的整数
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
Web3前沿科技：开启数字资产交易新征程 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 web3 科技 ai
Web3前沿科技：开启数字资产交易新征程关键词：Web3、数字资产交易、区块链、智能合约、去中心化金融摘要：本文聚焦于Web3前沿科技在数字资产交易领域的应用与发展。详细阐述了Web3的核心概念、相关技术原理，包括区块链、智能合约等。通过具体的算法原理和Python代码示例，深入剖析了数字资产交易在Web3环境下的运行机制。同时，结合实际项目案例，讲解了开发环境搭建、代码实现与解读。探讨了Web3
区块链技术概述：从比特币到Web3.0 闲人编程 Python区块链50讲区块链 web3 python 元宇宙比特币安全
目录区块链技术概述：从比特币到Web3.0引言：数字革命的下一篇章1.区块链技术基础1.1区块链定义与核心特征1.2区块链数据结构可视化2.比特币：区块链的开端2.1比特币的核心创新2.2比特币交易生命周期3.以太坊与智能合约革命3.1以太坊的核心创新3.2智能合约执行流程4.Web3.0：互联网的新范式4.1Web3.0的核心特征4.2Web3技术栈5.Python实现简易区块链系统5.1区块类
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
【Pandas】pandas DataFrame resample liuweidong0802 DataFrame pandas
Pandas2.2DataFrameTimeSeries-related方法描述DataFrame.asfreq(freq[,method,how,…])用于**将时间序列数据转换为指定频率（resampletofrequency）**的方法DataFrame.asof(where[,subset])用于查找时间序列中最接近指定时间点的非NaN值的方法DataFrame.shift([period
【Pandas】pandas DataFrame max liuweidong0802 DataFrame pandas python 数据挖掘
Pandas2.2DataFrameComputationsdescriptivestats方法描述DataFrame.abs()用于返回DataFrame中每个元素的绝对值DataFrame.all([axis,bool_only,skipna])用于判断DataFrame中是否所有元素在指定轴上都为TrueDataFrame.any(*[,axis,bool_only,skipna])用于判断
【Pandas】pandas Series tz_convert liuweidong0802 Pandas Series pandas
Pandas2.2SeriesTimeSeries-related方法描述Series.asfreq(freq[,method,how,…])用于将时间序列数据转换为指定的频率Series.asof(where[,subset])用于返回时间序列中指定索引位置的最近一个非缺失值Series.shift([periods,freq,axis,…])用于将时间序列数据沿指定轴移动指定的周期数Serie
GO 语言学习之运算符号唯独不开心学习 go
算术运算符：二元的运算符：+-*/%四则运算没啥好说的，从小就开始学习，最后一个%表示求余数或者取模运算。packagemainimport"fmt"funcmain(){a:=1+2b:=a-1c:=a*bd:=c/ae:=c%3fmt.Println("a:=1+2的结果是：",a)fmt.Println("b:=a-1的结果是：",b)fmt.Println("c:=a*b的结果是：",c)
GO 语言学习之变量和常量唯独不开心 golang 学习开发语言
变量变量顾名思义，存储的内容是不确定，只有在执行赋值后那一刻是确定的，因为你也不知道赋值后会不会被修改。变量定义方式：var:=var(aint,b,c....)示例：packagemainimport"fmt"funcmain(){varaint//定义一个整型变量，默认是零值（整形的零值是0）b:=1//定义一个整型变量，并赋值为1fmt.Printf("a=%db=%d\n",a,b)//定
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
GO语言学习之字符串和流程控制 cr7xin golang 学习开发语言
文章目录一.字符串1.1.1字符串转义符1.1.2多行字符串1.1.3字符串的常用操作1.2byte和rune类型1.2.1修改字符串1.2.2类型转换二.流程控制1.1ifelse(分支结构)1.1.1基本写法1.1.2特殊写法1.2for(循环结构)1.2.1for循环的基本格式1.2.2forrange(键值循环)1.3switchcase1.3.1基本格式1.3.2多个值在一个分支1.3.
利用chatGPT提取复杂json数据到excel文件中 z日火工具使用 excel chatgpt json
利用chatGPT提取复杂json数据到excel文件中1利用swagger导出json类型的接口数据2使用hiJson工具查看json结构3利用ChatGPT写python代码解析数据4复制代码到vscode运行任务说明：整理一个项目的所有接口，保存到excel文档中。在这里插入图片描述1利用swagger导出json类型的接口数据2使用hiJson工具查看json结构我需要json数据的"pa
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
根包含文件——Luaconf.h (src) LLLLLLLLLLLLLL265161 Inside Lua lua integer 编译器 alignment c++dll
Luaconf.h是配置的总集，定义了平台相关的设置，是所有文件都包含的，即RootlyIncluded。0.前言开始关注Lua也是06年六月的事情，《程序员》的2006年第六期中，我独独看中了Lua，而不是当时我已经比较熟悉的Python和Ruby，即使它们我都关注了好几年，但是都没有Lua给我的震撼大。于是那个夏天，稍微地尝试读了Lua的代码。开学后，我突然觉得自己有点受唆使，轻信了动态的福音
Python3获取5000个元素的单字符表 DechinPhy
技术背景此前考虑过一个问题，有没有办法获取到python里面所有定义好的单字符的表，比如我们获取5000个不一样的单字符，但是常用的chr(number)的方法里面包含了太多的非字母条目，比如缩进换行符等，也会被识别为长度为1的符号。因此需要在此基础上加一个isalpha()的判断。输出5000个字符示例先解释一下思路，我们还是遍历chr中所包含的字符，此时得到的是所有的长度为1的字符，再用str
【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
力扣网C语言编程题：接雨水（双指针法）魏劭逻辑编程题 C语言 c语言 leetcode 算法
一.简介前面文章是以动态规划方法实现的，文章如下：力扣网C语言编程题：接雨水（动态规划实现）-CSDN博客本文继续针对力扣网的接雨水问题，以另一种解题思路（双指针）以C语言实现和Python实现。二.力扣网C语言编程题：接雨水（双指针法）题目：接雨水给定n个非负整数表示每个宽度为1的柱子的高度图，计算按此排列的柱子，下雨之后能接多少雨水。示例2：输入：height=[4,2,0,3,2,5]输出：
Python各版本发布时间和重要特性 mosquito_lover1 python
1.Python1.x:-Python1.0(1994年1月):第一个正式版本。-Python1.6(2000年9月):最后一个1.x版本。2.Python2.x:-Python2.0(2000年10月):引入了列表推导、垃圾回收等特性。-Python2.7(2010年7月):Python2.x系列的最后一个版本，长期支持至2020年1月1日。3.Python3.x:-Python3.0(2008
python中用matplotlib画图解决中文问题！！！！！！！终于ok了 luckylbb python 爬虫
在网上用了很多方法基本一样最后终于解决了，分享一下，前面几步似曾相识，但是依旧我发解决问题，重点在最后一步，亲测有效！！！！1、首先在Windons\Fonts下面找到simhei的字体没有就去下载，其实就是黑体，将它拖到桌面备用2、importmatplotlibprint(matplotlib.matplotlib_fname())输入命令查找到自己下载的matplotlib配置文件的位置我的
Python使用matplotlib绘制图像时，中文图例或标题无法正常显示问题独不懂 Python python matplotlib 开发语言
Python使用matplotlib绘制图像时，中文图例或标题无法显示问题解决方法一、问题描述二、解决方法欢迎学习交流！邮箱：z…@1…6.com网站：https://zephyrhours.github.io/一、问题描述Matplotlib库是Python中经常使用的绘图工具，但是有时候我们在使用plt绘制图像，需要将英文标题或者图例显示为中文样式，总会出现无法显示的问题，具体情况如下：imp
Python 文件操作与 wc 工具的重构：从文件对象到输入重定向的全面指南面朝大海，春不暖，花不开 Python基础 python 重构开发语言
文章大纲引言在编程世界中，文件操作是一项基础且至关重要的技能。无论是读取配置文件、处理日志，还是实现数据持久化，文件操作都扮演着核心角色。Python作为一门简洁而强大的语言，提供了直观的文件处理接口，其中open函数和文件对象是开发者最常使用的工具。通过这些工具，我们可以轻松实现文件的读写操作。本文将深入探讨Python文件操作的各个方面，从open函数的基本用法到文件对象的操作方法，再到资源管
AI助力基因数据分析：用Python玩转生命密码的秘密 Echo_Wish 前沿技术人工智能人工智能数据分析 python
AI助力基因数据分析：用Python玩转生命密码的秘密说到基因数据，听起来是不是感觉有点高大上？其实，基因数据分析正变得越来越“接地气”，而AI正是这条路上的神奇钥匙。今天，咱们就用Python聊聊如何利用AI技术做基因数据分析与建模，帮你破解生命的密码，找到疾病预测、个性化医疗的新路子。一、基因数据为何如此特别？基因组测序技术让我们能够获取人体细胞内数以百万计的DNA序列变异信息。但数据量巨大、
python中使用grpc方法示例_Python中使用grpc与consul weixin_39719077
gRPC客户端和服务端可以在多种环境中运行和交互，并且可以用任何gRPC支持的语言来编写。gRPC支持C++JavaPythonGoRubyC#Node.jsPHPDart等语言gRPC默认使用protocolbuffers，这是Google开源的一种轻便高效的结构化数据存储格式，可以用于结构化数据串行化，或者说序列化。它很适合做数据存储或RPC数据交换格式。安装GoogleProtocolBuf
python做生物信息学分析_Python从零开始第五章生物信息学①提取差异基因吴敬欣 python做生物信息学分析
目前来说，做生物信息学的人越来越多，但是我觉得目前而言做生信的主要有三类人：老本行是做实验的，做生信可能是为了辅助研究或者是为了发paper(有非常多的临床生选择趟生信这波水)主要是做生信的，主要涵盖高通量测序数据分析，组学数据分析等等，专门从事生物学数据分析的这群人，其大部分也是本科生物狗作为强大的生力军，以调包写R，python为主。那么这群人就要熟悉看各种包的tutorial以及如何进行常规
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

Pandas教程（非常详细）（第二部分）

七、Pandas使用自定义函数

1、操作整个数据表 pipe()

2、操作行或列 apply()

3、操作单一元素 applymap()

八、Pandas reindex重置索引

1、重置行列标签

2、填充元素值

3、限制填充行数

4、重命名标签

九、Pandas iteration遍历

1、内置迭代方法

（1） iteritems()

（2） iterrows()

（3） itertuples

2、迭代返回副本

十、Pandas sorting排序

1、按标签排序

（1）排序顺序

2、按列标签排序

3、按值排序

4、排序算法

十一、Pandas去重函数：drop_duplicates()

1、函数格式

2、实际应用

（1） 默认保留第一次出现的重复项

（2） keep=False删除所有重复项

（3） 根据指定列标签去重

（4） 指定多列同时去重

十二、Python Pandas处理字符串（方法详解）

1、lower()

2、len()

3、strip()

4、split(pattern)

5、cat(sep="")

6、get_dummies()

7、contains()

8、repeat()

9、startswith()

10、find()

11、findall()

12、swapcase()

13、isnumeric()

你可能感兴趣的:(Python语言学习,pandas)

（1）默认保留第一次出现的重复项

（3）根据指定列标签去重

（4）指定多列同时去重