【Pandas】pandas Series unique

Pandas2.2 Series

Computations descriptive stats

方法 描述
Series.abs() 用于计算 Series 中每个元素的绝对值
Series.all() 用于检查 Series 中的所有元素是否都为 True 或非零值(对于数值型数据)
Series.any() 用于检查 Series 中是否至少有一个元素为 True 或非零值(对于数值型数据)
Series.autocorr() 用于计算 Series 的自相关系数
Series.between() 用于检查 Series 中的每个元素是否在指定的两个值之间(包括边界值)
Series.clip() 用于将 Series 中的元素限制在指定的上下限之间
Series.corr() 用于计算两个 Series 之间的相关系数
Series.count() 用于计算 Series 中非 NA/null 值的数量
Series.cov(other[, min_periods, ddof]) 用于计算两个 Series 之间的协方差
Series.cummax([axis, skipna]) 用于计算 Series 中元素的累积最大值
Series.cummin([axis, skipna]) 用于计算 Series 中元素的累积最小值
Series.cumprod([axis, skipna]) 用于计算 Series 中元素的累积乘积
Series.cumsum([axis, skipna]) 用于计算 Series 中元素的累积和
Series.describe([percentiles, include, exclude]) 用于生成 Series 对象的描述性统计信息的方法
Series.diff([periods]) 用于计算 Series 中元素与前一个元素之间差值的方法
Series.factorize([sort, use_na_sentinel]) 用于将 Series 中的唯一值编码为从 0 开始的整数索引的方法
Series.kurt([axis, skipna, numeric_only]) 用于计算 Series 中数据的峰度(kurtosis)
Series.max([axis, skipna, numeric_only]) 用于计算 Series 中所有元素的最大值
Series.mean([axis, skipna, numeric_only]) 用于计算 Series 中所有元素的算术平均值
Series.median([axis, skipna, numeric_only]) 用于计算 Series 对象中位数的函数
Series.min([axis, skipna, numeric_only]) 用于计算 Series 对象最小值的函数
Series.mode([dropna]) 用于计算 Series 对象中最常出现的值(众数)的函数
Series.nlargest([n, keep]) 用于获取 Series 对象中最大的 n 个值的函数
Series.nsmallest([n, keep]) 用于获取 Series 对象中最小的 n 个值的函数
Series.pct_change([periods, fill_method, …]) 用于计算 Series 对象中元素与前一个元素之间百分比变化的方法
Series.prod([axis, skipna, numeric_only, …]) 用于计算 Series 对象中所有元素乘积的函数
Series.quantile([q, interpolation]) 用于计算 Series 对象的分位数(quantiles)的方法
Series.rank([axis, method, numeric_only, …]) 用于计算 Series 对象中每个元素的排名的方法
Series.sem([axis, skipna, ddof, numeric_only]) 用于计算 Series 对象的标准误差(Standard Error of the Mean, SEM)的方法
Series.skew([axis, skipna, numeric_only]) 用于计算 Series 对象的偏度(skewness)的方法
Series.std([axis, skipna, ddof, numeric_only]) 用于计算 Series 对象的标准差(Standard Deviation, STD)的方法
Series.sum([axis, skipna, numeric_only, …]) 用于计算 Series 中元素的总和
Series.var([axis, skipna, ddof, numeric_only]) 用于计算 Series 中元素的样本方差
Series.kurtosis([axis, skipna, numeric_only]) 用于计算 Series 中元素的峰度
Series.unique() 用于返回 Series 中的唯一值

pandas.Series.unique

pandas.Series.unique() 方法用于返回 Series 中的唯一值。该方法会去除重复项,并返回一个包含唯一值的 NumPy 数组,按首次出现的顺序排列。以下是该方法的详细描述:

  • 参数

    • pandas.Series.unique() 没有额外的参数。
  • 返回值

    • 返回一个 NumPy 数组,包含 Series 中的唯一值,按首次出现的顺序排列。
示例及结果
import pandas as pd

# 创建一个包含重复值的 Series
s = pd.Series([1, 2, 2, 3, 3, 3, 4, 4, 4, 4])

# 获取 Series 中的唯一值
unique_values = s.unique()
print("Unique values:", unique_values)

# 包含字符串类型的 Series
s_str = pd.Series(['apple', 'banana', 'apple', 'orange', 'banana', 'grape'])

# 获取字符串 Series 中的唯一值
unique_str_values = s_str.unique()
print("Unique string values:", unique_str_values)
输出结果
Unique values: [1 2 3 4]
Unique string values: ['apple' 'banana' 'orange' 'grape']
解释
  • 对于数值型 Series:

    • unique() 方法返回一个包含所有不同数值的 NumPy 数组,按它们首次出现的顺序排列。
  • 对于字符串型 Series:

    • 同样返回一个包含所有不同字符串的 NumPy 数组,按它们首次出现的顺序排列。
注意事项
  • unique() 方法不会对结果进行排序,它保持原始数据中唯一值的出现顺序。
  • 如果需要对唯一值进行排序,可以使用 numpy.sort() 或者 pandas.Series.nunique() 结合其他排序方法。
进一步示例:结合排序
import numpy as np

# 获取并排序唯一值
sorted_unique_values = np.sort(unique_values)
print("Sorted unique values:", sorted_unique_values)

# 获取并排序字符串唯一值
sorted_unique_str_values = np.sort(unique_str_values)
print("Sorted unique string values:", sorted_unique_str_values)
输出结果
Sorted unique values: [1 2 3 4]
Sorted unique string values: ['apple' 'banana' 'grape' 'orange']

通过这些示例和解释,您可以更好地理解如何使用 pandas.Series.unique() 方法来获取 Series 中的唯一值,并根据需要进行进一步处理。

你可能感兴趣的:(Pandas,Series,pandas,python,java)