TRHX • 鲍勃

Python 数据分析三剑客之 Pandas（四）：函数应用、映射、排序和层级索引

CSDN 课程推荐：《迈向数据科学家：带你玩转Python数据分析》，讲师齐伟，苏州研途教育科技有限公司CTO，苏州大学应用统计专业硕士生指导委员会委员；已出版《跟老齐学Python：轻松入门》《跟老齐学Python：Django实战》、《跟老齐学Python：数据分析》和《Python大学实用教程》畅销图书。

Pandas 系列文章（正在更新中…）：

Python 数据分析三剑客之 Pandas（一）：认识 Pandas 及其 Series、DataFrame 对象
Python 数据分析三剑客之 Pandas（二）：Index 索引对象以及各种索引操作
Python 数据分析三剑客之 Pandas（三）：算术运算与缺失值的处理
Python 数据分析三剑客之 Pandas（四）：函数应用、映射、排序和层级索引

另有 NumPy、Matplotlib 系列文章已更新完毕，欢迎关注：

NumPy 系列文章：https://itrhx.blog.csdn.net/category_9780393.html
Matplotlib 系列文章：https://itrhx.blog.csdn.net/category_9780418.html

推荐学习资料与网站（博主参与部分文档翻译）：

NumPy 官方中文网：https://www.numpy.org.cn/
Pandas 官方中文网：https://www.pypandas.cn/
Matplotlib 官方中文网：https://www.matplotlib.org.cn/
NumPy、Matplotlib、Pandas 速查表：https://github.com/TRHX/Python-quick-reference-table

文章目录

【01x00】函数应用和映射
【02x00】排序

【02x01】sort_index() 索引排序
【02x02】sort_values() 按值排序
【02x03】rank() 返回排序后元素索引

【03x00】层级索引

【03x01】认识层级索引
【03x02】MultiIndex 索引对象
【03x03】提取值
【03x04】交换分层与排序

这里是一段防爬虫文本，请读者忽略。
本文原创首发于 CSDN，作者 TRHX。
博客首页：https://itrhx.blog.csdn.net/
本文链接：https://itrhx.blog.csdn.net/article/details/106758103
未经授权，禁止转载！恶意转载，后果自负！尊重原创，远离剽窃！

【01x00】函数应用和映射

Pandas 可直接使用 NumPy 的 ufunc（元素级数组方法）函数：

>>> import pandas as pd
>>> import numpy as np
>>> obj = pd.DataFrame(np.random.randn(5,4) - 1)
>>> obj
          0         1         2         3
0 -0.228107  1.377709 -1.096528 -2.051001
1 -2.477144 -0.500013 -0.040695 -0.267452
2 -0.485999 -1.232930 -0.390701 -1.947984
3 -0.839161 -0.702802 -1.756359 -1.873149
4  0.853121 -1.540105  0.621614 -0.583360
>>> 
>>> np.abs(obj)
          0         1         2         3
0  0.228107  1.377709  1.096528  2.051001
1  2.477144  0.500013  0.040695  0.267452
2  0.485999  1.232930  0.390701  1.947984
3  0.839161  0.702802  1.756359  1.873149
4  0.853121  1.540105  0.621614  0.583360

函数映射：在 Pandas 中 apply 方法可以将函数应用到列或行上，可以通过设置 axis 参数来指定行或列，默认 axis = 0，即按列映射：

>>> import pandas as pd
>>> import numpy as np
>>> obj = pd.DataFrame(np.random.randn(5,4) - 1)
>>> obj
          0         1         2         3
0 -0.707028 -0.755552 -2.196480 -0.529676
1 -0.772668  0.127485 -2.015699 -0.283654
2  0.248200 -1.940189 -1.068028 -1.751737
3 -0.872904 -0.465371 -1.327951 -2.883160
4 -0.092664  0.258351 -1.010747 -2.313039
>>> 
>>> obj.apply(lambda x : x.max())
0    0.248200
1    0.258351
2   -1.010747
3   -0.283654
dtype: float64
>>>
>>> obj.apply(lambda x : x.max(), axis=1)
0   -0.529676
1    0.127485
2    0.248200
3   -0.465371
4    0.258351
dtype: float64

另外还可以通过 applymap 将函数映射到每个数据上：

>>> import pandas as pd
>>> import numpy as np
>>> obj = pd.DataFrame(np.random.randn(5,4) - 1)
>>> obj
          0         1         2         3
0 -0.772463 -1.597008 -3.196100 -1.948486
1 -1.765108 -1.646421 -0.687175 -0.401782
2  0.275699 -3.115184 -1.429063 -1.075610
3 -0.251734 -0.448399 -3.077677 -0.294674
4 -1.495896 -1.689729 -0.560376 -1.808794
>>> 
>>> obj.applymap(lambda x : '%.2f' % x)
       0      1      2      3
0  -0.77  -1.60  -3.20  -1.95
1  -1.77  -1.65  -0.69  -0.40
2   0.28  -3.12  -1.43  -1.08
3  -0.25  -0.45  -3.08  -0.29
4  -1.50  -1.69  -0.56  -1.81

【02x00】排序

【02x01】sort_index() 索引排序

根据条件对数据集排序（sorting）也是一种重要的内置运算。要对行或列索引进行排序（按字典顺序），可使用 sort_index 方法，它将返回一个已排序的新对象。

在 Series 和 DataFrame 中的基本语法如下：

Series.sort_index(self,
				  axis=0,
				  level=None,
				  ascending=True,
				  inplace=False,
				  kind='quicksort',
				  na_position='last',
				  sort_remaining=True,
				  ignore_index: bool = False)

DataFrame.sort_index(self,
					 axis=0,
					 level=None,
					 ascending=True,
					 inplace=False,
					 kind='quicksort',
					 na_position='last',
					 sort_remaining=True,
					 ignore_index: bool = False)

官方文档：

https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_index.html
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_index.html

常用参数描述如下：

参数	描述
axis	指定轴排序，`0` or `‘index’`，`1` or `‘columns’`，只有在 DataFrame 中才有 `1` or `'columns’`
ascending	为 `True`时升序排序（默认），为 `False`时降序排序
kind	排序方法，`quicksort`：快速排序（默认）；`'mergesort’`：归并排序；`'heapsort'`：堆排序；具体可参见 numpy.sort()

在 Series 中的应用（按照索引 index 排序）：

>>> import pandas as pd
>>> obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
>>> obj
d    0
a    1
b    2
c    3
dtype: int64
>>> 
>>> obj.sort_index()
a    1
b    2
c    3
d    0
dtype: int64

在 DataFrame 中的应用（可按照索引 index 或列标签 columns 排序）：

>>> import pandas as pd
>>> obj = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])
>>> obj
       d  a  b  c
three  0  1  2  3
one    4  5  6  7
>>> 
>>> obj.sort_index()
       d  a  b  c
one    4  5  6  7
three  0  1  2  3
>>> 
>>> obj.sort_index(axis=1)
       a  b  c  d
three  1  2  3  0
one    5  6  7  4
>>> 
>>> obj.sort_index(axis=1, ascending=False)
       d  c  b  a
three  0  3  2  1
one    4  7  6  5

【02x02】sort_values() 按值排序

在 Series 和 DataFrame 中的基本语法如下：

Series.sort_values(self,
				   axis=0,
				   ascending=True,
				   inplace=False,
				   kind='quicksort',
				   na_position='last',
				   ignore_index=False)

DataFrame.sort_values(self,
					  by,
					  axis=0,
					  ascending=True,
					  inplace=False,
					  kind='quicksort',
					  na_position='last',
					  ignore_index=False)

官方文档：

https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_values.html
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html

常用参数描述如下：

参数	描述
by	DataFrame 中的必须参数，指定列的值进行排序，Series 中没有此参数
axis	指定轴排序，`0` or `‘index’`，`1` or `‘columns’`，只有在 DataFrame 中才有 `1` or `'columns’`
ascending	为 `True`时升序排序（默认），为 `False`时降序排序
kind	排序方法，`quicksort`：快速排序（默认）；`'mergesort’`：归并排序；`'heapsort'`：堆排序；具体可参见 numpy.sort()

在 Series 中的应用，按照值排序，如果有缺失值，默认都会被放到 Series 的末尾：

>>> import pandas as pd
>>> obj = pd.Series([4, 7, -3, 2])
>>> obj
0    4
1    7
2   -3
3    2
dtype: int64
>>> 
>>> obj.sort_values()
2   -3
3    2
0    4
1    7
dtype: int64
>>> 
>>> obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
>>> obj
0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64
>>> 
>>> obj.sort_values()
4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

在 DataFrame 中的应用，有时候可能希望根据一个或多个列中的值进行排序。将一个或多个列的名字传递给 sort_values() 的 by 参数即可达到该目的，当传递多个列时，首先会对第一列进行排序，若第一列有相同的值，再根据第二列进行排序，依次类推：

>>> import pandas as pd
>>> obj = pd.DataFrame({'a': [4, 4, -3, 2], 'b': [0, 1, 0, 1], 'c': [6, 4, 1, 3]})
>>> obj
   a  b  c
0  4  0  6
1  4  1  4
2 -3  0  1
3  2  1  3
>>> 
>>> obj.sort_values(by='c')
   a  b  c
2 -3  0  1
3  2  1  3
1  4  1  4
0  4  0  6
>>> 
>>> obj.sort_values(by='c', ascending=False)
   a  b  c
0  4  0  6
1  4  1  4
3  2  1  3
2 -3  0  1
>>>
>>> obj.sort_values(by=['a', 'b'])
   a  b  c
2 -3  0  1
3  2  1  3
0  4  0  6
1  4  1  4

>>> import pandas as pd
>>> obj = pd.DataFrame({'a': [4, 4, -3, 2], 'b': [0, 1, 0, 1], 'c': [6, 4, 1, 3]}, index=['A', 'B', 'C', 'D'])
>>> obj
   a  b  c
A  4  0  6
B  4  1  4
C -3  0  1
D  2  1  3
>>> 
>>> obj.sort_values(by='B', axis=1)
   b  a  c
A  0  4  6
B  1  4  4
C  0 -3  1
D  1  2  3

【02x03】rank() 返回排序后元素索引

rank() 函数会返回一个对象，对象的值是原对象经过排序后的索引值，即下标。

在 Series 和 DataFrame 中的基本语法如下：

Series.rank(self: ~ FrameOrSeries,
			axis=0,
			method: str = 'average',
			numeric_only: Union[bool, NoneType] = None,
			na_option: str = 'keep',
			ascending: bool = True,
			pct: bool = False)

DataFrame.rank(self: ~ FrameOrSeries,
			   axis=0,
			   method: str = 'average',
			   numeric_only: Union[bool, NoneType] = None,
			   na_option: str = 'keep',
			   ascending: bool = True,
			   pct: bool = False)

官方文档：

https://pandas.pydata.org/docs/reference/api/pandas.Series.rank.html
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rank.html

常用参数描述如下：

参数	描述
axis	指定轴排序，`0` or `‘index’`，`1` or `‘columns’`，只有在 DataFrame 中才有 `1` or `'columns’`
method	有相同值时，如何处理： `‘average’`：默认值，去两个相同索引的平均值；`‘min’`：取两个相同索引的最小值； `‘max’`：取两个相同索引的最大值；`‘first’`：按照出现的先后顺序； `‘dense’`：和 `'min'` 差不多，但是各组之间总是+1的，不太好解释，可以看后面的示例
ascending	为 `True`时升序排序（默认），为 `False`时降序排序

在 Series 中的应用，按照值排序，如果有缺失值，默认都会被放到 Series 的末尾：

>>> import pandas as pd
>>> obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
>>> obj
0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64
>>> 
>>> obj.rank()
0    6.5  # 第 0 个和第 2 个值从小到大排名分别为 6 和 7，默认取平均值，即 6.5
1    1.0
2    6.5
3    4.5  # 第 3 个和第 6 个值从小到大排名分别为 4 和 5，默认取平均值，即 4.5
4    3.0
5    2.0
6    4.5
dtype: float64
>>> 
>>> obj.rank(method='first')
0    6.0  # 第 0 个和第 2 个值从小到大排名分别为 6 和 7，按照第一次出现排序，分别为 6 和 7
1    1.0
2    7.0
3    4.0  # 第 3 个和第 6 个值从小到大排名分别为 4 和 5，按照第一次出现排序，分别为 4 和 5
4    3.0
5    2.0
6    5.0
dtype: float64
>>> 
>>> obj.rank(method='dense')
0    5.0  # 第 0 个和第 2 个值从小到大排名分别为 6 和 7，按照最小值排序，但 dense 规定间隔为 1 所以为 5
1    1.0
2    5.0
3    4.0  # 第 3 个和第 6 个值从小到大排名分别为 4 和 5，按照最小值排序，即 4
4    3.0
5    2.0
6    4.0
dtype: float64
>>> 
>>> obj.rank(method='min')
0    6.0  # 第 0 个和第 2 个值从小到大排名分别为 6 和 7，按照最小值排序，即 6
1    1.0
2    6.0
3    4.0  # 第 3 个和第 6 个值从小到大排名分别为 4 和 5，按照最小值排序，即 4
4    3.0
5    2.0
6    4.0
dtype: float64

在 DataFrame 中可以使用 axis 参数来指定轴：

>>> import pandas as pd
>>> obj = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})
>>> obj
     b  a    c
0  4.3  0 -2.0
1  7.0  1  5.0
2 -3.0  0  8.0
3  2.0  1 -2.5
>>> 
>>> obj.rank()
     b    a    c
0  3.0  1.5  2.0
1  4.0  3.5  3.0
2  1.0  1.5  4.0
3  2.0  3.5  1.0
>>> 
>>> obj.rank(axis='columns')
     b    a    c
0  3.0  2.0  1.0
1  3.0  1.0  2.0
2  1.0  2.0  3.0
3  3.0  2.0  1.0

这里是一段防爬虫文本，请读者忽略。
本文原创首发于 CSDN，作者 TRHX。
博客首页：https://itrhx.blog.csdn.net/
本文链接：https://itrhx.blog.csdn.net/article/details/106758103
未经授权，禁止转载！恶意转载，后果自负！尊重原创，远离剽窃！

【03x00】层级索引

【03x01】认识层级索引

以下示例将创建一个 Series 对象，索引 Index 由两个子 list 组成，第一个子 list 是外层索引，第二个 list 是内层索引：

>>> import pandas as pd
>>> import numpy as np
>>> obj = pd.Series(np.random.randn(12),index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd'], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]])
>>> obj
a  0   -0.201536
   1   -0.629058
   2    0.766716
b  0   -1.255831
   1   -0.483727
   2   -0.018653
c  0    0.788787
   1    1.010097
   2   -0.187258
d  0    1.242363
   1   -0.822011
   2   -0.085682
dtype: float64

【03x02】MultiIndex 索引对象

官方文档：https://pandas.pydata.org/docs/reference/api/pandas.MultiIndex.html

尝试打印上面示例中 Series 的索引类型，会得到一个 MultiIndex 对象，MultiIndex 对象的 levels 属性表示两个层级中分别有那些标签，codes 属性表示每个位置分别是什么标签，如下所示：

>>> import pandas as pd
>>> import numpy as np
>>> obj = pd.Series(np.random.randn(12),index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd'], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]])
>>> obj
a  0    0.035946
   1   -0.867215
   2   -0.053355
b  0   -0.986616
   1    0.026071
   2   -0.048394
c  0    0.251274
   1    0.217790
   2    1.137674
d  0   -1.245178
   1    1.234972
   2   -0.035624
dtype: float64
>>> 
>>> type(obj.index)
<class 'pandas.core.indexes.multi.MultiIndex'>
>>> 
>>> obj.index
MultiIndex([('a', 0),
            ('a', 1),
            ('a', 2),
            ('b', 0),
            ('b', 1),
            ('b', 2),
            ('c', 0),
            ('c', 1),
            ('c', 2),
            ('d', 0),
            ('d', 1),
            ('d', 2)],
           )
>>> obj.index.levels
FrozenList([['a', 'b', 'c', 'd'], [0, 1, 2]])
>>>
>>> obj.index.codes
FrozenList([[0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]])

通常可以使用 from_arrays() 方法来将数组对象转换为 MultiIndex 索引对象：

>>> arrays = [[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']]
>>> pd.MultiIndex.from_arrays(arrays, names=('number', 'color'))
MultiIndex([(1,  'red'),
            (1, 'blue'),
            (2,  'red'),
            (2, 'blue')],
           names=['number', 'color'])

其他常用方法见下表（更多方法参见官方文档）：

方法	描述
from_arrays(arrays[, sortorder, names])	将数组转换为 MultiIndex
from_tuples(tuples[, sortorder, names])	将元组列表转换为 MultiIndex
from_product(iterables[, sortorder, names])	将多个可迭代的笛卡尔积转换成 MultiIndex
from_frame(df[, sortorder, names])	将 DataFrame 对象转换为 MultiIndex
set_levels(self, levels[, level, inplace, …])	为 MultiIndex 设置新的 levels
set_codes(self, codes[, level, inplace, …])	为 MultiIndex 设置新的 codes
sortlevel(self[, level, ascending, …])	根据 level 进行排序
droplevel(self[, level])	删除指定的 level
swaplevel(self[, i, j])	交换 level i 与 level i，即交换外层索引与内层索引

【03x03】提取值

对于这种有多层索引的对象，如果只传入一个参数，则会对外层索引进行提取，其中包含对应所有的内层索引，如果传入两个参数，则第一个参数表示外层索引，第二个参数表示内层索引，示例如下：

>>> import pandas as pd
>>> import numpy as np
>>> obj = pd.Series(np.random.randn(12),index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd'], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]])
>>> obj
a  0    0.550202
   1    0.328784
   2    1.422690
b  0   -1.333477
   1   -0.933809
   2   -0.326541
c  0    0.663686
   1    0.943393
   2    0.273106
d  0    1.354037
   1   -2.312847
   2   -2.343777
dtype: float64
>>> 
>>> obj['b']
0   -1.333477
1   -0.933809
2   -0.326541
dtype: float64
>>>
>>> obj['b', 1]
-0.9338094811708413
>>> 
>>> obj[:, 2]
a    1.422690
b   -0.326541
c    0.273106
d   -2.343777
dtype: float64

【03x04】交换分层与排序

MultiIndex 对象的 swaplevel() 方法可以交换外层与内层索引，sortlevel() 方法会先对外层索引进行排序，再对内层索引进行排序，默认是升序，如果设置 ascending 参数为 False 则会降序排列，示例如下：

>>> import pandas as pd
>>> import numpy as np
>>> obj = pd.Series(np.random.randn(12),index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd'], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]])
>>> obj
a  0   -0.110215
   1    0.193075
   2   -1.101706
b  0   -1.325743
   1    0.528418
   2   -0.127081
c  0   -0.733822
   1    1.665262
   2    0.127073
d  0    1.262022
   1   -1.170518
   2    0.966334
dtype: float64
>>> 
>>> obj.swaplevel()
0  a   -0.110215
1  a    0.193075
2  a   -1.101706
0  b   -1.325743
1  b    0.528418
2  b   -0.127081
0  c   -0.733822
1  c    1.665262
2  c    0.127073
0  d    1.262022
1  d   -1.170518
2  d    0.966334
dtype: float64
>>> 
>>> obj.swaplevel().index.sortlevel()
(MultiIndex([(0, 'a'),
            (0, 'b'),
            (0, 'c'),
            (0, 'd'),
            (1, 'a'),
            (1, 'b'),
            (1, 'c'),
            (1, 'd'),
            (2, 'a'),
            (2, 'b'),
            (2, 'c'),
            (2, 'd')],
           ), array([ 0,  3,  6,  9,  1,  4,  7, 10,  2,  5,  8, 11], dtype=int32))

这里是一段防爬虫文本，请读者忽略。
本文原创首发于 CSDN，作者 TRHX。
博客首页：https://itrhx.blog.csdn.net/
本文链接：https://itrhx.blog.csdn.net/article/details/106758103
未经授权，禁止转载！恶意转载，后果自负！尊重原创，远离剽窃！

你可能感兴趣的:(#,Pandas)

Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
基于Python的旅游数据可视化应用
摘要本文详细介绍了一个功能完善的基于Python语言开发的旅游行业数据可视化分析应用系统。该系统采用Pandas这一强大的数据处理库进行数据清洗、转换和预处理工作，确保数据质量可靠。在可视化展示方面，系统整合了Matplotlib和Seaborn两大主流可视化库，通过丰富的图表类型直观呈现数据分析结果。特别值得一提的是，所有可视化图表均采用统一的绿色主题配色方案，这种设计不仅美观大方，更能突出体现
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
【Python基础】最强 Pandas 平替 -- Polars 程序媛阿紫 python pandas 开发语言
Polars是一个用于操作结构化数据的高性能DataFrame库，可以说是平替pandas最有潜质的包。Polars其核心部分是用Rust编写的，但该库也提供了Python接口。它的主要特点包括：快速:Polars是从零开始编写的，紧密与机器结合，没有外部依赖。I/O:对所有常见数据存储层提供一流支持：本地、云存储和数据库。易于使用:以原始意图编写查询。Polars在内部会使用其查询优化器确定执行
pandas学习笔记 kara_486 pandas 学习笔记
pandas是python中一个性能强大的数据处理库，能进行复杂的数据处理。pandas的数据结构分为三种类型，分别为series,DataFrame和index,对于初学者而言，series和DataFrame这两种结构最为重要。下面作者将重点介绍series和DataFrame这两部分。series的介绍series按照作者的目前的理解是pandas库中最基础的组成部分，seriers是由索引
使用 Python 和 Pandas 处理 Excel 数据：合并单元格示例技术探索 1024程序员节
引言在数据处理过程中，我们经常会遇到需要从Excel文件中提取和处理数据的情况。本文将通过一个简单的示例，介绍如何使用Python的Pandas库来读取Excel文件，处理其中的合并单元格，并将结果输出到新的Excel文件中。（这里的合并是列1提取一个数据，列2提取两个数据进行合并）1.准备工作首先，请确保你的系统中已经安装了Pandas库。如果尚未安装，可以通过以下命令进行安装：pipinsta
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
Pandas 学习（数学建模篇）停走的风数学建模 pandas 学习
今天学习数学建模2023年C篇（228）优秀论文2023高教社杯全国大学生数学建模竞赛C题论文展示（C228）-2023C题论文-中国大学生在线一.pd.DataFramepd.DataFrame()是pandas库中用于创建二维表格数据结构（DataFrame）的核心函数。它的作用是将各种格式的数据（如字典、列表、Series等）转换为带有行索引和列标签的表格形式，便于数据处理和分析.impor
kafka系列 ---安装kafka+SASL配置心有栖 kafka专栏 kafka java
文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言这篇主要讲如何安装kafka+配置SASL安全验证，之前网上一些文章要么没有配置SASL，要么本身存在一些问题，这里主要把正确的配置方案放上来，后续会讲讲遇到的一些问题和该如何解决。一、安装kafka官网的quickstart有最新安装教程，想安装最新版可以去官网，目前我使用的是kafka2.6.0。这里的所有操作都是在
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
6.kaggle实战之房价预测温柔济沧海深度学习神经网络人工智能 python 深度学习
importhashlibimportosimporttarfileimportzipfileimportrequestsimportnumpyasnpimportpandasaspdimporttorchimportnumpyasnpfromtorchimportnnimportmatplotlib.pyplotaspltfromtorch.utils.dataimportDataLoader,
AWS成本监控告警系统完整解析 ivwdcwso 运维与云原生 aws python Cost 云成本运维开发
完整代码展示#!/usr/bin/python3importboto3,json,requestsimportpandasaspdfromdatetimeimportdatetime,timedelta#创建CostExplorer客户端client=boto3.client('ce')
Python Pandas库超详细教程：从入门到精通实战指南 stormsha Python python pandas 开发语言 python3.11 数据分析
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录Pyt
Python数据可视化：使用Python创建令人惊艳的图表 master_chenchengg python python Python python开发 IT
Python数据可视化：使用Python创建令人惊艳的图表I.可视化的力量：为什么一张好图胜过千言万语II.工欲善其事必先利其器：选择合适的Python可视化库Matplotlib入门：打造你的第一张图表Seaborn的魅力：更美观、更统计学友好的绘图Plotly互动式图表：让你的数据动起来Bokeh与GeoPandas：探索地理空间数据的新维度III.从零开始：一步步教你构建基本图表散点图的艺术
python中的函数：apply、map、reduce、lambda函数
一、apply函数定义：apply函数在Pandas库中函数，应用对象是DataFrame或Series的行或列上，并返回一个新的DataFrame或Series。主要有两方面的功能：一是直接对DataFrame或者Series应用函数，二是对pandas中的groupby之后的聚合对象apply函数DataFrame.apply(func,axis=0,broadcast=None,raw=Fa
Python数据分析学习笔记：字符串统计 NIKEeri python pandas 字符串匹配 python 数据分析学习
一、题目来源KagglePandas-Exercise:SummaryFunctionsandMaps章节二、题目要求描述一瓶葡萄酒时，可用的词汇有限。哪种词出现频率更高：“tropical”还是“fruity”？统计description列中这两个词的出现次数。忽略大小写。三、我的思路（使用str.contains统计总次数）tropical_count=reviews['description
【零基础学AI】第29讲：BERT模型实战 - 情感分析 1989 0基础学AI bert 人工智能深度学习神经网络 cnn python 自然语言处理
本节课你将学到BERT模型的核心原理与优势HuggingFaceTransformers库的BERT接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU推荐（可加速训练）前置知识第28讲Transformer基础基本PyTorch使用
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
两个场景的车辆相似度评估并画图（弗雷歇距离）
疑问：是否有必要normalize？（待解决）importmathimportnumpyasnpimportpandasaspdimporttorchfrommatplotlibimportpyplotaspltfromshapesimilarityimportshape_similarity,procrustes_normalize_curve,find_procrustes_rotation_
两步移动搜索法（2SFCA）python 我在北京coding python python 开发语言
实现两步移动搜索法（Two-StepFloatingCatchmentAreaMethod,2SFCA）是一种广泛应用于地理信息系统（GIS）领域的方法，用于评估设施的空间可达性。以下是基于Python和GeoPandas的一种实现方式。准备工作为了实现2SFCA方法，需要准备以下数据集：供给点：表示服务提供方的位置及其服务能力。需求点：表示潜在使用者的位置及其需求量。距离矩阵：描述供给点与需求点
Python 数据分析实践：车辆行驶数据处理心得 lzzy-lt-0415 python 数据分析开发语言
在数据驱动决策的大趋势下，Python凭借其丰富的数据分析库，成为处理各类数据的得力工具。近期我围绕车辆行驶数据展开分析，过程中收获诸多实战经验，在此分享用Python进行数据处理与分析的心得，也结合代码讲讲实际运用思路。一、数据导入与初步探索：开启分析第一步importpandasaspd#导入数据df=pd.read_excel(r'../../数据层/数据集合/车辆行驶记录表单2.xlsx'
第一章Pandas快速入门 Hajo_ 深入浅出Pandas学习代码 python pandas
《深入浅出Pandas》第一章代码数据来源：https://www.gairuo.com/file/data/dataset/team.xlsximportnumpyasnpimportpandasaspdfile_path='E:\\Data_python\\anconda_code\\Dive_into_Pandas\\data_files\\'team_path='team.xlsx'tea
使用 Bank Churn 数据集进行二元分类
一、前言分类任务：预测客户是继续使用其帐户还是关闭帐户（例如，流失）项目地址：https://www.kaggle.com/competitions/playground-series-s4e1二、具体步骤（一）数据导入与预览importpandasaspdimportnumpyasnpimportmatplotlib.pylabaspltimportseabornassnsfromsklearn
Pandas-数据组合赛丽曼 Pandas pandas
文章目录一.concat二.merge三.join(了解)day09一.concat二.merge三.join(了解)
pdfplumber、pandas根据指定字段提取PDF跨页表格数据
importpdfplumberimportpandasaspdfromtypingimportList,Dict,Tuple,Optionaldefextract_table_by_title(pdf_path:str,target_title:str,page_range:Tuple[int,int]=(1,None),#(起始页,结束页)，None表示到最后一页title_padding:f
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本