PhoenixPeng-gxu

《利用Python进行数据分析》第十章---数据聚合与分组操作1

文章目录

前言
一、GroupBy机制
- 1.1 遍历各分组
- 1.2 选择一列或所有列的子集
- 1.3 使用字典和Series分组
- 1.4 使用函数分组
- 1.5 根据索引层级分组
二、数据聚合
- 2.1 逐列及多函数应用
- 2.2 返回不含行索引的聚合数据
总结

前言

对数据集进行分类，并在每一组上应用一个聚合函数或转换函数，这通常是数据分析工作流中的一个重要部分。在载入、合并、准备数据集之后，你可能需要计算分组统计或者数据透视表用于报告或可视化的目的。pandas提供一个灵活的groupby接口，允许你以一种自然发方式对数据集进行切片、切块和总结。

我们通过Python和pandas的表达，我们可以使用pandas对象或NumPy数组执行相当复杂的组操作。在本章，我们将了解到：

使用一个或多个键（以函数、数组或DataFrame列名的形式）将pandas对象拆分为多块
计算组汇总统计信息，如计数、平均值或标准偏差或用户定义的函数
应用组内变换或其他操作，如标准化、线性回归、排位或子集选择
计算数据透视表和交叉表
执行分位数分析和其他统计组分析

一、GroupBy机制

描述组操作的术语为拆分-应用-联合。在操作的第一步，数据包含在pandas对象中，可以是Series、DataFrame或其他数据结构，之后根据你提供的一个或多个键分离到各个组中。分离操作是在数据对象的特定轴向上进行的。例如，DataFrame可以在它的行方向（axis=0）或列方向（axis=1）进行分组。分组操作后，一个函数就可以应用到各个组去，产生新的值，最终，所以函数的应用结果会联合为一个结果对象。结果对象的形式通常取决于对数据进行的操作：

分组键可是多种形式的，并且键不一定是完全相同的类型：

与需要分组的轴向长度一致的值列表或值数组
DataFrame的列名的值
可以将分组轴向上的值和分组名称相匹配的字典或Series
可以在轴索引或索引中的单个标签上调用的函数

在下面的DataFrame当中，我们将介绍的三个方法是可以产生用于分隔对象的值数组的快捷方式：

import pandas as pd
import numpy as np

df = pd.DataFrame({'key1':['a','a','b','b','a'],
                   'key2':['one','two','one','two','one'],
                   'data1':np.random.randn(5),
                   'data2':np.random.randn(5)})
print(df)
---------------------------------------------------------------------
  key1 key2     data1     data2
0    a  one  1.548485 -0.219585
1    a  two  0.447387 -0.100247
2    b  one  0.134934 -1.013706
3    b  two -1.090257  0.071942
4    a  one -1.650373 -0.496783

假设你想要根据key1标签计算data1列的均值，有多种方法可以实现。其中一种是访问data1并使用key1列（它是一个Series）调用groupby方法：

grouped = df['data1'].groupby(df['key1'])
print(grouped)
<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000021CCB493100>

grouped变量现在是一个GroupBy对象。除了一些关于分组键df[‘key1’]的一些中间数据之外，它实际上还没有进行任何计算。这个对象拥有所有必需的信息，之后可以在每一个分组上应用一些操作。例如，为了计算分组的均值我们可以调用GroupBy的mean方法：

print(grouped.mean())
key1
a    0.115166
b   -0.477662
Name: data1, dtype: float64

数据（一个Series）根据分组键进行了聚合，并产生了新的Series，这个Series使用key1列的唯一值作为索引。由于DataFrame的列df[‘key1’],结果中的索引名称是’key1‘。

如果我们将多个数组作为列表传入，则我们会得到一些不同的结果：

means = df['data1'].groupby([df['key1'],df['key2']]).mean()
print(means)
-----------------------------------------------------------------
key1  key2
a     one    -0.050944
      two     0.447387
b     one     0.134934
      two    -1.090257
Name: data1, dtype: float64

这里我们使用了两个键对数据进行分组，并且结果Series现在拥有一个包含唯一键对的多层索引：

print(means.unstack())
---------------------------------------------------------------------
key2       one       two
key1                    
a    -0.050944  0.447387
b     0.134934 -1.090257

在这个例子中，分组键都是Series，尽管分组键也可以是正确长度的任何数组：

states = np.array(['Ohio','California','California','Ohio','Ohio'])
years = np.array([2005,2005,2006,2005,2006])
a = df['data1'].groupby([states,years]).mean()
print(a)
--------------------------------------------------------------------------
California  2005    0.447387
            2006    0.134934
Ohio        2005    0.229114
            2006   -1.650373
Name: data1, dtype: float64

分组信息作为你想要继续处理的数据，通常包含在同一个DataFrame中。在这种情况下，你可以传递列名作为分组键：

a = df.groupby('key1').mean()
print(a)
a = df.groupby(['key1','key2']).mean()
print(a)
---------------------------------------------------------
         data1     data2
key1                    
a     0.115166 -0.272205
b    -0.477662 -0.470882

              data1     data2
key1 key2                    
a    one  -0.050944 -0.358184
     two   0.447387 -0.100247
b    one   0.134934 -1.013706
	 two  -1.090257  0.071942

第一行代码中df.grouby(‘key1’).mean()的结果里并没有key2列。这是因为df[‘key2’]并不是数值数据，即df[‘key2’]是一个冗余列，因此被排除在结果之外。默认情况下，所有的数值列都可以聚合。

如果不在意使用grouby的目的，通用的GroupBy方法是size，size返回一个包含组大小信息的Series：

a = df.groupby(['key1','key2']).size()
print(a)
-------------------------------------------------------------------
key1  key2
a     one     2
      two     1
b     one     1
      two     1
dtype: int64

1.1 遍历各分组

GroupBy对象支持迭代，会生成一个包含组名和数据块的2维元组序列。

for name,group in df.groupby('key1'):
    print(name)
    print(group)
----------------------------------------------------------
a
  key1 key2     data1     data2
0    a  one  1.548485 -0.219585
1    a  two  0.447387 -0.100247
4    a  one -1.650373 -0.496783
b
  key1 key2     data1     data2
2    b  one  0.134934 -1.013706
3    b  two -1.090257  0.071942

在多个分组键的情况下，元组中的第一个元素是键值的元组：

for name,group in df.groupby(['key1','key2']):
    print(name)
    print(group)
-----------------------------------------------------------
('a', 'one')
  key1 key2     data1     data2
0    a  one  1.548485 -0.219585
4    a  one -1.650373 -0.496783
('a', 'two')
  key1 key2     data1     data2
1    a  two  0.447387 -0.100247
('b', 'one')
  key1 key2     data1     data2
2    b  one  0.134934 -1.013706
('b', 'two')
  key1 key2     data1     data2
3    b  two -1.090257  0.071942

当然，你可以选择在任何一块数据上进行你想要的操作。使用一行代码计算出数据块的字典可能会对你有用：

a = dict(list(df.groupby('key1')))
print(a['b'])
------------------------------------------------------
  key1 key2     data1     data2
2    b  one  0.134934 -1.013706
3    b  two -1.090257  0.071942

默认情况下，grouby在axis=0的轴向（行向）上分组，但你也可以在其他任意轴向上进行分组。例如，我们可以像以下代码一样，根据dtype对我们示例df的列进行分组：

a = df.dtypes
print(a)
------------------------------------------------------
key1      object
key2      object
data1    float64
data2    float64
dtype: object

grouped = df.groupby(df.dtypes,axis=1)
for dtypes,group in grouped:
    print(dtypes)
    print(group)
----------------------------------------------------
float64
      data1     data2
0  1.548485 -0.219585
1  0.447387 -0.100247
2  0.134934 -1.013706
3 -1.090257  0.071942
4 -1.650373 -0.496783
object
  key1 key2
0    a  one
1    a  two
2    b  one
3    b  two
4    a  one

1.2 选择一列或所有列的子集

将从DataFrame创建的GrouBy对象用列名称或列名称数组进行索引时，会产生聚合的列子集的效果。例如：

df.groupby('key1')['data1']
df.groupby('key1')[['data2']]

与下面的语句是等价的：

df['data1'].groupby(df['key1'])
df[['data2']].groupby(df['key1'])

当我们要计算data2列的均值，并获得DataFrame形式的结果，我们可以写：

a = df.groupby(['key1','key2'])[['data2']].mean()
print(a)
------------------------------------------------------------------
              data2
key1 key2          
a    one  -0.358184
     two  -0.100247
b    one  -1.013706
     two   0.071942

如果传递的是列表或数组，则此索引操作返回的对象是分组的DataFrame；如果只有单个列名作为标量传递，则为分组的Series：

a = df.groupby(['key1','key2'])['data2'].mean()
print(a)
-------------------------------------------------------------
key1  key2
a     one    -0.358184
      two    -0.100247
b     one    -1.013706
      two     0.071942
Name: data2, dtype: float64

1.3 使用字典和Series分组

分组信息可能会以非数组形式存在。让我们考虑另一个示例DataFrame：

df = pd.DataFrame(np.random.randn(5,5),
                  columns=['a','b','c','d','e'],
                  index=['Joe','Steve','Wes','Jim','Travis'])

df.iloc[2:3,[1,2]]=np.nan
print(df)
-----------------------------------------------------------------
               a         b         c         d         e
Joe     1.388421 -1.129679  0.075746 -1.894284 -0.715854
Steve  -0.298438 -1.859657 -0.085582 -0.971794 -1.143098
Wes    -0.124365       NaN       NaN -1.528739 -0.409837
Jim     0.100342 -0.423482  0.909694  0.256412 -0.399447
Travis -1.620090  1.258952 -0.051295  1.331768  0.640878

现在我们假设拥有各列的分组对应关系，并且想把各列按组累加：

mapping = {'a':'red','b':'red','c':'blue','d':'blue','e':'red'}
by_column = df.groupby(mapping,axis=1)
print(by_column.sum())
----------------------------------------------------------------
            blue       red
Joe    -1.818538 -0.457112
Steve  -1.057376 -3.301192
Wes    -1.528739 -0.534203
Jim     1.166107 -0.722587
Travis  1.280473  0.279740

Series也有相同的功能，可以视为固定大小的映射：

map_series = pd.Series(mapping)
a = df.groupby(map_series,axis=1).count()
print(a)
---------------------------------------------------------
        blue  red
Joe        2    3
Steve      2    3
Wes        1    2
Jim        2    3
Travis     2    3

1.4 使用函数分组

与使用字典或Series相比，使用Python函数是定义分组关系的一种更为通用的方式。作为分组键传递的函数将会按照每个索引值调用一次，同时返回值会被用作分组名称。更具体的来说，考虑上一节中的示例DataFrame，其中人的名字作为索引值。假设你想根据名字长度来进行分组。虽然你可以计算出字符串长度的数组，但传递len函数更为简单：

a = df.groupby(len).sum()
print(a)
------------------------------------------------------------------
          a         b         c         d         e
3  1.364397 -1.553161  0.985440 -3.166611 -1.525138
5 -0.298438 -1.859657 -0.085582 -0.971794 -1.143098
6 -1.620090  1.258952 -0.051295  1.331768  0.640878

将函数与数组、字典或Series进行混合并不困难，所有对象都会在内部转换为数组：

key_list=['one','one','one','two','two']
a = df.groupby([len,key_list]).min()
print(a)
------------------------------------------------------------
              a         b         c         d         e
3 one -0.124365 -1.129679  0.075746 -1.894284 -0.715854
  two  0.100342 -0.423482  0.909694  0.256412 -0.399447
5 one -0.298438 -1.859657 -0.085582 -0.971794 -1.143098
6 two -1.620090  1.258952 -0.051295  1.331768  0.640878

1.5 根据索引层级分组

分层索引的数据集有一个非常方便的地方，就是能够在轴索引的某个层级上进行聚合。

columns=pd.MultiIndex.from_arrays([['US','US','US','JP','JP'],[1,3,5,1,3]],names=['cty','tenor'])
df = pd.DataFrame(np.random.randn(4,5),
                  columns=columns)


print(df)
-----------------------------------------------------------------------------
cty          US                            JP          
tenor         1         3         5         1         3
0      0.763263 -0.125198  0.072028 -0.670269  1.275435
1     -0.954808 -0.401308 -0.061292 -1.294746 -0.479677
2     -0.404107  0.014756 -2.206899  2.188720  0.594605
3     -1.047688 -0.753724  0.086409  0.652343 -0.438745

根据层级分组时，将层级数值或层级名称传递给level关键字：

a = df.groupby(level='cty',axis=1).count()
print(a)
------------------------------------------------------------
cty  JP  US
0     2   3
1     2   3
2     2   3
3     2   3

二、数据聚合

聚合是指所有根据数组产生标量值的数据转换过程。之前的例子已经使用了一些聚合操作，包括mean、count、min和sum等。很多常见的聚合，例如下表中的操作都有了优化实现。然而，你要用的可能并不局限于下面这个方法集。

函数名	描述
count	分组中非NA值数量
sum	非NA值的累和
mean	非NA值的均值
median	非NA值的算术中位数
std、var	无偏的（n-1分母）标准差和方差
min、max	非NA值的最小值、最大值
prod	非NA值的乘积
first、last	非NA值的第一个和最后一个值

也可以使用自行制定的聚合，并再调用已经在分组对象上定义好的方法。例如，你可能还记得quantile可以计算Series或DataFrame列的样本分位数。尽管quantile并不是显式地为GroupBy对象实现的，但它是Series的方法，因此也可以用于聚合。在内部，GroupBy有效地对Series进行切片，为每一块调用piece.quantile（0.9），然后将这些结果一起组装到结果对象中：

print(df)
a = df.groupby('key1')['data1'].quantile(0.9)
print(a)
------------------------------------------------------
  key1 key2     data1     data2
0    a  one  1.548485 -0.219585
1    a  two  0.447387 -0.100247
2    b  one  0.134934 -1.013706
3    b  two -1.090257  0.071942
4    a  one -1.650373 -0.496783

key1
a    1.328265
b    0.012415
Name: data1, dtype: float64

要使用你自己的聚合函数，需要将函数传递给aggregate或agg方法：

def peak_to_peak(arr):
    return arr.max()-arr.min()
a = df.groupby('key1').agg(peak_to_peak)
print(a)
-----------------------------------------------
         data1     data2
key1                    
a     3.198858  0.396536
b     1.225191  1.085648

你可能会注意到一些方法，比如describe也是有效的，尽管严格来说它们并不是聚合函数：

a = df.groupby('key1').describe()
print(a)
-----------------------------------------------------
     data1                      ...     data2                    
     count      mean       std  ...       50%       75%       max
key1                            ...                              
a      3.0  0.115166  1.625100  ... -0.219585 -0.159916 -0.100247
b      2.0 -0.477662  0.866341  ... -0.470882 -0.199470  0.071942

2.1 逐列及多函数应用

让我们回到上一章中的小费数据集。在使用read_csv载入数据集后，我们增加一个小费比例列tip_pct:

tips = pd.read_csv('D:\浏览器下载\pydata-book-2nd-edition\pydata-book-2nd-edition\examples/tips.csv')
tips['tip_pct'] = tips['tip']/tips['total_bill']
print(tips[:6])
--------------------------------------------------------------------------------
   total_bill   tip smoker  day    time  size   tip_pct
0       16.99  1.01     No  Sun  Dinner     2  0.059447
1       10.34  1.66     No  Sun  Dinner     3  0.160542
2       21.01  3.50     No  Sun  Dinner     3  0.166587
3       23.68  3.31     No  Sun  Dinner     2  0.139780
4       24.59  3.61     No  Sun  Dinner     4  0.146808
5       25.29  4.71     No  Sun  Dinner     4  0.186240

对Series或DataFrame所有列进行聚合就是使用aggregate和所需函数，或者是调用像mean或std这种方法的。然而，你可能想根据各列同时使用多个函数进行聚合。这是可以做到的。首先，得将根据day和smoker来对tips进行分组：

grouped = tips.groupby(['day','smoker'])
grouped_pct = grouped['tip_pct']
a = grouped_pct.agg('mean')
print(a)
------------------------------------------------------------------------
day   smoker
Fri   No        0.151650
      Yes       0.174783
Sat   No        0.158048
      Yes       0.147906
Sun   No        0.160113
      Yes       0.187250
Thur  No        0.160298
      Yes       0.163863

如果你传递的是函数或函数名的列表，你会获得一个列名是这些函数名的DataFrame：

a = grouped_pct.agg(['mean', 'std', peak_to_peak])
print(a)
-------------------------------------------------------------------------
                mean       std  peak_to_peak
day  smoker                                  
Fri  No      0.151650  0.028123      0.067349
     Yes     0.174783  0.051293      0.159925
Sat  No      0.158048  0.039767      0.235193
     Yes     0.147906  0.061375      0.290095
Sun  No      0.160113  0.042347      0.193226
     Yes     0.187250  0.154134      0.644685
Thur No      0.160298  0.038774      0.193350
     Yes     0.163863  0.039389      0.151240

这里我们传递了聚合函数的列表agg方法，这些函数会各自运用于数据分组。

如果你传递的是（name,function）元组的列表，每个元组的第一个元素将作为DataFrame的列名：

a = grouped_pct.agg([('foo','mean'),('bar',np.std)])
print(a)
-------------------------------------------------------------------
                  foo       bar
day  smoker                    
Fri  No      0.151650  0.028123
     Yes     0.174783  0.051293
Sat  No      0.158048  0.039767
     Yes     0.147906  0.061375
Sun  No      0.160113  0.042347
     Yes     0.187250  0.154134
Thur No      0.160298  0.038774
     Yes     0.163863  0.039389

在DataFrame中，你有更多的选项，你可以指定应用到所有列上的函数列表或每一列上要应用的不同函数。假设我们想要计算tip_pct和total_bill列的三个相同的统计值：

functions = ['count','max','min']
result = grouped['tip_pct','total_bill'].agg(functions)
print(result)
-----------------------------------------------------------------
            tip_pct                     total_bill              
              count       max       min      count    max    min
day  smoker                                                     
Fri  No           4  0.187735  0.120385          4  22.75  12.46
     Yes         15  0.263480  0.103555         15  40.17   5.75
Sat  No          45  0.291990  0.056797         45  48.33   7.25
     Yes         42  0.325733  0.035638         42  50.81   3.07
Sun  No          57  0.252672  0.059447         57  48.17   8.77
     Yes         19  0.710345  0.065660         19  45.35   7.25
Thur No          45  0.266312  0.072961         45  41.19   7.51
     Yes         17  0.241255  0.090014         17  43.11  10.34

如你所见，产生的DataFrame拥有分层列，与分别聚合每一列，再以列名作为keys参数使用concat将结果拼接在一起的结果相同：

和之前一样，可以传递具有自定义名称的元组列表：

ftuples = [('Magnum','mean'),('Boost',np.var)]
a = grouped['tip_pct','total_bill'].agg(ftuples)
print(a)
-------------------------------------------------------
              tip_pct           total_bill            
               Magnum     Boost     Magnum       Boost
day  smoker                                           
Fri  No      0.151650  0.000791  18.420000   25.596333
     Yes     0.174783  0.002631  16.813333   82.562438
Sat  No      0.158048  0.001581  19.661778   79.908965
     Yes     0.147906  0.003767  21.276667  101.387535
Sun  No      0.160113  0.001793  20.506667   66.099980
     Yes     0.187250  0.023757  24.120000  109.046044
Thur No      0.160298  0.001503  17.113111   59.625081
     Yes     0.163863  0.001551  19.190588   69.808518

假设你想要将不同的函数应用到一个列或多个列上。要实现这个功能，需要将列名于函数对应关系的字典传递给agg：

a = grouped.agg({'tip':np.max,'size':'sum'})
print(a)
a = grouped.agg({'tip_pct':['min','max','mean','std'],
                 'size':'sum'})
print(a)
-------------------------------------------------------------------------
               tip  size
day  smoker             
Fri  No       3.50     9
     Yes      4.73    31
Sat  No       9.00   115
     Yes     10.00   104
Sun  No       6.00   167
     Yes      6.50    49
Thur No       6.70   112
     Yes      5.00    40
     
              tip_pct                               size
                  min       max      mean       std  sum
day  smoker                                             
Fri  No      0.120385  0.187735  0.151650  0.028123    9
     Yes     0.103555  0.263480  0.174783  0.051293   31
Sat  No      0.056797  0.291990  0.158048  0.039767  115
     Yes     0.035638  0.325733  0.147906  0.061375  104
Sun  No      0.059447  0.252672  0.160113  0.042347  167
     Yes     0.065660  0.710345  0.187250  0.154134   49
Thur No      0.072961  0.266312  0.160298  0.038774  112
     Yes     0.090014  0.241255  0.163863  0.039389   40

只有多个函数应用于至少一个列时，DataFrame才具有分层列。

2.2 返回不含行索引的聚合数据

在前面所有的列子中，聚合数据返回时都是带有索引的，有时索引是分层的，由唯一的分组键联合形成的，你也可以通过向groupby传递ax_index = False 来禁用分组键作为索引的行为：

a = tips.groupby(['day','smoker']).mean()
print(a)
a = tips.groupby(['day','smoker'],as_index=False).mean()
print(a)
--------------------------------------------------------------------------
             total_bill       tip      size   tip_pct
day  smoker                                          
Fri  No       18.420000  2.812500  2.250000  0.151650
     Yes      16.813333  2.714000  2.066667  0.174783
Sat  No       19.661778  3.102889  2.555556  0.158048
     Yes      21.276667  2.875476  2.476190  0.147906
Sun  No       20.506667  3.167895  2.929825  0.160113
     Yes      24.120000  3.516842  2.578947  0.187250
Thur No       17.113111  2.673778  2.488889  0.160298
     Yes      19.190588  3.030000  2.352941  0.163863

    day smoker  total_bill       tip      size   tip_pct
0   Fri     No   18.420000  2.812500  2.250000  0.151650
1   Fri    Yes   16.813333  2.714000  2.066667  0.174783
2   Sat     No   19.661778  3.102889  2.555556  0.158048
3   Sat    Yes   21.276667  2.875476  2.476190  0.147906
4   Sun     No   20.506667  3.167895  2.929825  0.160113
5   Sun    Yes   24.120000  3.516842  2.578947  0.187250
6  Thur     No   17.113111  2.673778  2.488889  0.160298
7  Thur    Yes   19.190588  3.030000  2.352941  0.163863

总结

以上就是今天要讲的内容，本文仅仅简单介绍了利用GroupBy的机制对数据集进行拆分-应用-联合。而这两节分别介绍了拆分时和聚合时可以做到的功能和细则。下一节将围绕应用进行学习。

你可能感兴趣的:(python,数据分析,pandas)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option