pandas

'''
【课程2.14】  数值计算和统计基础

常用数学、统计方法
 
'''

# 基本参数：axis、skipna
import pandas as pd
import numpy as np

df=pd.DataFrame({
     
        'key1':[4,5,3,np.nan,2],
        'key2':[1,2,np.nan,3,5],
        'key3':[1,2,3,'h','k']},
        index=list('abcde')
    )
print(df)

   key1  key2 key3
a   4.0   1.0    1
b   5.0   2.0    2
c   3.0   NaN    3
d   NaN   3.0    h
e   2.0   5.0    k

print(df['key1'])

a    4.0
b    5.0
c    3.0
d    NaN
e    2.0
Name: key1, dtype: float64

m1=df.mean()
print(m1)
print(df['key2'].mean())
# mean() 计算平均值
# 只统计数字，有字符串或其他的不计算
# 可以通过索引单独统计一列

key1    3.50
key2    2.75
dtype: float64
2.75

m2=df.mean(axis=1)
print(m2)
# asix参数默认为0，以列来计算，axis=1，以行来计算
# 当axis=1是，会忽略该行的字符串以及nan，只计算数字

a    2.5
b    3.5
c    3.0
d    3.0
e    3.5
dtype: float64

m3=df.mean(skipna=False)
print(m3)
m4=df.mean(axis=1,skipna=False)
print(m4)
# skipna 默认为True，忽略nan，当为False是，有nan的行或列的值仍未nan

key1   NaN
key2   NaN
dtype: float64
a    2.5
b    3.5
c    NaN
d    NaN
e    3.5
dtype: float64

df=pd.DataFrame({
     
        'key1':np.arange(10),
        'key2':np.random.rand(10)*10,
        'key3':[1,2,3,4,5,6,8,9,7,np.nan]
    })
print(df)

   key1      key2  key3
0     0  7.414184   1.0
1     1  1.086788   2.0
2     2  3.489052   3.0
3     3  0.204554   4.0
4     4  8.666828   5.0
5     5  8.846589   6.0
6     6  5.601258   8.0
7     7  4.295757   9.0
8     8  0.190201   7.0
9     9  0.579211   NaN

print(df.count())  # 统计df中非nan的值

key1    10
key2    10
key3     9
dtype: int64

print(df.min()) # 统计数组中每列的最小值

key1    0.000000
key2    0.190201
key3    1.000000
dtype: float64

print(df.max())

key1    9.000000
key2    8.846589
key3    9.000000
dtype: float64

print(df.quantile(q=0.5))   # 统计分位数，参数q确定位置

key1    4.500000
key2    3.892404
key3         NaN
dtype: float64


F:\software\Anaconda3\lib\site-packages\numpy\lib\function_base.py:3834: RuntimeWarning: Invalid value encountered in percentile
  RuntimeWarning)

print(df.sum())  # 统计和

key1    45.000000
key2    40.374422
key3    45.000000
dtype: float64

print(df.median())  # 求出中位数

key1    4.500000
key2    3.892404
key3    5.000000
dtype: float64

print(df.std())  # 标准差

key1    3.027650
key2    3.479024
key3    2.738613
dtype: float64

print(df.var())  # 方差

key1     9.166667
key2    12.103610
key3     7.500000
dtype: float64

print(df.skew(),'→ skew样本的偏度\n')
print(df.kurt(),'→ kurt样本的峰度\n')

key1    0.000000
key2    0.238528
key3    0.000000
dtype: float64 → skew样本的偏度

key1   -1.200000
key2   -1.681431
key3   -1.200000
dtype: float64 → kurt样本的峰度

# 主要数学计算方法，可用于Series和DataFrame（2）
# 样本累计和
df['key1_sum']=df['key1'].cumsum()
df['key2_sum']=df['key2'].cumsum()
df['key3_sum']=df['key3'].cumsum()
print(df)
# 与nan相加仍未nan

   key1      key2  key3  key1_sum   key2_sum  key3_sum
0     0  7.414184   1.0         0   7.414184       1.0
1     1  1.086788   2.0         1   8.500972       3.0
2     2  3.489052   3.0         3  11.990024       6.0
3     3  0.204554   4.0         6  12.194578      10.0
4     4  8.666828   5.0        10  20.861406      15.0
5     5  8.846589   6.0        15  29.707995      21.0
6     6  5.601258   8.0        21  35.309254      29.0
7     7  4.295757   9.0        28  39.605010      38.0
8     8  0.190201   7.0        36  39.795211      45.0
9     9  0.579211   NaN        45  40.374422       NaN

# 样本累计积
df['key1_prod']=df['key1'].cumprod()
df['key2_prod']=df['key2'].cumprod()
df['key3_prod']=df['key3'].cumprod()
print(df)

   key1      key2  key3  key1_sum   key2_sum  key3_sum  key1_prod  \
0     0  7.414184   1.0         0   7.414184       1.0          0   
1     1  1.086788   2.0         1   8.500972       3.0          0   
2     2  3.489052   3.0         3  11.990024       6.0          0   
3     3  0.204554   4.0         6  12.194578      10.0          0   
4     4  8.666828   5.0        10  20.861406      15.0          0   
5     5  8.846589   6.0        15  29.707995      21.0          0   
6     6  5.601258   8.0        21  35.309254      29.0          0   
7     7  4.295757   9.0        28  39.605010      38.0          0   
8     8  0.190201   7.0        36  39.795211      45.0          0   
9     9  0.579211   NaN        45  40.374422       NaN          0   

      key2_prod  key3_prod  
0      7.414184        1.0  
1      8.057643        2.0  
2     28.113540        6.0  
3      5.750740       24.0  
4     49.840677      120.0  
5    440.919971      720.0  
6   2469.706722     5760.0  
7  10609.258712    51840.0  
8   2017.889816   362880.0  
9   1168.783411        NaN

# 唯一值 .unique()
s=pd.Series(list('ffccdbaa'))
print(s)

0    f
1    f
2    c
3    c
4    d
5    b
6    a
7    a
dtype: object

print(s.unique())
# 得到唯一数组
sq=s.unique()
print(pd.Series(sq))
# 得到一个唯一的Series

['f' 'c' 'd' 'b' 'a']
0    f
1    c
2    d
3    b
4    a
dtype: object

sq.sort()
print(sq)
# 重新排序

['a' 'b' 'c' 'd' 'f']

# 统计数 .value_counts()
print(s.value_counts(sort=False))
print(pd.value_counts(s))
# 得到一个新的Series，计算出不同值的不同频率
# sort参数，默认为True，排序

b    1
d    1
c    2
f    2
a    2
dtype: int64
a    2
f    2
c    2
d    1
b    1
dtype: int64

# 成员资格
s=pd.Series(np.arange(10,15))
df=pd.DataFrame({
     
        'key1':list('abcdefghi1'),
        'key2':np.arange(4,14)
    })
print(s)
print(df)

0    10
1    11
2    12
3    13
4    14
dtype: int32
  key1  key2
0    a     4
1    b     5
2    c     6
3    d     7
4    e     8
5    f     9
6    g    10
7    h    11
8    i    12
9    1    13

print(s.isin([5,13,14]))
# 返回布尔值，存在的为True

0    False
1    False
2    False
3     True
4     True
dtype: bool

print(df.isin(['a','bc',10,8,1]))
# 用[]表示

    key1   key2
0   True  False
1  False  False
2  False  False
3  False  False
4  False   True
5  False  False
6  False   True
7  False  False
8  False  False
9  False  False

'''
【课程2.15】  文本数据

Pandas针对字符串配备的一套方法，使其易于对数组的每个元素进行操作
 
'''

# 通过str访问，且自动排除丢失/ NA值
s=pd.Series(['A','b','C','bbhello','123',np.nan,'hj'])
df = pd.DataFrame({
     'key1':list('abcdef'),
                  'key2':['hee','fv','w','hija','123',np.nan]})
print(s)
print(df)

0          A
1          b
2          C
3    bbhello
4        123
5        NaN
6         hj
dtype: object
  key1  key2
0    a   hee
1    b    fv
2    c     w
3    d  hija
4    e   123
5    f   NaN

print(s.str.count('b'))
# 统计出每个b的个数，自动忽略nan

0    0.0
1    1.0
2    0.0
3    2.0
4    0.0
5    NaN
6    0.0
dtype: float64

print(df['key2'].str.upper())
# 全部转为大写

0     HEE
1      FV
2       W
3    HIJA
4     123
5     NaN
Name: key2, dtype: object

df.columns = df.columns.str.upper()
print(df)
# colimns是index的对象，也可以使用.str

  KEY1  KEY2
0    a   hee
1    b    fv
2    c     w
3    d  hija
4    e   123
5    f   NaN

# 字符串常用方法（1） - lower，upper，len，startswith，endswith
s=pd.Series(['A','b','AAbb','123',np.nan])
print(s)

0       A
1       b
2    AAbb
3     123
4     NaN
dtype: object

print(s.str.lower())
#全部转为小写

0       a
1       b
2    aabb
3     123
4     NaN
dtype: object

print(s.str.upper())
# 全部转为大写

0       A
1       B
2    AABB
3     123
4     NaN
dtype: object

print(s.str.len())
# Series每个字符串的长度

0    1.0
1    1.0
2    4.0
3    3.0
4    NaN
dtype: float64

print(s.str.startswith('b'))
# 判断字符串是否以b开头

0    False
1     True
2    False
3    False
4      NaN
dtype: object

print(s.str.endswith('3'))
# 判断字符串是否以3结尾

0    False
1    False
2    False
3     True
4      NaN
dtype: object

# 字符串常用方法（2） - strip 去空格
s=pd.Series([' jack', 'jill ', ' jesse ', 'frank'])
df = pd.DataFrame(np.random.randn(3, 2), columns=[' Column A ', ' Column B '],
                  index=range(3))
print(s)
print(df)

0       jack
1      jill 
2     jesse 
3      frank
dtype: object
    Column A    Column B 
0   -0.510577   -1.234627
1    1.338442    0.466668
2   -0.776209   -0.036641

print(s.str.strip())
# 去除字符串中的空格
print(s.str.lstrip())  
# 去除字符串中的左空格
print(s.str.rstrip())  
# 去除字符串中的右空格

0     jack
1     jill
2    jesse
3    frank
dtype: object
0      jack
1     jill 
2    jesse 
3     frank
dtype: object
0      jack
1      jill
2     jesse
3     frank
dtype: object

df.columns=df.columns.str.strip()
print(df)
# 去除df中columns中的空格

   Column A  Column B
0 -0.510577 -1.234627
1  1.338442  0.466668
2 -0.776209 -0.036641

# 字符串常用方法（3） - replace
df=pd.DataFrame(np.random.randn(3,2),
               index=list('abc'), columns=[' Column A ', ' Column B '])
print(df)

    Column A    Column B 
a   -1.063125   -1.096488
b    0.434409   -1.770704
c   -1.728158    0.045788

df.columns=df.columns.str.replace(' ','--')
print(df)
# 替换 replace

   --Column--A--  --Column--B--
a      -1.063125      -1.096488
b       0.434409      -1.770704
c      -1.728158       0.045788

df.columns=df.columns.str.replace('--','aaa',n=1)
print(df)
# n: 替换个数

   aaaColumn--A--  aaaColumn--B--
a       -1.063125       -1.096488
b        0.434409       -1.770704
c       -1.728158        0.045788

# 字符串常用方法（4） - split、rsplit
s=pd.Series(['a,b,c','1,2,3',['a,,,c'],np.nan])
print(s)

0      a,b,c
1      1,2,3
2    [a,,,c]
3        NaN
dtype: object

print(s.str.split(','))

0    [a, b, c]
1    [1, 2, 3]
2          NaN
3          NaN
dtype: object

print(s.str.split(',')[0])
print(s.str.split(',')[1])
# 直接索引得到一个list

['a', 'b', 'c']
['1', '2', '3']

print(s.str.split(',', expand=True))
print(s.str.split(',', expand=True, n = 1))
print(s.str.rsplit(',', expand=True, n = 1))
# 可以使用expand可以轻松扩展此操作以返回DataFrame
# n参数限制分割数
# rsplit类似于split，反向工作，即从字符串的末尾到字符串的开头

     0     1     2
0    a     b     c
1    1     2     3
2  NaN  None  None
3  NaN  None  None
     0     1
0    a   b,c
1    1   2,3
2  NaN  None
3  NaN  None
     0     1
0  a,b     c
1  1,2     3
2  NaN  None
3  NaN  None
-----

df = pd.DataFrame({
     'key1':['a,b,c','1,2,3',[':,., ']],
                  'key2':['a-b-c','1-2-3',[':-.- ']]})
print(df['key2'].str.split('-'))
# Dataframe使用split

0    [a, b, c]
1    [1, 2, 3]
2          NaN
Name: key2, dtype: object

# # 字符串索引
s = pd.Series(['A','b','C','bbhello','123',np.nan,'hj'])
df = pd.DataFrame({
     'key1':list('abcdef'),
                  'key2':['hee','fv','w','hija','123',np.nan]})
print(s)
print(df)

0          A
1          b
2          C
3    bbhello
4        123
5        NaN
6         hj
dtype: object
  key1  key2
0    a   hee
1    b    fv
2    c     w
3    d  hija
4    e   123
5    f   NaN

print(s.str[0])
# 第一个字符串

0      A
1      b
2      C
3      b
4      1
5    NaN
6      h
dtype: object

print(s.str[:2])
# 前俩个字符串

0      A
1      b
2      C
3     bb
4     12
5    NaN
6     hj
dtype: object

print(df['key2'].str[0]) 
# str之后和字符串本身索引方式相同

0      h
1      f
2      w
3      h
4      1
5    NaN
Name: key2, dtype: object

'''
【课程2.16】  合并 merge、join

Pandas具有全功能的，高性能内存中连接操作，与SQL等关系数据库非常相似

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False)
 
'''

# merge合并 → 类似excel的vlookup
df1 = pd.DataFrame({
     'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
df2 = pd.DataFrame({
     'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})
df3 = pd.DataFrame({
     'key1': ['K0', 'K0', 'K1', 'K2'],
                    'key2': ['K0', 'K1', 'K0', 'K1'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})
df4 = pd.DataFrame({
     'key1': ['K0', 'K1', 'K1', 'K2'],
                    'key2': ['K0', 'K0', 'K0', 'K0'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

print(pd.merge(df1,df2,on='key'))
# on: 参考键

    A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K2  C2  D2
3  A3  B3  K3  C3  D3

# 多个参考键
print(pd.merge(df3,df4,on=['key1','key2']))

    A   B key1 key2   C   D
0  A0  B0   K0   K0  C0  D0
1  A2  B2   K1   K0  C1  D1
2  A2  B2   K1   K0  C2  D2

# 参数 how ->合并方式
print(pd.merge(df3,df4,on=['key1','key2'],how='inner'))
# 默认：innner，取交集

    A   B key1 key2   C   D
0  A0  B0   K0   K0  C0  D0
1  A2  B2   K1   K0  C1  D1
2  A2  B2   K1   K0  C2  D2

print(pd.merge(df3,df4,on=['key1','key2'],how='outer'))
# 取并集，缺失部分为nan

     A    B key1 key2    C    D
0   A0   B0   K0   K0   C0   D0
1   A1   B1   K0   K1  NaN  NaN
2   A2   B2   K1   K0   C1   D1
3   A2   B2   K1   K0   C2   D2
4   A3   B3   K2   K1  NaN  NaN
5  NaN  NaN   K2   K0   C3   D3

print(pd.merge(df3, df4, on=['key1','key2'], how = 'left'))  
# left：按照df3为参考合并，数据缺失范围NaN

    A   B key1 key2    C    D
0  A0  B0   K0   K0   C0   D0
1  A1  B1   K0   K1  NaN  NaN
2  A2  B2   K1   K0   C1   D1
3  A2  B2   K1   K0   C2   D2
4  A3  B3   K2   K1  NaN  NaN
------

print(pd.merge(df3,df4,on=['key1','key2'],how='right'))
# right 按照df4参考合并，数据缺失范围Nan

     A    B key1 key2   C   D
0   A0   B0   K0   K0  C0  D0
1   A2   B2   K1   K0  C1  D1
2   A2   B2   K1   K0  C2  D2
3  NaN  NaN   K2   K0  C3  D3

# 参数 left_on, right_on, left_index, right_index → 当键不为一个列时，可以单独设置左键与右键
df1 = pd.DataFrame({
     'lkey':list('bbacaab'),
                   'data1':range(7)})
df2 = pd.DataFrame({
     'rkey':list('abd'),
                   'date2':range(3)})

print(pd.merge(df1,df2,left_on='lkey',right_on='rkey'))

   data1 lkey  date2 rkey
0      0    b      1    b
1      1    b      1    b
2      6    b      1    b
3      2    a      0    a
4      4    a      0    a
5      5    a      0    a

df1 = pd.DataFrame({
     'key':list('abcdfeg'),
                   'data1':range(7)})
df2 = pd.DataFrame({
     'date2':range(100,105)},
                  index = list('abcde'))

print(pd.merge(df1,df2,left_on='key',right_index=True))
# df1以‘key’为键，df2以index为键
# left_index：为True时，第一个df以index为键，默认False
# right_index：为True时，第二个df以index为键，默认False

# 所以left_on, right_on, left_index, right_index可以相互组合：
# left_on + right_on, left_on + right_index, left_index + right_on, left_index + right_index

   data1 key  date2
0      0   a    100
1      1   b    101
2      2   c    102
3      3   d    103
5      5   e    104

# 参数 sort
df1 = pd.DataFrame({
     'key':list('bbacaab'),
                   'data1':[1,3,2,4,5,9,7]})
df2 = pd.DataFrame({
     'key':list('abd'),
                   'date2':[11,2,33]})
x1 = pd.merge(df1,df2, on = 'key', how = 'outer')
x2 = pd.merge(df1,df2, on = 'key', sort=True, how = 'outer')
print(x1)
print(x2)
# sort：按照字典顺序通过 连接键 对结果DataFrame进行排序。默认为False，设置为False会大幅提高性能

   data1 key  date2
0    1.0   b    2.0
1    3.0   b    2.0
2    7.0   b    2.0
3    2.0   a   11.0
4    5.0   a   11.0
5    9.0   a   11.0
6    4.0   c    NaN
7    NaN   d   33.0
   data1 key  date2
0    2.0   a   11.0
1    5.0   a   11.0
2    9.0   a   11.0
3    1.0   b    2.0
4    3.0   b    2.0
5    7.0   b    2.0
6    4.0   c    NaN
7    NaN   d   33.0

print(x2.sort_values('data1'))
# 也可直接用Dataframe的排序方法：sort_values，sort_index

   data1 key  date2
3    1.0   b    2.0
0    2.0   a   11.0
4    3.0   b    2.0
6    4.0   c    NaN
1    5.0   a   11.0
5    7.0   b    2.0
2    9.0   a   11.0
7    NaN   d   33.0

# pd.join() → 直接通过索引链接

left = pd.DataFrame({
     'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                    index=['K0', 'K1', 'K2'])
right = pd.DataFrame({
     'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])
print(left)
print(right)

     A   B
K0  A0  B0
K1  A1  B1
K2  A2  B2
     C   D
K0  C0  D0
K2  C2  D2
K3  C3  D3

print(left.join(right))
print(left.join(right, how='outer')) 
# 等价于：pd.merge(left, right, left_index=True, right_index=True, how='outer')
# outer 取并集，缺失为NaN

     A   B    C    D
K0  A0  B0   C0   D0
K1  A1  B1  NaN  NaN
K2  A2  B2   C2   D2
      A    B    C    D
K0   A0   B0   C0   D0
K1   A1   B1  NaN  NaN
K2   A2   B2   C2   D2
K3  NaN  NaN   C3   D3

df1 = pd.DataFrame({
     'key':list('bbacaab'),
                   'data1':[1,3,2,4,5,9,7]})
df2 = pd.DataFrame({
     'key':list('abd'),
                   'date2':[11,2,33]})
print(df1)
print(df2)

   data1 key
0      1   b
1      3   b
2      2   a
3      4   c
4      5   a
5      9   a
6      7   b
   date2 key
0     11   a
1      2   b
2     33   d

print(pd.merge(df1, df2, left_index=True, right_index=True, suffixes=('_1', '_2')))  
print(df1.join(df2['date2']))
print('-----')
# suffixes=('_x', '_y')默认

   data1 key_1  date2 key_2
0      1     b     11     a
1      3     b      2     b
2      2     a     33     d
   data1 key  date2
0      1   b   11.0
1      3   b    2.0
2      2   a   33.0
3      4   c    NaN
4      5   a    NaN
5      9   a    NaN
6      7   b    NaN
-----

left = pd.DataFrame({
     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3'],
                     'key': ['K0', 'K1', 'K0', 'K1']})
right = pd.DataFrame({
     'C': ['C0', 'C1'],
                      'D': ['D0', 'D1']},
                     index=['K0', 'K1'])
print(left)
print(right)
print(left.join(right, on = 'key'))
# 等价于pd.merge(left, right, left_on='key', right_index=True, how='left', sort=False);
# left的‘key’和right的index

    A   B key
0  A0  B0  K0
1  A1  B1  K1
2  A2  B2  K0
3  A3  B3  K1
     C   D
K0  C0  D0
K1  C1  D1
    A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K0  C0  D0
3  A3  B3  K1  C1  D1

'''
【课程2.17】  连接与修补 concat、combine_first

连接 - 沿轴执行连接操作

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)
 
'''

import pandas as pd
import numpy as np

s1=pd.Series([1,2,3])
s2=pd.Series([2,3,4])

# 连接coocat
print(pd.concat([s1,s2]))

0    1
1    2
2    3
0    2
1    3
2    4
dtype: int64

s3 = pd.Series([1,2,3],index = ['a','c','h'])
s4 = pd.Series([2,3,4],index = ['b','e','d'])

print(pd.concat([s3,s4]).sort_index())
# 连接并按照index排序，默认axis=0，行加行

a    1
b    2
c    2
d    4
e    3
h    3
dtype: int64

# 连接方式：join，join_axes
s5 = pd.Series([1,2,3],index = ['a','b','c'])
s6 = pd.Series([2,3,4],index = ['b','c','d'])
print(pd.concat([s5,s6],axis=1))

     0    1
a  1.0  NaN
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0

print([pd.concat([s5,s6],axis=1,join='inner')])
# join：{'inner'，'outer'}，默认为“outer”。如何处理其他轴上的索引。outer为联合和inner为交集。

[   0  1
b  2  2
c  3  3]

print(pd.concat([s5,s6], axis= 1, join_axes=[['a','b','d']]))
# join_axes：指定联合的index

     0    1
a  1.0  NaN
b  2.0  2.0
d  NaN  4.0

# 覆盖列名
sre=pd.concat([s5,s6],keys=['one','two'])
print(sre)
# keys：序列，默认值无。使用传递的键作为最外层构建层次索引

one  a    1
     b    2
     c    3
two  b    2
     c    3
     d    4
dtype: int64

sre = pd.concat([s5,s6], axis=1, keys = ['one','two'])
print(sre,type(sre))
# axis = 1, 覆盖列名

   one  two
a  1.0  NaN
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0

# 修补 pd.combine_first()
df1 = pd.DataFrame([[np.nan, 3., 5.], [-4.6, np.nan, np.nan],[np.nan, 7., np.nan]])
df2 = pd.DataFrame([[-42.6, np.nan, -8.2], [-5., 1.6, 4]],index=[1, 2])
print(df1)
print(df2)

     0    1    2
0  NaN  3.0  5.0
1 -4.6  NaN  NaN
2  NaN  7.0  NaN
      0    1    2
1 -42.6  NaN -8.2
2  -5.0  1.6  4.0

print(df1.combine_first(df2))
# 根据index，df1的空值被df2替代
# 如果df2的index多于df1，则更新到df1上，比如index=['a',1]

     0    1    2
0  NaN  3.0  5.0
1 -4.6  NaN -8.2
2 -5.0  7.0  4.0

df1.update(df2)
print(df1)
# update，直接df2覆盖df1，相同的index

      0    1    2
0   NaN  3.0  5.0
1 -42.6  NaN -8.2
2  -5.0  1.6  4.0

'''
【课程2.18】  去重及替换

.duplicated / .replace
 
'''

# 去重 .duplicated

s = pd.Series([1,1,1,1,2,2,2,3,4,5,5,5,5])
print(s)

0     1
1     1
2     1
3     1
4     2
5     2
6     2
7     3
8     4
9     5
10    5
11    5
12    5
dtype: int64

print(s.duplicated())
# 判断是否重复

0     False
1      True
2      True
3      True
4     False
5      True
6      True
7     False
8     False
9     False
10     True
11     True
12     True
dtype: bool

print(s[s.duplicated()==False])
# 通过布尔判断，得到不重复的值

0    1
4    2
7    3
8    4
9    5
dtype: int64

s_re = s.drop_duplicates()
print(s_re)
# drop.duplicates移除重复
# inplace参数：是否替换原值，默认False

0    1
4    2
7    3
8    4
9    5
dtype: int64

df = pd.DataFrame({
     'key1':['a','a',3,4,5],
                  'key2':['a','a','b','b','c']})
print(df)

  key1 key2
0    a    a
1    a    a
2    3    b
3    4    b
4    5    c

print(df.duplicated())

0    False
1     True
2    False
3    False
4    False
dtype: bool

print(df.duplicated())
print(df['key2'].duplicated())
# Dataframe中使用duplicated

0    False
1     True
2    False
3    False
4    False
dtype: bool
0    False
1     True
2    False
3     True
4    False
Name: key2, dtype: bool

# 替换 .replace
s = pd.Series(list('ascaazsd'))
print(s)

0    a
1    s
2    c
3    a
4    a
5    z
6    s
7    d
dtype: object

print(s.replace('a',np.nan))

0    NaN
1      s
2      c
3    NaN
4    NaN
5      z
6      s
7      d
dtype: object

print(s.replace(['a','s'],np.nan))

0    NaN
1    NaN
2      c
3    NaN
4    NaN
5      z
6    NaN
7      d
dtype: object

print(s.replace({
     'a':'hello world','s':'aaaaaaaaa'}))
# 可一次性替换一个值或多个值
# 可传入列表或字典

0    hello world
1      aaaaaaaaa
2              c
3    hello world
4    hello world
5              z
6      aaaaaaaaa
7              d
dtype: object

'''
【课程2.19】  数据分组

分组统计 - groupby功能

① 根据某些条件将数据拆分成组
② 对每个组独立应用函数
③ 将结果合并到一个数据结构中

Dataframe在行（axis=0）或列（axis=1）上进行分组，将一个函数应用到各个分组并产生一个新值，然后函数执行结果被合并到最终的结果对象中。

df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)
 
'''

# 分组

df = pd.DataFrame({
     'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
print(df)

     A      B         C         D
0  foo    one -1.420779  2.205477
1  bar    one  0.514083  1.440050
2  foo    two -0.265449 -1.354243
3  bar  three -0.011561 -0.482113
4  foo    two  2.030139  0.009457
5  bar    two -0.106477 -0.014610
6  foo    one  0.938704  0.228842
7  foo  three  0.194304  2.537552

print(df.groupby('A'))
# 直接分组得到一个groupby对象，是一个中间数据，没有进行计算

print(df.groupby('A').mean())

            C         D
A                      
bar  0.132015  0.314442
foo  0.295384  0.725417

print(df.groupby(['A','B']).mean())

                  C         D
A   B                        
bar one    0.514083  1.440050
    three -0.011561 -0.482113
    two   -0.106477 -0.014610
foo one   -0.241037  1.217159
    three  0.194304  2.537552
    two    0.882345 -0.672393

print(df.groupby(['A'])['D'].mean())
# 通过分组后的计算，得到一个新的dataframe
# 默认axis = 0，以行来分组
# 可单个或多个（[]）列分组

A
bar    0.314442
foo    0.725417
Name: D, dtype: float64

# 分组 - 可迭代对象

df = pd.DataFrame({
     'X' : ['A', 'B', 'A', 'B'], 'Y' : [1, 4, 3, 2]})
print(df)

print(df.groupby(['X']))

print(list(df.groupby(['X'])))

[('A',    X  Y
0  A  1
2  A  3), ('B',    X  Y
1  B  4
3  B  2)]

print(list(df.groupby('X'))[0])
# 以元祖的形式显示

('A',    X  Y
0  A  1
2  A  3)

for n,g in df.groupby('X'):
    print(n)
    print(g)
    print('###')
print('-----')
# n是组名，g是分组后的Dataframe

A
   X  Y
0  A  1
2  A  3
###
B
   X  Y
1  B  4
3  B  2
###
-----

print(df.groupby(['X']).get_group('A'))

   X  Y
0  A  1
2  A  3

print(df.groupby(['X']).get_group('B'))

   X  Y
1  B  4
3  B  2

grouped = df.groupby(['X'])
print(grouped.groups)
print(grouped.groups['A'])  # 也可写：df.groupby('X').groups['A']
# .groups：将分组后的groups转为dict
# 可以字典索引方法来查看groups里的元素

{'A': [0, 2], 'B': [1, 3]}
[0, 2]

sz = grouped.size()
print(sz,type(sz))
# .size()：查看分组后的长度

X
A    2
B    2
dtype: int64

df = pd.DataFrame({
     'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
print(df)

     A      B         C         D
0  foo    one  0.628069  2.369622
1  bar    one  0.624670 -1.729496
2  foo    two  1.748096 -0.674956
3  bar  three -0.154640 -0.436490
4  foo    two -0.604173 -0.081001
5  bar    two  0.311972 -2.065370
6  foo    one  0.723137 -0.125561
7  foo  three  0.988974 -1.429884

group=df.groupby(['A','B']).groups
print(grouped)

print(group[('foo', 'three')])

[7]

# 其他轴上的分组
df = pd.DataFrame({
     'data1':np.random.rand(2),
                  'data2':np.random.rand(2),
                  'key1':['a','b'],
                  'key2':['one','two']})
print(df)

      data1     data2 key1 key2
0  0.762760  0.661971    a  one
1  0.785907  0.058554    b  two

for n,p in df.groupby(df.dtypes, axis=1):
    print(n)
    print(p)
    print('##')
# 按照值类型分列

float64
      data1     data2
0  0.762760  0.661971
1  0.785907  0.058554
##
object
  key1 key2
0    a  one
1    b  two
##

df = pd.DataFrame(np.arange(16).reshape(4,4),
                  columns = ['a','b','c','d'])
print(df)

    a   b   c   d
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15

mapping = {
     'a':'one','b':'one','c':'two','d':'two','e':'three'}
by_column=df.groupby(mapping,axis=1)
print(by_column.sum())
# mapping中，a、b列对应的为one，c、d列对应的为two，以字典来分组

   one  two
0    1    5
1    9   13
2   17   21
3   25   29

s = pd.Series(mapping)
print(s,'\n')
print(s.groupby(s).count())
# s中，index中a、b对应的为one，c、d对应的为two，以Series来分组

a      one
b      one
c      two
d      two
e    three
dtype: object 

one      2
three    1
two      2
dtype: int64

df = pd.DataFrame(np.arange(16).reshape(4,4),
                  columns = ['a','b','c','d'],
                 index = ['abc','bcd','aa','b'])
print(df)

      a   b   c   d
abc   0   1   2   3
bcd   4   5   6   7
aa    8   9  10  11
b    12  13  14  15

# 通过函数分组
print(df.groupby(len).sum())

    a   b   c   d
1  12  13  14  15
2   8   9  10  11
3   4   6   8  10

s = pd.Series([1, 2, 3, 10, 20, 30], index = [1, 2, 3, 1, 2, 3])
print(s)

1     1
2     2
3     3
1    10
2    20
3    30
dtype: int64

# 唯一索引用.groupby(level=0)，将同一个index的分为一组
grouped = s.groupby(level=0)
print(grouped)

print(grouped.first(),'→ first：非NaN的第一个值\n')
print(grouped.last(),'→ last：非NaN的最后一个值\n')
print(grouped.sum(),'→ sum：非NaN的和\n')
print(grouped.mean(),'→ mean：非NaN的平均值\n')
print(grouped.median(),'→ median：非NaN的算术中位数\n')
print(grouped.count(),'→ count：非NaN的值\n')
print(grouped.min(),'→ min、max：非NaN的最小值、最大值\n')
print(grouped.std(),'→ std，var：非NaN的标准差和方差\n')
print(grouped.prod(),'→ prod：非NaN的积\n')

1    1
2    2
3    3
dtype: int64 → first：非NaN的第一个值

1    10
2    20
3    30
dtype: int64 → last：非NaN的最后一个值

1    11
2    22
3    33
dtype: int64 → sum：非NaN的和

1     5.5
2    11.0
3    16.5
dtype: float64 → mean：非NaN的平均值

1     5.5
2    11.0
3    16.5
dtype: float64 → median：非NaN的算术中位数

1    2
2    2
3    2
dtype: int64 → count：非NaN的值

1    1
2    2
3    3
dtype: int64 → min、max：非NaN的最小值、最大值

1     6.363961
2    12.727922
3    19.091883
dtype: float64 → std，var：非NaN的标准差和方差

1    10
2    40
3    90
dtype: int64 → prod：非NaN的积

# 多函数计算：agg()
df = pd.DataFrame({
     'a':[1,1,2,2],
                  'b':np.random.rand(4),
                  'c':np.random.rand(4),
                  'd':np.random.rand(4),})
print(df)

   a         b         c         d
0  1  0.772478  0.417508  0.068269
1  1  0.087774  0.063274  0.991277
2  2  0.229447  0.062397  0.985243
3  2  0.025157  0.130426  0.664778

print(df.groupby('a').agg(['mean',np.sum]))
print(df.groupby('a')['b'].agg({
     'result1':np.mean,
                               'result2':np.sum}))
# 函数写法可以用str，或者np.方法
# 可以通过list，dict传入，当用dict时，key名为columns

          b                   c                   d          
       mean       sum      mean       sum      mean       sum
a                                                            
1  0.430126  0.860252  0.240391  0.480782  0.529773  1.059545
2  0.127302  0.254605  0.096412  0.192824  0.825010  1.650021
    result2   result1
a                    
1  0.860252  0.430126
2  0.254605  0.127302

'''
【课程2.20】  分组转换及一般性“拆分-应用-合并”

transform / apply
 
'''

# 数据分组转换,transform
df = pd.DataFrame({
     'data1':np.random.rand(5),
                  'data2':np.random.rand(5),
                  'key1':list('aabba'),
                  'key2':['one','two','one','two','one']})
print(df)

      data1     data2 key1 key2
0  0.906503  0.944454    a  one
1  0.608210  0.481486    a  two
2  0.109676  0.276845    b  one
3  0.817092  0.008300    b  two
4  0.266458  0.540617    a  one

k_mean=df.groupby('key1').mean()
print(k_mean)

         data1     data2
key1                    
a     0.593724  0.655519
b     0.463384  0.142573

print(pd.merge(df,k_mean,left_on='key1',right_index=True).add_prefix('mean_'))
# .add_prefix('mean_')：添加前缀

   mean_data1_x  mean_data2_x mean_key1 mean_key2  mean_data1_y  mean_data2_y
0      0.906503      0.944454         a       one      0.593724      0.655519
1      0.608210      0.481486         a       two      0.593724      0.655519
4      0.266458      0.540617         a       one      0.593724      0.655519
2      0.109676      0.276845         b       one      0.463384      0.142573
3      0.817092      0.008300         b       two      0.463384      0.142573

print(df.groupby('key2').mean()) # 按照key2分组求均值
print(df.groupby('key2').transform(np.mean))
# data1、data2每个位置元素取对应分组列的均值
# 字符串不能进行计算

         data1     data2
key2                    
one   0.427546  0.587305
two   0.712651  0.244893
      data1     data2
0  0.427546  0.587305
1  0.712651  0.244893
2  0.427546  0.587305
3  0.712651  0.244893
4  0.427546  0.587305

# 一般化Groupby方法：apply
df = pd.DataFrame({
     'data1':np.random.rand(5),
                  'data2':np.random.rand(5),
                  'key1':list('aabba'),
                  'key2':['one','two','one','two','one']})
print(df)
print(df.groupby('key1').apply(lambda x: x.describe()))
# apply直接运行其中的函数
# 这里为匿名函数，直接描述分组后的统计量

      data1     data2 key1 key2
0  0.285345  0.497243    a  one
1  0.525780  0.196928    a  two
2  0.407405  0.829274    b  one
3  0.329079  0.689100    b  two
4  0.856305  0.436768    a  one
               data1     data2
key1                          
a    count  3.000000  3.000000
     mean   0.555810  0.376980
     std    0.286662  0.158834
     min    0.285345  0.196928
     25%    0.405563  0.316848
     50%    0.525780  0.436768
     75%    0.691042  0.467006
     max    0.856305  0.497243
b    count  2.000000  2.000000
     mean   0.368242  0.759187
     std    0.055385  0.099118
     min    0.329079  0.689100
     25%    0.348660  0.724144
     50%    0.368242  0.759187
     75%    0.387824  0.794230
     max    0.407405  0.829274

def f_df1(d,n):
    return(d.sort_index()[:n])
def f_df2(d,k1):
    return(d[k1])
print(df.groupby('key1').apply(f_df1,2),'\n')
print(df.groupby('key1').apply(f_df2,'data2'))
print(type(df.groupby('key1').apply(f_df2,'data2')))
# f_df1函数：返回排序后的前n行数据
# f_df2函数：返回分组后表的k1列，结果为Series，层次化索引
# 直接运行f_df函数
# 参数直接写在后面，也可以为.apply(f_df,n = 2))

           data1     data2 key1 key2
key1                                
a    0  0.285345  0.497243    a  one
     1  0.525780  0.196928    a  two
b    2  0.407405  0.829274    b  one
     3  0.329079  0.689100    b  two 

key1   
a     0    0.497243
      1    0.196928
      4    0.436768
b     2    0.829274
      3    0.689100
Name: data2, dtype: float64

'''
【课程2.21】  透视表及交叉表

类似excel数据透视 - pivot table / crosstab
 
'''

# 透视表：pivot_table
# pd.pivot_table
# fill_value=None, margins=False, dropna=True, margins_name='All')

date = ['2017-5-1','2017-5-2','2017-5-3']*3
rng = pd.to_datetime(date)
df = pd.DataFrame({
     'date':rng,
                   'key':list('abcdabcda'),
                  'values':np.random.rand(9)*10})
print(df)

        date key    values
0 2017-05-01   a  4.092407
1 2017-05-02   b  7.389150
2 2017-05-03   c  9.946409
3 2017-05-01   d  5.282872
4 2017-05-02   a  8.591360
5 2017-05-03   b  7.475860
6 2017-05-01   c  5.490445
7 2017-05-02   d  5.947843
8 2017-05-03   a  2.806096

print(pd.pivot_table(df, values = 'values', index = 'date', columns = 'key', aggfunc=np.sum))  # 也可以写 aggfunc='sum'
print('-----')
# data：DataFrame对象
# values：要聚合的列或列的列表
# index：数据透视表的index，从原数据的列中筛选
# columns：数据透视表的columns，从原数据的列中筛选
# aggfunc：用于聚合的函数，默认为numpy.mean，支持numpy计算方法

print(pd.pivot_table(df, values = 'values', index = ['date','key'], aggfunc=len))
print('-----')
# 这里就分别以date、key共同做数据透视，值为values：统计不同（date，key）情况下values的平均值
# aggfunc=len(或者count)：计数

key                a        b         c         d
date                                             
2017-05-01  4.092407      NaN  5.490445  5.282872
2017-05-02  8.591360  7.38915       NaN  5.947843
2017-05-03  2.806096  7.47586  9.946409       NaN
-----
date        key
2017-05-01  a      1.0
            c      1.0
            d      1.0
2017-05-02  a      1.0
            b      1.0
            d      1.0
2017-05-03  a      1.0
            b      1.0
            c      1.0
Name: values, dtype: float64
-----

# 交叉表：crosstab
# 默认情况下，crosstab计算因子的频率表，比如用于str的数据透视分析
# pd.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)
df = pd.DataFrame({
     'A': [1, 2, 2, 2, 2],
                   'B': [3, 3, 4, 4, 4],
                   'C': [1, 1, np.nan, 1, 1]})
print(df)

   A  B    C
0  1  3  1.0
1  2  3  1.0
2  2  4  NaN
3  2  4  1.0
4  2  4  1.0

print(pd.crosstab(df['A'],df['B']))
# 如果crosstab只接收两个Series，它将提供一个频率表。
# 用A的唯一值，统计B唯一值的出现次数

print(pd.crosstab(df['A'],df['B'],normalize=True))
print('-----')
# normalize：默认False，将所有值除以值的总和进行归一化 → 为True时候显示百分比

B    3    4
A          
1  0.2  0.0
2  0.2  0.6
-----

print(pd.crosstab(df['A'],df['B'],values=df['C'],aggfunc=np.sum))
print('-----')
# values：可选，根据因子聚合的值数组
# aggfunc：可选，如果未传递values数组，则计算频率表，如果传递数组，则按照指定计算
# 这里相当于以A和B界定分组，计算出每组中第三个系列C的值

B    3    4
A          
1  1.0  NaN
2  1.0  2.0
-----

print(pd.crosstab(df['A'],df['B'],values=df['C'],aggfunc=np.sum, margins=True))
print('-----')
# margins：布尔值，默认值False，添加行/列边距（小计）

B      3    4  All
A                 
1    1.0  NaN  1.0
2    1.0  2.0  3.0
All  2.0  2.0  4.0
-----

'''
【课程2.22】  数据读取

核心：read_table, read_csv, read_excel
 
'''

# 读取普通分隔数据：read_table
# 可以读取txt，csv
import os
os.chdir('C:/Users/Hjx/Desktop/')

data1 = pd.read_table('data1.txt', delimiter=',',header = 0, index_col=1)
print(data1)
# delimiter：用于拆分的字符，也可以用sep：sep = ','
# header：用做列名的序号，默认为0（第一行）
# index_col：指定某列为行索引，否则自动索引0, 1, .....

# read_table主要用于读取简单的数据，txt/csv

# 读取csv数据：read_csv
# 先熟悉一下excel怎么导出csv

data2 = pd.read_csv('data2.csv',engine = 'python')
print(data2.head())
# engine：使用的分析引擎。可以选择C或者是python。C引擎快但是Python引擎功能更加完备。
# encoding：指定字符集类型，即编码，通常指定为'utf-8'

# 大多数情况先将excel导出csv，再读取

# 读取excel数据：read_excel

data3 = pd.read_excel('地市级党委书记数据库（2000-10）.xlsx',sheetname='中国人民共和国地市级党委书记数据库（2000-10）',header=0)
print(data3)
# io ：文件路径。
# sheetname：返回多表使用sheetname=[0,1],若sheetname=None是返回全表 → ① int/string 返回的是dataframe ②而none和list返回的是dict
# header：指定列名行，默认0，即取第一行
# index_col：指定列为索引列，也可以使用u”strings”

你可能感兴趣的:(pandas,基础)

如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
2021-01-24 9ce517ee104c
【打卡素材】《香帅金融学讲义》【标题】公司治理：怎样同床异梦地过下去【日期】2021.1.24【字数】公司本质上是一连串的合约关系。降低合同执行中的各种摩擦是公司正常有效运行的基础。协同各方的利益、制衡各方的权力是关键。为解决利益冲突问题、协同各方利益，进行权力制衡的机制设计就是公司治理机制。001什么是公司治理治理是管理的基础，治理机制越好，权、责、利就越清晰，管理的目标也就会更容易实现。002
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
如何在心上用功？余超林AIA财富管家
思考：如何在心上用功？学习心得：心-道-德-事的理解心-道-德-事这四部曲，本质上就是一个人的思维智慧的四个层面：事是最底层，这是所有人在这个社会谋求生存的基础，一个人能够把事情彻底做好，保质保量的完成，才会有真正的结果，但是这个层面要获得真正成功很困难，因为会做事的人很多，最终会出现恶性竞争；德是第三层，如果说整个社会做事的竞争激烈程度为100%，那么上升到德上的竞争激烈程度降低为80%，德是一
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
第二十 python基础--语句九樱MOL
目录具体内容1：if语句的使用格式判断语句2：if-else的使用格式3：if-elif-else的使用格式4：if嵌套1：while循环的格式循环语句2：while循环嵌套3：for循环的格式一、判断语句在程序中如果某些条件满足，才能做某件事情，而不满足时不允许做，这就是所谓的判断1.1if语句的使用格式if要判断的条件:条件成立时，要做的事情案例:判断年纪，如果age大于18，输入成年age=
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后