Tyche_BO

Pandas笔记--《Python数据科学手册》

代码可直接执行

import numpy as np 
import pandas as pd 
import os,time


print("Pandas的Series对象:")
#Pandas 的Series 对象是一个带索引数据构成的一维数,用一个数组创建Series 对象.
data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data)#out类似于enumerate函数的索引+数据
#Series对象将一组数据和一组索引绑定在一起，我们可以通过values 属性和index 属性获取数据
print("values:\n",data.values)
print("index:\n",data.index)#Out[4]: RangeIndex(start=0, stop=4, step=1)
data[1]#Out[5]: 0.5
print(data[1:3])#切片时会同时显示索引
"""
NumPy 数组通过隐式定义的整数索引获取数值，而Pandas 的Series 对象用一种显式定义的索引与数值关联。
显式索引的定义让Series 对象拥有了更强的能力。索引可以是任意想要的类型，例如字符串定义索引：
"""
data = pd.Series([0.25, 0.5, 0.75, 1.0],
            index=['a', 'b', 'c', 'd'])
print("\n字符串索引：\n",data)

#可以把series看出一种特殊的字典，Series对象其实是一种将类型键映射到一组类型值的数据结构。
population_dict = {'California': 38332521,
                    'Texas': 26448193,
                    'New York': 19651127,
                    'Florida': 19552860,
                    'Illinois': 12882135}
population = pd.Series(population_dict)#用Python 的字典创建一个Series对象(最后都会返回类型信息)
print(population)#Pandas Series 的类型信息使得它在某些操作上比Python 的字典更高效
population['California']
print(population['Texas':'Florida'])#除了支持正常字典获取，还支持数组形式的操作

print("\n创建Series对象")
"""常规创建pd.Series(data, index=index)index 是一个可选参数，data 参数支持多种数据类型,
pd.Series({2:'a', 1:'b', 3:'c'})data可以是字典，index默认是排序字典的键"""

a=pd.Series(5, index=[100, 200, 300])#data也可以是标量创建Series时会重复填充到每个索引上
print(a)
#每一种形式都可以通过显式指定索引筛选需要的结果：
a=pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])#注意这里Series对象只会保留显式定义的键值对。
print(a)


print("\nPandas的DataFrame对象")
"""
你可以把二维数组看成是有序排列的一维数组一样，你也可以把DataFrame 
看成是有序排列的若干Series 对象。这里的“排列”指的是它们拥有共同的索引。
"""
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)#美国五个州面积的数据创建一个新的Series
#下面再结合之前创建的population 的Series 对象，用一个字典创建一个包含这些信息的二维：
states = pd.DataFrame({'population': population,
                        'area': area})
print(states)
print("获取行索引:\n",states.index)#返回行索引
print("获取列索引:\n",states.columns)#DataFrame 还有一个columns 属性，是存放列标签的Index 对象
#DataFrame 可以看作一种通用的NumPy 二维数组，它的行与列都可以通过索引获(数字索引或数字切片获取)
#可以将Series看成特殊的字典一个键映射一个值，而DataFrame 是一列映射一个Series 的数据

print("\narea:\n",states['area'])#返回area一列的数据以及行索引（列索引为KEY，对应列数组为value）
#DataFrame与np数组不同的是，np的data[0]返回的是行，而dataframe的data["col0"]返回的是列
print("\n获取行:\n",states[0:2])#  or print(states["California":"New York"])
#print(states[0])#注意这样会错误，因为没有0这个key，可以写成[0:1]这样来获取行信息!!!!!!!

print("\n创建DataFrame对象")

print("(1) 通过单个Series 对象创建:")
a=pd.DataFrame(population, columns=['population'])#population是上面创建的series对象
print(a)

print("\n(2) 通过字典列表创建:")
#任何元素是字典的列表都可以变成DataFrame(说的是列表内嵌套的是字典元素)
data = [{'a': i, 'b': 2 * i} for i in range(3)]
print(data)
a=pd.DataFrame(data)
print(a)
#即使字典中有些键不存在，Pandas 也会用缺失值NaN（不是数字，not a number）来表示：
a=pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])#!!!!!!!！！
print(a)

#(3) 通过Series 对象字典创建：（上面第一个例子）

print("\n(4) 通过NumPy 二维数组创建:")
a=pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])
print(a)

print("\n(5) 通过NumPy 结构化数组创建:")
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
print(A)
B=pd.DataFrame(A)
print(B)
#感觉通常情况下用4 5方法创建比较多。

print("\nPandas的Index对象")
"""Pandas的Index 对象可以将它看作是一个不可变数组或有序集合
（实际上是一个多集，因为Index 对象可能会包含重复值)"""
ind = pd.Index([2, 3, 5, 7, 11])
print(ind)
print(ind[1])
print(ind[::2])
#Index对象与NumPy数组之间的不同在于,Index对象的索引是不可变的，不能通过通常的方式进行调整：
#ind[1] = 0会报错，Index 对象的不可变特征使得多个DataFrame 和数组之间进行索引共享时更加安全
#Index 对象遵循Python 标准库的集合（set）数据结构的许多习惯用法，包括并集、交集、差集等：
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])
print(indA & indB)
print(indA | indB)
print(indA ^ indB)
#这些操作还可以通过调用对象方法来实现，例如indA.intersection(indB)。

print("\n数据取值与选择")
#Series数据选择方法:，Series 对象与一维NumPy 数组和标准Python 字典在许多方面都一样。
print("将Series看作字典:")
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
print('a' in data)
print(data.keys())
print(list(data.items()))
data['e'] = 1.25#Series对象还可以用字典语法调整数据(修改或新增)

print("\n将Series看作一维数组")
#具备和NumPy 数组一样的数组数据选择功能，包括索引、掩码、花哨的索引等操作
print(data['a':'c'])#相当于np数组的[1:2]只是index变成了可变的多类型和显性显示
print(data[0:2])#！！！1还可以用隐式整数索引作为切片
#使用显式索引作切片时，结果包含最后一个索引；而当使用隐式索引结果不包含最后一个索引

a=data[(data > 0.3) & (data < 0.8)]# 掩码
print("掩码:\n",a)
print("花哨的索引\n",data[['a', 'e']])# 花哨的索引

print("\n索引器：loc、iloc和ix")
"""切片和取值的习惯用法经常会造成混乱如果你的Series 是显式整数索引，那
么data[1] 这样的取值操作会使用显式索引，而data[1:3] 这样的切片操作却会使用隐式
索引。由于整数索引很容易造成混淆，所以Pandas 提供了一些索引器（indexer）属性来作为取值
的方法"""
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])#这种类型的索引会造成混乱
print("\nloc 属性:\n",data.loc[1:3])#第一种索引器是loc 属性，表示取值和切片都是显式的

print("\niloc 属性:\n",data.iloc[1:3])#第二种是iloc属性,表示取值和切片都是Python 形式隐式索引

#第三种取值属性是ix，它是前两种索引器的混合形式ix 索引器主要用于DataFrame 对象

print("\nDataFrame数据选择方法")
#DataFrame在有些方面像二维或结构化数组,在有些方面又像一个共享索引的若干Series 对象构成的字典.
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                'New York': 19651127, 'Florida': 19552860,
                'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
print(data)

print("\n1.将DataFrame看作字典:")
"""把DataFrame 当作一个由若干Series 对象构成的字典两个Series 
分别构成DataFrame 的一列，可以通过对列名进行字典形式的取值获取数据："""
print(data['area'])
data.area#纯字符串列名的数据可以用属性形式
print(data.area is data['area'])#用==会进行每项对比，得出布尔值
#属性形式的数据选择不是通用的,如果列名不是纯字符串,或者列名与DF的方法同名,那么就不能用属性索引
#例如data.pop is data['pop'] out：false ，DataFrame 有一个pop()名方法
#另外，应该避免对用属性形式选择的列直接赋值

data['density'] = data['pop'] / data['area']#用字典形式修改添加字典内容。
print(data)

print("\n将DataFrame看作二维数组")
#可以把DataFrame 看成是一个增强版的二维数组，用values 属性按行查看数组数据：
print(data.values)
print("行列转置：\n",data.T)
#通过字典形式对列进行取值显然会限制我们把DataFrame 作为NumPy 数组可以获得的能力：
#print(data.values[0])获取行 ；#print(data['area'])#获取列

#因此，在进行数组形式的取值时，我们就需要用Pandas 索引器loc、iloc 和ix 了
#通过iloc 索引器，我们就可以像对待NumPy 数组一样索引Pandas的底层数组
print("iloc:\n",data.iloc[:3, :2])#获取隐形索引的第前3行和前2列
print("loc:\n",data.loc[:'Florida', :'pop'])#使用显型索引
#使用ix 索引器可以实现一种混合效果
print("ix:\n",data.ix[:3, :'pop'])#ix 索引器在整数索引的处理容易让人混淆
#loc 索引器中结合使用掩码与花哨的索引方法:
a=data.loc[data.density > 100, ['pop', 'density']] #`!!!!!!!!!!
print(a)

data.iloc[0, 2] = 90#任何一种取值方法都可以用于调整数据和NumPy 的常用方法是相同的
print(data)

print("\n其他取值方法")
#如果对单个标签取值就选择列，而对多个标签用切片就选择行：
print(data['Florida':'Illinois'])#对多个标签用切片就选择行
#切片也可以不用索引值，而直接用行数来实现：
print(data[1:3])
#掩码操作也可以直接对每一行进行过滤，而不需要使用loc 索引器：
print(data[data.density > 100])
# pd对象[]内直接切片或数字index的都是取行；单个标签取列或[["a","b"]]两个括号内的内容取列

print("\nPandas数值运算方法")
"""对于一元运算（像函数与三角函数），这些通用函数将在输出结果中保留索
引和列标签；而对于二元运算（如加法和乘法），Pandas 在传递
通用函数时会自动对齐索引进行计算。这就意味着，保存数据内容与组合不同来源的数
据——两处在NumPy 数组中都容易出错的地方——变成了Pandas 的杀手锏"""

#所谓一元和二元运算，说的是参与运算的对象或者变量的数量是一个还是两个
print("通用函数：保留索引(一元运算)")
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))#创建4个0-10的随机数组成数组，然后将数组转化为Series对象
print(ser)

df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])
print(df)

#下面两个对象使用np通用函数生成结果是另一个保留索引的pd对象。
print(np.exp(ser))#e**x次方
print(np.sin(df * np.pi / 4))#！！！！注意这俩个都是用np.xx的np通用函数
#numpy 通用函数都可以按照类似的方式使用。!!!!

print("\n通用函数：索引对齐(二元运算)")

print("Series索引对齐")
#整合两个数据源的数据,一个是美国面积最大的三个州的面积数据,一个是美国人口最多的三个州的人口数据
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

print(population / area)#用人口除以面积会得到这样的结果(即使顺序不同，也会根据行索引名来除)
#结果数组的索引是两个输入数组索引的并集,对于缺失位置的数据,Pd会用NaN填充，
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
print(A+B)
#如果不想用NAN的结果，可以用适当的对象方法代替运算符：
print(A.add(B, fill_value=0))#A.add(B)等价于A + B,fill_value为自定义A或B缺失数据的填充

print("DataFrame索引对齐")
#在计算两个DataFrame 时,索引对齐规则也同样会出现在共同（并集）列中
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))
print(A+B)#结果的索引会自动按顺序排列

#用A中所有值的均值来填充缺失值
fill = A.stack().mean()#计算A 的均值需要用stack 将二维数组压缩成一维数组
print(A.add(B, fill_value=fill))
"""
需要插入参数的时候可以用oandas方法替代运算符：
表3-1：Python运算符与Pandas方法的映射关系
  Python运算符         Pandas方法
  +                   add()
  -                   sub()、subtract()
  *                   mul()、multiply()
  /                   truediv()、div()、divide()
  //                  floordiv()
  %                   mod()
  **                  pow()
"""

print("\n通用函数：DataFrame与Series的运算")

A = rng.randint(10, size=(3, 4))
print(A)
print(A - A[0])#根据np数组的广播规则进行运算，会按行计算

df = pd.DataFrame(A, columns=list('QRST'))
print("\nPandas运算：\n",df - df.iloc[0])#在Pandas 里默认也是按行运算的
#如果你想按列计算，那么就需要利用前面介绍过的运算符方法，通过axis 参数设置:
a=df.subtract(df['R'], axis=0)
print("\n按列计算：\n",a)

print(df.iloc[0, ::2])#series对象
print(df - df.iloc[0, ::2])
#行列保留和对齐是pandas的优势

print("\n处理缺失值")
"""大多数语言处理缺失数据是有两种方法：一种方法是通过一个覆盖全局的掩码表示缺失值，
另一种方法是用一个标签值（sentinel value）表示缺失值;
Pandas 最终选择用标签方法表示缺失值，包括两种Python 原有的缺失值：浮点数据类型的NaN 值，
以及Python 的None 对象。------关于缺失值详解参考P106"""

print("None：Python对象类型的缺失值")
#none是一个Py单体对象,经常在代码中表示缺失值。它是一个py的对象所以不能作为任何np\pd数组的缺失值
vals1 = np.array([1, None, 3, 4])
print(vals1)#ipython out:array([1, None, 3, 4], dtype=object),
"""这里dtype=object 表示NumPy 认为由于这个数组是Python 对象构成的,对数据的任何操作
最终都会在Python 层面完成,这种类型比其他原生类型数组要消耗更多的资源（时间）。"""

# vals1.sum()使用Python对象构成的数组进行累计操作时sum() 或者min(),会出现类型错误,
# Python 中没有定义整数与None 之间的加法运算。

print("\nNaN：数值类型的缺失值")

vals2 = np.array([1, np.nan, 3, 4])
print(vals2.dtype)#np为其选择数据类型为float64，这个数组会被编译成C代码从而实现快速操作
#可以把NaN看作是一个数据类病毒——它会将与它接触过的数据同化。无论和NaN进行何种操作,最终结果都是NaN
#很多情况下需要与nan运算时，结果是nan是不合理的  例如sum()运算时。
print(vals2.sum(), vals2.min(), vals2.max())

#NumPy提供了一些特殊的累计函数，它们可以忽略缺失值的影响：
print(np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2))#np笔记P270
#！！！NaN 是一种特殊的浮点数，不是整数、字符串以及其他数据类型。

print("\nPandas中NaN与None的差异")
#pandas把NaN和none看成可以等价交换的，适当时候会将两者进行替换:
a=pd.Series([1, np.nan, 2, None])
print(a)#none被替换为Nan

#Pandas 会将没有标签值的数据类型自动转换为NA(整形缺失值)。
x = pd.Series(range(2), dtype=int)
print(x)

x[0] = None
print(x)#，除了将整型数组的缺失值强制转换为浮点数，Pandas 还会自动将None 转换为NaN。

"""
Pandas 对NA 缺失值进行强制转换的规则如表3-2 所示。
表3-2：Pandas对不同类型缺失值的转换规则

  类型          缺失值转换规则           NA标签值
  floating      浮点型无变化               np.nan
  object        对象类型无变化             None 或np.nan
  integer       整数类型强制转换为         float64 np.nan
  boolean       布尔类型强制转换为         object None 或np.nan
  
需要注意的是，Pandas 中字符串类型的数据通常是用object 类型存储的。
"""

print("\n处理缺失值")
"""Pandas 提供了一些方法来发现、剔除、替换数据结构中的缺失值，
  isnull()  创建一个布尔类型的掩码标签缺失值。
  notnull() 与isnull() 操作相反。
  dropna()返回一个剔除缺失值的数据。
  fillna()返回一个填充了缺失值的数据副本。
"""
print("1. 发现缺失值")
data = pd.Series([1, np.nan, 'hello', None])
print(data.isnull())#返回布尔类型掩码数据，data.notnull()返回相反的结果
print(data[data.notnull()])#前面内容学习过,布尔类型掩码数组可以直接作为Series或DF的索引使用

print("\n2. 剔除缺失值")
print(data.dropna())#在series上使用方法

df = pd.DataFrame([[1, np.nan, 2],
                   [2, 3, 5],
                   [np.nan, 4, 6]])
#不能从DF中单独剔除一个值,要么是剔除缺失值所在的整行，要么是整列。
print(df.dropna())#默认情况下dropna会剔除虽有包含缺数的整行数据
#设置按不同的坐标轴剔除缺失值，比如axis=1（或axis='columns'）会剔除任何包含缺失值的整列数据
print(df.dropna(axis='columns'))

print("\n用how和thresh参数剔除")
#可以通过设置how 或thresh 参数来设置剔除行或列缺失值的数量阈值,默认设置是how='any'
df[3] = np.nan
print(df)
#通过axis 设置坐标轴）。你还可以设置how='all'，这样就只会剔除全部是缺失值的行或列
a=df.dropna(axis='columns', how='all')
print(a)
#通过thresh 参数设置行或列中非缺失值的最小数量：
b=df.dropna(axis='rows', thresh=3)#这里axis是行，就是根据行的非NAN数值为3以下可以剔除相应行
print(b)

print("\n3. 填充缺失值")
#series的数据填充：
data = pd.Series([1, np.nan, 1, None, 3], index=list('abcde'))
print(data.fillna(0))#用0来填充缺失值
print("往前填充\n",data.fillna(method='ffill'))#用缺失值前面的有效值来从前往后填充（forward-fill）
print("往前填充\n",data.fillna(method='bfill'))#用缺失值后面的有效值来从后往前填充（back-fill）
#如果前面也是nan则再往前

#dataframe的操作方法与Series 类似，只是在填充时需要设置坐标轴参数axis：
print("\ndataframe填充方法\n",df)
print(df.fillna(method='ffill', axis=1))
#假如在从前往后填充时，需要填充的缺失值前面没有值，那么它就仍然是缺失值。
print(df.fillna(method='bfill', axis=0))


print("\n3.6 层级索引")

print("多级索引Series")
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956, 18976457, 19378102, 20851820, 25145561]
pop = pd.Series(populations, index=index)
print(pop)
#通过元组构成的多级索引，你可以直接在Series 上取值或用切片查询数据
print(pop[('California', 2010):('Texas', 2000)])
#假如需要选择所有2000 年的数据需要比较麻烦的方法：
print("\n",pop[[i for i in pop.index if i[1] == 2010]])

print("\nPandas多级索引")
#用元组表示索引其实是多级索引的基础，Pandas的MultiIndex 类型提
index = pd.MultiIndex.from_tuples(index)#用元组创建一个多级索引
print(index)
pop = pop.reindex(index)#索引重置（reindex）为MultiIndex,(reindex()函数可以重置数组索引)
print(pop)

print(pop[:,2000])#在可以直接用第二个索引获取2010 年的全部数据
print(pop["California",2000])#得出结果的第一列每个空格与上面索引相同

print("\n3. 高维数据的多级索引")
# unstack() 方法可以快速将一个多级索引的Series 转化为普通索引的DataFrame：
pop_df = pop.unstack()
print(pop_df)

print("\nstack():\n",pop_df.stack())#stack() 方法实现相反的效果：
"""
可以用含多级索引的一维Series 数据表示二维数据，那么就可以用Series 或DataFrame 
表示三维甚至更高维度的数据。多级索引每增加一级，就表示数据增加一维，利用这一特点就可以
轻松表示任意维度的数据了
"""
#这种带有MultiIndex 的对象，增加一列就像DataFrame 的操作一样简单:!!!!!!!!!!!!
pop_df = pd.DataFrame({'total': pop,'under18': [9267089, 9284094,
                                                4687374, 4318033,
                                                5906301, 6879014]})
print(pop_df)
#3.4章所有的pd通用函数其他功能也同样适用于层级索引
f_u18 = pop_df['under18'] / pop_df['total']
print(f_u18.unstack())

print("\n多级索引的创建方法")
#为Series 或DataFrame 创建多级索引最直接的办法就是将index参数设置为至少二维的索引数组
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
print(df)#MultiIndex 的创建工作将会在后台完成。

#将元组作为键的字典传递给Pandas， Pandas 也会默认转换为MultiIndex
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
print(pd.Series(data))

print("显式地创建多级索引")
#通过一个有不同等级的若干简单数组组成的列表来构建MultiIndex：
a=pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])
print(a)
#通过包含多个索引值的元组构成的列表创建MultiIndex：
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])
#可以用两个索引的笛卡尔积（Cartesian product）创建MultiIndex：
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])
#可以直接提供levels（包含每个等级的索引值列表的列表)和labels(包含每个索引值标签列表的列表)创建：
pd.MultiIndex(levels=[['a', 'b'], [1, 2]], labels=[[0, 0, 1, 1], [0, 1, 0, 1]])
"""创建Series 或DataFrame 时，可以将这些对象作为index 参数，或者通过.reindex() 方法
更新Series 或DataFrame 的索引。"""

print("\n多级索引的等级名称")
#给MultiIndex 的等级加上名称会为一些操作提供便利;1.在multiindex通过name参数设置，2.下面：
pop.index.names = ['state', 'year']
print(pop)

print("多级列索引")
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                    names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                      names=['subject', 'type'])
#创建多行列索引方法和上面一样
data = np.round(np.random.randn(4, 6), 1)#生成一个4X6的数组，最后1表示保留浮点数后一位。
data[:, ::2] *= 10
data += 37
#创建dataframe
health_data = pd.DataFrame(data, index=index, columns=columns)
print(health_data)#四维数据
print("1:\n",health_data['Guido'])
print("2:\n",health_data['Guido']["Temp"])#
print(health_data.values)
print(health_data.stack().stack())#用了两个堆叠
print(health_data.unstack())#展开
# 规律都是从内部解开，然后插入内部

print("\n多级索引的取值与切片")
print("\nSeries多级索引\n",pop)
print(pop['California', 2000])#pop['California']、pop[:, 2000],pop.loc['California':'New York']
#通过布尔掩码选择数据：
print("\n布尔取值\n",pop[pop > 22000000])#布尔掩码一般返回ture的对应行号
#用花哨的索引选择数据：pop[['California', 'Texas']]#里面是列表

print("\nDataFrame多级索引:")
print(health_data)#DataFrame 的基本索引是列索引!!!!!!
print(health_data['Guido', 'HR'])

#可以通过使用索引器loc、iloc 和ix：
print("\n索引器\n",health_data.iloc[:2, :2])#使用隐性索引来提取数据，索引器会将多维数据当作二维数据来处理
print(health_data.loc[:, ('Bob', 'HR')])#可以传递多个层级的索引元组
#health_data.loc[(:, 1), (:, 'HR')]这种方法在元组中使用切片会导致语法错误

idx = pd.IndexSlice
a=health_data.loc[idx[:, 1], idx[:, 'HR']]#indexslice对象是pd专门用来解决切片问题
print(a)
# 规律：由外到内切片

print("\n多级索引行列转换")
#1. 有序的索引和无序的索引;如果创建时MultiIndex时不是有序的索引，那么大多数切片操作都会失败
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])#创建一个不按字典顺序排列的多级索引！！！
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
print(data)
#data['a':'c']~~~~会出先keyerror错误，因为上面创建MultiIndex时给出的列表不是字典顺序，a，c，b
#局部切片和许多其他相似的操作都要求MultiIndex 的各级索引是有序的（即按照字典顺序由A 至Z）。

data = data.sort_index()#，Pandas 提供了许多便捷的操作完成排序，如sort_index() 和sortlevel() 方法
print(data['a':'b'])#排序后，局部切片正常

#2. 索引stack与unstack；通过level 参数设置转换的索引层级（0为最外层）
print(pop)
print("\nlevel=0\n",pop.unstack(level=0))
print("\nlevel=1\n",pop.unstack(level=1))

#3. 索引的设置与重置
pop_flat = pop.reset_index(name='population')#通过reset_index 方法行列标签转换！！！！！！！！
print(pop_flat)#生成一个列标签中包含之前行索引标签state 和year 的DataFrame(把标签变成列数组)
print(pop_flat[0:3]["population"])#因为population已经变成列，所以不能用pop_flat[0:3,"population"]
# 用多级索引处理完数据之后再reset_index刷新并自动填充之前的多级索引，成为新的df数据，也可以用来刷新索引

print(pop_flat.set_index(['state', 'year']))#于上面相反！！！可以用来创建多级索引DF。
#将类似这样的原始输入数据的列直接转换成MultiIndex，(类始于excel表上创建DF一样，根据时间等序列为列表签)


print("\n多级索引的数据累计方法\n")

print(health_data)
#置参数level 实现对数据子集的累计操作(year是前面创建MultiIndex时的参数name时赋予的)
data_mean = health_data.mean(level='year')
print(data_mean)

#再设置axis 参数，就可以对列索引进行类似的累计操作
print(data_mean.mean(axis=1, level='type'))


print("\n合并数据集：Concat与Append操作")
#series合并
x = [1, 2, 3]
y = [4, 5, 6]
print(np.concatenate([x, y]))
#daaframe合并
x = [[1, 2],
    [3, 4]]
print(np.concatenate([x, x], axis=1))

print("\npandas通过pd.concat实现简易合并")
def make_df(cols, ind):
  """一个简单的DataFrame"""
  data = {c: [str(c) + str(i) for i in ind] for c in cols}#先外往内!!二维数组的列表生成式。
  print(data)
  return pd.DataFrame(data, ind)
# DataFrame示例
print(make_df('ABC', range(3)))

#pd.concat()可以简单地合并一维的Series 或DataFrame 对象，与np.concatenate() 合并数组一样
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
print("\n合并series\n",pd.concat([ser1, ser2]),"")

"""
concat()所有的参数：
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
keys=None, levels=None, names=None, verify_integrity=False,
copy=True) """

df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1); print(df2); print(pd.concat([df1, df2],axis=1,ignore_index=True))#单行用；号可以间隔代码
#默认情况下，DataFrame 的合并都是逐行进行的（默认设置是axis=0）
df3 = make_df('CD', [1, 2])
print("\naxis=1\n",pd.concat([df1, df3],axis=1))#书上的"col"可能版本不一样


print("\n索引重复")
#pd.concatenate 与pd.concat 最主要的差异之一就是Pandas（councat）在合并时后者会保留索引，即使索引是重复的！
#pd.concat() 提供了下面的解决这个问题的方法(行索引和列标签重复都适用)：

#(1)可以设置verify_integrity 参数为True,合并时若有索引重复就会触发异常
#(2)设置ignore_index 参数为True,合并时将会创建一个新的整数索引。
print(pd.concat([df1, df2],axis=1,ignore_index=True))
#(3)通过keys 参数来增加多级索引：
print(pd.concat([df1, df1],axis=0,keys=["x","y"]))

print("\n类似join的合并")
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
print(df5); print(df6); 
print(pd.concat([df5, df6],sort=True))#传递sort=True会消去警告（不影响）

#默认情况下缺失的数据会用NaN表示,可以用join 和join_axes 参数设置合并方式
print("\n并集合并\n",pd.concat([df5, df6], join='inner'))#用join='inner' 实现对输入列的交集合并


#设置join_axes 参数,里面是索引对象构成的列表（是列表的列表）
print(df5.columns)
print(pd.concat([df5, df6], join_axes=[df5.columns]))#df5的的列

print("\nappend()方法")#用ipython查看pandas各种函数的使用方法
#Series 和DataFrame 对象都支持append 方法df1.append(df2)，效果与pd.append([df1, df2]) 一样
"""
与Python 列表中的append() 和extend() 方法不同，Pandas 的append() 不
直接更新原有对象的值，而是为合并后的数据创建一个新对象。因此，它不能被称之为一
个非常高效的解决方案，因为每次合并都需要重新创建索引和数据缓存。总之，如果你需
要进行多个append 操作，还是建议先创建一个DataFrame 列表，然后用concat() 函数一次
性解决所有合并任务。
"""

print("\n3.8　合并数据集：合并与连接")
#Pandas 的基本特性之一就是高性能的内存式数据连接（join）与合并（merge）操作。(类似于数据库)
#关系代数pd.merge()介绍P129

print("数据连接的类型")
#pd.merge() 函数实现了三种数据连接的类型：一对一、多对一和多对多

df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
print("df1\n",df1); print("df2\n",df2)
df3 = pd.merge(df1, df2)#“employee”列的位置是不一样的，但是pd.merge() 函数会正确处理这个问题。
print("\ndf3",df3)#pd.merge() 会默认丢弃原来的行索引，不过也可以自定义

print("\n多对一连接")
#多对一连接是指，在需要连接的两个列中，有一列的值有重复(结果DataFrame 将会保留重复值。)
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 
                    'supervisor': ['Carly', 'Guido', 'Steve']})
print(df4); print(pd.merge(df3, df4))#一对多指这里的多出来的supervisor。

print("\n多对多连接")
#左右两个输入的共同列都包含重复值，那么合并的结果就是一种多对多连接。
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                    'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                    'spreadsheets', 'organization']})

print("df5\n",df1); print("df5\n",df5); print("df1合并df5\n",pd.merge(df1, df5))
#留意上面多出来的组合（最大化的组合）

#很多时候需要合并的另个列表标签名不一致，需要设置参数来对应合并的键：
print("\n3.8.3设置数据合并的键")
pd.merge(df1, df2, on='employee')#参数on 设置为一个列名字符串或者一个包含多列名称的列表
#这个参数在两个DF有共同列时使用

#要合并两个列名不同的数据集可以用left_on 和right_on 参数来指定列名：
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
print(df1); print(df3);
print(pd.merge(df1, df3, left_on="employee", right_on="name"))
#获取的结果中会有一个多余的列，可以通过DataFrame 的drop() 方法将这列去掉
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

print("\n合并索引:left_index与right_index参数")

df1a = df1.set_index('employee')#将列表索引设置为employee列！！！！
df2a = df2.set_index('employee')
print(df1a); print(df2a)
#可以通过设置pd.merge()中的left_index 和/ 或right_index参数将索引设置为键来实现合并：
print(pd.merge(df1a, df2a, left_index=True, right_index=True))

#DataFrame 实现了join() 方法，它可以按照索引进行数据合并：
print("\njoin()",df1a.join(df2a))

#想将索引与列混合使用,可以通过结合left_index与right_on,或者结合left_on与right_index来实现
print(df1a); print(df3);
print("\n索引与列混合使用\n",pd.merge(df1a, df3, left_index=True, right_on='name'))
"""
关于concat、join、merge的区别：concat可以设置合并的轴，支持数据合并和连接，一般用索引作为
合并依据；join适用于数据连接，一般用索引作为合并依据；merge用于数据连接，可以同时用列表标签
名和索引进行数据连接（通过left_index、right_on等实现；可以用set_index转换列标签为索引）
"""
print("\n设置数据连接的集合操作规则")
#集合操作规则。当一个值出现在一列，却没有出现在另一列时，就需要考虑集合操作规则
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'beans', 'bread']},
                    columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                    'drink': ['wine', 'beer']},
                    columns=['name', 'drink'])
print("df6\n",df6); print("df7\n",df7); 
print("\n内连接:\n",pd.merge(df6, df7, how='inner'))#how参数的交集连接inter是内连接
print("\n外连接:\n",pd.merge(df6, df7, how='outer'))#how参数的并集连接outer是外连接
#左连接（left join）和右连接（right join）返回的结果分别只包含左列和右列(缺失由NAN填充)
print("\n左连接\n",pd.merge(df6, df7, how='left'))


print("\n重复列名：suffixes参数")
#遇到两个输入DataFrame 有重名列的情况:
df8 = pd.DataFrame({'name': ['Jake', 'Bob', 'Lisa', 'Sue'],
                    'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [3, 1, 4, 2]})
print("df8\n",df8); print("df9\n",df9); 
print(pd.merge(df8, df9, on="name"))#pd.merge() 函数会自动为它们增加后缀_x 或_y

print("\nsuffixes 参数\n",pd.merge(df8, df9, on="name", suffixes=["_L", "_R"]))
#通过suffixes 参数自定义后缀名,suffixes 参数同样适用于任何连接方式三个及三个以上的重复列


print("\n案例：美国各州的统计数据")#!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
pop = pd.read_csv('state-population.csv')
areas = pd.read_csv('state-areas.csv')
abbrevs = pd.read_csv('state-abbrevs.csv')

print(pop.head()); print(areas.head()); print(abbrevs.head())#
#df.head() 读取头几条数据,括号内可以具体行数,pandas内函数
merged = pd.merge(pop, abbrevs, how='outer',left_on='stateregion',
                   right_on='abbreviation').drop('abbreviation', 1)#axis=1
#合并pop和abbrevs，得出人口对应州全称,并删除多出的一列
print("\n合并pop和abbrevs\n",merged.head())

print("检查缺失项：\n",merged.isnull().any())#324返回每列缺失情况布尔掩码（人口和州存在缺数）
#.any()这里作用是按照列的总的情况来判断是否缺失(判断列是否存在缺数)，没有any会逐行打印所有缺失项

print("\n人口缺失数据：\n",merged[merged['population'].isnull()])#打印出缺人口数据的行
#结果显示2000年前PR(波多黎各)的人口数据缺失

print("\n州全名缺失：\n",merged.loc[merged['state'].isnull(), 'stateregion'].unique())
#unique()：返回参数数组中所有不同的值，并按照从小到大排序
#用loc显性索引返回state为nan的行然后匹配显示列索引"stateregion"，再去除重复项排序显示

#人口数据中缺数包含波多黎各（PR）和全国总数（USA）快速填充对应的全称：
merged.loc[merged['stateregion'] == 'PR', 'state'] = 'Puerto Rico'
merged.loc[merged['stateregion'] == 'USA', 'state'] = 'United States'
#利用布尔掩码提取'stateregion'等于PR&USA的数据然后用显示索引修改相关项，以填充缺失部分
print("\n填充缺数州名后：\n",merged.isnull().any())

#用相同的规则去合并面积数据，根据数据集共同的state列来合并
final = pd.merge(merged, areas, on='state', how='left')
print(final.head())
#根据merged的state为连接（左连接）合并areas

print("\n检查缺失:\n",final.isnull().any())#area (sq. mi)存在缺失数据
print("\n提取缺失面积：\n",final.loc[final["area (sq. mi)"].isnull(),"state"].unique())
#final['state'][final['area (sq. mi)'].isnull()].unique()#书上写法

final.dropna(inplace=True)#清洗缺失数据
#dropna()返回一个剔除缺失值的数据。缺失为全国面积,删除相缺失项
#参数：inplace=True：不创建新的对象，直接对原始对象进行修改；
#参数：inplace=False：对数据进行修改，创建并返回新的对象承载其修改结果。


print("\n计算人口密度")
data2010 = final.query("year == 2010 & ages == 'total'")#query()函数后面章节有介绍!!!!!
print(data2010.head())# 上面不需要什么掩码筛选之类的，比较方便！！！！

data2010.set_index('state', inplace=True)#对索引进行重置，设置state列为索引
density = data2010['population'] / data2010['area (sq. mi)']#人口密度计算


density.sort_values(ascending=False, inplace=True)#ascending=False降序,直接修改原值
print(density.head())
"""
按索引排序
sort_index(axis=0, level=None, ascending=True, inplace=False, 
    kind='quicksort', na_position='last', sort_remaining=True, by=None)

按数值排序
    DataFrame.sort_values(by=[作为排序依据的列名，可多个], axis=0, ascending=True, 
    inplace=False, kind='quicksort', na_position='last') 
"""
print("\n降序:",density.tail())#与head()相反
#df.head() #头五行    df.tail() #尾五行     df.T #转置


print("\n累计与分组:")

print("\nPandas的简单累计功能")
rng = np.random.RandomState(42)
ser = pd.Series(rng.rand(5))
print("series:\n",ser); print(ser.sum()); print(ser.mean())

#DataFrame 的累计函数默认对每列进行统计：
df = pd.DataFrame({'A': rng.rand(5), 'B': rng.rand(5)})
print("\ndataframe:\n",df); print(df.mean()); 
print(df.mean(axis='columns'))#设置axis 参数，可以对每一行进行统计了
#Pandas 的Series 和DataFrame 支持所有（np270）行中介绍的常用累计函数。

print("\n行星数据：")
import seaborn as sns #Seaborn 程序库，建立在mlp的基础上的2D数据可视化库
planets = sns.load_dataset('planets')#库自带的数据'planets'行星数据
print(planets.shape)#维度结构
print(planets.head())

#describe() 方法可以计算每一列的若干常用统计值
print("\ndescribe() 方法\n",planets.dropna().describe())#先删除缺失项
"""
Pandas 内置的一些累计方法如表3-3 所示。
表3-3：Pandas的累计方法
指标                      描述
count()                   计数项
first()、last()            第一项与最后一项
mean()、median()           均值与中位数
min()、max()               最小值与最大值
std()、var()               标准差与方差
mad()                     均值绝对偏差（mean absolute deviation）
prod()                    所有项乘积
sum()                     所有项求和
DataFrame 和Series        对象支持以上所有方法。
"""

print("\nGroupBy：分割、应用和组合")#P143，类始于透视表
#GroupBy将中间的分割应用和组合过程不需要显式地暴露出来！，只要把操作看成一个整体
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                  'data': range(6)}, columns=['key', 'data'])
print(df)
print("\n",df.groupby('key'))#根据key来分隔！！！！或者说分组
"""这里返回的不是一个dataframe对象,而是一个DataFrameGroupBy 对象
可以看出一种特殊的dataframe，这种“延迟计算”在没有应用累计函数之前不会计算。"""

print(df.groupby('key').sum())#可以使用Pandas 或NumPy 的任意一种累计函数（例如上面表格）
#对DataFrameGroupBy 对象应用累计函数，它会完成相应的应用/组合步骤并生成结果：

print("\nGroupBy对象")#可以看成是dataframe的集合
print(planets.groupby('method'))#这里是DataFrameGroupBy
print(planets.groupby('method')['orbital_period'])#留意这里返回的是SeriesGroupBy 

#从原来的DF中取某个列名作为一个Series组。与GroupBy 对象一样，直到运行累计函数，才会开始计算：
print("\n中位值：")
print(planets.groupby('method')['orbital_period'].median())
#这里根据method作为分组，然后在各组提取orbital_period列，然后算各组中位数，再组合起来

print("\n按组迭代")
#GroupBy 对象支持直接按组进行迭代，返回的每一组都是Series 或DataFrame。(下面只打印每组结构)
for (method, group) in planets.groupby('method'):#这里的group应该指的是每个分组的本身
  print("{0:30s} shape={1}".format(method, group.shape))#0:30是指定0的位置然后加上分隔30
#shape={1}就是format(method, group.shape)1的位置，显示当前组的维度结构。

print("\n按调用方法")
"""
任何不由GroupBy 对象直接实现的方法直接应用到每一组，无论是DataFrame 还是Series 
对象都同样适用例如,可以用DataFrame 的describe() 方法进行累计，对每一组数据进行描述性统计:
"""
print(planets.groupby('method')['year'].describe())#对每个分组的year进行常规的统计值
"""方法首先会应用到每组数据上，然后结果由GroupBy 组合后返回。另外，
任意DataFrame / Series 的方法都可以由GroupBy 方法调用，从而实现非常灵活强大的操作。"""


print("\n累计、过滤、转换和应用")
#aggregate()、filter()、transform() 和apply() 方法，在数据组合之前实现了大量高效的操作。

rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                    'data1': range(6),
                    'data2': rng.randint(0, 10, 6)},
                    columns = ['key', 'data1', 'data2'])

print("\n基准df：\n",df)

print("1.累计")
#aggregate() 可以支持更复杂的操作，比如字符串、函数或者函数列表，并且能一次性计算所有累计值
print(df.groupby('key').aggregate(['min', np.median, max]))#同时计算各列相关累计统计
#另一种用法就是通过Python 字典指定不同列需要累计的函数
print(df.groupby('key').aggregate({'data1': 'min','data2': 'max'}))

print("\n2.过滤")
#过滤操作可以让你按照分组的属性丢弃若干数据。例如只需要保留标准差超过某个阈值的组
def filter_func(x):
  return x['data2'].std() > 4#std标准差
print(df.groupby('key').std());
print(df.groupby('key').filter(filter_func))
#filter()函数会返回一个布尔值,表示每个组是否通过过滤。A组data2列的标准差不大于4，所以被丢弃了
#filter()也接收一个函数和一个序列；关于filter()函数详细查看廖雪峰笔记287行；】
#filter()函数是过滤每一组的数据，而不是过滤组内的数据！以组为单位进行布尔判断false则抛弃该组

print("\n3.转换")
"""
累计操作返回的是对组内全量数据缩减过的结果，而转换操作会返回一个新的全
量数据。数据经过转换之后，其形状与原来的输入数据是一样的。常见的例子就是将每
一组的样本数据减去各组的均值，实现数据标准化：
"""
# 对组内每个数据进行运算，运算对象可以是每组每列列的运算结果与对应列的每一个数据进行运算：
print(df.groupby('key').transform(lambda x: x - x.mean()))#经过转换后形状与原来输入一样


print("\n4.apply() 方法")
"""apply() 方法让你可以在每个组上应用任意方法。这个函数输入一个
DataFrame，返回一个Pandas 对象（DataFrame 或Series）或一个标量（scalar，单个数
值）。组合操作会适应返回结果类型。
"""
def norm_by_data2(x):
  # x是一个分组数据的DataFrame
  x['data1'] /= x['data2'].sum()#将第一列数据以第二列的和为基数进行标准化：
  return x
print(df.groupby('key').apply(norm_by_data2))#对每个组 进行函数norm_by_data2运算，再返回
#要注意的地方是它总是输入分组数据的DataFrame，返回Pandas 对象或标量。具体如何选择需要视情况而定。


print("\n设置分割的键")
#上面都是根据列名作为分割，现在将列表、数组、Series 或索引作为分组键
L = [0, 1, 0, 1, 2, 0]
print("(1)\n",df.groupby(L).sum())#分组键可以是长度与DataFrame 匹配的任意Series 或列表
print(df.groupby(df['key']).sum())#原理和上面一样，只是提取了key列列表为分组依据

#用字典或Series 将索引映射到分组名称
df2 = df.set_index('key')
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}
print("\n(2)\n",df2); print(df2.groupby(mapping).sum())

#与前面的字典映射类似,将任意Python函数传入groupby,函数映射到索引,然后新的分组输出：
print("\n(3)\n",df2.groupby(str.lower).mean())

#多个有效键构成的列表,任意之前有效的键都可以组合起来进行分组，从而返回一个多级索引的分组结果：
print("\n(4)\n",df2.groupby([str.lower, mapping]).mean())#两个组合起来分组形成多级索引

print("\n分组案例")
print(planets)
decade = 10 * (planets['year'] // 10)#引用的是行星数据，提取年列然后整除10在乘以10，将个位变0
decade = decade.astype(str) + 's' #astype(str)修改数组类型为str
decade.name = 'decade' #修改列名称
print(planets.groupby(['method', decade])['number'].sum().unstack().fillna(0))
"""将卫星数据中的'method'所谓分组,decade为第二分组->提取number列->应用求和-组合输出后
用unstack将多层索引数据转化为dataframe形式(行索引转列索引)->用fillna将DF内的nan值替换为0."""


print("\n3.10　数据透视表")#逻辑和视图方面和excel的数据透视表相似
#可以看作一种多维度的groupby,是分割与组合不是发生在一维索引上,而是在二维网格上（行列同时分组）
titanic = sns.load_dataset('titanic')#Seaborn 程序库，上面行星案例已import
print(titanic.head())#泰坦尼克号乘客信息数据

#统计不同性别乘客的生还率：
print(titanic.groupby('sex')[['survived']].mean())#这里加两个中括号是为了不显示数据类型信息

#统计不同性别与船舱等级的生还情况
print(titanic.groupby(['sex', 'class'])['survived'].aggregate('mean').unstack())
#将可以尝试.aggregate('mean')增加多几个统计项
#unstack()在这里相当于 excel将class从透视表的航标签挪到列标签中。


print("\n数据透视表语法")#实现数据透视表的另一种语法
#Pandas 提供了一个快捷方式pivot_table 来快速解决多维的累计分析任务
#用DataFrame 的pivot_table 实现的效果等同于上一节的管道命令的代码
print(titanic.pivot_table('survived', index='sex', columns='class'))
"""
pivot_table函数具体参数：
pd.pivot_table(data,values=None,index=None,columns=None,aggfunc='mean',
              fill_value=None,margins=False,dropna=True,margins_name='All')

data: A DataFrame object
values: a column or a list of columns to aggregate
index: a column, Grouper, array which has the same length as data, or list of them. Keys to group by on the pivot table index. If an array is passed, it is being used as the same manner as column values.
columns: a column, Grouper, array which has the same length as data, or list of them. Keys to group by on the pivot table column. If an array is passed, it is being used as the same manner as column values.
aggfunc: function to use for aggregation, defaulting to numpy.mean
"""


print("\n多级数据透视表")
age = pd.cut(titanic['age'], [0, 18, 80])#用pd.cut函数将年龄分段
print("\n年龄分组\n",age.head())
print(titanic.pivot_table('survived', ['sex', age], 'class'))#默认应用参数是aggfunc='mean'
"""根据函数源代码和参数，因为函数直接作用在对象上，所以这里的values='survived',
等同pd.pivot_table(titanic,'survived'...)"""

#cut将根据值本身来选择间隔，
#qcut是根据这些值的频率来选择均匀间隔，即每个间隔数的数量是相同的
fare = pd.qcut(titanic['fare'], 2)#根据各种价格数量,将价格区间分割成数量相同的两部分
print("\n分隔票价\n",fare.head())
print("\n四维累计数据表\n",titanic.pivot_table('survived', ['sex', age], [fare, 'class']))

print("\n其他数据透视表选项")
"""Pandas 0.18版的函数签名
DataFrame.pivot_table(data, values=None, index=None, columns=None,
aggfunc='mean', fill_value=None, margins=False,dropna=True, margins_name='All')

fill_value 和dropna 这两个参数用于处理缺失值

aggfunc 参数用于设置累计函数类型，默认值是均值（mean）GroupBy 的用法一样，累
计函数可以用一些常见的字符串（'sum'、'mean'、'count'、'min'、'max' 等）表示，也
可以用标准的累计函数（np.sum()、min()、sum() 等）表示
"""
#还可以通过字典为不同的列指定不同的累计函数:
a=titanic.pivot_table(index='sex', columns='class',
                      aggfunc={'survived':sum, 'fare':'mean'})
print(a)
#注意这里没有提供values参数，因为为aggfunc设置指定映射关系是，待透视的数据就已经确定下来了。

#当需要计算每一组的总数时，可以通过margins 参数来设置：
a=titanic.pivot_table('survived', index='sex', columns='class', margins=True)
print("\n添加总数计算：\n",a)
# margin的标签可以通过margins_name 参数进行自定义，默认值是"All"


print("\n案例：美国人的生日")
births = pd.read_csv('births.csv')#公开生日数据
print(births.head())

births['decade'] = 10 * (births['year'] // 10)#提取每10年为单位的统计数据
a=births.pivot_table('births', index='decade', columns='gender', aggfunc='sum')
print("\n每10年出生男女人口\n",a)

quartiles = np.percentile(births['births'], [25, 50, 75])#np笔记有记录percentile函数
print(quartiles)
mu = quartiles[1]
sig = 0.74 * (quartiles[2] - quartiles[0])
#看不懂这个案例下面就不记录了


print("\n3.11　向量化字符串操作")
#由于NumPy并没有为字符串数组提供简单的接口，因此需要通过繁琐的for循环来解决问题
data = ['peter', 'Paul', 'MARY', 'gUIDO']
print([s.capitalize() for s in data])#capitalize()将开头字母改成大写其他为小写
#出现缺失值会导致出错

data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
names = pd.Series(data)
print(names)
print("\npandas字符串操作\n",names.str.capitalize())#在pd对象直接用str属性可以量化操作
#Pandas 为包含字符串的Series 和Index 对象提供的str属性,来进行向量化字符串操作同时跳过缺失值

print("\nPandas字符串方法列表")
#几乎所有Python 内置的字符串方法都被复制到Pandas 的向量化字符串方法中。
"""
下面的表格列举了Pandas 的str 方法借鉴Python 字符串方法的内容：
len()     lower()       translate()     islower()
ljust()   upper()       startswith()    isupper()
rjust()   find()        endswith()      isnumeric()
center()  rfind()       isalnum()       isdecimal()
zfill()   index()       isalpha()       split()
strip()   rindex()      isdigit()       rsplit()
rstrip()  capitalize()  isspace()       partition()
lstrip()  swapcase()    istitle()       rpartition()
"""
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

#这些方法的返回值不同，例如lower() 方法返回一个字符串Series：
print(monte.str.lower())
print(monte.str.len())#返回数值
print("\n返回布尔值\n",monte.str.startswith('T'))#判断开头是否是大写T
print("\n返回复合值\n",monte.str.split())#分割字符串
#!!!!想要量化字符串操作 有多少步就要有多少个.str 例：.str.split('-').str[1].str[0:-1]

#下面方法支持正则表达式处理每个字符串元素
"""
表3-4：Pandas向量化字符串方法与Python标准库的re模块函数的对应关系
方法                  描述
match()               对每个元素调用re.match()，返回布尔类型值
extract()             对每个元素调用re.match()，返回匹配的字符串组（groups）
findall()             对每个元素调用re.findall()
replace()             用正则模式替换字符串
contains()            对每个元素调用re.search()，返回布尔类型值
count()               计算符合正则模式的字符串的数量
split()               等价于str.split()，支持正则表达式
rsplit()              等价于str.rsplit()，支持正则表达式
"""

print(monte.str.extract('([A-Za-z]+)'))#用正则表达式可以提取元素前面的连续字母作为名字
print(monte.str.findall(r'^[^AEIOU].*[^aeiou]$'))#找出所有开头和结尾都是辅音字母的名字

print("\n其他字符串方法")
"""
表3-5 其他Pandas字符串方法
方法             描述
get()            获取元素索引位置上的值，索引从0 开始
slice()          对元素进行切片取值
slice_replace()  对元素进行切片替换
cat()            连接字符串（此功能比较复杂，建议阅读文档）
repeat()         重复元素
normalize()      将字符串转换为Unicode 规范形式
pad()            在字符串的左边、右边或两边增加空格
wrap()           将字符串按照指定的宽度换行
join()           用分隔符连接Series 的每个元素
get_dummies     按照分隔符提取每个元素的dummy 变量，转换为独热（one-hot）编码的DataFrame
"""

#向量化字符串的取值与切片操作df.str.slice(0, 3) 等价于df.str[0:3]：
#df.str.get(i) 与df.str[i] 的按索引取值效果类似。
print(monte.str.split().str.get(-1))#留意两个str

print("\n指标变量")

full_monte = pd.DataFrame({'name': monte,
                           'info': ['B|不是吧|D', 'B|D', 'A|C', 'B|D', 'B|C','B|C|D']})
print(full_monte)
#get_dummies()方法可以让你快速将这些指标变量分割成一个独热编码的DataFrame（每个元素都是0或1）
a=full_monte['info'].str.get_dummies('|')
print(a)


print("\nb3.12　处理时间序列")
"""
本节将介绍的日期与时间数据主要包含三类:
1.时间戳表示某个具体的时间点（例如2015 年7 月4 日上午7 点）。
2.时间间隔与周期表示开始时间点与结束时间点之间的时间长度,
  周期通常是指一种特殊形式的时间间隔，每个间隔长度相同，彼此之间不会重叠
3.时间增量（time delta）或持续时间（duration）表示精确的时间长度（某程序运行持续时间22.56秒）
"""

print("Python的日期与时间工具:")
#1. 原生Python的日期与时间工具：datetime与dateutil
from datetime import datetime
print(datetime(year=2015, month=7, day=4))#打印和输出是两种形式

#或者使用dateutil 模块对各种字符串格式的日期进行正确解析：
from dateutil import parser
date = parser.parse("4th of July, 2015")
print(date)#不打印，返回的是datetime 对象：datetime.datetime(2015, 7, 4, 0, 0)(上面一样)

#一旦有了datetime 对象，就可以进行许多操作了，例如打印出这一天是星期几：
print(date.strftime('%A'))


print("\n2. 时间类型数组：NumPy的datetime64类型")
date = np.array('2015-07-04', dtype=np.datetime64)#传入dtype=np.datetime64类型
print(date)#out：array(datetime.date(2015, 7, 4), dtype='datetime64[D]')

print(date + np.arange(12))#只要有了这个日期格式，就可以进行快速的向量化运算

#以天为单位的日期：
print(np.datetime64('2015-07-04'))#out:numpy.datetime64('2015-07-04')
#以分钟为单位的日期:
print(np.datetime64('2015-07-04 12:00'))#out:numpy.datetime64('2015-07-04T12:00')

#时区将自动设置为执行代码的操作系统的当地时区。可以通过各种格式的代码设置基本时间单位:
print(np.datetime64('2015-07-04 12:59:59.50', 'M'))#纳秒

"""
表3-6：日期与时间单位格式代码
代码    含义              时间跨度 (相对) 时间跨度 (绝对)
Y       年（year）         ± 9.2e18 年[9.2e18 BC, 9.2e18 AD]
M       月（month）        ± 7.6e17 年[7.6e17 BC, 7.6e17 AD]
W       周（week）         ± 1.7e17 年[1.7e17 BC, 1.7e17 AD]
D       日（day）          ± 2.5e16 年[2.5e16 BC, 2.5e16 AD]
h       时（hour）         ± 1.0e15 年[1.0e15 BC, 1.0e15 AD]
m       分（minute）       ± 1.7e13 年[1.7e13 BC, 1.7e13 AD]
s       秒（second）       ± 2.9e12 年[ 2.9e9 BC, 2.9e9 AD]
ms      毫秒（millisecond） ± 2.9e9 年[ 2.9e6 BC, 2.9e6 AD]
下面还有，不列出来P168

虽然datetime64 弥补了Python 原生的datetime 类型的不足，但它
缺少了许多datetime（尤其是dateutil）原本具备的便捷方法与函数，
"""

print("\n3. Pandas的日期与时间工具：理想与现实的最佳解决方案")

date = pd.to_datetime("4th of July, 2015")#可以尝试多种时间格式，函数会自动识别
print(date)
print(date.strftime('%A'))

#也可以直接进行NumPy 类型的向量化运算：
a=date + pd.to_timedelta(np.arange(12), 'D')
print(a)


print("Pandas时间序列：用时间作索引")
#我们可以通过一个时间索引数据创建一个Series 对象：
index = pd.DatetimeIndex(['2014-07-04', '2015-07-04', '2015-08-04','2014-08-04'])
data = pd.Series([0, 1, 2, 3], index=index)
print(data)

print(data['2014-07-04':'2015-07-04'])#直接用日期进行切片取值
#是直接根据日期来切片筛选数据，只是日期没有排序

#直接通过年份切片获取该年的数据：（仅在此类Series 上可用的取值操作）
print("\n通过年份切片\n",data['2015'])


print("\nPandas时间序列数据结构")#P170
"""
• 针对时间戳数据，Pandas 提供了Timestamp 类型。与前面介绍的一样，它本质上是
Python 的原生datetime 类型的替代品，但是在性能更好的numpy.datetime64 类型的基
础上创建。对应的索引数据结构是DatetimeIndex。
• 针对时间周期数据，Pandas 提供了Period 类型。这是利用numpy.datetime64 类型将固
定频率的时间间隔进行编码。对应的索引数据结构是PeriodIndex。
• 针对时间增量或持续时间，Pandas 提供了Timedelta 类型。Timedelta 是一种代替Python
原生datetime.timedelta 类型的高性能数据结构，同样是基于numpy.timedelta64 类型。
对应的索引数据结构是TimedeltaIndex。
"""
#对pd.to_datetime()传递一个日期会返回一个Timestamp类型,传递一个时间序列会返回一个DatetimeIndex类型：
dates = pd.to_datetime([datetime(2015, 7, 3), '4th of July, 2015',
                        '2015-Jul-6', '07-07-2015', '20150708'])#以解析许多日期与时间格式
#传入时间序列返回一个DatetimeIndex类型

#下面为时间数据3种类型事例,对概念比较容易理解
print(dates)
#最基础的日期/时间对象是Timestamp 和DatetimeIndex。这两种对象可以直接使用，最常用
#的方法是pd.to_datetime() 函数，

#任何DatetimeIndex 类型都可以通过to_period() 方法和一个频率代码转换成PeriodIndex类型。
print(dates.to_period('D'))#用'D' 将数据转换成单日的时间序列

#当用一个日期减去另一个日期时，返回的结果是TimedeltaIndex 类型：
print(dates - dates[0])

print("\n有规律的时间序列：pd.date_range()")
"""Pandas 提供了一些方法：pd.date_range() 可以处理时间戳、pd.period_range() 
可以处理周期、pd.timedelta_range() 可以处理时间间隔"""

#通过开始日期、结束日期和频率代码（同样是可选的）创建一个有规律的日期序列，默认的频率是天：
a=pd.date_range('2015-07-03', '2015-07-10')#生成一个有规律的日期序列
print(a)
#pd.date_range(start=None,end=None,periods=None,freq=None,tz=None,normalize=False,
#               name=None,closed=None,**kwargs)

#日期范围不一定非是开始时间与结束时间，也可以是开始时间与周期数periods：
print("\n时间+周期数\n",pd.date_range('2015-07-03', periods=8))

#可以通过freq 参数改变时间间隔，默认值是D
print("\n修改时间间隔\n",pd.date_range('2015-07-03', periods=8, freq='H'))
#以上三个栗子都是生成日期序列(时间戳),即DatetimeIndex类型对象

#创建一个有规律的周期或时间间隔序列，有类似的函数pd.period_range() 和pd.timedelta_range()。
b=pd.period_range('2015-07', periods=8, freq='M')#
print("\n周期序列\n",b)#生成PeriodIndex类型序列
# pd.period_range(start=None, end=None, periods=None, freq=None, name=None)

#一个以小时递增的序列：
c=pd.timedelta_range(0, periods=10, freq='H')
print("\n时间间隔序列序列\n",c)#生成PeriodIndex类型序列
#pd.timedelta_range(start=None,end=None,periods=None,freq=None,name=None,closed=None)


print("\n时间频率与偏移量")
"""
Pandas 时间序列工具的基础是时间频率或偏移量（offset）代码:
代码  描述                                    代码    描述
D     天（calendar day，按日历算，含双休日）   B      天（business day，仅含工作日）
W     周（weekly）
M     月末（month end）                       BM     月末（business month end，仅含工作日）
Q     季末（quarter end）                     BQ     季末（business quarter end，仅含工作日）
A     年末（year end）                        BA     年末（business year end，仅含工作日）
H     小时（hours）                           BH     小时（business hours，工作时间）
T     分钟（minutes）
S     秒（seconds）
L     毫秒（milliseonds）
U     微秒（microseconds）
N     纳秒（nanoseconds）

月、季、年频率都是具体周期的结束时间（月末、季末、年末），而有一些以S（start，开
始）为后缀的代码表示日期开始:

表3-8：带开始索引的频率代码
代码      频率
MS        月初（month start）
BMS       月初（business month start，仅含工作日）
QS        季初（quarter start）
BQS       季初（business quarter start，仅含工作日）
AS        年初（year start）
BAS       年初（business year start，仅含工作日）
"""

#可以将频率组合起来创建的新的周期:用小时（H）和分钟（T）的组合来实现2 小时30 分钟
a=pd.timedelta_range(0, periods=9, freq="2H30T")
print(a)

"""所有这些频率代码都对应Pandas 时间序列的偏移量，具体内容可以在pd.tseries.offsets
模块中找到。例如，可以用下面的方法直接创建一个工作日偏移序列："""
from pandas.tseries.offsets import BDay
a=pd.date_range('2015-07-01', periods=9, freq=BDay())
print(a)


print("\n3.13　高性能Pandas：eval()与query()")
#pandas虽然运算速度快但因为经常要创建临时中间对象，导致占用大量计算时间和内存

print("query()与eval()的设计动机：复合代数式")

#NumPy 与Pandas 都支持快速的向量化运算,下面对两个例子求和：
rng = np.random.RandomState(42)
x = rng.rand(10000000)
y = rng.rand(10000000)
start = time.clock()
a=x + y
end = time.clock()
print("使用numpu耗时\n",end-start)

#使用python的循环也可以计算，但速度要慢得多
start = time.clock()
np.fromiter((xi + yi for xi, yi in zip(x, y)),dtype=x.dtype, count=len(x))
end = time.clock()
print("\n使用python循环耗时：\n",end-start)

#但是numpy的这种向量化运算在处理复合代数式时效率比较低：
mask = (x > 0.5) & (y < 0.5)#复合代数式。。。

#等价于下面过程，每段中间过程都需要显式地分配内存。
#如果x 数组和y 数组非常大,运算就会占用大量的时间和内存消耗
tmp1 = (x > 0.5)
tmp2 = (y < 0.5)
mask = tmp1 & tmp2

#Numexpr 程序库可以让你在不为中间过程分配全部内存的前提下，完成元素到元素的复合代数式运算
import numexpr#np.allclose()可用于对比两种运算得出的结果是否一样
mask_numexpr = numexpr.evaluate('(x > 0.5) & (y < 0.5)')
print(np.allclose(mask, mask_numexpr))#np.allclose 比较两个array是不是每一元素都相等
#Numexpr在计算代数式时不需要为临时数组分配全部内存,计算比NumPy 更高效,尤其适合处理大型数组


print("\n用pandas.eval()实现高性能运算")
#Pandas 的eval() 函数用字符串代数式实现了DataFrame 的高性能运算
nrows, ncols = 100000, 100
rng = np.random.RandomState(42)#下面创建100000行100列0-1的随机数的dataframe
df1, df2, df3, df4 = (pd.DataFrame(rng.rand(nrows, ncols))for i in range(4))

start = time.clock()
df1 + df2 + df3 + df4
end = time.clock()
print("\n常规pandas耗时：\n",end-start)

#也可以通过pd.eval 和字符串代数式计算并得出相同的结果：
start = time.clock()
pd.eval('df1 + df2 + df3 + df4')
end = time.clock()
print("\npandas.eval()耗时：\n",end-start)


#pd.eval()支持的运算
df1, df2, df3, df4, df5 = (pd.DataFrame(rng.randint(0, 1000, (100, 3)))for i in range(5))

print("\n1.算术运算符")#pd.eval() 支持所有的算术运算符
result1 = -df1 * df2 / (df3 + df4) - df5
result2 = pd.eval('-df1 * df2 / (df3 + df4) - df5')
print(np.allclose(result1, result2))

print("\n2.比较运算符")#pd.eval() 支持所有的比较运算符，包括链式代数式
result1 = (df1 < df2) & (df2 <= df3) & (df3 != df4)
#比较式这个生成布尔值，为每项所在位置满足全部条件，然后该位置为ture
result2 = pd.eval('df1 < df2 <= df3 != df4')#注意与上面不一样


print("\n3.位运算符")#pd.eval() 支持&（与）和|（或）等位运算符
result1 = (df1 < 0.5) & (df2 < 0.5) | (df3 < df4)
result2 = pd.eval('(df1 < 0.5) & (df2 < 0.5) | (df3 < df4)')
result3 = pd.eval('(df1 < 0.5) and (df2 < 0.5) or (df3 < df4)')#或用and和or
print(np.allclose(result1, result2))


print("\n4.对象属性与索引")
#pd.eval() 可以通过obj.attr 语法获取对象属性，通过obj[index] 语法获取对象索引
result1 = df2.T[0] + df3.iloc[1]
result2 = pd.eval('df2.T[0] + df3.iloc[1]')

"""其他运算。目前pd.eval() 还不支持函数调用、条件语句、循环以及更复杂的运算。如
果你想要进行这些运算，可以借助Numexpr 来实现。"""


print("\n用DataFrame.eval()实现列间运算")#是DF的eval()方法，作用在df对象上，不是pd.eval()!!
#由于pd.eval() 是Pandas 的顶层函数，因此DataFrame 有一个eval() 方法可以做类似的运算
#使用eval() 方法的好处是可以借助列名称进行运算
df = pd.DataFrame(rng.rand(1000, 3), columns=['A', 'B', 'C'])
print(df.head())

#如果用前面介绍的pd.eval()，就可以通过下面的代数式计算这三列
result1 = (df['A'] + df['B']) / (df['C'] - 1)
result2 = pd.eval("(df.A + df.B) / (df.C - 1)")#还能这么用
print(np.allclose(result1, result2))

#DataFrame.eval() 方法可以通过列名称实现简洁的代数式：
result3 = df.eval('(A + B) / (C - 1)')#eval方法直接作用在dataframe对象上
print(np.allclose(result1, result3))

print("\n用DataFrame.eval()新增列")
#可以用df.eval() 创建一个新的列'D'，然后赋给它其他列计算的值：
df.eval('D = (A + B) / C', inplace=True)#inplace=True 直接修改原值
print(df.head())
df.eval('D = (A - B) / C', inplace=True)#可以修改已有的列
print(df.head())


print("\n2. DataFrame.eval()使用局部变量")
#DataFrame.eval() 方法还支持通过@ 符号使用Python 的局部变量
column_mean = df.mean(1)
result1 = df['A'] + column_mean
result2 = df.eval('A + @column_mean')#!!!!!!!!!!!!
print(np.allclose(result1, result2))
#!!!!!!!!!!!!!@ 符号表示“这是一个变量名称而不是一个列名称”，
#  @ 符号只能在DataFrame.eval() 方法中使用，而不能在pandas.eval() 函数中使用，


print("\nDataFrame.query()方法")#DataFrame.query()适用于过滤运算
#DataFrame 基于字符串代数式的运算实现了另一个方法，被称为query()
result1 = df[(df.A < 0.5) & (df.B < 0.5)]#提取满足条件的行数据
result2 = pd.eval('df[(df.A < 0.5) & (df.B < 0.5)]')
np.allclose(result1, result2)
print(result2)
"""
和前面介绍过的DataFrame.eval() 一样，这是一个用DataFrame 列创建的代数式，但是不
能用DataFrame.eval()(因为你要的结果是包含DataFrame 的全部列)。不过，对于这种过滤运算，
你可以用query() 方法
"""
result2 = df.query('A < 0.5 and B < 0.5')
print(result2)
#query() 方法也支持用@ 符号引用局部变量：
Cmean = df['C'].mean()
result1 = df[(df.A < Cmean) & (df.B < Cmean)]
result2 = df.query('A < @Cmean and B < @Cmean')
print(np.allclose(result1, result2))


print("\n性能决定使用时机")
"""
在考虑要不要用这两个函数时，需要考虑计算时间和内存消耗，而内存消耗是更重要的影响
因素每个涉及NumPy 数组或Pandas 的DataFrame的复合代数式都会产生临时数组，
例如
In[26]: x = df[(df.A < 0.5) & (df.B < 0.5)]

它基本等价于：
In[27]: tmp1 = df.A < 0.5
tmp2 = df.B < 0.5
tmp3 = tmp1 & tmp2
x = df[tmp3]

df.values.nbytes可以大概估算一下变量的内存消耗

"""


# ----------------------------后续补充--------------------------------
# pandas获取groupby分组里最大值所在的行方法：
df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 
                  'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6],
                  'Count':[3,2,5,10,10,6]})
print(df)

# 方法1：在分组中过滤出Count最大的行(这种效率非常低，不推荐使用)
df.groupby('Mt').apply(lambda t: t[t.Count==t.Count.max()])

# 方法2：idmax（旧版本pandas是argmax）(推荐)
print(df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())])

# 方法3:先排好序，然后每组取第一个（此方法效率非常高）
df.sort_values('Count', ascending=False).groupby('Mt', as_index=False).first()
# 最后一个的sort方法好像现在已经变成sort_value()方法了（没验证）


# pandas删除指定列中有空值的行
# mydf.dropna(subset=['列名'],inplace=True)

# dataframe在删除原来的行后索引不会随着删除而改变会保持原值，想要重置索引可以：
df = df.reset_index(drop=True)

# 获取当前时间
from datetime import datetime
nowTime=datetime.now().strftime('%Y%m%dt%H_%M_%S') 

# 替换表头（列名）
pd.columns = ['xx','yy','zz'] #不知道为什么失败了
a.rename(columns={'A':'a', 'B':'b', 'C':'c'}, inplace = True)#  第二种方法可以自定义修改个数

df = pd.read_clipboard() # 从粘贴板上读取数据

df.drop_duplicates(keep='first') # 去重


#pd.dtypes 查看每列的数据类型

你可能感兴趣的:(Python,pandas,python,大数据)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23