恶霸程序员388

Python数据分析三剑客之Pandas

写在前面的话：开始之前请确保已经配置好python环境，并安装好第三方库pandas和numpy。

1. pandas库介绍

什么是pandas？pandas是提供高性能易用数据类型和数据分析工具的第三方库。简单讲，pandas主要作用有两个：提供了简易高效的数据类型、提供了数据分析的工具。pandas基于numpy，常和numpy、matplotlib一起使用。关于数据类型，python中自带的数据类型远远不能满足于数据分析。可以说在数据分析中numpy中的数据类型是基础数据类型，关注的是数据的结构表达，体现在数据间的关系（维度）；pandas中的数据类型是基于numpy的扩展数据类型，关注的是数据的应用表达，体现在数据与索引之间的关系上。我们再学习pandas时最重要的是理解如何去操作索引，从某种程度上来说，操作索引就是操作数据。

2. pandas库的series类型

pandas主要有两种数据类型，一维度的Series数据类型，二维及高维的DataFrame类型。我们先来看一下第一种，series类型。

2.1 什么是series类型？

series类型由一组数据及与之相关的数据索引组成。我们来看几行代码：

     import pandas as pd
    
     a = pd.Series([7,8,9,10])
     print(a)
复制代码

输出如下：

     0     7
     1     8
     2     9
     3    10
     dtype: int64
复制代码

观察输出代码，我们可以发现Series对象一共由3部分组成：左侧自动索引部分，右侧数据部分，底部数据类型（numpy中的数据类型）部分。

除了自动添加索引外，我们还可以对其索引进行自定义：

     import pandas as pd
     
     a =pd.Series([7,8,9,10],index=["a","b","c","d"])  # index指定索引
     print(a)
复制代码

输出如下：

     a     7
     b     8
     c     9
     d    10
     dtype: int64
复制代码

可见，索引部分变为了我们自定义的abcd。

2.2 如何创建series类型？

创建Series类型的方法有很多种，主要以以下几种为主：

从标量创建
从字典创建
从ndarray类型创建
从列表创建

下面进行具体讲解：

（1）从标量值创建

即指定一个标量生成一个series类型，如下：

     import pandas as pd
     
     a = pd.Series(5,index=["a","b","c","d","e","f"])
     print(a)
复制代码

输出如下：

 a    5
 b    5
 c    5
 d    5
 e    5
 f    5
 dtype: int64
复制代码

需要注意的是，此时的index参数不能省略（因为需要index来指定生成元素的个数和索引）。（2）从字典类型创建传入一个参数字典，字典的键为series类型的索引，字典的值为series类型的值：

 import pandas as pd
 
 my_dir={
     "a":1,
     "b":2,
     "c":3
 }
 b = pd.Series(my_dir)
 print(b)
复制代码

输出如下：

 a    1
 b    2
 c    3
 dtype: int64
复制代码

此外，利用字典构造series类型时，我们同样可以使用index来指定其索引或改变其结构，这个索引会覆盖字典中的“键索引”。

（3）从ndarray类型创建 ndarray类型是numpy中的数据类型，我们可以直接传入ndarray类型进行创建：

     import pandas as pd
     import numpy as np
     
     c = np.arange(4)
     d = pd.Series(c)
     print(d)
复制代码

输出如下：

     0    0
     1    1
     2    2
     3    3
     dtype: int32
复制代码

同样，也可以使用index参数自定义索引。

（4）也可以从python列表创建，见2.1中的小例。

2.3 series类型的基本使用

Series对象包括index和values两部分，所以主要是这两部分操作。我们先看一下下面的案例：

a.index:获取索引
a.values: 获取数据
a['a']: 获取索引为a的元素
a[0]：获取索引为0的元素，注意！自动索引和自定义索引并存但不能混合使用

因为series是基于ndarray类型的，所以对Series的操作类似于ndarray类型的操作：

numpy中运算和操作可用于series类型
可以通过自动索引或自定义索引对其进行切片

     import pandas as pd
      
     a = pd.Series([1,2,3,4,5,6],index=["a","b","c","d","e","f"])
     
     print("a的值：",a.values)
     print("a的索引：",a.index)
     print("a[0]：",a[0])
     print("a['a']:",a["a"])
     print("a切片：\n",a[::-1])
复制代码

输出如下：

     a的值： [1 2 3 4 5 6]
     a的索引： Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')
     a[0]： 1
     a['a']: 1
     a切片：
      f    6
     e    5
     d    4
     c    3
     b    2
     a    1
     dtype: int64
复制代码

此外，series类型具备对齐操作。如下：

     import pandas as pd
     
     
     a = pd.Series([1,2,3],index=["c","d","e"])
     b = pd.Series([4,5,6,7,8],index=["a","b","e","f","g"])
     c = a+b
     print(c)
复制代码

输出如下：

     a    NaN
     b     NaN
     c    NaN
     d     NaN
     e     9.0
     f     NaN
     g     NaN
     dtype: float64
复制代码

我们让两个series类型相加。观察输出结果可以发现，只有当a、b两者中有相同索引（包括位置）时，他们才会相加，而其余值则不会相加。这就对是series的对齐操作。这也同时验证了pandas是基于索引的运算。

Series类型还有一个name属性，即series对象和索引都可以被赋予一个名称。我们可以使用.name来获取或定义其名称。

 import pandas  as pd
 
  a = pd.Series([1,2,3],index=["c","d","e"])
  
 print(a.name)   # 初始是没有名称的
 a.name = "mySeries"
 print(a.name)
   
 print(a.index.name)
 a.index.name = "索引列"
 print(a.index.name)
 print("*"*20)
 print(a)
复制代码

输出如下：

  None
 mySeries
 None
 索引列
 ********************
 索引列
 c    1
 d    2
 e    3
 Name: mySeries, dtype: int64
复制代码

3. pandas库的DataFrame类型

介绍完Series类型，再然我们来看一下二维及多维的DataFrame类型。

3.1 什么是DataFrame类型？

DataFrame类型是由共用相同索引的一组列数据组成的数据类型。即DataFrame类型是一个类似于表格型的数据类型，每列值类型可以不同，同一行的多列数据都共用同一个索引。我们先看一个小例子：

     import pandas as pd
     import numpy as np
     
     a = np.arange(10).reshape(2,5)
     b = pd.DataFrame(a)
     print(b)
复制代码

通过numpy生成一个二维的ndarray数组，并将其作为参数传给DataFrame，从而生成DataFrame类型的数据。输出如下：

从输出结果中，可以发现，输出结果一共由三部分组成：左侧(纵向)行索引index(红色区,为轴axis=0) 、顶部(横向)列索引column(黄色区，为轴axis=1) 以及数据部分(蓝色区)。 DataFrame常用于表达二维数据，但也可以表达多维数据。

3.2 如何创建DataFrame类型？

dataFrame可以由以下4种方法创建：

二维ndarray对象
字典
Series类型
其它DataFrame类型

接下来，我们进行详细介绍：

（1）由二维ndarray对象创建

     import pandas as pd
     import numpy as np
     
     a = np.arange(16).reshape(4,4)
     print('ndarray类型:\n',a)
     b = pd.DataFrame(a)
     print('转换后的DataFrame类型：\n',b)
复制代码

通过numpy生成一个4*4的ndarray类型，然后作为参数转换成DataFrame类型，输出如下：

     ndarray类型:
      [[ 0  1  2  3]
      [ 4  5  6  7]
      [ 8  9 10 11]
      [12 13 14 15]]
     转换后的DataFrame类型：
          0   1   2   3
     0   0   1   2   3
     1   4   5   6   7
     2   8   9  10  11
     3  12  13  14  15
复制代码

（2）由多个一维Series组成的字典生成我们首先创建一个字典，并将其作为采参数传给DataFrame：

 import pandas as pd
 import numpy as np
 
 a = {
     "小明":pd.Series([100,99,98,100,95,99],index=["语文","数学","英语","物理","化学","生物"]),
     "小红":pd.Series([100,99,98,100,95,99],index=["语文","数学","英语","物理","化学","生物"]),
     "小蓝":pd.Series([100,99,98,100,95,99],index=["语文","数学","英语","物理","化学","生物"]),
     "小黄":pd.Series([100,99,98,100,95,99],index=["语文","数学","英语","物理","化学","生物"]),
     "小绿":pd.Series([100,99,98,100,95,99],index=["语文","数学","英语","物理","化学","生物"])}
 b = pd.DataFrame(a)
 print(b)
复制代码

输出如下：

      小明   小红   小蓝   小黄   小绿
 语文  100    100   100   100   100
 数学   99     99    99    99    99
 英语   98     98    98    98    98
 物理  100    100   100   100   100
 化学   95     95    95    95    95
 生物   99     99    99    99    99
复制代码

可以看到，键名变成了列标签，键值索引变成了行标签。

3.3 DataFrame与Series的关系

可以发现当我们从DataFrame中取出一行或一列时，所得结果是Series类型。也就是说DataFrame是Series类型的容器。

4. pandas库的数据操作

在上文中，我们提到pandas的两种数据类型是series类型和DataFrame类型。接下来，我们主要针对这两种数据类型的操作进行讲解。

4.1 Dataframe的基本属性

df.shape：行数和列数
df.dtype：列数据类型
df.ndim：数据维度
df.index：行索引
df.columns：列索引

df.values：值

 import pandas as pd
 import numpy as np
 
 df = pd.DataFrame(np.arange(16).reshape(4,4),index=list("abcd"),columns=list("ABCD"))
 print(df)
 
 print("行数和列数：",df.shape)
 print("列数据类型：\n",df.dtypes)
 print("数据维度：",df.ndim)
 print("行索引：",df.index,"数据类型：",type(df.index))
 print("列索引：",df.columns,"数据类型：",type(df.columns))
 print("对象值：\n",df.values,"数据类型：",type(df.values))
复制代码

输出如下：

 
     A   B   C   D
 
 a   0   1   2   3
 b   4   5   6   7
 c   8   9  10  11
 d  12  13  14  15
 
 行数和列数： (4, 4)
 
 列数据类型：
  A    int32
 B    int32
 C    int32
 D    int32
 dtype: object
 
 数据维度： 2
 
 行索引： Index(['a', 'b', 'c', 'd'], dtype='object') 数据类型： 
 列索引： Index(['A', 'B', 'C', 'D'], dtype='object') 数据类型： 
 
 对象值：
  [[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]
  [12 13 14 15]] 数据类型： 
复制代码

4.2 dataFrame整体情况查询

df.head(n): 显示前n行，默认前五行
df.tail(n)：显示末尾n行，默认后五行
df.info()：基本信息：行列数，列索引，列非空值个数，列类型行类型，内存占用等
df.describe()：统计信息：行数，列数，均值，标准差，最大值，最小值，四分位数等

df.sort_values(by="列标签"，ascending=True)：升序排序

 import pandas as pd
 import numpy as np
 
 df = pd.DataFrame(np.arange(16).reshape(4,4),index=list("abcd"),columns=list("ABCD"))
 print(df)
 
 print("前3行：\n",df.head(3))
 print("-"*50)
 print("后3行：\n",df.tail(3))
 print("-"*50)
 print("基本信息:")
 print(df.info())
 print("-"*50)
 print("统计信息：",df.describe())
 print("降序排序：")
 print(df.sort_values(by="B", ascending=False))
复制代码

输出如下：

 
      A   B   C   D
 
 a   0   1   2   3
 b   4   5   6   7
 c   8   9  10  11
 d  12  13  14  15
 
 前3行：
     A  B   C   D
 a  0  1   2   3
 b  4  5   6   7
 c  8  9  10  11
 --------------------------------------------------
 
 后3行：
      A   B   C   D
 b   4   5   6   7
 c   8   9  10  11
 d  12  13  14  15
 --------------------------------------------------
 
 基本信息:
   # 数据类型
 Index: 4 entries, a to d               # 行数 4行
 Data columns (total 4 columns):        # 列数 4列
 
  #   Column  Non-Null Count  Dtype
 ---  ------  --------------  -----    # 列标签 列非空值个数  列数据类型
  0   A       4 non-null      int32
  1   B       4 non-null      int32
  2   C       4 non-null      int32
  3   D       4 non-null      int32
 dtypes: int32(4)
 memory usage: 96.0+ bytes            # 内存占用大小
 
 None
 --------------------------------------------------
 
 统计信息：  # 以下结果也为DataFrame类型
         A          B          C          D
 count   4.000000   4.000000   4.000000   4.000000  #包含的行数
 mean    6.000000   7.000000   8.000000   9.000000  # 均值
 std     5.163978   5.163978   5.163978   5.163978  # 标准差 
 min     0.000000   1.000000   2.000000   3.000000  # 最小值
 25%     3.000000   4.000000   5.000000   6.000000  # 前25%中位数
 50%     6.000000   7.000000   8.000000   9.000000  # 中位数
 75%     9.000000  10.000000  11.000000  12.000000  # 前75%中位数
 max    12.000000  13.000000  14.000000  15.000000  # 最大值
 
 降序排序：
     A   B   C   D
 d  12  13  14  15
 c   8   9  10  11
 b   4   5   6   7
 a   0   1   2   3
 
复制代码

4.3 取值操作

取值操作是pandas中的一个基本操作，我们先生成一个100行3列的数据，用于下面操作：

 import pandas as pd
 import numpy as np
 
 df = pd.DataFrame(np.arange(16).reshape(4,4),index=list("abcd"),columns=list("ABCD"))
 print(df)
复制代码

输出如下：

     A   B   C   D
 
 a   0   1   2   3
 b   4   5   6   7
 c   8   9  10  11
 d  12  13  14  15
复制代码

pandas中有较多的取值方法，但是最常用最好用的方法是以下两种，这里也将详细介绍这两种方法：

df.loc[]: 通过标签索引获取行数据

df.iloc[]: 通过位置获取行数据

（1）先来看一下 df.loc[]:

 print("取a行A列的数据：",df.loc["a","A"],"数据类型：",type(df.loc["a","A"]))
 print("取A B列的数据：\n",df.loc[:,["A","B"]],"数据类型：",type(df.loc[:,["A","B"]]))
复制代码

输出如下：

 取a行A列的数据： 0 数据类型： 
 取A B列的数据：
      A   B
 a   0   1
 b   4   5
 c   8   9
 d  12  13 数据类型： 
复制代码

loc[]可以通过自定义的索引进行查找也可以通过位置索引进行查找。值得注意的是，这里我们用到了 [ : ]，这里是前闭后闭的，即会选择冒号后面的数据。

（2）接着来看一下df.iloc[]:

 print("取前两行前两列：\n",df.iloc[:2,:2])
复制代码

输出：

 取前两行前两列：
    A  B
 a  0  1
 b  4  5
复制代码

（3）布尔索引

我们通过通常范围筛选数值，或通过判断进行筛选数值

 print("选取df中数值大于7小于13的行：\n",(df.loc[(df["B"]>7)&(df["B"]<13)]))
复制代码

输出：

 选取df中数值大于7小于13的行：
    A  B   C   D
 c  8  9  10  11
复制代码

这里选取多个条件时，需要用（）括起来。

4.4 改变数据类型

这里所谓的改变数据类型的结构就是对数据类型进行索引重排或增删。主要操作如下：

（1） .reindex(index/columns):重排数据，通过改变数据的索引来对数据进行重新排序。我们依旧拿上述的成绩单作为例子来进行讲解：

 import pandas as pd
 import numpy as np
 
 a = {
     "小明":pd.Series([100,99,91,90,85,69],index=["语文","数学","英语","物理","化学","生物"]),
     "小红":pd.Series([100,93,92,100,65,93],index=["语文","数学","英语","物理","化学","生物"]),
     "小蓝":pd.Series([100,94,93,70,55,92],index=["语文","数学","英语","物理","化学","生物"]),
     "小黄":pd.Series([100,95,88,80,85,89],index=["语文","数学","英语","物理","化学","生物"]),
     "小绿":pd.Series([100,92,78,89,75,79],index=["语文","数学","英语","物理","化学","生物"])}
 b = pd.DataFrame(a)
 print(b)
 
 c = b.reindex(columns=["小红","小明","小蓝","小黄","小绿"])
 print("对换小明和小红：\n",c)
 
 d = b.reindex(index=["数学","语文","英语","物理","化学","生物"])
 print(d)
复制代码

输入如下：

      小明   小红   小蓝   小黄   小绿
 语文  100   100   100   100   100
 数学   99    93    94    95    92
 英语   91    92    93    88    78
 物理   90   100    70    80    89
 化学   85    65    55    85    75
 生物   69    93    92    89    79
 对换小明和小红：
       小红   小明   小蓝   小黄   小绿
 语文  100    100    100   100   100
 数学   93    99     94    95    92
 英语   92    91     93    88    78
 物理  100    90     70    80    89
 化学   65    85     55    85    75
 生物   93    69     92    89    79
  对换数学和语文：
      小明   小红   小蓝   小黄   小绿
 数学   99     93     94   95    92
 语文  100    100    100   100   100
 英语   91     92     93    88    78
 物理   90    100     70    80    89
 化学   85     65     55    85    75
 生物   69     93     92    89    79
复制代码

可见，通过columns调换了列数据，通过index调换了行数据。下面补充一下.index()方法的其余参数：

index,columns:新的行列自定义索引
fill_value：重新索引中，用于填充缺失位置（NaN）的值
limit：最大填充量
method：填充方法 ffill向前填充，bfill向后填充
copy：默认True，生成新的对象

(2)另外，对于缺失值还有另一种处理方法:

pd.isnull(df): 是否为空值，空值标为True
pd.isnotnull(df)：是否为非空值，非空值标为True
df.dropna(axis=0/1,how="all/any",inplace=True/False)：删除nan所在的行/列

df.fiullan(n):将空值填充为n

 import pandas as pd
 import numpy as np
 
 df = pd.DataFrame(np.arange(16).reshape(4,4),columns=list("ABCD"))
 df.loc[3,"C"] = None
 df.loc[2,"C"] = None
 print(df)
 
 print(df.isnull())
 print(df.notnull())
 print(df.dropna(axis=0,inplace=False))
 print(df.fillna(df.mean()))
复制代码

输出为：

     A   B    C   D
 
 0   0   1  2.0   3
 1   4   5  6.0   7
 2   8   9  NaN  11
 3  12  13  NaN  15
 
        A      B      C      D
 0  False  False  False  False
 1  False  False  False  False
 2  False  False   True  False
 3  False  False   True  False
 
       A     B      C     D
 0  True  True   True  True
 1  True  True   True  True
 2  True  True  False  True
 3  True  True  False  True
 
    A  B    C  D
 0  0  1  2.0  3
 1  4  5  6.0  7
 
     A   B    C   D
 0   0   1  2.0   3
 1   4   5  6.0   7
 2   8   9  4.0  11
 3  12  13  4.0  15
复制代码

4.5 索引操作

对于索引，也有下常用的方法：

.append()连接另一个index对象，产生新的index对象
.diff(idx):计算差集，产生新的index对象
intersection(idx):计算交集
union（idx）：吉计算并集
delete(loc): 删除loc位置处的元素
insert(loc,c):在loc位置增加一个元素c

4.6 删除指定索引对象

.drop()可以删除series和DataFrame指定的行或列索引。

 import pandas as pd
 
 a = pd.Series([4,5,6,7],index=["a","b","c","d"])
 print(a)
 
 b = a.drop(["b","d"])
 print(b)
复制代码

输出如下：

 a    4
 b    5
 c    6
 d    7
 dtype: int64
 a    4
 c    6
 dtype: int64
复制代码

对于DataFrame对象，.drop()默认操作0轴上的对象，当我们要操作1轴上的对象时，需要添加参数指定是1轴：axis=1。

5. pandas库的数据类型运算

5.1 算数运算

pandas的数据类型在进行算数运算时，根据行列索引，补齐后运算，即只有当索引相同时才进行运算，不同索引之间不进行运算而是补齐NaN。默认结果为浮点型。不同维度的数据类型之间的运算采用广播运算，即对应索引之间进行运算。我们先来看一下相同维度的运算：

 import pandas as pd
 import numpy as np
 a = np.arange(10).reshape(2,5)
 b = np.arange(15).reshape(3,5)
 a = pd.DataFrame(a)
 b = pd.DataFrame(b)
 print(a)
 print(b)
 print(a*b)
复制代码

输出如下：

    0  1  2  3  4
 0  0  1  2  3  4
 1  5  6  7  8  9
     0   1   2   3   4
 0   0   1   2   3   4
 1   5   6   7   8   9
 2  10  11  12  13  14
       0     1     2     3     4
 0   0.0   1.0   4.0   9.0  16.0
 1  25.0  36.0  49.0  64.0  81.0
 2   NaN   NaN   NaN   NaN   NaN
复制代码

不同维度的运算如下：

 import pandas as pd
 import numpy as np
 
 a = pd.Series([1,2,3,4,5])
 b = np.arange(10).reshape(2,5)
 b = pd.DataFrame(b)
 
 print(a)
 print(b)
 
 print("________")
 c = b-a
 print(c)
复制代码

我们生成一个一维series对象a，一个二DataFrame对象b,然后用b-a，得到的结果如下：

 0    1
 1    2
 2    3
 3    4
 4    5
 dtype: int64
    0  1  2  3  4
 0  0  1  2  3  4
 1  5  6  7  8  9
 ________
    0  1  2  3  4
 0 -1 -1 -1 -1 -1
 1  4  4  4  4  4
复制代码

观察结果可以发现，b中的1轴都减去了a，即b中的每一行都对应减去了a中的元素。所以，对于不同维度的数据类型运算来说，默认的是高纬度的对series进行1轴运算。

5.2 比较运算

比较运算只能比较相同索引的元素，需要注意的是这里不进行补齐。二维和一维，一维和零维之间为广播运算，结果产生由布尔值组成的对象。

相同纬度：

     import pandas as pd
     import numpy as np
     
     a = np.arange(16).reshape(4,4)
     a = pd.DataFrame(a)
     
     b = np.arange(4,20).reshape(4,4)
     b = pd.DataFrame(b)
     
     print(a,"\n")
     print(b,"\n")
     
     print(a == b)
复制代码

输出如下：

         0   1   2   3
     0   0   1   2   3
     1   4   5   6   7
     2   8   9  10  11
     3  12  13  14  15 
     
         0   1   2   3
     0   4   5   6   7
     1   8   9  10  11
     2  12  13  14  15
     3  16  17  18  19 
     
            0      1      2      3
     0  False  False  False  False
     1  False  False  False  False
     2  False  False  False  False
     3  False  False  False  False
复制代码

相同维度进行比较时，要求两个数据的尺寸必须相同，否则会报错。那么不同维度的相比较会是怎样的结果呢？让我们来看一下：

     import pandas as pd
     import numpy as np
     
     
     a = pd.Series([1,2,3,4])
     
     b = np.arange(1,17).reshape(4,4)
     b = pd.DataFrame(b)
     
     print(a,"\n")
     print(b,"\n")
     
     print(a==b)
复制代码

输出结果为：

     0    1
     1    2
     2    3
     3    4
     dtype: int64 
     
         0   1   2   3
     0   1   2   3   4
     1   5   6   7   8
     2   9  10  11  12
     3  13  14  15  16 
     
            0      1      2      3
     0   True   True   True   True
     1  False  False  False  False
     2  False  False  False  False
     3  False  False  False  False
复制代码

可以发现，不同维度相比较，进行广播运算，默认是1轴。此外，除了直接利用运算符进行运算外，我们还可以利用函数进行运算。

.add(d,**argws):加法
.sub(d,**argws)：减法
.mul(d,**argws)：乘法
.div(d,**argws)：除法

通过这些函数我们不仅可以进行基本运算，而且带有可选参数的它，为我们提供了更加强大的功能，如下：

     import pandas as pd
     import numpy as np
     
     a = np.arange(16).reshape(4,4)
     a = pd.DataFrame(a)
     
     b = np.arange(20).reshape(5,4)
     b = pd.DataFrame(b)
     
     print(a)
     print(b)
     
     c = b.add(a,fill_value=100)
     print(c)
复制代码

输出如下：

         0   1   2   3
     0   0   1   2   3
     1   4   5   6   7
     2   8   9  10  11
     3  12  13  14  15
     
         0   1   2   3
     0   0   1   2   3
     1   4   5   6   7
     2   8   9  10  11
     3  12  13  14  15
     4  16  17  18  19
            0      1      2      3
     0    0.0    2.0    4.0    6.0
     1    8.0   10.0   12.0   14.0
     2   16.0   18.0   20.0   22.0
     3   24.0   26.0   28.0   30.0
     4  116.0  117.0  118.0  119.0
复制代码

可以发现，ab是相同维度，但是尺寸不同，按照上文中直接使用加法运算程序会报错。但是在这里，我们传入了一个参数，在进行先进行补齐操作，然后进行运算。

6. pandas操作CSV

6.1 pandas读取CSV文件

我们先创建一个15行4列的a.csv文件，用于下列案例之用：

 import pandas as pd
 import numpy as np
 
 # 创建一个csv文件
 a = np.arange(60).reshape(15,4)
 a = pd.DataFrame(a,columns=("a","b","c","d"))
 print(a,"\n")
 a.to_csv("./a.csv",index=False)
复制代码

文件内容如下：

pd.read_csv()的常用参数如下：

filepath_or_buffer：-- str 文件路径，可以是本地路径，也可以是url路径
sep:指定分隔符，默认","
header: --int 指定列名:header=0为默认值，表示数据第一行为列名；header=None表示数据没有列名(为0，1，2，3，4……)，原列名变为第0行数据。

如案例1：

 """案例1：filepath_or_buffer、sep、header的使用 """
 def demo01():
     print("=== header=0时（默认）表示数据第一行为列名===")
     path = "data.csv"
     df = pd.read_csv(path, sep=",", header=0)
     print(df.head(), "\n")  # 默认输出前5行
 
     print("===header=none时 列名变为第0行数据===")
     # header = None时
     df = pd.read_csv(path, sep=",", header=None)
     print(df.head(), "\n")
复制代码

输出如下：

 === header=0时（默认）===
     a   b   c   d
 0   0   1   2   3
 1   4   5   6   7
 2   8   9  10  11
 3  12  13  14  15
 4  16  17  18  19 
 
 ===header=none时 ===
     0   1   2   3
 0   a   b   c   d
 1   0   1   2   3
 2   4   5   6   7
 3   8   9  10  11
 4  12  13  14  15 
复制代码

names: --list 指定列名，当文件含有列名时会覆盖

如案例2：

 """通过names参数重新指定列名"""
 def demo02():
     df = pd.read_csv(path, names=["A", "B", "C", "D"])
     print("重新指定列名:")
     print(df.head(), "\n")
复制代码

输出如下：

 重新指定列名:
     A   B   C   D
 0   a   b   c   d
 1   0   1   2   3
 2   4   5   6   7
 3   8   9  10  11
 4  12  13  14  15 
复制代码

encoding：指定编码格式，默认为utf-8。常用户解决乱码问题和平台编码不同的问题。
index_col:--str/list 指定索引,将表中的某一列数据指定为索引。可以是单列也可以是多列。

如案例3：

 """通过index_col参数指定索引"""
 def demo03():
     print("指定b列为索引:")
     df = pd.read_csv(path, index_col="b")
     print(df.head(), "\n")
     df.to_csv("text.csv")
 
     print("指定ab两列为索引:")
     df = pd.read_csv(path, index_col=["a", "b"])
     print(df.head())
复制代码

输出如下：

 指定b列为索引:
      a   c   d
 b             
 1    0   2   3
 5    4   6   7
 9    8  10  11
 13  12  14  15
 17  16  18  19 
 
 指定ab两列为索引:
         c   d
 a  b         
 0  1    2   3
 4  5    6   7
 8  9   10  11
 12 13  14  15
 16 17  18  19
复制代码

usecols: --str/list 指定读取的列,默认读取全部列
nrows：--int 仅读取前多少行（不包括此行）
skiprows：--int 跳过指定行数，开始读取（包括此行），注意必要时要指定列名，否则根据header=0当前行会为列名

如案例4：

 """usecols、nrows、skiprows的使用"""
 def demo04():
     print("只读取bc列:")
     df = pd.read_csv(path, usecols=("b", "c"))
     print(df.head(), "\n")
 
     print("读取前6行:")
     df = pd.read_csv(path, nrows=6)
     print(df, "\n")
 
     print("从第6行开始读取:")
     df = pd.read_csv(path, skiprows=6, names=list("abcd"))
     print(df.head(), "\n")
复制代码

输出如下：

 只读取bc列:
     b   c
 0   1   2
 1   5   6
 2   9  10
 3  13  14
 4  17  18 
 
 读取前6行:
     a   b   c   d
 0   0   1   2   3
 1   4   5   6   7
 2   8   9  10  11
 3  12  13  14  15
 4  16  17  18  19
 5  20  21  22  23 
 
 从第6行开始读取:
     a   b   c   d
 0  20  21  22  23
 1  24  25  26  27
 2  28  29  30  31
 3  32  33  34  35
 4  36  37  38  39 
复制代码

6.2 pandas保存CSV文件

通过pandas保存csv实质上是调用DataFrame对象的to_csv方法。接下来我们就主要介绍一下to_csv方法的常用参数。

path_or_buf: 保存路径
sep：分隔符，默认为,
na_rep：替换空格。将空格替换为指定的值
float_format：格式化数值如保留两位小数%.2f
header：是否保留列名，默认保留。值为0则不保留。
index：是否保留索引（布尔值），默认保留。

你可能感兴趣的:(python,pandas,数据分析)

python——for_in循环何处望天明CS python
#Nico#时间：2021/4/2021:09#for-in循环'''in表达式从（字符串、序列等）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象''''''for-in的语法结构for自定义变量in可迭代对象:循环体'''#字符串中取值foritemin'python':print(item)#range产生一个整数序列，也是一个可迭代对象foriinrange(10):print
一步一步学Python3(小学生也适用) 第十七篇:循环语句for in循环
一、Pythonforin循环Pythonforin循环，是用来遍历任何数据序列，如一个列表，一个字符串，一个字典，一个元组等。forin循环的一般语法如下：foritemin序列:语句块else:语句块forin字符串：把每个字符循环出来'''字符串：把每个字符循环出来'''str1='老树Python''''把字符串str1元素进行循环，每循环出一个元素，就把该元素赋值给item'''fori
MySQL(141)如何处理重复数据问题？辞暮尔尔-烟火年年 MySQL mysql 数据库
处理重复数据问题是数据管理中的一个常见挑战。重复数据会影响数据库的性能、占用资源，并且可能导致数据分析结果的偏差。以下是处理重复数据问题的详细步骤以及结合代码的示例。一、识别重复数据首先，需要识别数据库中的重复数据。可以使用SQL查询来查找重复的数据。示例：假设我们有一个名为employees的表，其中包含以下字段：id、name和email。CREATETABLEemployees(idINTP
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
python 循环结构(for-in) 编程小僧 python基础
循环结构(for-in)说明：也是循环结构的一种，经常用于遍历字符串、列表，元组，字典等格式：forxiny:循环体执行流程：x依次表示y中的一个元素，遍历完所有元素循环结束示例1：遍历字符串s='Iloveyoumorethanicansay'foriins:print(i)示例2：遍历列表l=['鹅鹅鹅','曲项向天歌','锄禾日当午','春种一粒粟']foriinl:print(i)#可以
Python学习笔记 cherishSpring python python 学习笔记
目录一、名词解释二、数据类型（变量名无类型，变量值有类型）三、数据类型转换(万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片5、set集合6、dict字典7、数据容器相互转换8、通用操作十三、文件编码一、名词解释1、字面量被写在代码中的固定的值
Python for循环 dengdieli5313 python
Pythonfor循环可以遍历任何序列的项目，如一个列表或者一个字符串。for循环的语法结构如下：foriterating_varinsequence:statements(s)最简单的形式如下，循环10次。1foriinrange(10):2print("loop:",i)输出为1loop:02loop:13loop:24loop:35loop:46loop:57loop:68loop:79lo
python的for-in循环小白L. 入门 python numpy 开发语言
‘’‘for-in循环in表达从（字符串序列）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象for-in的语法结构for自定义的变量in可迭代对象:循环体循环体内不需要访问自定义变量，可以将自定义变量替代为下划线’‘’#第一次取出来的是P，将P赋值item，将item的值输出foritemin'python':print(item)#range（）产生一个整数序列，–》也是一个可迭代
Python-for-in循环難釋懷 python windows 服务器
一、前言在Python编程中，循环结构（LoopStructure）是程序控制流的重要组成部分。其中，for...in循环是Python中最常用、最简洁的迭代工具之一。与传统的C风格语言中的for不同，Python的for...in循环专门用于遍历可迭代对象（Iterable），如列表、元组、字符串、字典、集合，甚至是生成器等。本文将带你深入了解：for...in循环的基本语法；如何高效地遍历各种
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
Python设计模式：适配模式 niuguangshuo python基础 python 设计模式开发语言
1.适配模式（AdapterPattern）详解适配模式（AdapterPattern）是一种结构型设计模式，它允许将一个类的接口转换成客户端所期望的另一种接口。适配模式使得原本由于接口不兼容而无法一起工作的类可以协同工作。换句话说，适配模式充当了一个桥梁，允许不同接口的类之间进行交互。在软件开发中，常常会遇到需要使用现有类的情况，但这些类的接口与我们需要的接口不匹配。适配模式提供了一种解决方案，
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
使用Python进行文件属性修改 python自动化工具 python办公自动化 python 服务器 java
哈喽，大家好，我是木头左！在计算机中，文件属性是指与文件相关的元数据，如创建时间、修改时间、访问时间等。这些属性对于管理和组织文件非常重要。Python提供了一些内置的函数和方法，可以方便地修改文件的属性。本文将介绍如何使用Python进行文件属性的修改。1.获取文件属性需要使用os模块中的stat()函数来获取文件的属性。该函数返回一个包含文件属性的命名元组。以下是一个简单的示例：importo
Python 代理模式：控制对象访问的智能中介
在Python编程中，代理模式（ProxyPattern）是一种非常有用的设计模式，它在许多场景下能够为我们提供更加灵活和可控的对象访问方式。代理模式就像是一个中间人，它站在客户端和真实对象之间，代替真实对象处理请求，并且可以在这个过程中添加额外的逻辑，如权限验证、懒加载等。本文将深入探讨Python中的代理模式，详细阐述其概念、关键要点、实现方式、应用场景以及与其他相关模式的比较。一、代理模式的
深度解析股票量化标准，从数据筛选到模型构建全面解读股票程序化交易接口量化交易股票API接口 Python股票量化交易股票量化标准数据筛选模型构建量化分析股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>股票量化标准的定义股票量化标准是一套运用数学和统计学方法，对股票投资进行系统性分析与决策的准则。它将各种影响股票价格的因素，如财务数据、市场交易数据等进行量化处理。通过这些量化后的指标，投资者能更精准地评估股票的价值与潜力，减少主观判
如何用优惠卷赚钱？优惠券群怎么才能做起来？日常购物技巧呀
在数字化时代，社群经济日益繁荣，尤其是以优惠券为主题的社群，不仅能够帮助群成员省钱购物，还能为群主带来可观的收入。本文将详细解析如何建立和管理一个赚钱的优惠券群，包括群的建设、运营策略，以及如何通过专业数据分析来优化群的效果。目标读者包括宝妈、大学生、上班族和无业人员，这些群体通常对节省开支和额外收入有较高的需求。大家好，我是高省返利APP官方客服导师：童年，今日给大家推荐一款自用佣金高，还能做团
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
Python桌面版数独（二版）-增加4X4、6X6 香蕉可乐荷包蛋 #数独 python java 前端
增加选择4x4、6x6模式，以下是三种模式的不同解析：4x4模式：数独大小：4x4每个宫格大小：2x2数字范围：1-46x6模式：数独大小：6x6每个宫格大小：2x3数字范围：1-69x9模式：数独大小：9x9每个宫格大小：3x3数字范围：1-9主要优化点：4.添加了模式选择下拉框，可以选择4x4、6x6、9x9模式5.根据选择的模式动态创建不同大小的棋盘6.生成不同大小的数独题目7.验证输入的合
变型桥——桥接模式详解（Python实现）
引言在上一篇文章中，我们详细介绍了适配器模式（AdapterPattern），并展示了如何通过适配器将不兼容的接口转换为兼容的接口，使得原本无法协同工作的类能够在一起工作。这次，我们将探讨另一种结构性设计模式——桥接模式（BridgePattern），或者我们可以亲切地称它为“变型桥”。桥接模式将抽象部分与它的实现部分分离，使它们都可以独立地变化，通过引入一个桥接接口，桥接模式可以让抽象和实现独立
Python适配器模式详解：让不兼容的接口协同工作 detayun Python python 适配器模式开发语言
一、模式定义与核心思想适配器模式（AdapterPattern）是一种结构型设计模式，它通过创建一个中间层（适配器），将不兼容的接口转换为客户端期望的接口。就像现实中的电源适配器，让不同国家的插头都能在同一个插座上工作。二、模式结构解析#目标接口：客户端期望的接口classTarget:defrequest(self):"""标准请求方法"""raiseNotImplementedError#被适
python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系
首先使用的cuDNN（8.1）、CUDA（11.2）、tensorflow-gpu（2.6.0）、python（3.9）之间对应版本Window环境下安装pytorch下载地址tensorflow官网CUDA下载官网cuDNN下载官网注意：cuDNN需要注册absl-py0.15.0astunparse1.6.3cachetools5.3.2certifi2023.7.22charset-norm
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
gitlab修改DNS解析配置文件中东大鹅 gitlab linux git
在Linux（CentOS7.9）云服务器上解压gitlab时提示需要Python的环境[root@rainyun-v1vct1josrc]#rpm-ivhgitlab-ce-10.8.4-ce.0.el7.x86_64.rpmwarning:gitlab-ce-10.8.4-ce.0.el7.x86_64.rpm:HeaderV4RSA/SHA1Signature,keyIDf27eab47:N
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1024 一元三次方程求解热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：
Python FastAPI 与传统 Web 框架的性能对比 Python编程之道 python fastapi 前端 ai
PythonFastAPI与传统Web框架的性能对比关键词：FastAPI、性能对比、Web框架、异步编程、Python、Django、Flask摘要：本文深入探讨了FastAPI与传统PythonWeb框架（如Django和Flask）在性能方面的差异。我们将从架构设计、请求处理模型、并发能力等多个维度进行对比分析，并通过基准测试数据展示实际性能差异。文章还将提供代码示例和性能优化建议，帮助开发
Python Django 数据库索引优化 Python编程之道 python django 数据库 ai
PythonDjango数据库索引优化关键词：DjangoORM、数据库索引、查询优化、性能调优、PostgreSQL、MySQL、执行计划摘要：本文深入探讨Django框架中的数据库索引优化策略。我们将从数据库索引的基本原理出发，详细分析DjangoORM如何生成SQL查询，以及如何通过合理的索引设计提升查询性能。文章包含索引类型选择、复合索引优化、Django模型字段索引配置、查询集优化技巧等
Python Scrapy爬取办公用品网站数据的策略 Python编程之道 python scrapy 开发语言 ai
1.引入与连接想象一下，你是一家办公用品公司的市场调研人员，需要了解竞争对手的产品价格、种类等信息。如果手动去各个办公用品网站收集这些数据，那将是一项极其繁琐且耗时的工作。而Python的Scrapy框架就像是一个不知疲倦的超级助手，能帮你快速、高效地从众多网站抓取所需数据。你可能已经对Python有了一定的了解，知道它是一门功能强大且应用广泛的编程语言。Scrapy则是Python中专门用于网络
使用Python Scrapy打造个性化爬虫
使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反
新手向:基于 Python 的简易视频剪辑工具
在数字媒体时代，视频创作已成为大众表达的重要形式，从个人vlog制作到企业宣传视频，视频内容的需求呈现爆发式增长。传统专业软件如AdobePremierePro虽功能强大，提供完整的非线性编辑系统，但存在学习曲线陡峭（新手通常需要数周系统学习）、资源占用高（最低配置要求8GB内存）、授权费用昂贵（订阅价约20美元/月）等痛点。相比之下，Python凭借其丰富的多媒体库生态系统（如OpenCV、Mo
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR