【pandas数据分析】pandas功能和操作简单示例

文章目录

导入包
创建对象
- Series
- DataFrame
查看数据
选择
- 获取数据
- 按标签选择
- 按位置选择
- 布尔值索引
- 设置值
缺失值
一些操作
- 数据统计
- 应用（Apply）
- 直方图化
- 字符串方法
合并Merge
- 连接Concat
- 联结Join
分组Grouping
重塑Reshaping
- 堆叠Stack
- 数据透视表Pivot tables
时间序列
分类数据
绘图
读取/保存数据
- CSV
- HDF5
- Excel
后续

前面已经对pandas进行了介绍，知道了pandas是什么，有何优点、能做些什么事情、可以应用在哪些领域：pandas概述

接下来本文将会使用pandas展示一些例子，走马观花地看看pandas的一些功能和操作。这些示例基本上涵盖了pandas大部分的内容，通过这些示例，可以直观地感受下pandas的强大。

导入包

首先，根据Python社区对一些常用模块的命名约定，我们按如下所示导入numpy和pandas：

import numpy as np
import pandas as pd

创建对象

Series

Series可以看作是具有索引的一维向量。

通过传递一个列表创建Series，pandas会创建一个默认的整数索引：

In [3]: s = pd.Series([1, 3, 5, np.nan, 6, 8])

In [4]: s
Out[4]:
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

DataFrame

DataFrame表示的是二维矩阵的数据表，类似于关系型数据库（如MySQL）中的表，每一列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被视为一个共享相同索引的Series的字典。

通过numpy数组创建DataFrame，并指定索引和列名：

In [5]: df = pd.DataFrame(np.random.randn(6, 4), index=list("abcdef"), columns=list("ABCD"))

In [6]: df
Out[6]:
          A         B         C         D
a  0.137850 -1.056618 -0.651227  0.517188
b -0.860666  1.304139  0.488719 -0.230823
c  1.333085 -2.825132 -0.592092  0.999223
d  0.068219 -0.625945  0.316369  0.003051
e -1.884551  0.313736  0.090904 -0.587071
f  0.230159 -0.305100  0.243703  0.006146

通过传递一个字典创建DataFrame：

In [7]: df2 = pd.DataFrame(
   ...:     {
   ...:         "A": 1.0,
   ...:         "B": pd.Timestamp("20220914"),
   ...:         "C": pd.Series(1, index=list(range(4)), dtype="float32"),
   ...:         "D": np.array([3] * 4, dtype="int32"),
   ...:         "E": pd.Categorical(["test", "train", "test", "train"]),
   ...:         "F": "foo",
   ...:     }
   ...: )

In [8]: df2
Out[8]:
     A          B    C  D      E    F
0  1.0 2022-09-14  1.0  3   test  foo
1  1.0 2022-09-14  1.0  3  train  foo
2  1.0 2022-09-14  1.0  3   test  foo
3  1.0 2022-09-14  1.0  3  train  foo

创建的DataFrame的列有不同的数据类型（异构类型列，DataFrame中可以有不同数据类型的列）：

In [9]: df2.dtypes
Out[9]:
A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

查看数据

查看DataFrame头部（顶部）和尾部（底部）的行：

# 默认显示5行
In [10]: df.head()
Out[10]:
          A         B         C         D
a  0.137850 -1.056618 -0.651227  0.517188
b -0.860666  1.304139  0.488719 -0.230823
c  1.333085 -2.825132 -0.592092  0.999223
d  0.068219 -0.625945  0.316369  0.003051
e -1.884551  0.313736  0.090904 -0.587071

# 也可以传递一个整数参数指定显示的行数
In [11]: df.tail(3)
Out[11]:
          A         B         C         D
d  0.068219 -0.625945  0.316369  0.003051
e -1.884551  0.313736  0.090904 -0.587071
f  0.230159 -0.305100  0.243703  0.006146

查看索引和列名：

In [12]: df.index
Out[12]: Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [13]: df.columns
Out[13]: Index(['A', 'B', 'C', 'D'], dtype='object')

查看DataFrame的元数据信息：

In [14]: df2.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       4 non-null      float64
 1   B       4 non-null      datetime64[ns]
 2   C       4 non-null      float32
 3   D       4 non-null      int32
 4   E       4 non-null      category
 5   F       4 non-null      object
dtypes: category(1), datetime64[ns](1), float32(1), float64(1), int32(1), object(1)
memory usage: 288.0+ bytes

显示数据的一些统计信息：

In [15]: df.describe()
Out[15]:
              A         B         C         D
count  6.000000  6.000000  6.000000  6.000000
mean  -0.162651 -0.532487 -0.017271  0.117953
std    1.094284  1.391450  0.485689  0.562216
min   -1.884551 -2.825132 -0.651227 -0.587071
25%   -0.628445 -0.948950 -0.421343 -0.172354
50%    0.103035 -0.465522  0.167303  0.004599
75%    0.207082  0.159027  0.298202  0.389428
max    1.333085  1.304139  0.488719  0.999223

转置：

In [16]: df.T
Out[16]:
          a         b         c         d         e         f
A  0.137850 -0.860666  1.333085  0.068219 -1.884551  0.230159
B -1.056618  1.304139 -2.825132 -0.625945  0.313736 -0.305100
C -0.651227  0.488719 -0.592092  0.316369  0.090904  0.243703
D  0.517188 -0.230823  0.999223  0.003051 -0.587071  0.006146

根据索引排序：

# 指定了排序的方向和顺序（轴1，降序）
In [17]: df.sort_index(axis=1, ascending=False)
Out[17]:
          D         C         B         A
a  0.517188 -0.651227 -1.056618  0.137850
b -0.230823  0.488719  1.304139 -0.860666
c  0.999223 -0.592092 -2.825132  1.333085
d  0.003051  0.316369 -0.625945  0.068219
e -0.587071  0.090904  0.313736 -1.884551
f  0.006146  0.243703 -0.305100  0.230159

根据一列或多列的值排序：

In [18]: df.sort_values(by='B')
Out[18]:
          A         B         C         D
c  1.333085 -2.825132 -0.592092  0.999223
a  0.137850 -1.056618 -0.651227  0.517188
d  0.068219 -0.625945  0.316369  0.003051
f  0.230159 -0.305100  0.243703  0.006146
e -1.884551  0.313736  0.090904 -0.587071
b -0.860666  1.304139  0.488719 -0.230823

选择

虽然用于选择和设置值的标准Python/NumPy表达式（即用[]索引）很直观且便于交互工作，但对于生产代码，我们推荐使用优化的pandas数据访问方法.at、.iat、.loc和.iloc。

获取数据

使用列名选择单个列，返回一个Series：

In [19]: df['A'] # 也可以用 df.A
Out[19]:
a    0.137850
b   -0.860666
c    1.333085
d    0.068219
e   -1.884551
f    0.230159
Name: A, dtype: float64

使用[]对行做切片：

In [20]: df[0:3]
Out[20]:
          A         B         C         D
a  0.137850 -1.056618 -0.651227  0.517188
b -0.860666  1.304139  0.488719 -0.230823
c  1.333085 -2.825132 -0.592092  0.999223

按标签选择

按标签选择某一行：

In [21]: df.loc['a']
Out[21]:
A    0.137850
B   -1.056618
C   -0.651227
D    0.517188
Name: a, dtype: float64

同时索引行和列：

# 取A，B两列
In [22]: df.loc[:, ["A", "B"]]
Out[22]:
          A         B
a  0.137850 -1.056618
b -0.860666  1.304139
c  1.333085 -2.825132
d  0.068219 -0.625945
e -1.884551  0.313736
f  0.230159 -0.305100

In [23]: df.loc['a':'c', ["A", "B"]]
Out[23]:
          A         B
a  0.137850 -1.056618
b -0.860666  1.304139
c  1.333085 -2.825132

获取标量：

In [24]: %timeit df.loc['a','C']
5.55 µs ± 45 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)

# 结果跟上面的相同，但是更快
In [25]: %timeit df.at['a','C']
2.92 µs ± 28.6 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)

按位置选择

通过传递的整数的位置进行选择：

In [26]: df.iloc[3]
Out[26]:
A    0.068219
B   -0.625945
C    0.316369
D    0.003051
Name: d, dtype: float64

通过类似于NumPy/Python的整数切片选择：

In [27]: df.iloc[3:5, 0:2]
Out[27]:
          A         B
d  0.068219 -0.625945
e -1.884551  0.313736

通过整数位置列表选择：

In [28]: df.iloc[[1, 2, 4], [0, 2]]
Out[28]:
          A         C
b -0.860666  0.488719
c  1.333085 -0.592092
e -1.884551  0.090904

获取标量：

In [29]: %timeit df.iloc[1, 1]
11.7 µs ± 99.7 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)

# 结果跟上面的相同，但是更快
In [30]: %timeit df.iat[1, 1]
8.64 µs ± 72.7 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)

布尔值索引

使用某个列的值选择数据：

# 选择列A值大于0对应的行
In [31]: df[df["A"] > 0]
Out[31]:
          A         B         C         D
a  0.137850 -1.056618 -0.651227  0.517188
c  1.333085 -2.825132 -0.592092  0.999223
d  0.068219 -0.625945  0.316369  0.003051
f  0.230159 -0.305100  0.243703  0.006146

根据DataFrame选择值：

# 只选择对应位置为True的值，对应位置为False的设为NaN
In [32]: df[df > 0]
Out[32]:
          A         B         C         D
a  0.137850       NaN       NaN  0.517188
b       NaN  1.304139  0.488719       NaN
c  1.333085       NaN       NaN  0.999223
d  0.068219       NaN  0.316369  0.003051
e       NaN  0.313736  0.090904       NaN
f  0.230159       NaN  0.243703  0.006146

使用isin()方法过滤：

In [33]: df3 = df.copy()

In [34]: df3["E"] = ["one", "one", "two", "three", "four", "three"]

In [35]: df3
Out[35]:
          A         B         C         D      E
a  0.137850 -1.056618 -0.651227  0.517188    one
b -0.860666  1.304139  0.488719 -0.230823    one
c  1.333085 -2.825132 -0.592092  0.999223    two
d  0.068219 -0.625945  0.316369  0.003051  three
e -1.884551  0.313736  0.090904 -0.587071   four
f  0.230159 -0.305100  0.243703  0.006146  three

# 过滤出列E为某些值的行
In [36]: df3[df3["E"].isin(["two", "four"])]
Out[36]:
          A         B         C         D     E
c  1.333085 -2.825132 -0.592092  0.999223   two
e -1.884551  0.313736  0.090904 -0.587071  four

设置值

按标签设置：

# 将行索引为a、列索引为A对应的值设置为0
In [37]: df.at['a', 'A'] = 0

In [38]: df
Out[38]:
          A         B         C         D
a  0.000000 -1.056618 -0.651227  0.517188
b -0.860666  1.304139  0.488719 -0.230823
c  1.333085 -2.825132 -0.592092  0.999223
d  0.068219 -0.625945  0.316369  0.003051
e -1.884551  0.313736  0.090904 -0.587071
f  0.230159 -0.305100  0.243703  0.006146

按位置设置：

# 将第0行、第1列的值设置为1
In [39]: df.iat[0, 1] = 1

In [40]: df
Out[40]:
          A         B         C         D
a  0.000000  1.000000 -0.651227  0.517188
b -0.860666  1.304139  0.488719 -0.230823
c  1.333085 -2.825132 -0.592092  0.999223
d  0.068219 -0.625945  0.316369  0.003051
e -1.884551  0.313736  0.090904 -0.587071
f  0.230159 -0.305100  0.243703  0.006146

通过分配一个NumPy数组来设置：

# 设置列D的值
In [41]: df.loc[:, "D"] = np.array([5] * len(df))

In [42]: df
Out[42]:
          A         B         C  D
a  0.000000  1.000000 -0.651227  5
b -0.860666  1.304139  0.488719  5
c  1.333085 -2.825132 -0.592092  5
d  0.068219 -0.625945  0.316369  5
e -1.884551  0.313736  0.090904  5
f  0.230159 -0.305100  0.243703  5

根据布尔条件设置：

In [43]: df3 = df.copy()

# 对大于0的位置设置值
In [44]: df3[df3 > 0] = -df3

In [45]: df3
Out[45]:
          A         B         C  D
a  0.000000 -1.000000 -0.651227 -5
b -0.860666 -1.304139 -0.488719 -5
c -1.333085 -2.825132 -0.592092 -5
d -0.068219 -0.625945 -0.316369 -5
e -1.884551 -0.313736 -0.090904 -5
f -0.230159 -0.305100 -0.243703 -5

缺失值

pandas主要使用值np.nan来表示缺失数据。默认情况下，它不包含在计算中。

In [46]: df3.loc['a':'b', 'E'] = 1

In [47]: df3
Out[48]:
          A         B         C  D    E
a  0.000000 -1.000000 -0.651227 -5  1.0
b -0.860666 -1.304139 -0.488719 -5  1.0
c -1.333085 -2.825132 -0.592092 -5  NaN
d -0.068219 -0.625945 -0.316369 -5  NaN
e -1.884551 -0.313736 -0.090904 -5  NaN
f -0.230159 -0.305100 -0.243703 -5  NaN

丢弃有缺失值的行：

In [49]: df3.dropna(how='any')
Out[49]:
          A         B         C  D    E
a  0.000000 -1.000000 -0.651227 -5  1.0
b -0.860666 -1.304139 -0.488719 -5  1.0

填充缺失值：

In [50]: df3.fillna(value=5)
Out[50]:
          A         B         C  D    E
a  0.000000 -1.000000 -0.651227 -5  1.0
b -0.860666 -1.304139 -0.488719 -5  1.0
c -1.333085 -2.825132 -0.592092 -5  5.0
d -0.068219 -0.625945 -0.316369 -5  5.0
e -1.884551 -0.313736 -0.090904 -5  5.0
f -0.230159 -0.305100 -0.243703 -5  5.0

判断是否为nan：

In [51]: df3.isna()
Out[51]:
       A      B      C      D      E
a  False  False  False  False  False
b  False  False  False  False  False
c  False  False  False  False   True
d  False  False  False  False   True
e  False  False  False  False   True
f  False  False  False  False   True

In [52]: pd.isna(df3)
Out[52]:
       A      B      C      D      E
a  False  False  False  False  False
b  False  False  False  False  False
c  False  False  False  False   True
d  False  False  False  False   True
e  False  False  False  False   True
f  False  False  False  False   True

一些操作

数据统计

通常，缺失数据不会被纳入数据的统计计算中。

求均值：

# 每一列的均值
In [53]: df.mean()
Out[53]:
A   -0.185626
B   -0.189717
C   -0.017271
D    5.000000

求另一个轴上的均值：

# 每一行的均值
In [54]: df.mean(axis=1)
Out[54]:
a    1.337193
b    1.483048
c    0.728965
d    1.189661
e    0.880022
f    1.292191
dtype: float64

同样地，也可以对df求和（sum）、计算标准差（std）、计数（count）、求最小值（min）、求最大值（max）等。

应用（Apply）

对数据应用函数：

In [55]: df.apply(np.cumsum)
Out[55]:
          A         B         C   D
a  0.000000  1.000000 -0.651227   5
b -0.860666  2.304139 -0.162508  10
c  0.472418 -0.520993 -0.754600  15
d  0.540638 -1.146938 -0.438231  20
e -1.343913 -0.833202 -0.347327  25
f -1.113754 -1.138302 -0.103625  30

In [56]: df.apply(lambda x: x.max() - x.min())
Out[56]:
A    3.217636
B    4.129271
C    1.139947
D    0.000000
dtype: float64

直方图化

In [57]: s = pd.Series(np.random.randint(0, 7, size=10))

In [58]: s
Out[58]:
0    5
1    0
2    1
3    6
4    2
5    2
6    5
7    2
8    2
9    1
dtype: int32

# 统计每个值出现的次数
In [59]: s.value_counts()
Out[59]:
2    4
5    2
1    2
0    1
6    1
dtype: int64

字符串方法

Series在str属性中配备了一组字符串处理方法，可以方便地对每个元素进行操作：

In [60]: s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])

In [61]: s.str.lower()
Out[61]:
0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

合并Merge

连接Concat

用concat()连接pandas对象：

In [62]: df = pd.DataFrame(np.random.randn(10, 4))

In [63]: df
Out[63]:
          0         1         2         3
0 -0.917562 -0.678779 -0.223747 -1.137378
1 -0.284037  0.154714 -0.539917  1.080102
2 -1.024852  0.034169 -2.593824 -2.404386
3 -1.420573 -1.408281  1.015019  0.454068
4  0.729644 -0.807320  2.046540 -0.084065
5  0.909687  0.093020  0.481070  0.506825
6  0.328835 -2.117948  0.912028  1.358023
7 -1.274164  0.297414 -0.154745 -1.250898
8 -1.317405  0.223203  0.541393  0.433390
9  0.229006  0.044450  1.575203 -1.056634

In [64]: pieces = [df[:3], df[3:7], df[7:]]

In [65]: pd.concat(pieces)
Out[65]:
          0         1         2         3
0 -0.917562 -0.678779 -0.223747 -1.137378
1 -0.284037  0.154714 -0.539917  1.080102
2 -1.024852  0.034169 -2.593824 -2.404386
3 -1.420573 -1.408281  1.015019  0.454068
4  0.729644 -0.807320  2.046540 -0.084065
5  0.909687  0.093020  0.481070  0.506825
6  0.328835 -2.117948  0.912028  1.358023
7 -1.274164  0.297414 -0.154745 -1.250898
8 -1.317405  0.223203  0.541393  0.433390
9  0.229006  0.044450  1.575203 -1.056634

添加列到DataFrame中相对较快。然后，添加行需要复制操作，开销会比较大。所以建议将预先构建的记录列表传递给DataFrame构造函数，而不是通过迭代地将记录追加到DataFrame来构建一个DataFrame。

联结Join

SQL风格的合并：

In [64]: left = pd.DataFrame({"key": ["foo", "foo"], "lval": [1, 2]})

In [65]: right = pd.DataFrame({"key": ["foo", "foo"], "rval": [4, 5]})

In [66]: left
Out[66]:
   key  lval
0  foo     1
1  foo     2

In [67]: right
Out[67]:
   key  rval
0  foo     4
1  foo     5

In [68]: pd.merge(left, right, on="key")
Out[68]:
   key  lval  rval
0  foo     1     4
1  foo     1     5
2  foo     2     4
3  foo     2     5

In [69]: left = pd.DataFrame({"key": ["foo", "bar"], "lval": [1, 2]})

In [70]: right = pd.DataFrame({"key": ["foo", "bar"], "rval": [4, 5]})

In [71]: left
Out[71]:
   key  lval
0  foo     1
1  bar     2

In [72]: right
Out[72]:
   key  rval
0  foo     4
1  bar     5

In [73]: pd.merge(left, right, on="key")
Out[73]:
   key  lval  rval
0  foo     1     4
1  bar     2     5

分组Grouping

分组（group by）是一个会涉及到以下一个或多个步骤的过程：

根据某些标准将数据拆分为组
将函数独立应用于每个组
将结果合并到一个数据结构中

In [74]: df = pd.DataFrame(
    ...:     {
    ...:         "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
    ...:         "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
    ...:         "C": np.random.randn(8),
    ...:         "D": np.random.randn(8),
    ...:     }
    ...: )

In [75]: df
Out[75]:
     A      B         C         D
0  foo    one  0.555129 -0.026934
1  bar    one  1.023521  1.126648
2  foo    two  1.459798  0.064685
3  bar  three -1.037128 -0.503873
4  foo    two  0.361939  0.008989
5  bar    two  0.909140  0.784223
6  foo    one  0.262744  2.750767
7  foo  three  0.411624  0.128386

分组后对每个组分别应用sum()函数：

In [76]: df.groupby("A").sum()
Out[76]:
            C         D
A
bar  0.895533  1.406997
foo  3.051234  2.925893

根据多个列分组会生成一个分层索引，我们再一次对每个分组应用sum()函数：

In [77]: df.groupby(["A", "B"]).sum()
Out[77]:
                  C         D
A   B
bar one    1.023521  1.126648
    three -1.037128 -0.503873
    two    0.909140  0.784223
foo one    0.817873  2.723833
    three  0.411624  0.128386
    two    1.821737  0.073674

重塑Reshaping

堆叠Stack

stack()方法会将DataFrame的一层列索引转换为（堆叠到）行索引：

In [78]: group_sum = df.groupby(["A", "B"]).sum()

In [79]: stacked = group_sum.stack()

In [80]: stacked
Out[80]:
A    B
bar  one    C    1.023521
            D    1.126648
     three  C   -1.037128
            D   -0.503873
     two    C    0.909140
            D    0.784223
foo  one    C    0.817873
            D    2.723833
     three  C    0.411624
            D    0.128386
     two    C    1.821737
            D    0.073674
dtype: float64

stack()的逆操作是unstack，默认情况下它会取消堆叠最后一级行索引：

In [81]: stacked.unstack()
Out[81]:
                  C         D
A   B
bar one    1.023521  1.126648
    three -1.037128 -0.503873
    two    0.909140  0.784223
foo one    0.817873  2.723833
    three  0.411624  0.128386
    two    1.821737  0.073674

# 指定取消堆叠第1级索引
In [82]: stacked.unstack(level=1)
Out[82]:
B           one     three       two
A
bar C  1.023521 -1.037128  0.909140
    D  1.126648 -0.503873  0.784223
foo C  0.817873  0.411624  1.821737
    D  2.723833  0.128386  0.073674

# 指定取消堆叠第0级索引
In [83]: stacked.unstack(level=0)
Out[83]:
A             bar       foo
B
one   C  1.023521  0.817873
      D  1.126648  2.723833
three C -1.037128  0.411624
      D -0.503873  0.128386
two   C  0.909140  1.821737
      D  0.784223  0.073674

数据透视表Pivot tables

In [84]: df = pd.DataFrame(
    ...:     {
    ...:         "A": ["one", "one", "two", "three"] * 3,
    ...:         "B": ["A", "B", "C"] * 4,
    ...:         "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 2,
    ...:         "D": np.random.randn(12),
    ...:         "E": np.random.randn(12),
    ...:     }
    ...: )

In [85]: df
Out[85]:
        A  B    C         D         E
0     one  A  foo -0.166493  0.113699
1     one  B  foo  0.026190  0.652232
2     two  C  foo -0.335997 -0.303846
3   three  A  bar -0.060659  1.465404
4     one  B  bar  0.292503 -2.533638
5     one  C  bar  0.447678  0.544235
6     two  A  foo  0.458672  1.241213
7   three  B  foo -0.461620 -0.540212
8     one  C  foo  1.618171  1.383842
9     one  A  bar  1.605952 -0.560169
10    two  B  bar  0.463036 -0.512008
11  three  C  bar  1.298219 -1.470472

In [86]: pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"])
Out[86]:
C             bar       foo
A     B
one   A  1.605952 -0.166493
      B  0.292503  0.026190
      C  0.447678  1.618171
three A -0.060659       NaN
      B       NaN -0.461620
      C  1.298219       NaN
two   A       NaN  0.458672
      B  0.463036       NaN
      C       NaN -0.335997

时间序列

pandas具有简单、强大、高效的功能，用于在频率转换期间执行重采样操作（例如，将秒级数据转换为5分钟级数据）。这在金融应用中非常常见，但不限于此。

In [87]: rng = pd.date_range("1/1/2022", periods=100, freq="S")

In [88]: ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)

In [89]: ts.resample("5Min").sum()
Out[89]:
2022-01-01    24493
Freq: 5T, dtype: int32

时区表示：

In [90]: rng = pd.date_range("2022-09-01", periods=5, freq="D")

In [91]: ts = pd.Series(np.random.randn(len(rng)), rng)

In [92]: ts
Out[92]:
2022-09-01   -1.074999
2022-09-02   -0.138886
2022-09-03   -0.362477
2022-09-04   -1.200428
2022-09-05   -1.033010
Freq: D, dtype: float64

In [93]: ts_zh = ts.tz_localize("Asia/Shanghai")

In [94]: ts_zh
Out[94]:
2022-09-01 00:00:00+08:00   -1.074999
2022-09-02 00:00:00+08:00   -0.138886
2022-09-03 00:00:00+08:00   -0.362477
2022-09-04 00:00:00+08:00   -1.200428
2022-09-05 00:00:00+08:00   -1.033010
dtype: float64

转换到另一个时区：

In [95]: ts_zh.tz_convert("UTC")
Out[95]:
2022-08-31 16:00:00+00:00   -1.074999
2022-09-01 16:00:00+00:00   -0.138886
2022-09-02 16:00:00+00:00   -0.362477
2022-09-03 16:00:00+00:00   -1.200428
2022-09-04 16:00:00+00:00   -1.033010
dtype: float64

在时间跨度表示之间转换：

In [96]: rng = pd.date_range("2022/1/1", periods=5, freq="M")

In [96]: ts = pd.Series(np.random.randn(len(rng)), index=rng)

In [97]: ts
Out[97]:
2022-01-31   -1.311876
2022-02-28    1.127235
2022-03-31    0.878621
2022-04-30    0.040731
2022-05-31   -1.242116
Freq: M, dtype: float64

In [98]: ps = ts.to_period()

In [99]: ps
Out[99]:
2022-01   -1.311876
2022-02    1.127235
2022-03    0.878621
2022-04    0.040731
2022-05   -1.242116
Freq: M, dtype: float64

In [100]: ps.to_timestamp()
Out[100]:
2022-01-01   -1.311876
2022-02-01    1.127235
2022-03-01    0.878621
2022-04-01    0.040731
2022-05-01   -1.242116
Freq: MS, dtype: float64

分类数据

pandas可以在DataFrame中包含分类数据。

In [101]: df = pd.DataFrame(
     ...:     {"id": [1, 2, 3, 4, 5, 6], "raw_grade": ["a", "b", "b", "a", "a", "e"]}
     ...: )

将原始的raw_grade数据转化为分类数据类型：

In [102]: df["grade"] = df["raw_grade"].astype("category")

In [103]: df['grade']
Out[103]:
0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): ['a', 'b', 'e']

将类别重命名为更有意义的名称：

In [104]: df['grade'].cat.categories = ['very good', 'good', 'very bad']

In [105]: df['grade']
Out[105]:
0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (3, object): ['very good', 'good', 'very bad']

对类别重新排序，同时添加缺少的类别：

In [106]: df["grade"] = df["grade"].cat.set_categories(
     ...:     ["very bad", "bad", "medium", "good", "very good"]
     ...: )

In [107]: df['grade']
Out[107]:
0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): ['very bad', 'bad', 'medium', 'good', 'very good']

排序是按类别中的顺序进行的，而不是词法顺序：

In [108]: df.sort_values(by='grade')
Out[108]:
   id raw_grade      grade
5   6         e   very bad
1   2         b       good
2   3         b       good
0   1         a  very good
3   4         a  very good
4   5         a  very good

按类别列分组也会显示空类别：

In [109]: df.groupby("grade").size()
Out[109]:
grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

绘图

按照命名约定导入matplotlib：

import matplotlib.pyplot as plt

In [111]: ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2022', periods=1000))

In [112]: ts = ts.cumsum()

In [113]: ts.plot()
Out[113]: <AxesSubplot:>

In [114]: plt.show()

在DataFrame上，plot()方法可以方便地绘制带有标签的所有列：

In [115]: df = pd.DataFrame(
     ...:     np.random.randn(1000, 4), index=ts.index, columns=["A", "B", "C", "D"]
     ...: )

In [116]: df = df.cumsum()

In [117]: df.plot()
Out[117]: <AxesSubplot:>

In [118]: plt.legend(loc='best')
Out[118]: <matplotlib.legend.Legend at 0x2442a8973a0>

In [119]: plt.show()

读取/保存数据

CSV

保存到csv文件：

In [120]: df.to_csv("foo.csv")

从csv文件中读取：

In [121]: pd.read_csv("foo.csv")
Out[121]:
     Unnamed: 0         A         B          C          D
0    2022-01-01 -0.339712  0.803431   0.926860   0.969152
1    2022-01-02 -0.049207  1.128155   1.789429  -0.616847
2    2022-01-03 -0.435348  1.882219   1.536849   0.125363
3    2022-01-04 -1.354101  1.935871   0.119567   0.480918
4    2022-01-05 -3.091231  0.798345  -0.546616  -1.060994
..          ...       ...       ...        ...        ...
995  2024-09-22  4.397421 -0.222820  17.812736  13.025829
996  2024-09-23  4.047730  0.034211  19.812762  12.772421
997  2024-09-24  2.241092  0.537052  20.488351  12.718344
998  2024-09-25  1.855455  0.381156  21.322891  13.121769
999  2024-09-26  2.629507  0.285630  20.310801  11.795447

[1000 rows x 5 columns]

HDF5

以HDF5格式写入文件：

In [122]: df.to_hdf('foo.h5', 'df')

从HDF5文件中读取：

In [123]: pd.read_hdf('foo.h5', 'df')
Out[123]:
                   A         B          C          D
2022-01-01 -0.339712  0.803431   0.926860   0.969152
2022-01-02 -0.049207  1.128155   1.789429  -0.616847
2022-01-03 -0.435348  1.882219   1.536849   0.125363
2022-01-04 -1.354101  1.935871   0.119567   0.480918
2022-01-05 -3.091231  0.798345  -0.546616  -1.060994
...              ...       ...        ...        ...
2024-09-22  4.397421 -0.222820  17.812736  13.025829
2024-09-23  4.047730  0.034211  19.812762  12.772421
2024-09-24  2.241092  0.537052  20.488351  12.718344
2024-09-25  1.855455  0.381156  21.322891  13.121769
2024-09-26  2.629507  0.285630  20.310801  11.795447

[1000 rows x 4 columns]

Excel

写入到excel文件：

In [124]: df.to_excel("foo.xlsx", sheet_name="Sheet1")

从excel文件中读取：

In [125]: pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])
Out[125]:
    Unnamed: 0         A         B          C          D
0   2022-01-01 -0.339712  0.803431   0.926860   0.969152
1   2022-01-02 -0.049207  1.128155   1.789429  -0.616847
2   2022-01-03 -0.435348  1.882219   1.536849   0.125363
3   2022-01-04 -1.354101  1.935871   0.119567   0.480918
4   2022-01-05 -3.091231  0.798345  -0.546616  -1.060994
..         ...       ...       ...        ...        ...
995 2024-09-22  4.397421 -0.222820  17.812736  13.025829
996 2024-09-23  4.047730  0.034211  19.812762  12.772421
997 2024-09-24  2.241092  0.537052  20.488351  12.718344
998 2024-09-25  1.855455  0.381156  21.322891  13.121769
999 2024-09-26  2.629507  0.285630  20.310801  11.795447

后续

本文只是简单地展示了pandas各个功能的一些简单操作，但是其功能远比这里的示例所展现出来的更加强大，能做的事情也远比这里所列的多得多，后面还会继续深入学习pandas各个部分的内容，尽量把pandas学透。虽然之前经常有使用pandas解决很多的问题，但是并没有系统地进行整理和记录，接下来将会在这平台上把这些东西整理和记录下来。如有错误的地方，欢迎留言指正！！！

你可能感兴趣的:(Python,#,pandas,pandas,python,数据分析)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
27.Python从入门到精通—Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为以山河作礼。 #Python基础入门—详解版 python java 服务器
27.从入门到精通：Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理在Python中，异常处理是一种处理程序在执行期间可能遇到的错误的方法。当Python解释器遇到错误时，它会引发异常。异常是一种Python对象，它包含有关错误的信息，例如错误类型和错误位置。为了处理异常，您可以使用try-except语句。在
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
数据管理知识体系指南（第二版）-第五章——数据建模和设计-学习笔记键盘上的五花肉数据治理数据库数据仓库数据治理
目录5.1引言5.1.1业务驱动因素5.1.2目标和原则5.1.3基本概念5.2活动5.2.1规划数据建模5.2.2建立数据模型5.2.3审核数据模型5.2.4维护数据模型5.3工具5.3.1数据建模工具5.3.2数据血缘工具5.3.3数据分析工具5.3.4元数据资料库5.3.5数据模型模式5.3.6行业数据模型5.4方法5.4.1命名约定的最佳实践5.4.2数据库设计中的最佳实践5.5数据建模和
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
Numpy、Pandas库的使用貮叁量化投资分析 python python 数据分析
目录Numpy1、概述2、基础操作2.1生成一个numpy的array数组：2.2自定义一个新的数据类型：np.dtype()3、并行化思想4、量化分析应用4.1索引选取和切片选择4.2数据转换与规整4.3逻辑条件进行数据筛选4.4通用序列函数4.5文件保存与读取Pandas1、简介2、Series和DataFrame的使用2.1Series2.2DataFrame3、量化分析应用3.1形成一个p
Python+Requests模拟发送GET请求爱学习的执念自动化测试软件测试技术分享 python 开发语言
模拟发送GET请求前置条件：导入requests库一、发送不带参数的get请求代码如下：以百度首页为例importrequests#发送get请求response=requests.get(url="http://www.baidu.com")print(response.content.decode("utf-8"))#以utf-8的编码输出内容二、发送带参数的get请求发送带参数的get请求有
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
python项目练习——7.网站访问日志分析器 F—— python项目练习 python 信息可视化数据分析数据挖掘开发语言学习
项目功能分析：这个项目可以读取网站的访问日志文件，统计访问量、独立访客数、访问来源等信息，并以图表或表格的形式展示出来。这个项目涉及到文件操作、数据处理、数据可视化等方面的技术。示例代码：importrefromcollectionsimportCounterimportmatplotlib.pyplotaspltdefparse_log_file(log_file):#读取日志文件内容witho
python的while双重循环九九乘法表 Jinm_R python 开发语言
a=1whilea<=9:b=1#乘数每次需要从1开始whileb<=a:print(f"{a}*{b}={a*b}\t",end='')#\t为制表符使乘法表整齐end=''代表用空格代替换行b+=1a+=1print()#乘数每加一换行
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
RNA-seq数据分析_未完成子诚之组学数据分析数据分析
目录基础分析1.质控（reads）2.比对3.质控（alignment）4.定量5.样本合并差异表达1.质控（cohort）2.差异分析3.可视化（差异）富集分析肿瘤免疫1.免疫组库2.免疫浸润3.免疫响应4.新抗原预测微生物组参考本文主要覆盖了肿瘤样本bulkRNA-seq数据常见的分析步骤，并从实践角度出发，较为具体地介绍了每一步骤依赖的工具和数据集。另外，尽管本文适用于肿瘤样本，但其中的一些
Python自动化测试web常见框架汇总自动化测试薰儿软件测试技术分享 python 前端开发语言
1、前言目前，有非常多的Python框架，用来帮助你更轻松的创建web应用。这些框架把相应的模块组织起来，使得构建应用的时候可以更快捷，也不用去关注一些细节（例如socket和协议），所以需要的都在框架里了。接下来我们会介绍不同的选项。经过初期的不起眼，Python已经成为互联网最流行的服务端编程语言之一。根据W3Techs的统计，它被用于很多的大流量的站点很多的大流量的站点很多的大流量的站点，超
python安装jupter在线ide 晚风拂柳颜生活小经验 python3 ide jupter
我在虚拟3.6.8的环境里面安装的，具体用了以下命令；pipinstallipython-ihttps://mirrors.aliyun.com/pypi/simple/pipinstalljupyter-ihttps://mirrors.aliyun.com/pypi/simple/jupyternotebook当然，jupter可以直接通过python环境里script目录下的jupyter-
opencv 十八 python下实现0缓存掉线重连的rtsp直播流播放器摸鱼的机器猫 opencv实战 opencv python 缓存
使用opencv打开rtsp视频流时，会因为网络问题导致VideoCapture掉线；也会因为图像的后处理阶段耗时过长导致opencv缓冲区数据堆积，从而使程序无法及时处理最新的数据。为此对cv2.VideoCapture进行封装，实现0缓存掉线重连的rtsp直播流播放器，让程序能一直处理最新的数据。代码实现fromcollectionsimportdequeimportthreadingimpo
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =