Pandas学习笔记（包括示例代码、运算结果及详细注释）

1.Series
2.DataFrame的简单运用
3.pandas选择数据
- 3.1 实战筛选
- 3.2 筛选总结
4.Pandas设置值
- 4.1 创建数据
- 4.2 根据位置设置loc和iloc
- 4.3 根据条件设置
- 4.4 按行或列设置
- 4.5 添加Series序列(长度必须对齐)
- 4.6 设定某行某列为特定值
- 4.7 修改一整行数据
5.Pandas处理丢失数据
- 5.1 创建含NaN的矩阵
- 5.2 删除有NaN的行或列
- 5.3 替换NaN值为0或者其他
- 5.4 是否有缺失数据NaN
6.Pandas导入导出
- 6.1 导入数据
- 6.2 导出数据
7.Pandas合并操作
- 7.1 Pandas合并
- - 7.1.1 concat
  - 7.1.2 append添加数据
  - 7.1.3 两种常用合并方式总结
- 7.2.Pandas 合并 merge
- - 7.2.1 定义资料集并打印
  - 7.2.2 依据key column合并
  - 7.2.3 两列合并
  - 7.2.4 Indicator设置合并列名称
  - 7.2.5 依据index合并
  - 7.2.6 解决overlapping的问题
8.Pandas plot出图

Pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它也是使Python成为强大而高效的数据分析环境的重要因素之一。
若对Numpy不够了解，可以参考我的另一篇博客：https://blog.csdn.net/strivequeen/article/details/112984264

1.Series

import pandas as pd
import numpy as np

s = pd.Series([1,3,6,np.nan,44,1])
print(s)  # 默认index从0开始,如果想要按照自己的索引设置，则修改index参数,如:index=[3,4,3,7,8,9]
0     1.0
1     3.0
2     6.0
3     NaN
4    44.0
5     1.0
dtype: float64

2.DataFrame的简单运用

DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的大字典。

# 指定行标签和列标签的数据
dates = pd.date_range('2021-01-31',periods=6)
# dates = pd.date_range('2021-01-31','2021-02-05') # 起始、结束  与上述等价
'''
numpy.random.randn(d0, d1, …, dn)是从标准正态分布中返回一个或多个样本值。
numpy.random.rand(d0, d1, …, dn)的随机样本位于[0, 1)中。
(6,4)表示6行4列数据
'''
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

print(df)
                   a         b         c         d
2021-01-31 -0.089777 -0.004411  1.032583  2.570713
2021-02-01 -0.918877  0.600092 -0.711374 -0.087149
2021-02-02  0.000248  0.956044 -0.256532 -2.224948
2021-02-03  1.537203 -1.313810  1.283764 -0.412839
2021-02-04 -0.010970 -0.789566 -0.307353 -0.498532
2021-02-05  0.324443  0.201022  0.956131 -1.140553

print(df['b'])
2021-01-31   -0.004411
2021-02-01    0.600092
2021-02-02    0.956044
2021-02-03   -1.313810
2021-02-04   -0.789566
2021-02-05    0.201022
Freq: D, Name: b, dtype: float64

# 未指定行标签和列标签的数据
df1 = pd.DataFrame(np.arange(12).reshape(3,4))
print(df1)
   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11

# 另一种方式
df2 = pd.DataFrame({
     
    'A': [1,2,3,4],
    'B': pd.Timestamp('20210131'),
    'C': pd.Series([1,6,9,10],dtype='float32'),
    'D': np.array([3] * 4,dtype='int32'),
    'E': pd.Categorical(['test','train','test','train']),
    'F': 'foo'
})
print(df2)
   A          B     C  D      E    F
0  1 2021-01-31   1.0  3   test  foo
1  2 2021-01-31   6.0  3  train  foo
2  3 2021-01-31   9.0  3   test  foo
3  4 2021-01-31  10.0  3  train  foo

print(df2.index)
RangeIndex(start=0, stop=4, step=1)

print(df2.columns)
Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

print(df2.values)
[[1 Timestamp('2021-01-31 00:00:00') 1.0 3 'test' 'foo']
 [2 Timestamp('2021-01-31 00:00:00') 6.0 3 'train' 'foo']
 [3 Timestamp('2021-01-31 00:00:00') 9.0 3 'test' 'foo']
 [4 Timestamp('2021-01-31 00:00:00') 10.0 3 'train' 'foo']]

# 数据总结
print(df2.describe())  # 只对数字数据进行描述
              A          C    D
count  4.000000   4.000000  4.0
mean   2.500000   6.500000  3.0
std    1.290994   4.041452  0.0
min    1.000000   1.000000  3.0
25%    1.750000   4.750000  3.0
50%    2.500000   7.500000  3.0
75%    3.250000   9.250000  3.0
max    4.000000  10.000000  3.0

# 翻转数据
print(df2.T)   # print(np.transpose(df2))为等价操作

                     0                    1                    2  \
A                    1                    2                    3   
B  2021-01-31 00:00:00  2021-01-31 00:00:00  2021-01-31 00:00:00   
C                    1                    6                    9   
D                    3                    3                    3   
E                 test                train                 test   
F                  foo                  foo                  foo   

                     3  
A                    4  
B  2021-01-31 00:00:00  
C                   10  
D                    3  
E                train  
F                  foo  

'''
axis=1表示行
axis=0表示列
默认ascending(升序)为True。ascending=True表示升序,ascending=False表示降序
'''
print(df2.sort_index(axis=1,ascending=True))
   A          B     C  D      E    F
0  1 2021-01-31   1.0  3   test  foo
1  2 2021-01-31   6.0  3  train  foo
2  3 2021-01-31   9.0  3   test  foo
3  4 2021-01-31  10.0  3  train  foo

print(df2.sort_index(axis=1,ascending=False))
     F      E  D     C          B  A
0  foo   test  3   1.0 2021-01-31  1
1  foo  train  3   6.0 2021-01-31  2
2  foo   test  3   9.0 2021-01-31  3
3  foo  train  3  10.0 2021-01-31  4

print(df2.sort_index(axis=0,ascending=False))   # 表示按列降序与按列升序
   A          B     C  D      E    F
3  4 2021-01-31  10.0  3  train  foo
2  3 2021-01-31   9.0  3   test  foo
1  2 2021-01-31   6.0  3  train  foo
0  1 2021-01-31   1.0  3   test  foo

print(df2.sort_index(axis=0,ascending=True))
   A          B     C  D      E    F
0  1 2021-01-31   1.0  3   test  foo
1  2 2021-01-31   6.0  3  train  foo
2  3 2021-01-31   9.0  3   test  foo
3  4 2021-01-31  10.0  3  train  foo

# 对特定列数值排列
print(df2.sort_values(by='C',ascending=False))   # 表示对C列降序排列
   A          B     C  D      E    F
3  4 2021-01-31  10.0  3  train  foo
2  3 2021-01-31   9.0  3   test  foo
1  2 2021-01-31   6.0  3  train  foo
0  1 2021-01-31   1.0  3   test  foo

3.pandas选择数据

3.1 实战筛选

dates = pd.date_range('20210131', periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates, columns=['A','B','C','D'])
print(df)
             A   B   C   D
2021-01-31   0   1   2   3
2021-02-01   4   5   6   7
2021-02-02   8   9  10  11
2021-02-03  12  13  14  15
2021-02-04  16  17  18  19
2021-02-05  20  21  22  23

print(df.A)  # 与 print(df['A']) 等价
2021-01-31     0
2021-02-01     4
2021-02-02     8
2021-02-03    12
2021-02-04    16
2021-02-05    20
Freq: D, Name: A, dtype: int32

# 选择跨越多行或多列
print(df[0:3])  # 选取前3行，与 print(df['2021-01-31':'2021-02-02']) 等价
            A  B   C   D
2021-01-31  0  1   2   3
2021-02-01  4  5   6   7
2021-02-02  8  9  10  11

# 根据标签选择数据，获取特定行或列
print(df.loc['20210202'])  # 指定行数据
A     8
B     9
C    10
D    11
Name: 2021-02-02 00:00:00, dtype: int32

# 指定列
print(df.loc[:,'A':'B'])   # 与 print(df.loc[:,['A','B']]) 等价
             A   B
2021-01-31   0   1
2021-02-01   4   5
2021-02-02   8   9
2021-02-03  12  13
2021-02-04  16  17
2021-02-05  20  21

# 行与列同时检索
print(df.loc['20210131',['A','B']])
A    0
B    1
Name: 2021-01-31 00:00:00, dtype: int32

# 根据序列iloc，获取特定位置的值
print(df.iloc[3,1])
13

print(df.iloc[3:5,1:3]) # 不包含末尾5或3，同列表切片
             B   C
2021-02-03  13  14
2021-02-04  17  18

# 跨行操作
print(df.iloc[[1,3,5],1:3])
             B   C
2021-02-01   5   6
2021-02-03  13  14
2021-02-05  21  22

print(df.iloc[:3,[0,2]]) # 混合选择
            A   C
2021-01-31  0   2
2021-02-01  4   6
2021-02-02  8  10

# 通过判断的筛选
print(df[df.A>8])  # 与 print(df.loc[df.A>8]) 等价
             A   B   C   D
2021-02-03  12  13  14  15
2021-02-04  16  17  18  19
2021-02-05  20  21  22  23

3.2 筛选总结

iloc与ix
相同点：iloc可以取相应的值，操作方便，与ix操作类似。
不同点：ix可以混合选择，可以填入column对应的字符选择，而iloc只能采用index索引，对于列数较多情况下，ix要方便操作许多。
loc与iloc
相同点：都可以索引处块数据
不同点：iloc可以检索对应值,两者操作不同。

3.ix与loc、iloc
ix是混合loc与iloc操作

print(df.loc['20210131','A':'B'])
print(df.iloc[0,0:2])
print(df.ix[0,'A':'B'])
# 以上三种结果均为：
A    0
B    1
Name: 2021-01-31 00:00:00, dtype: int32

4.Pandas设置值

4.1 创建数据

# 创建数据
dates = pd.date_range('20210131',periods=6)
df = pd.DataFrame(np.arange(24).reshape(6,4), index=dates, columns=['A','B','C','D'])
print(df)

             A   B   C   D
2021-01-31   0   1   2   3
2021-02-01   4   5   6   7
2021-02-02   8   9  10  11
2021-02-03  12  13  14  15
2021-02-04  16  17  18  19
2021-02-05  20  21  22  23

4.2 根据位置设置loc和iloc

# 根据位置设置loc和iloc
df.iloc[2,2] = 111
df.loc['20210131','B'] = 2222
print(df)
             A     B    C   D
2021-01-31   0  2222    2   3
2021-02-01   4     5    6   7
2021-02-02   8     9  111  11
2021-02-03  12    13   14  15
2021-02-04  16    17   18  19
2021-02-05  20    21   22  23

4.3 根据条件设置

# 更改B中的数，而更改的位置取决于4的位置，并设相应位置的数为0
df.B[df.A>4] = 0  # 与 df.B.loc[df.A>4] = 0 等价
print(df)
             A     B    C   D
2021-01-31   0  2222    2   3
2021-02-01   4     5    6   7
2021-02-02   8     0  111  11
2021-02-03  12     0   14  15
2021-02-04  16     0   18  19
2021-02-05  20     0   22  23

4.4 按行或列设置

df['F'] = np.nan   # 列批处理，F列全改为NaN
print(df)
             A     B    C   D   F
2021-01-31   0  2222    2   3 NaN
2021-02-01   4     5    6   7 NaN
2021-02-02   8     0  111  11 NaN
2021-02-03  12     0   14  15 NaN
2021-02-04  16     0   18  19 NaN
2021-02-05  20     0   22  23 NaN

4.5 添加Series序列(长度必须对齐)

df['E'] = pd.Series([1,2,3,4,5,6], index=pd.date_range('20210131',periods=6))
print(df)
             A     B    C   D   F  E
2021-01-31   0  2222    2   3 NaN  1
2021-02-01   4     5    6   7 NaN  2
2021-02-02   8     0  111  11 NaN  3
2021-02-03  12     0   14  15 NaN  4
2021-02-04  16     0   18  19 NaN  5
2021-02-05  20     0   22  23 NaN  6

4.6 设定某行某列为特定值

#ix 以后要剥离了，尽量不要用了

df.loc['20210131','A'] = 67  # 与 df.iloc[0,0] = 67 等价
print(df)
             A     B    C   D   F  E
2021-01-31  67  2222    2   3 NaN  1
2021-02-01   4     5    6   7 NaN  2
2021-02-02   8     0  111  11 NaN  3
2021-02-03  12     0   14  15 NaN  4
2021-02-04  16     0   18  19 NaN  5
2021-02-05  20     0   22  23 NaN  6

4.7 修改一整行数据

df.iloc[1] = np.nan # df.iloc[1,:]=np.nan
print(df)
               A       B      C     D   F    E
2021-01-31  67.0  2222.0    2.0   3.0 NaN  1.0
2021-02-01   NaN     NaN    NaN   NaN NaN  NaN
2021-02-02   8.0     0.0  111.0  11.0 NaN  3.0
2021-02-03  12.0     0.0   14.0  15.0 NaN  4.0
2021-02-04  16.0     0.0   18.0  19.0 NaN  5.0
2021-02-05  20.0     0.0   22.0  23.0 NaN  6.0

df.loc['20210131'] = np.nan # df.loc['20210131,:']=np.nan
print(df)
               A    B      C     D   F    E
2021-01-31   NaN  NaN    NaN   NaN NaN  NaN
2021-02-01   NaN  NaN    NaN   NaN NaN  NaN
2021-02-02   8.0  0.0  111.0  11.0 NaN  3.0
2021-02-03  12.0  0.0   14.0  15.0 NaN  4.0
2021-02-04  16.0  0.0   18.0  19.0 NaN  5.0
2021-02-05  20.0  0.0   22.0  23.0 NaN  6.0

5.Pandas处理丢失数据

5.1 创建含NaN的矩阵

# 创建含NaN的矩阵
dates = pd.date_range('20210131',periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D']) 
print(df)
             A   B   C   D
2021-01-31   0   1   2   3
2021-02-01   4   5   6   7
2021-02-02   8   9  10  11
2021-02-03  12  13  14  15
2021-02-04  16  17  18  19
2021-02-05  20  21  22  23

# a.reshape(6,4)等价于a.reshape((6,4))
df.iloc[0,1] = np.nan
df.iloc[1,2] = np.nan
print(df)
             A     B     C   D
2021-01-31   0   NaN   2.0   3
2021-02-01   4   5.0   NaN   7
2021-02-02   8   9.0  10.0  11
2021-02-03  12  13.0  14.0  15
2021-02-04  16  17.0  18.0  19
2021-02-05  20  21.0  22.0  23

5.2 删除有NaN的行或列

print(df.dropna()) # 默认是删除掉含有NaN的行
             A     B     C   D
2021-02-02   8   9.0  10.0  11
2021-02-03  12  13.0  14.0  15
2021-02-04  16  17.0  18.0  19
2021-02-05  20  21.0  22.0  23

print(df.dropna(
    axis=0, # 0对行进行操作;1对列进行操作
    how='any' # 'any':只要存在NaN就drop掉；'all':必须全部是NaN才drop
))
# 结果同上

# 删除掉所有含有NaN的列
print(df.dropna(
    axis=1,
    how='any'
))
             A   D
2021-01-31   0   3
2021-02-01   4   7
2021-02-02   8  11
2021-02-03  12  15
2021-02-04  16  19
2021-02-05  20  23

5.3 替换NaN值为0或者其他

print(df.fillna(value=0))
             A     B     C   D
2021-01-31   0   0.0   2.0   3
2021-02-01   4   5.0   0.0   7
2021-02-02   8   9.0  10.0  11
2021-02-03  12  13.0  14.0  15
2021-02-04  16  17.0  18.0  19
2021-02-05  20  21.0  22.0  23

5.4 是否有缺失数据NaN

print(df.isnull())  # 与 print(df.isna()) 等价
                A      B      C      D
2021-01-31  False   True  False  False
2021-02-01  False  False   True  False
2021-02-02  False  False  False  False
2021-02-03  False  False  False  False
2021-02-04  False  False  False  False
2021-02-05  False  False  False  False

# 检测某列是否有缺失数据NaN
print(df.isnull().any())
A    False
B     True
C     True
D    False
dtype: bool

# 检测数据中是否存在NaN,如果存在就返回True
print(np.any(df.isnull())==True)
True

6.Pandas导入导出

6.1 导入数据

import pandas as pd # 加载模块
data = pd.read_csv('student.csv') # 读取csv
print(data) # 打印出data
    Student ID  name   age  gender
0         1100  Kelly   22  Female
1         1101    Clo   21  Female
2         1102  Tilly   22  Female
3         1103   Tony   24    Male
4         1104  David   20    Male
5         1105  Catty   22  Female
6         1106      M    3  Female
7         1107      N   43    Male
8         1108      A   13    Male
9         1109      S   12    Male
10        1110  David   33    Male
11        1111     Dw    3  Female
12        1112      Q   23    Male
13        1113      W   21  Female

print(data.head(3)) # 前三行
   Student ID  name   age  gender
0        1100  Kelly   22  Female
1        1101    Clo   21  Female
2        1102  Tilly   22  Female

print(data.tail(3)) # 后三行
    Student ID name   age  gender
11        1111    Dw    3  Female
12        1112     Q   23    Male
13        1113     W   21  Female

6.2 导出数据

# 将资料存取成pickle
data.to_pickle('student.pickle')
# 读取pickle文件并打印
print(pd.read_pickle('student.pickle'))

7.Pandas合并操作

7.1 Pandas合并

7.1.1 concat

# 定义资料集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
df3 = pd.DataFrame(np.ones((3,4))*2, columns=['a','b','c','d'])
print(df1)
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0

print(df2)
     a    b    c    d
0  1.0  1.0  1.0  1.0
1  1.0  1.0  1.0  1.0
2  1.0  1.0  1.0  1.0

print(df3)
     a    b    c    d
0  2.0  2.0  2.0  2.0
1  2.0  2.0  2.0  2.0
2  2.0  2.0  2.0  2.0

# concat纵向合并
res = pd.concat([df1,df2,df3],axis=0)
print(res)
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
0  1.0  1.0  1.0  1.0
1  1.0  1.0  1.0  1.0
2  1.0  1.0  1.0  1.0
0  2.0  2.0  2.0  2.0
1  2.0  2.0  2.0  2.0
2  2.0  2.0  2.0  2.0

# 上述合并过程中，index重复，重置index方法：只需要将index_ignore设定为True即可
res = pd.concat([df1,df2,df3],axis=0,ignore_index=True)
print(res)
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0
6  2.0  2.0  2.0  2.0
7  2.0  2.0  2.0  2.0
8  2.0  2.0  2.0  2.0

# join 合并方式
#定义资料集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d','e'], index=[2,3,4])
print(df1)
     a    b    c    d
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  0.0  0.0  0.0  0.0
print(df2)
     b    c    d    e
2  1.0  1.0  1.0  1.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0

'''
join='outer',函数默认为join='outer'。此方法是依照column来做纵向合并，有相同的column上下合并在一起，
其他独自的column各自成列，原来没有值的位置皆为NaN填充。
'''
# 纵向"外"合并df1与df2
res = pd.concat([df1,df2],axis=0,join='outer')
print(res)
     a    b    c    d    e
1  0.0  0.0  0.0  0.0  NaN
2  0.0  0.0  0.0  0.0  NaN
3  0.0  0.0  0.0  0.0  NaN
2  NaN  1.0  1.0  1.0  1.0
3  NaN  1.0  1.0  1.0  1.0
4  NaN  1.0  1.0  1.0  1.0

# 修改index
res = pd.concat([df1,df2],axis=0,join='outer',ignore_index=True)
print(res)
     a    b    c    d    e
0  0.0  0.0  0.0  0.0  NaN
1  0.0  0.0  0.0  0.0  NaN
2  0.0  0.0  0.0  0.0  NaN
3  NaN  1.0  1.0  1.0  1.0
4  NaN  1.0  1.0  1.0  1.0
5  NaN  1.0  1.0  1.0  1.0

# join='inner'合并相同的字段，纵向"内"合并df1与df2
res = pd.concat([df1,df2],axis=0,join='inner')
print(res)
     b    c    d
1  0.0  0.0  0.0
2  0.0  0.0  0.0
3  0.0  0.0  0.0
2  1.0  1.0  1.0
3  1.0  1.0  1.0
4  1.0  1.0  1.0

# join_axes(依照axes合并)
#定义资料集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d','e'], index=[2,3,4])
print(df1)
     a    b    c    d
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  0.0  0.0  0.0  0.0
print(df2)
     b    c    d    e
2  1.0  1.0  1.0  1.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0

# 横向合并
res = pd.concat([df1,df2],axis=1)
print(res)
     a    b    c    d    b    c    d    e
1  0.0  0.0  0.0  0.0  NaN  NaN  NaN  NaN
2  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
3  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
4  NaN  NaN  NaN  NaN  1.0  1.0  1.0  1.0

7.1.2 append添加数据

# append只有纵向合并，没有横向合并
#定义资料集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
df3 = pd.DataFrame(np.ones((3,4))*2, columns=['a','b','c','d'])
s1 = pd.Series([1,2,3,4], index=['a','b','c','d'])
# 将df2合并到df1下面,以及重置index,并打印出结果
res = df1.append(df2,ignore_index=True)
print(res)
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0

# 合并多个df,将df2与df3合并至df1的下面,以及重置index,并打印出结果
res = df1.append([df2,df3], ignore_index=True)
print(res)
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0
6  2.0  2.0  2.0  2.0
7  2.0  2.0  2.0  2.0
8  2.0  2.0  2.0  2.0

# 合并series,将s1合并至df1，以及重置index，并打印结果
res = df1.append(s1,ignore_index=True)
print(res)
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  2.0  3.0  4.0

7.1.3 两种常用合并方式总结

res = pd.concat([df1, df2, df3], axis=0, ignore_index=True)
res1 = df1.append([df2, df3], ignore_index=True)
# 上述两种结果一样：
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0
6  2.0  2.0  2.0  2.0
7  2.0  2.0  2.0  2.0
8  2.0  2.0  2.0  2.0

7.2.Pandas 合并 merge

7.2.1 定义资料集并打印

# 依据一组key合并
# 定义资料集并打印出
left = pd.DataFrame({
     'key' : ['K0','K1','K2','K3'],
                     'A' : ['A0','A1','A2','A3'],
                     'B' : ['B0','B1','B2','B3']})

right = pd.DataFrame({
     'key': ['K0', 'K1', 'K2', 'K3'],
                      'C' : ['C0', 'C1', 'C2', 'C3'],
                      'D' : ['D0', 'D1', 'D2', 'D3']})
print(left)
  key   A   B
0  K0  A0  B0
1  K1  A1  B1
2  K2  A2  B2
3  K3  A3  B3
print(right)
  key   C   D
0  K0  C0  D0
1  K1  C1  D1
2  K2  C2  D2
3  K3  C3  D3

7.2.2 依据key column合并

res = pd.merge(left,right,on='key')
print(res)
  key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2
3  K3  A3  B3  C3  D3

7.2.3 两列合并

#  依据两组key合并
#定义资料集并打印出
left = pd.DataFrame({
     'key1': ['K0', 'K0', 'K1', 'K2'],
                      'key2': ['K0', 'K1', 'K0', 'K1'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({
     'key1': ['K0', 'K1', 'K1', 'K2'],
                       'key2': ['K0', 'K0', 'K0', 'K0'],
                       'C': ['C0', 'C1', 'C2', 'C3'],
                       'D': ['D0', 'D1', 'D2', 'D3']})
print(left)
  key1 key2   A   B
0   K0   K0  A0  B0
1   K0   K1  A1  B1
2   K1   K0  A2  B2
3   K2   K1  A3  B3
print(right)
  key1 key2   C   D
0   K0   K0  C0  D0
1   K1   K0  C1  D1
2   K1   K0  C2  D2
3   K2   K0  C3  D3

# 依据key1与key2 columns进行合并，并打印出四种结果['left', 'right', 'outer', 'inner']
res = pd.merge(left, right, on=['key1', 'key2'], how='inner')
print(res)
  key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2

res = pd.merge(left, right, on=['key1', 'key2'], how='outer')
print(res)
  key1 key2    A    B    C    D
0   K0   K0   A0   B0   C0   D0
1   K0   K1   A1   B1  NaN  NaN
2   K1   K0   A2   B2   C1   D1
3   K1   K0   A2   B2   C2   D2
4   K2   K1   A3   B3  NaN  NaN
5   K2   K0  NaN  NaN   C3   D3

res = pd.merge(left, right, on=['key1', 'key2'], how='left')
print(res)
  key1 key2   A   B    C    D
0   K0   K0  A0  B0   C0   D0
1   K0   K1  A1  B1  NaN  NaN
2   K1   K0  A2  B2   C1   D1
3   K1   K0  A2  B2   C2   D2
4   K2   K1  A3  B3  NaN  NaN

res = pd.merge(left, right, on=['key1', 'key2'], how='right')
print(res)
  key1 key2    A    B   C   D
0   K0   K0   A0   B0  C0  D0
1   K1   K0   A2   B2  C1  D1
2   K1   K0   A2   B2  C2  D2
3   K2   K0  NaN  NaN  C3  D3

7.2.4 Indicator设置合并列名称

df1 = pd.DataFrame({
     'col1':[0,1],'col_left':['a','b']})
df2 = pd.DataFrame({
     'col1':[1,2,2],'col_right':[2,2,2]})
print(df1)
   col1 col_left
0     0        a
1     1        b
print(df2)
   col1  col_right
0     1          2
1     2          2
2     2          2

# 依据col1进行合并,并启用indicator=True,最后打印
res = pd.merge(df1,df2,on='col1',how='outer',indicator=True)
print(res)
   col1 col_left  col_right      _merge
0     0        a        NaN   left_only
1     1        b        2.0        both
2     2      NaN        2.0  right_only
3     2      NaN        2.0  right_only

# 自定义indicator column的名称,并打印出
res = pd.merge(df1,df2,on='col1',how='outer',indicator='indicator_column')
print(res)
   col1 col_left  col_right indicator_column
0     0        a        NaN        left_only
1     1        b        2.0             both
2     2      NaN        2.0       right_only
3     2      NaN        2.0       right_only

7.2.5 依据index合并

left = pd.DataFrame({
     'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                     index=['K0', 'K1', 'K2'])
right = pd.DataFrame({
     'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])
print(left)
     A   B
K0  A0  B0
K1  A1  B1
K2  A2  B2
print(right)
     C   D
K0  C0  D0
K2  C2  D2
K3  C3  D3

# 依据左右资料集的index进行合并,how='outer',并打印
res = pd.merge(left,right,left_index=True,right_index=True,how='outer')
print(res)
      A    B    C    D
K0   A0   B0   C0   D0
K1   A1   B1  NaN  NaN
K2   A2   B2   C2   D2
K3  NaN  NaN   C3   D3

# 依据左右资料集的index进行合并,how='inner',并打印
res = pd.merge(left,right,left_index=True,right_index=True,how='inner')
print(res)
     A   B   C   D
K0  A0  B0  C0  D0
K2  A2  B2  C2  D2

7.2.6 解决overlapping的问题

boys = pd.DataFrame({
     'k': ['K0', 'K1', 'K2'], 'age': [1, 2, 3]})
girls = pd.DataFrame({
     'k': ['K0', 'K0', 'K3'], 'age': [4, 5, 6]})
print(boys)
    k  age
0  K0    1
1  K1    2
2  K2    3
print(girls)
    k  age
0  K0    4
1  K0    5
2  K3    6

# 使用suffixes解决overlapping的问题
# 比如将上面两个合并时,age重复了,则可通过suffixes设置,以此保证不重复,不同名
res = pd.merge(boys,girls,on='k',suffixes=['_boy','_girl'],how='inner')
print(res)
    k  age_boy  age_girl
0  K0        1         4
1  K0        1         5

8.Pandas plot出图

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.Series(np.random.randn(1000), index=np.arange(1000))
print(data)
0     -0.090306
1      0.537896
2      0.577394
3      0.298975
4     -0.506510
         ...   
995    0.243735
996    0.462577
997    0.054838
998   -0.514172
999   -0.592451
Length: 1000, dtype: float64

print(data.cumsum())
0      -0.090306
1       0.447590
2       1.024985
3       1.323960
4       0.817450
         ...    
995    20.989576
996    21.452154
997    21.506992
998    20.992820
999    20.400369
Length: 1000, dtype: float64

# data本来就是一个数据，所以我们可以直接plot
data.plot()
plt.show()

# np.random.randn(1000,4) 随机生成1000行4列数据
# list("ABCD")会变为['A','B','C','D']
data = pd.DataFrame(
    np.random.randn(1000,4),
    index=np.arange(1000),
    columns=list("ABCD")
)
data.cumsum()
data.plot()
plt.show()

ax = data.plot.scatter(x='A',y='B',color='DarkBlue',label='Class1')
# 将之下这个 data 画在上一个 ax 上面
data.plot.scatter(x='A',y='C',color='LightGreen',label='Class2',ax=ax)
plt.show()

你可能感兴趣的:(Python,numpy,python,pandas,数据分析)

数据分析--07：金融量化十束多多良^_^ 区块链概率论
데이터분석--07:재무수량화一、金融介绍1、金融2、金融工具1.期货2.黄金3.外汇4.投资基金5.股票股票的作用3、股票分类1.收益分类2.上市地区分类3.股票市场的构成4.影响股票的因素5.A股买卖4、金融分析1.基本面分析2.技术面分析5、金融量化投资1.为什么需要量化交易？2.量化交易3.量化交易的价值一、金融介绍1、金融金融就是对现有资源进行重新整合之后，实现价值和利润的等效流通。2、
深度学习：图像数据分析的革命 2401_85761762 深度学习数据分析人工智能
深度学习：图像数据分析的革命在当今数据驱动的世界中，图像数据分析已成为一个热门领域，而深度学习技术在其中扮演着核心角色。深度学习，特别是卷积神经网络（CNN），已经在图像识别、分类和处理方面取得了显著的成就。本文将详细介绍如何使用深度学习进行图像数据分析，并提供实际的代码示例。深度学习与图像数据分析深度学习是一种机器学习方法，它通过使用多层神经网络来学习数据的复杂模式。在图像数据分析中，深度学习模
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
如何生成Python的 .pyc 文件常家壮 #Python python 开发语言 .pyc 编程了解的知识
生成Python的pyc文件可以使用Python内置的模块如py_compile和compileall，通过编译源代码（.py文件）来生成字节码文件（.pyc文件）什么是.pyc这里不在赘述下面将详细分析如何手动和批量生成pyc文件：1.使用py_compile模块生成单个.pyc文件命令行方式：利用Python的命令行参数，可以快速将单个.py文件编译为.pyc文件。例如，使用命令python3
基于Python的机器学习系列（17）：梯度提升回归（Gradient Boosting Regression）会飞的Anthony 人工智能信息系统机器学习机器学习 python 回归
简介梯度提升（GradientBoosting）是一种强大的集成学习方法，类似于AdaBoost，但与其不同的是，梯度提升通过在每一步添加新的预测器来减少前一步预测器的残差。这种方法通过逐步改进模型，能够有效提高预测准确性。梯度提升回归的工作原理在梯度提升回归中，我们逐步添加预测器来修正模型的残差。以下是梯度提升的基本步骤：初始化模型：选择一个初始预测器h0(x)，计算该预测器的预测值。计算残差：
Python | Leetcode Python题解之第385题迷你语法分析器 Mopes__ 分享 Python Leetcode 题解
题目：题解：classSolution:defdeserialize(self,s:str)->NestedInteger:index=0defdfs()->NestedInteger:nonlocalindexifs[index]=='[':index+=1ni=NestedInteger()whiles[index]!=']':ni.add(dfs())ifs[index]==',':inde
Python | Leetcode Python题解之第386题字典序排数 Mopes__ 分享 Python Leetcode 题解
题目：题解：classSolution:deflexicalOrder(self,n:int)->List[int]:ans=[0]*nnum=1foriinrange(n):ans[i]=numifnum*10n:num//=10num+=1returnans
基于Python的机器学习系列（16）：扩展 - AdaBoost 会飞的Anthony 信息系统机器学习人工智能 python 机器学习开发语言
简介在本篇中，我们将扩展之前的AdaBoost算法实现，深入探索其细节并进行一些修改。我们将重点修复代码中的潜在问题，并对AdaBoost的实现进行一些调整，以提高其准确性和可用性。1.修复Alpha计算中的问题在AdaBoost中，如果分类器的错误率e为0，则计算出的权重α将是未定义的。为了解决这个问题，我们可以在计算过程中向分母中添加一个非常小的值，以避免除零错误。2.调整学习率sklearn
Python 中特殊函数说明依旧阳光的老码农 Python python
在Python中，函数名前后各加两个下划线（例如__function_name__）通常表示这是一个特殊方法或者魔法方法。这样的函数在Python内部使用，或者作为某些特定操作（如属性访问、类型转换等）的钩子。例如，如果你定义了一个类并在这个类中有一个名为__init__的方法，那么这个方法会在创建类的新实例时自动被调用。特殊方法通常以双下划线开头和结尾，这是因为单下划线开头的名称是留给实现细节的
【Python系列】signal信号处理 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 信号处理开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
python的图像融合及图像的类型转换学习笔记 yava_free python 学习笔记
一、图像加法运算1.Numpy库加法其运算方法是：目标图像=图像1+图像2，运算结果进行取模运算。当像素值255时，结果为对255取模的结果，例如：(255+64)%255=642.OpenCV加法运算另一种方法是直接调用OpenCV库实现图像加法运算，方法如下：目标图像=cv2.add(图像1,图像2)此时结果是饱和运算，即：当像素值255时，结果为255，例如：(255+64)=255两种方法
Python with语句常见错误AttributeError: __enter__ coco_1998_2 #Python
连接MySQL过程中，withcon:cur=con.cursor()cur.executemany(final_str,symbols)出现如下错误：关乎with语句的用法中上下文管理器。上下文管理器必须同时提供__enter__()和__exit__()方法的定义，缺少任何一个都会导致AttributeError；with语句会先检查是否提供了__exit__()方法，然后检查是否定义了__e
新手python爬虫代码-适合新手的Python爬虫小程序 weixin_37988176
介绍：此程序是使用python做的一个爬虫小程序?爬取了python百度百科中的部分内容，因为这个demo是根据网站中的静态结构爬取的，所以如果百度百科词条的html结构发生变化需要修改部分内容。词条链接?http://baike.baidu.com/item/Python逻辑步骤:1.主程序部分，主要初始化程序中需要用到的各个模块分为(1)链接管理模块。(2)链接下载保存模块?(3)解析网页模块
在Ubuntu 18.04上安装MySQL的方法白如意i linux ubuntu mysql linux
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。介绍MySQL是一个开源的数据库管理系统，通常作为流行的LAMP（Linux、Apache、MySQL、PHP/Python/Perl）堆栈的一部分安装。它使用关系数据库和SQL（结构化查询语言）来管理数据。安装的简短版本很简单：更新软件包索引，安装mysql-server软件包，然后运行附带的安全脚
Python学习日志（1）—— IDE Strawberry96 python 学习 ide python
IDE，集成开发环境，帮助我们进行高效的开发。Python开发——IDE应用场景选择：适合本地开发：VSCode：适合初学者，轻量级PyCharm：适合有经验的程序员，多人合作，重量级适合远程开发：Jupter：适合数学科学家，AI开发VSCode和PyCharm的安装比较简单。Jupter是第一次听说，在进行AI的开发或者是图片处理之类的，可以在远程开发。安装Jupter//3.12是对应的py
Vue + Spring Boot + SQL Server + Python 部署到 Windows 服务器 Desire.. vue.js spring boot python
将Vue+SpringBoot+SQLServer+Python部署到Windows服务器上的具体步骤如下：1.准备服务器远程连接到服务器：使用远程桌面连接（RDP）登录到Windows服务器。确保有管理员权限以便进行安装和配置。网络配置：检查服务器的网络连接，并确保可以访问外网以下载必要的软件。如果服务器暂时无法联网，考虑使用本地文件进行安装。2.安装所需软件安装JDK（JavaDevelopm
Python学习和面试中的常见问题及答案写代码的M教授 Python学习计划 python 学习面试
整理了一些关于Python和机器学习算法的高级问题及其详细答案。这些问题涵盖了多个方面，包括数据处理、模型训练、评估、优化和实际应用。一、Python编程问题解释Python中的装饰器（Decorators）是什么？它们的作用是什么？答案：装饰器是一种高阶函数，能够在不修改函数定义的情况下扩展或修改函数的行为。它们通常用于日志记录、权限验证、缓存等场景。使用@decorator_name语法将装饰
基于python图书馆书目推荐数据分析与可视化-可视化大屏展示 q_1262330535 python 计算机毕业设计 python 数据分析数据库
收藏关注不迷路文章目录前言一、项目介绍二、开发环境三、功能介绍四、核心代码五、效果图六、文章目录前言传统的图书推荐管理，一开始都是手工记录，然后将手工记录的文档进行存档；随着电脑的普及，个性化智能图书推荐管理演变成了手工记录后，输入电脑进行存档。传统的管理方式，对管理者来说工作量大。而且这种图书推荐管理的方式，容易出现遗失或因为失误输入错误的信息等等。在这些基础上，我把python技术的图书馆书目
pip matplotlib 安装成功后却在pycharm中模块不识别 CptainLee pip matplotlib pycharm
pip默认按照的路径是C:\Users\username\AppData\Roaming\Python\Python311\site-packages，而python的环境变量却是C:\Users\username\AppData\Local\Programs\Python\Python311就需要把前面site-packages中的matplotlib相关文件复制到后者的Lib文件夹中，这样就可
pycharm 导入anaconda环境报错：conda executable is not found，error code:1 萧云安 pycharm conda python
打开pycahrm，点击左上角File->settings点击Projectxxx——>pythoninterpreter——>Addinterpreter点击condaEnviroment，显示condaexecutableisnotfound点击condaexecutable文件夹打开，…所在位置\Anaconda\Library\bin\conda.bat点击loadEnvironment选
C语言学习记录4 XSR_yeah 学习
今日学习了注释和对于条件语句和和循环语句的初识：1.注释：用于解释代码。两种方式：1.代码前加//2.在被注释代码上一行加/*，在被注释代码下一行加*/。（C语言的注释不支持嵌套）2.初始条件语句与循环语句：两者与python语句相似，条件语句用if和else，循环语句用for，while,dowhile后面将加快进程，开始着手竞赛准备
基于yolov8的安全帽反光衣护目镜检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO
【算法介绍】基于YOLOv8的安全帽、反光衣及护目镜检测系统是一款集成了前沿深度学习与计算机视觉技术的智能监控系统。该系统利用YOLOv8这一尖端的目标检测模型，结合云计算与自动化图像处理技术，实现对工地、化工厂、煤矿等高风险作业区域工作人员安全装备穿戴情况的实时监控。该系统能够无死角地检测工作人员是否按规定佩戴安全帽、反光衣及护目镜，有效提高了安全管理的效率和准确性。一旦系统识别到未按规定穿戴安
JavaScript 无柳丶先生 javascript 开发语言
历史原名叫LiveScript，是由美国网景公司开发的是一种脚本语言，在网页中使用，运行在浏览器中。脚本语言：不需要编译的语言sqlpythonhtmlcssjavaScript直接有某种解释器(引擎)解释执行，逐行从上向下解释执行网景公司和sun公司合作，将LiveScript改名为javaScript1.javaScript代码写在哪2.变量如何声明3.数据类型4.运算符5.流程控制，循环语句
使用 ECharts 进行数据可视化小于负无穷 echarts 信息可视化前端 javascript 前端框架
1.概述ECharts是一个由百度开源的强大、灵活的JavaScript图表库，用于在Web页面上创建各种类型的数据可视化图表。它具有丰富的图表类型、强大的配置选项和良好的跨平台兼容性，广泛应用于数据分析、业务报表、仪表盘等场景。2.ECharts的安装ECharts的安装和引入非常简单，可以通过以下几种方式来使用：2.1通过CDN引入最简单的方式是通过CDN引入ECharts的脚本文件。在HTM
机器学习第9章-聚类 Rin__________ 机器学习笔记机器学习聚类支持向量机
机器学习第9章-聚类9.1聚类任务在“无监督学习”(unsupervisedlearning)中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。此类学习任务中研究最多、应用最广的是“聚类”(clustering)。聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”(cluster)。通过这样的划分，每
在neo4j中导入csv文件并构建知识图谱芹菜还是菜知识图谱 neo4j 知识图谱
本文csv文件数据来源于openKG中达观的开源知识图谱数据。从开源社区中下载下来的数据文件还是json，先用python把json文件转为csv文件。import csvimport jsonwith open('entities.json','r',encoding='utf-8')as fp: data=json.load(fp,strict=False)csv_file=open('en
干货 |17个常见的Python运行时错误编程阿布 python 开发语言爬虫数据库
Python运行时错误通常会在代码执行过程中因为各种问题（如语法错误、类型错误、索引错误等）而抛出。这里我将列出17个常见的Python运行时错误，并给出每个错误的简单示例代码：NameError-尝试访问一个未定义的变量。print(x)#x未定义TypeError-尝试将函数应用于不适当类型的对象。print(1+'a')#尝试将整数和字符串相加ZeroDivisionError-尝试除以零。
Python基础—16 个基础操作教程编程阿布 python java 前端开发语言数据分析
介绍本文中将分享一些Python使用技巧，这些技巧非常有用。通过学习和使用这些技巧，可以帮你节省时间和精力，并使你的代码更加优雅和高效。1.三元运算符Python中的三元运算符（也称为条件表达式）是一种简洁的编写条件语句的方式，它允许在一行代码中完成简单的if-else逻辑。三元运算符的基本语法如下：result=value_if_trueifconditionelsevalue_if_false
Python 中的 `and`, `or`, `not` 运算符：介绍与使用编程阿布 python 开发语言 Python学习学Python 数据库
在Python中，and、or、not是三个基本的逻辑运算符，它们用于组合或修改布尔值（True或False）的条件表达式。这些运算符在条件判断、循环控制以及函数的条件执行中扮演着重要角色。下面是对这三个运算符的详细介绍与使用示例。1.and运算符and运算符用于组合两个布尔表达式，当且仅当两个表达式都为True时，结果才为True。如果任一表达式为False，则结果为False。语法：expre
数据分析的罗盘：导航风险评估的艺术 2401_85812026 数据分析数据挖掘
数据分析的罗盘：导航风险评估的艺术在商业决策和项目管理中，风险评估是一个至关重要的环节。数据分析提供了一种强大的工具，可以帮助识别、评估和管理潜在风险。本文将详细介绍如何运用数据分析进行风险评估，并提供实际的代码示例，帮助你在不确定性中找到确定性。风险评估的重要性风险评估是识别、分析和评估项目或企业可能面临的风险的过程。它有助于制定策略，以减少或消除这些风险的影响，从而保护资产和确保业务连续性。数
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb