python备忘录——pandas笔记

pandas_learning

import numpy as np
import pandas as pd

一、生成对象

# 用值列表生成 Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

# 用含日期时间索引与标签的 NumPy 数组生成
dates = pd.date_range('20130101', periods=6)
print(dates)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

# 用含日期时间索引与标签的 NumPy 数组生成 DataFrame
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print(df)

                   A         B         C         D
2013-01-01 -0.490432  1.341003 -0.350064 -1.128517
2013-01-02  2.097826 -0.184385  0.701016  0.110131
2013-01-03  0.626084  1.155184 -0.340739  1.792840
2013-01-04  0.418219 -0.551569  0.878323 -0.454765
2013-01-05  0.342240 -1.456387  1.389543 -1.012628
2013-01-06 -1.037013 -1.308806 -0.414125  2.011082

df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20130102'),
                    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D': np.array([3] * 4, dtype='int32'),
                    'E': pd.Categorical(["test", "train", "test", "train"]),
                    'F': 'foo'})

print(df2)
print('\n')
df2

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo

	A	B	C	D	E	F
0	1.0	2013-01-02	1.0	3	test	foo
1	1.0	2013-01-02	1.0	3	train	foo
2	1.0	2013-01-02	1.0	3	test	foo
3	1.0	2013-01-02	1.0	3	train	foo

# DataFrame 的列有不同数据类型
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

二、查看数据

# 查看数据表头
df.head()

# 查看数据尾部
df.tail(3)

	A	B	C	D
2013-01-04	0.418219	-0.551569	0.878323	-0.454765
2013-01-05	0.342240	-1.456387	1.389543	-1.012628
2013-01-06	-1.037013	-1.308806	-0.414125	2.011082

# 显示索引(行名)
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

# 显示列名
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

DataFrame.to_numpy() 输出底层数据的 NumPy 对象。注意，DataFrame 的列由多种数据类型组成时，该操作耗费系统资源较大，这也是 Pandas 和 NumPy 的本质区别：NumPy 数组只有一种数据类型，DataFrame 每列的数据类型各不相同。调用 DataFrame.to_numpy() 时，Pandas 查找支持 DataFrame 里所有数据类型的 NumPy 数据类型。还有一种数据类型是 object，可以把 DataFrame 列里的值强制转换为 Python 对象。

df.to_numpy()
# DataFrame.to_numpy() 的输出不包含行索引和列标签。

array([[-0.49043231,  1.34100341, -0.35006351, -1.12851705],
       [ 2.09782571, -0.18438459,  0.70101634,  0.11013148],
       [ 0.62608362,  1.15518436, -0.34073901,  1.79283954],
       [ 0.41821905, -0.5515692 ,  0.8783226 , -0.45476542],
       [ 0.34224006, -1.4563874 ,  1.38954313, -1.01262842],
       [-1.03701303, -1.30880558, -0.41412501,  2.01108196]])

# 快速查看数据的统计摘要
df.describe()

	A	B	C	D
count	6.000000	6.000000	6.000000	6.000000
mean	0.326154	-0.167493	0.310659	0.219690
std	1.073550	1.194712	0.777791	1.377465
min	-1.037013	-1.456387	-0.414125	-1.128517
25%	-0.282264	-1.119496	-0.347732	-0.873163
50%	0.380230	-0.367977	0.180139	-0.172317
75%	0.574117	0.820292	0.833996	1.372163
max	2.097826	1.341003	1.389543	2.011082

# 转置数据
df.T

	2013-01-01	2013-01-02	2013-01-03	2013-01-04	2013-01-05	2013-01-06
A	-0.490432	2.097826	0.626084	0.418219	0.342240	-1.037013
B	1.341003	-0.184385	1.155184	-0.551569	-1.456387	-1.308806
C	-0.350064	0.701016	-0.340739	0.878323	1.389543	-0.414125
D	-1.128517	0.110131	1.792840	-0.454765	-1.012628	2.011082

# 按轴排序
df.sort_index(axis=1,ascending=False)
df.sort_index(axis=1,ascending =True)

	A	B	C	D
2013-01-01	-0.490432	1.341003	-0.350064	-1.128517
2013-01-02	2.097826	-0.184385	0.701016	0.110131
2013-01-03	0.626084	1.155184	-0.340739	1.792840
2013-01-04	0.418219	-0.551569	0.878323	-0.454765
2013-01-05	0.342240	-1.456387	1.389543	-1.012628
2013-01-06	-1.037013	-1.308806	-0.414125	2.011082

# 按值排序：
df.sort_values(by='B')

	A	B	C	D
2013-01-05	0.342240	-1.456387	1.389543	-1.012628
2013-01-06	-1.037013	-1.308806	-0.414125	2.011082
2013-01-04	0.418219	-0.551569	0.878323	-0.454765
2013-01-02	2.097826	-0.184385	0.701016	0.110131
2013-01-03	0.626084	1.155184	-0.340739	1.792840
2013-01-01	-0.490432	1.341003	-0.350064	-1.128517

三、选择

选择、设置标准 Python / Numpy 的表达式已经非常直观，交互也很方便，但对于生产代码，我们还是推荐优化过的 Pandas 数据访问方法：.at、.iat、.loc 和 .iloc

（一）获取数据

# 选择列
# 选择单列，产生 Series，与 df.A 等效：
df['A']

df.A

2013-01-01   -0.490432
2013-01-02    2.097826
2013-01-03    0.626084
2013-01-04    0.418219
2013-01-05    0.342240
2013-01-06   -1.037013
Freq: D, Name: A, dtype: float64

# 选择行
print(df[0:3])

print('\n')

# 根据条件选择行
print(df['20130102':'20130104'])

                   A         B         C         D
2013-01-01 -0.490432  1.341003 -0.350064 -1.128517
2013-01-02  2.097826 -0.184385  0.701016  0.110131
2013-01-03  0.626084  1.155184 -0.340739  1.792840

                   A         B         C         D
2013-01-02  2.097826 -0.184385  0.701016  0.110131
2013-01-03  0.626084  1.155184 -0.340739  1.792840
2013-01-04  0.418219 -0.551569  0.878323 -0.454765

（二）按照标签选择

# 用标签提取一行数据
df.loc[dates[0]]

A   -0.490432
B    1.341003
C   -0.350064
D   -1.128517
Name: 2013-01-01 00:00:00, dtype: float64

# 用标签选择多列数据：
df.loc[:, ['A', 'B']]

	A	B
2013-01-01	-0.490432	1.341003
2013-01-02	2.097826	-0.184385
2013-01-03	0.626084	1.155184
2013-01-04	0.418219	-0.551569
2013-01-05	0.342240	-1.456387
2013-01-06	-1.037013	-1.308806

# 用标签切片，包含行与列结束点：
df.loc['20130102':'20130104', ['A', 'B']]

	A	B
2013-01-02	2.097826	-0.184385
2013-01-03	0.626084	1.155184
2013-01-04	0.418219	-0.551569

# 返回对象降维：
df.loc['20130102', ['A', 'B']]

A    2.097826
B   -0.184385
Name: 2013-01-02 00:00:00, dtype: float64

# 提取标量值：
df.loc[dates[0], 'A']

df.loc['20130101', 'A']

-0.490432312502826

（三）按位置选择

# 用整数位置选择：
df.iloc[3]

A    0.418219
B   -0.551569
C    0.878323
D   -0.454765
Name: 2013-01-04 00:00:00, dtype: float64

# 类似 NumPy / Python，用整数切片：
df.iloc[3:5, 0:2]

	A	B
2013-01-04	0.418219	-0.551569
2013-01-05	0.342240	-1.456387

# 类似 NumPy / Python，用整数列表按位置切片：
df.iloc[[1, 2, 4], [0, 2]]

	A	C
2013-01-02	2.097826	0.701016
2013-01-03	0.626084	-0.340739
2013-01-05	0.342240	1.389543

# 显式整行切片：
df.iloc[1:3, :]

	A	B	C	D
2013-01-02	2.097826	-0.184385	0.701016	0.110131
2013-01-03	0.626084	1.155184	-0.340739	1.792840

# 显式整列切片：
df.iloc[:, 1:3]

	B	C
2013-01-01	1.341003	-0.350064
2013-01-02	-0.184385	0.701016
2013-01-03	1.155184	-0.340739
2013-01-04	-0.551569	0.878323
2013-01-05	-1.456387	1.389543
2013-01-06	-1.308806	-0.414125

# 显式提取值：
df.iloc[1, 1]
df.iat[1, 1]

-0.18438458703585694

（四）布尔索引

# 用单列的值选择数据：
df[df.B > 0]

	A	B	C	D
2013-01-01	-0.490432	1.341003	-0.350064	-1.128517
2013-01-03	0.626084	1.155184	-0.340739	1.792840

# 选择 DataFrame 里满足条件的值：
df[df > 0]

	A	B	C	D
2013-01-01	NaN	1.341003	NaN	NaN
2013-01-02	2.097826	NaN	0.701016	0.110131
2013-01-03	0.626084	1.155184	NaN	1.792840
2013-01-04	0.418219	NaN	0.878323	NaN
2013-01-05	0.342240	NaN	1.389543	NaN
2013-01-06	NaN	NaN	NaN	2.011082

# 用 isin() 筛选：
df2 = df.copy()
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
df2['time'] = ['1st','2nd','3rd','4th','5th','6th']
print(df2)

df2[df2['E'].isin(['two', 'four'])]

                   A         B         C         D      E time
2013-01-01 -0.490432  1.341003 -0.350064 -1.128517    one  1st
2013-01-02  2.097826 -0.184385  0.701016  0.110131    one  2nd
2013-01-03  0.626084  1.155184 -0.340739  1.792840    two  3rd
2013-01-04  0.418219 -0.551569  0.878323 -0.454765  three  4th
2013-01-05  0.342240 -1.456387  1.389543 -1.012628   four  5th
2013-01-06 -1.037013 -1.308806 -0.414125  2.011082  three  6th

	A	B	C	D	E	time
2013-01-03	0.626084	1.155184	-0.340739	1.792840	two	3rd
2013-01-05	0.342240	-1.456387	1.389543	-1.012628	four	5th

（五）赋值

# 用索引自动对齐新增列的数据：
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20130102', periods=6))
s1

2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

# 按标签赋值：
df.at[dates[0], 'A'] = 0
df

	A	B	C	D
2013-01-01	0.000000	1.341003	-0.350064	-1.128517
2013-01-02	2.097826	-0.184385	0.701016	0.110131
2013-01-03	0.626084	1.155184	-0.340739	1.792840
2013-01-04	0.418219	-0.551569	0.878323	-0.454765
2013-01-05	0.342240	-1.456387	1.389543	-1.012628
2013-01-06	-1.037013	-1.308806	-0.414125	2.011082

# 按位置赋值：
df.iat[0, 1] = 0
df

	A	B	C	D
2013-01-01	0.000000	0.000000	-0.350064	-1.128517
2013-01-02	2.097826	-0.184385	0.701016	0.110131
2013-01-03	0.626084	1.155184	-0.340739	1.792840
2013-01-04	0.418219	-0.551569	0.878323	-0.454765
2013-01-05	0.342240	-1.456387	1.389543	-1.012628
2013-01-06	-1.037013	-1.308806	-0.414125	2.011082

# 按 NumPy 数组赋值：
df.loc[:, 'D'] = np.array([5] * len(df))
df

C:\Users\Allen\AppData\Local\Temp\ipykernel_13872\531792459.py:2: DeprecationWarning: In a future version, `df.iloc[:, i] = newvals` will attempt to set the values inplace instead of always setting a new array. To retain the old behavior, use either `df[df.columns[i]] = newvals` or, if columns are non-unique, `df.isetitem(i, newvals)`
  df.loc[:, 'D'] = np.array([5] * len(df))

	A	B	C	D
2013-01-01	0.000000	0.000000	-0.350064	5
2013-01-02	2.097826	-0.184385	0.701016	5
2013-01-03	0.626084	1.155184	-0.340739	5
2013-01-04	0.418219	-0.551569	0.878323	5
2013-01-05	0.342240	-1.456387	1.389543	5
2013-01-06	-1.037013	-1.308806	-0.414125	5

# 用 where 条件赋值：
df2 = df.copy()
print(df2)

df2[df2 > 0] = -df2
df2

                   A         B         C  D
2013-01-01  0.000000  0.000000 -0.350064  5
2013-01-02  2.097826 -0.184385  0.701016  5
2013-01-03  0.626084  1.155184 -0.340739  5
2013-01-04  0.418219 -0.551569  0.878323  5
2013-01-05  0.342240 -1.456387  1.389543  5
2013-01-06 -1.037013 -1.308806 -0.414125  5

	A	B	C	D
2013-01-01	0.000000	0.000000	-0.350064	-5
2013-01-02	-2.097826	-0.184385	-0.701016	-5
2013-01-03	-0.626084	-1.155184	-0.340739	-5
2013-01-04	-0.418219	-0.551569	-0.878323	-5
2013-01-05	-0.342240	-1.456387	-1.389543	-5
2013-01-06	-1.037013	-1.308806	-0.414125	-5

四、缺失值

Pandas 主要用 np.nan 表示缺失数据。计算时，默认不包含空值。详见缺失数据。

# 重建索引（reindex）可以更改、添加、删除指定轴的索引，并返回数据副本，即不更改原数据。
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1], 'E'] = 1
df1

	A	B	C	D	E
2013-01-01	0.000000	0.000000	-0.350064	5	1.0
2013-01-02	2.097826	-0.184385	0.701016	5	1.0
2013-01-03	0.626084	1.155184	-0.340739	5	NaN
2013-01-04	0.418219	-0.551569	0.878323	5	NaN

# 删除所有含缺失值的行：
df1.dropna(how='any')

	A	B	C	D	E
2013-01-01	0.000000	0.000000	-0.350064	5	1.0
2013-01-02	2.097826	-0.184385	0.701016	5	1.0

# 填充缺失值
df1.fillna(value=5)

	A	B	C	D	E
2013-01-01	0.000000	0.000000	-0.350064	5	1.0
2013-01-02	2.097826	-0.184385	0.701016	5	1.0
2013-01-03	0.626084	1.155184	-0.340739	5	5.0
2013-01-04	0.418219	-0.551569	0.878323	5	5.0

# 提取 nan 值的布尔掩码：
pd.isna(df1)

	A	B	C	D	E
2013-01-01	False	False	False	False	False
2013-01-02	False	False	False	False	False
2013-01-03	False	False	False	False	True
2013-01-04	False	False	False	False	True

五、运算

（一）统计

# 描述性统计：
df.mean()

A    0.407893
B   -0.390994
C    0.310659
D    5.000000
dtype: float64

# 在另一个轴(即，行)上执行同样的操作：
print(df)
df.mean(1)

                   A         B         C  D
2013-01-01  0.000000  0.000000 -0.350064  5
2013-01-02  2.097826 -0.184385  0.701016  5
2013-01-03  0.626084  1.155184 -0.340739  5
2013-01-04  0.418219 -0.551569  0.878323  5
2013-01-05  0.342240 -1.456387  1.389543  5
2013-01-06 -1.037013 -1.308806 -0.414125  5





2013-01-01    1.162484
2013-01-02    1.903614
2013-01-03    1.610132
2013-01-04    1.436243
2013-01-05    1.318849
2013-01-06    0.560014
Freq: D, dtype: float64

# 不同维度对象运算时，要先对齐。 此外，Pandas 自动沿指定维度广播。
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
s

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

（二）Apply函数

# Apply 函数处理数据：
df.apply(np.cumsum)

	A	B	C	D
2013-01-01	0.000000	0.000000	-0.350064	5
2013-01-02	2.097826	-0.184385	0.350953	10
2013-01-03	2.723909	0.970800	0.010214	15
2013-01-04	3.142128	0.419231	0.888536	20
2013-01-05	3.484368	-1.037157	2.278080	25
2013-01-06	2.447355	-2.345962	1.863955	30

（三）直方图

s = pd.Series(np.random.randint(0, 7, size=10))
s

0    1
1    3
2    4
3    5
4    4
5    2
6    1
7    2
8    0
9    0
dtype: int32

s.value_counts()

1    2
4    2
2    2
0    2
3    1
5    1
dtype: int64

（四）字符串方法

s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

五、合并

（一）结合（concat）

Pandas 提供了多种将 Series、DataFrame 对象组合在一起的功能，用索引与关联代数功能的多种设置逻辑可执行连接（join）与合并（merge）操作。

df = pd.DataFrame(np.random.randn(10, 4))
df

	0	1	2	3
0	-1.920086	0.367632	2.497282	0.066091
1	-0.604439	1.692157	-0.805864	1.755445
2	-0.585767	0.946251	0.196929	1.496892
3	-0.200327	-0.574453	-0.255195	-0.317823
4	1.273022	0.874491	1.619386	1.956572
5	-1.045788	2.007894	0.113608	-0.576531
6	0.947761	1.959843	1.525449	-0.859118
7	0.753344	0.290895	-1.511461	1.335855
8	-2.731952	0.122681	-1.543743	-1.982785
9	0.095608	-2.362279	-0.386469	1.895013

# 分解为多个组
pieces = [df[:3], df[3:7], df[7:]]
pieces

[          0         1         2         3
 0 -1.920086  0.367632  2.497282  0.066091
 1 -0.604439  1.692157 -0.805864  1.755445
 2 -0.585767  0.946251  0.196929  1.496892,
           0         1         2         3
 3 -0.200327 -0.574453 -0.255195 -0.317823
 4  1.273022  0.874491  1.619386  1.956572
 5 -1.045788  2.007894  0.113608 -0.576531
 6  0.947761  1.959843  1.525449 -0.859118,
           0         1         2         3
 7  0.753344  0.290895 -1.511461  1.335855
 8 -2.731952  0.122681 -1.543743 -1.982785
 9  0.095608 -2.362279 -0.386469  1.895013]

pd.concat(pieces)

	0	1	2	3
0	-1.920086	0.367632	2.497282	0.066091
1	-0.604439	1.692157	-0.805864	1.755445
2	-0.585767	0.946251	0.196929	1.496892
3	-0.200327	-0.574453	-0.255195	-0.317823
4	1.273022	0.874491	1.619386	1.956572
5	-1.045788	2.007894	0.113608	-0.576531
6	0.947761	1.959843	1.525449	-0.859118
7	0.753344	0.290895	-1.511461	1.335855
8	-2.731952	0.122681	-1.543743	-1.982785
9	0.095608	-2.362279	-0.386469	1.895013

（二）连接（join）

1.第一个例子

left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
left

	key	lval
0	foo	1
1	foo	2

right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
right

	key	rval
0	foo	4
1	foo	5

pd.merge(left, right, on='key')

	key	lval	rval
0	foo	1	4
1	foo	1	5
2	foo	2	4
3	foo	2	5

2.第二个例子

left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
left

	key	lval
0	foo	1
1	bar	2

right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})
right

	key	rval
0	foo	4
1	bar	5

pd.merge(left, right, on='key')

	key	lval	rval
0	foo	1	4
1	bar	2	5

（三）结合（append）

df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])
df

	A	B	C	D
0	1.977216	0.809690	-1.092985	1.094562
1	-0.537330	0.119068	-0.270291	0.583295
2	-0.899852	-0.013189	-0.701051	-0.075777
3	-0.676315	-0.388863	-0.317767	0.200017
4	2.046481	-0.059868	-0.043779	0.073719
5	0.553642	0.585511	-0.363557	1.353199
6	-0.038520	0.867621	1.283126	0.359301
7	1.487298	-1.967855	0.781338	-0.356828

s = df.iloc[3]
s

A   -0.676315
B   -0.388863
C   -0.317767
D    0.200017
Name: 3, dtype: float64

df.append(s, ignore_index=True)

C:\Users\Allen\AppData\Local\Temp\ipykernel_13872\4011806271.py:1: FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.
  df.append(s, ignore_index=True)

	A	B	C	D
0	1.977216	0.809690	-1.092985	1.094562
1	-0.537330	0.119068	-0.270291	0.583295
2	-0.899852	-0.013189	-0.701051	-0.075777
3	-0.676315	-0.388863	-0.317767	0.200017
4	2.046481	-0.059868	-0.043779	0.073719
5	0.553642	0.585511	-0.363557	1.353199
6	-0.038520	0.867621	1.283126	0.359301
7	1.487298	-1.967855	0.781338	-0.356828
8	-0.676315	-0.388863	-0.317767	0.200017

六、分组（group）

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})
df

	A	B	C	D
0	foo	one	0.110792	1.046919
1	bar	one	0.257225	-1.405743
2	foo	two	-1.029414	-0.631213
3	bar	three	-0.696101	-0.153206
4	foo	two	0.655852	0.016673
5	bar	two	0.454345	-0.839135
6	foo	one	-1.270142	-2.196781
7	foo	three	0.491435	0.502373

# 用 sum()函数计算每组的汇总数据：
df.groupby('A').sum()

C:\Users\Allen\AppData\Local\Temp\ipykernel_13872\408658545.py:2: FutureWarning: The default value of numeric_only in DataFrameGroupBy.sum is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.
  df.groupby('A').sum()

	C	D
A
bar	0.015469	-2.398085
foo	-1.041477	-1.262029

# 用 sum()函数计算每组的汇总数据：
df.groupby(['A', 'B']).sum()

		C	D
A	B
bar	one	0.257225	-1.405743
	three	-0.696101	-0.153206
	two	0.454345	-0.839135
foo	one	-1.159350	-1.149862
	three	0.491435	0.502373
	two	-0.373561	-0.614540

七、重塑

（一）堆叠

tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))
tuples

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df2 = df[:4]
df2

		A	B
first	second
bar	one	0.293173	0.076621
bar	two	0.504254	0.005360
baz	one	-0.520367	-0.118466
baz	two	-0.280027	1.871664

stacked = df2.stack()
stacked

first  second   
bar    one     A    0.293173
               B    0.076621
       two     A    0.504254
               B    0.005360
baz    one     A   -0.520367
               B   -0.118466
       two     A   -0.280027
               B    1.871664
dtype: float64

压缩后的 DataFrame 或 Series 具有多层索引， stack() 的逆操作是 unstack()，默认为拆叠最后一层：

stacked.unstack()

		A	B
first	second
bar	one	0.293173	0.076621
bar	two	0.504254	0.005360
baz	one	-0.520367	-0.118466
baz	two	-0.280027	1.871664

stacked.unstack(1)

	second	one	two
first
bar	A	0.293173	0.504254
bar	B	0.076621	0.005360
baz	A	-0.520367	-0.280027
baz	B	-0.118466	1.871664

八、数据透视表

df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,
                   'B': ['A', 'B', 'C'] * 4,
                   'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D': np.random.randn(12),
                   'E': np.random.randn(12)})
df

	A	B	C	D	E
0	one	A	foo	1.768843	-2.404768
1	one	B	foo	-1.296745	1.205640
2	two	C	foo	-0.374749	-0.545797
3	three	A	bar	-0.504192	1.104782
4	one	B	bar	-0.893779	-0.056505
5	one	C	bar	-0.671526	-1.454542
6	two	A	foo	1.234484	1.087237
7	three	B	foo	0.316961	-1.333247
8	one	C	foo	1.342511	-0.712946
9	one	A	bar	-0.263245	-0.278933
10	two	B	bar	-2.146075	-0.725574
11	three	C	bar	1.257256	1.293410

# 生成数据透视表
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

	C	bar	foo
A	B
one	A	-0.263245	1.768843
	B	-0.893779	-1.296745
	C	-0.671526	1.342511
three	A	-0.504192	NaN
	B	NaN	0.316961
	C	1.257256	NaN
two	A	NaN	1.234484
	B	-2.146075	NaN
	C	NaN	-0.374749

九、时间序列

Pandas 为频率转换时重采样提供了虽然简单易用，但强大高效的功能，如，将秒级的数据转换为 5 分钟为频率的数据。这种操作常见于财务应用程序，但又不仅限于此。详见时间序列

rng = pd.date_range('1/1/2012', periods=100, freq='S')
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts.resample('5Min').sum()

2012-01-01    24914
Freq: 5T, dtype: int32

rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
ts = pd.Series(np.random.randn(len(rng)), rng)
ts

2012-03-06   -0.095941
2012-03-07    0.152061
2012-03-08    0.123898
2012-03-09   -0.291567
2012-03-10   -1.162841
Freq: D, dtype: float64

ts_utc = ts.tz_localize('UTC')
ts_utc

2012-03-06 00:00:00+00:00   -0.095941
2012-03-07 00:00:00+00:00    0.152061
2012-03-08 00:00:00+00:00    0.123898
2012-03-09 00:00:00+00:00   -0.291567
2012-03-10 00:00:00+00:00   -1.162841
Freq: D, dtype: float64

ts_utc.tz_convert('US/Eastern')

2012-03-05 19:00:00-05:00   -0.095941
2012-03-06 19:00:00-05:00    0.152061
2012-03-07 19:00:00-05:00    0.123898
2012-03-08 19:00:00-05:00   -0.291567
2012-03-09 19:00:00-05:00   -1.162841
Freq: D, dtype: float64

# 转换时间段：
rng = pd.date_range('1/1/2012', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2012-01-31   -0.688979
2012-02-29   -0.748789
2012-03-31   -0.703756
2012-04-30   -0.933271
2012-05-31    0.548897
Freq: M, dtype: float64

ps = ts.to_period()
ps

2012-01   -0.688979
2012-02   -0.748789
2012-03   -0.703756
2012-04   -0.933271
2012-05    0.548897
Freq: M, dtype: float64

ps.to_timestamp()

2012-01-01   -0.688979
2012-02-01   -0.748789
2012-03-01   -0.703756
2012-04-01   -0.933271
2012-05-01    0.548897
Freq: MS, dtype: float64

# Pandas 函数可以很方便地转换时间段与时间戳。下例把以 11 月为结束年份的季度频率转换为下一季度月末上午 9 点：
prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')
ts = pd.Series(np.random.randn(len(prng)), prng)
ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9
ts.head()

1990-03-01 09:00   -0.343270
1990-06-01 09:00    0.108602
1990-09-01 09:00   -1.729255
1990-12-01 09:00    2.244965
1991-03-01 09:00    1.186678
Freq: H, dtype: float64

十、类别型

Pandas 的 DataFrame 里可以包含类别数据。完整文档详见类别简介和 API 文档。

df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 6],
                   "raw_grade": ['a', 'b', 'b', 'a', 'a', 'e']})

# 将 grade 的原生数据转换为类别型数据：
df["grade"] = df["raw_grade"].astype("category")
df["grade"]

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): ['a', 'b', 'e']

# 用有含义的名字重命名不同类型，调用 Series.cat.categories。
df["grade"].cat.categories = ["very good", "good", "very bad"]

C:\Users\Allen\AppData\Local\Temp\ipykernel_13872\861203465.py:2: FutureWarning: Setting categories in-place is deprecated and will raise in a future version. Use rename_categories instead.
  df["grade"].cat.categories = ["very good", "good", "very bad"]

# 重新排序各类别，并添加缺失类，Series.cat 的方法默认返回新 Series。
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium",
                                              "good", "very good"])
df["grade"]

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): ['very bad', 'bad', 'medium', 'good', 'very good']

# 注意，这里是按生成类别时的顺序排序，不是按词汇排序：
df.sort_values(by="grade")

	id	raw_grade	grade
5	6	e	very bad
1	2	b	good
2	3	b	good
0	1	a	very good
3	4	a	very good
4	5	a	very good

# 按类列分组（groupby）时，即便某类别为空，也会显示：
df.groupby("grade").size()

grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

十一、可视化

ts = pd.Series(np.random.randn(1000),
               index=pd.date_range('1/1/2000', periods=1000))
ts = ts.cumsum()
ts.plot()

# DataFrame 的 plot() 方法可以快速绘制所有带标签的列：
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
                  columns=['A', 'B', 'C', 'D'])

df = df.cumsum()
df.plot()

十二、数据输入/输出

# 写入 CSV 文件
df.to_csv('foo.csv')

# 读取 CSV 文件数据：
pd.read_csv('foo.csv')

	Unnamed: 0	A	B	C	D
0	2000-01-01	-0.196217	-0.567679	-0.017399	-0.759675
1	2000-01-02	-0.992873	1.045825	0.751507	0.135319
2	2000-01-03	-1.139351	0.485977	1.263285	-0.954968
3	2000-01-04	-2.328024	0.945480	1.115053	-1.166374
4	2000-01-05	-4.682187	-1.138483	0.378853	-1.588296
...	...	...	...	...	...
995	2002-09-22	-22.127260	-56.337832	14.308220	-37.997555
996	2002-09-23	-22.683999	-56.727513	14.728768	-36.391624
997	2002-09-24	-24.029579	-55.935110	14.212392	-36.302242
998	2002-09-25	-25.639169	-54.762663	13.965459	-35.999471
999	2002-09-26	-26.532594	-54.212622	14.433300	-34.411454

1000 rows × 5 columns

# 写入 Excel 文件：
df.to_excel('foo.xlsx', sheet_name='Sheet1')

# 读取 Excel 文件：
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

	Unnamed: 0	A	B	C	D
0	2000-01-01	-0.196217	-0.567679	-0.017399	-0.759675
1	2000-01-02	-0.992873	1.045825	0.751507	0.135319
2	2000-01-03	-1.139351	0.485977	1.263285	-0.954968
3	2000-01-04	-2.328024	0.945480	1.115053	-1.166374
4	2000-01-05	-4.682187	-1.138483	0.378853	-1.588296
...	...	...	...	...	...
995	2002-09-22	-22.127260	-56.337832	14.308220	-37.997555
996	2002-09-23	-22.683999	-56.727513	14.728768	-36.391624
997	2002-09-24	-24.029579	-55.935110	14.212392	-36.302242
998	2002-09-25	-25.639169	-54.762663	13.965459	-35.999471
999	2002-09-26	-26.532594	-54.212622	14.433300	-34.411454

1000 rows × 5 columns

你可能感兴趣的:(python,python,pandas,机器学习)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
27.Python从入门到精通—Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为以山河作礼。 #Python基础入门—详解版 python java 服务器
27.从入门到精通：Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理在Python中，异常处理是一种处理程序在执行期间可能遇到的错误的方法。当Python解释器遇到错误时，它会引发异常。异常是一种Python对象，它包含有关错误的信息，例如错误类型和错误位置。为了处理异常，您可以使用try-except语句。在
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
Numpy、Pandas库的使用貮叁量化投资分析 python python 数据分析
目录Numpy1、概述2、基础操作2.1生成一个numpy的array数组：2.2自定义一个新的数据类型：np.dtype()3、并行化思想4、量化分析应用4.1索引选取和切片选择4.2数据转换与规整4.3逻辑条件进行数据筛选4.4通用序列函数4.5文件保存与读取Pandas1、简介2、Series和DataFrame的使用2.1Series2.2DataFrame3、量化分析应用3.1形成一个p
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
Python+Requests模拟发送GET请求爱学习的执念自动化测试软件测试技术分享 python 开发语言
模拟发送GET请求前置条件：导入requests库一、发送不带参数的get请求代码如下：以百度首页为例importrequests#发送get请求response=requests.get(url="http://www.baidu.com")print(response.content.decode("utf-8"))#以utf-8的编码输出内容二、发送带参数的get请求发送带参数的get请求有
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
python项目练习——7.网站访问日志分析器 F—— python项目练习 python 信息可视化数据分析数据挖掘开发语言学习
项目功能分析：这个项目可以读取网站的访问日志文件，统计访问量、独立访客数、访问来源等信息，并以图表或表格的形式展示出来。这个项目涉及到文件操作、数据处理、数据可视化等方面的技术。示例代码：importrefromcollectionsimportCounterimportmatplotlib.pyplotaspltdefparse_log_file(log_file):#读取日志文件内容witho
python的while双重循环九九乘法表 Jinm_R python 开发语言
a=1whilea<=9:b=1#乘数每次需要从1开始whileb<=a:print(f"{a}*{b}={a*b}\t",end='')#\t为制表符使乘法表整齐end=''代表用空格代替换行b+=1a+=1print()#乘数每加一换行
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
Python自动化测试web常见框架汇总自动化测试薰儿软件测试技术分享 python 前端开发语言
1、前言目前，有非常多的Python框架，用来帮助你更轻松的创建web应用。这些框架把相应的模块组织起来，使得构建应用的时候可以更快捷，也不用去关注一些细节（例如socket和协议），所以需要的都在框架里了。接下来我们会介绍不同的选项。经过初期的不起眼，Python已经成为互联网最流行的服务端编程语言之一。根据W3Techs的统计，它被用于很多的大流量的站点很多的大流量的站点很多的大流量的站点，超
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
python安装jupter在线ide 晚风拂柳颜生活小经验 python3 ide jupter
我在虚拟3.6.8的环境里面安装的，具体用了以下命令；pipinstallipython-ihttps://mirrors.aliyun.com/pypi/simple/pipinstalljupyter-ihttps://mirrors.aliyun.com/pypi/simple/jupyternotebook当然，jupter可以直接通过python环境里script目录下的jupyter-
opencv 十八 python下实现0缓存掉线重连的rtsp直播流播放器摸鱼的机器猫 opencv实战 opencv python 缓存
使用opencv打开rtsp视频流时，会因为网络问题导致VideoCapture掉线；也会因为图像的后处理阶段耗时过长导致opencv缓冲区数据堆积，从而使程序无法及时处理最新的数据。为此对cv2.VideoCapture进行封装，实现0缓存掉线重连的rtsp直播流播放器，让程序能一直处理最新的数据。代码实现fromcollectionsimportdequeimportthreadingimpo
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl