MeiNinghang

pydata-pandas basic

# 开始吧! pandas主要用于数据分析,准确而言,是对数值的分析,而Python对Excel和SPSS的超越之处就在于对海量数据的处理能力. ## pandas 数据结构

import pandas as pd

### Series

obj = pd.Series([4,7,-5,3]) #生成series对象

obj

0 4 1 7 2 -5 3 3 dtype: int64

obj.index #索引

RangeIndex(start=0, stop=4, step=1)

obj.values #值

array([ 4, 7, -5, 3])

obj2 = pd.Series([4,7,-5,3], index = ['d','b','a','c']) #明确索引

obj2

d 4 b 7 a -5 c 3 dtype: int64

obj2.index #显示索引

Index([‘d’, ‘b’, ‘a’, ‘c’], dtype=’object’) #### 索引

obj2['a']

-5

obj2['d'] = 6 #索引并赋值

obj2 #作用于原series对象

d 6 b 7 a -5 c 3 dtype: int64

obj2[['c','a','d']] #多个索引加双中括号

c 3 a -5 d 6 dtype: int64 #### 比较和简单运算

obj2[obj2 > 0] #按条件选取

d 6 b 7 c 3 dtype: int64

obj2 * 2 #运算

d 12 b 14 a -10 c 6 dtype: int64

import numpy as np
np.exp(obj2) #作用于每个元素

d 403.428793 b 1096.633158 a 0.006738 c 20.085537 dtype: float64

'b' in obj2 #布尔值判断

True #### 数据类型转换

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000} #dict

obj3 = pd.Series(sdata) #转换

obj3

Ohio 35000 Oregon 16000 Texas 71000 Utah 5000 dtype: int64

states = ['California', 'Ohio', 'Oregon', 'Texas'] #指定索引
obj4 = pd.Series(sdata, index = states)
obj4

California NaN Ohio 35000.0 Oregon 16000.0 Texas 71000.0 dtype: float64 #### 判断缺失数据

pd.isnull(obj4)

California True Ohio False Oregon False Texas False dtype: bool

pd.notnull(obj4)

California False Ohio True Oregon True Texas True dtype: bool

obj4.isnull() #等价写法

California True Ohio False Oregon False Texas False dtype: bool #### 算术操作

obj3 + obj4

California NaN Ohio 70000.0 Oregon 32000.0 Texas 142000.0 Utah NaN dtype: float64 #### 命名

obj4.name = 'population' #obj4的name

obj4.index.name = 'state' #索引的name

obj4

state California NaN Ohio 35000.0 Oregon 16000.0 Texas 71000.0 Name: population, dtype: float64 #### 索引重命名

obj.index

RangeIndex(start=0, stop=4, step=1)

obj.index =  ['Bob', 'Steve', 'Jeff', 'Ryan']

obj

Bob 4 Steve 7 Jeff -5 Ryan 3 dtype: int64 ### DataFrame

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data) #生成

frame

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	pop	state	year
0	1.5	Ohio	2000
1	1.7	Ohio	2001
2	3.6	Ohio	2002
3	2.4	Nevada	2001
4	2.9	Nevada	2002
5	3.2	Nevada	2003

#### head,选取前五项

frame.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	pop	state	year
2001
2	3.6	Ohio	2002
3	2.4	Nevada	2001
4	2.9	Nevada	2002

#### 设定列

pd.DataFrame(data,columns = ['year','state','pop'])

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	year	state	pop
0	2000	Ohio	1.5
1	2001	Ohio	1.7
2	2002	Ohio	3.6
3	2001	Nevada	2.4
4	2002	Nevada	2.9
5	2003	Nevada	3.2

#### 设定行

frame2 = pd.DataFrame(data, 
   ....:                       index=['one', 'two', 'three', 'four',
   ....:                              'five', 'six'])

frame2

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	pop	state	year
one	1.5	Ohio	2000
two	1.7	Ohio	2001
three	3.6	Ohio	2002
four	2.4	Nevada	2001
five	2.9	Nevada	2002
six	3.2	Nevada	2003

caution 如果不存在,则返回Nan

frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
   ....:                       index=['one', 'two', 'three', 'four',
   ....:                              'five', 'six'])

frame2

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	year	state	pop	debt
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	NaN
three	2002	Ohio	3.6	NaN
four	2001	Nevada	2.4	NaN
five	2002	Nevada	2.9	NaN
six	2003	Nevada	3.2	NaN

frame2['debt'] = 16.5 #赋值

frame2

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	year	state	pop	debt
one	2000	Ohio	1.5	16.5
two	2001	Ohio	1.7	16.5
three	2002	Ohio	3.6	16.5
four	2001	Nevada	2.4	16.5
five	2002	Nevada	2.9	16.5
six	2003	Nevada	3.2	16.5

frame2.debt = np.arange(6.) #赋值

frame2

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	year	state	pop	debt
one	2000	Ohio	1.5	0.0
two	2001	Ohio	1.7	1.0
three	2002	Ohio	3.6	2.0
four	2001	Nevada	2.4	3.0
five	2002	Nevada	2.9	4.0
six	2003	Nevada	3.2	5.0

frame2.columns #显示列

Index([‘year’, ‘state’, ‘pop’, ‘debt’], dtype=’object’)

frame2.index #显示行

Index([‘one’, ‘two’, ‘three’, ‘four’, ‘five’, ‘six’], dtype=’object’) #### 选取特定列

frame2['state']

one Ohio two Ohio three Ohio four Nevada five Nevada six Nevada Name: state, dtype: object

frame.year #等价写法

0 2000 1 2001 2 2002 3 2001 4 2002 5 2003 Name: year, dtype: int64 #### 选取特定行

frame2.loc['three']

year 2002 state Ohio pop 3.6 debt NaN Name: three, dtype: object #### 特定赋值方法

val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

frame2.debt = val 
frame2

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	year	state	pop	debt
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	-1.2
three	2002	Ohio	3.6	NaN
four	2001	Nevada	2.4	-1.5
five	2002	Nevada	2.9	-1.7
six	2003	Nevada	3.2	NaN

#### 删除操作

frame2['eastern'] = frame2.state == 'Ohio' #布尔值,新列创建必须用['']

frame2

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	year	state	pop	debt	eastern
one	2000	Ohio	1.5	NaN	True
two	2001	Ohio	1.7	-1.2	True
three	2002	Ohio	3.6	NaN	True
four	2001	Nevada	2.4	-1.5	False
five	2002	Nevada	2.9	-1.7	False
six	2003	Nevada	3.2	NaN	False

del frame2['eastern']

frame2.columns

Index([‘year’, ‘state’, ‘pop’, ‘debt’], dtype=’object’) #### T行列转置

pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

frame3 = pd.DataFrame(pop)
frame3

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	Nevada	Ohio
2000	NaN	1.5
2001	2.4	1.7
2002	2.9	3.6

frame3.T

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	2000	2001	2002
Nevada	NaN	2.4	2.9
Ohio	1.5	1.7	3.6

#### 不存在行被赋值为Nan

pd.DataFrame(pop,index = [2001,2002,2003])

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	Nevada	Ohio
2001	2.4	1.7
2002	2.9	3.6
2003	NaN	NaN

#### 嵌套操作

pdata = {'Ohio': frame3['Ohio'][:-1], 'Nevada': frame3['Nevada'][:2]}

pd.DataFrame(pdata)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	Nevada	Ohio
2000	NaN	1.5
2001	2.4	1.7

#### 行列名

frame3.index.name = 'year';
frame3.columns.name = 'state'
frame3

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

state	Nevada	Ohio
year
2000	NaN	1.5
2001	2.4	1.7
2002	2.9	3.6

#### values 为两维ndarray

frame3.values

array([[nan, 1.5], [2.4, 1.7], [2.9, 3.6]])

frame2.values #自行选择最合适的dtype

array([[2000, ‘Ohio’, 1.5, nan], [2001, ‘Ohio’, 1.7, -1.2], [2002, ‘Ohio’, 3.6, nan], [2001, ‘Nevada’, 2.4, -1.5], [2002, ‘Nevada’, 2.9, -1.7], [2003, ‘Nevada’, 3.2, nan]], dtype=object) ### 索引

obj = pd.Series(range(3),index = ['a','b','c'])

index = obj.index

index

Index([‘a’, ‘b’, ‘c’], dtype=’object’)

index[1:]

Index([‘b’, ‘c’], dtype=’object’)

index[1] = 'd'  #不可变

————————————————————————— TypeError Traceback (most recent call last) in () —-> 1 index[1] = ‘d’ #不可变 /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pandas/core/indexes/base.py in __setitem__(self, key, value) 1722 1723 def __setitem__(self, key, value): -> 1724 raise TypeError(“Index does not support mutable operations”) 1725 1726 def __getitem__(self, key): TypeError: Index does not support mutable operations

labels = pd.Index(np.arange(3))

labels #构建索引对象

Int64Index([0, 1, 2], dtype=’int64’)

obj2  = pd.Series([1.5,-2.5,0],index = labels) #应用索引

obj2

0 1.5 1 -2.5 2 0.0 dtype: float64

obj2.index is labels #判断

True #### 列名称

frame3.columns

Index([‘Nevada’, ‘Ohio’], dtype=’object’, name=’state’)

'Ohio' in frame3.columns

True #### 可包含重复对象名称

dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index([‘foo’, ‘foo’, ‘bar’, ‘bar’], dtype=’object’) 其他方法 Method Description append Concatenate with additional Index objects, producing a new Index difference Compute set difference as an Index intersection Compute set intersection union Compute set union isin Compute boolean array indicating whether each value is contained in the passed collection delete Compute new Index with element at index i deleted drop Compute new Index by deleting passed values insert Compute new Index by inserting element at index i is_monotonic Returns True if each element is greater than or equal to the previous element is_unique Returns True if the Index has no duplicate values unique Compute the array of unique values in the Index ## 基础功能 ### 重建索引

obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

obj

d 4.5 b 7.2 a -5.3 c 3.6 dtype: float64

obj2 = obj.reindex(['a','b','c','d','e'])

obj2

a -5.3 b 7.2 c 3.6 d 4.5 e NaN dtype: float64 #### 插值

obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

obj3

0 blue 2 purple 4 yellow dtype: object

obj3.reindex(range(6),method = 'ffill') #前向插值

0 blue 1 blue 2 purple 3 purple 4 yellow 5 yellow dtype: object

import numpy as np
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),index=['a', 'c', 'd'],columns=['Ohio', 'Texas', 'California'])

frame

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	Ohio	Texas	California
a	0	1	2
c	3	4	5
d	6	7	8

frame2 = frame.reindex(['a','b','c','d'])

frame2

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	Ohio	Texas	California
a	0.0	1.0	2.0
b	NaN	NaN	NaN
c	3.0	4.0	5.0
d	6.0	7.0	8.0

#### dataframe 列

states = ['Texas', 'Utah', 'California']

frame.reindex(columns = states)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	Texas	Utah	California
a	1	NaN	2
c	4	NaN	5
d	7	NaN	8

frame.loc[['a','b','c','d'],states]  #行索引+列索引

/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/ipykernel_launcher.py:1: FutureWarning: Passing list-likes to .loc or [] with any missing label will raise KeyError in the future, you can use .reindex() as an alternative. See the documentation here: http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike “”“Entry point for launching an IPython kernel.

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	Texas	Utah	California
a	1.0	NaN	2.0
b	NaN	NaN	NaN
c	4.0	NaN	5.0
d	7.0	NaN	8.0

Argument Description
index New sequence to use as index. Can be Index instance or any other sequence-like Python data structure. An Index will be used exactly as is without any copying.
method Interpolation (fill) method; ‘ffill’ fills forward, while ‘bfill’ fills backward.
fill_value Substitute value to use when introducing missing data by reindexing.
limit When forward- or backfilling, maximum size gap (in number of elements) to fill.
tolerance When forward- or backfilling, maximum size gap (in absolute numeric distance) to fill for inexact matches.
level Match simple Index on level of MultiIndex; otherwise select subset of.
copy If True, always copy underlying data even if new index is equivalent to old index; if False, do not copy the data when the indexes are equivalent.

### 删除

obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a 0.0 b 1.0 c 2.0 d 3.0 e 4.0 dtype: float64

new_obj = obj.drop('c') #删除c行
new_obj

a 0.0 b 1.0 d 3.0 e 4.0 dtype: float64

data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])

data

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two	three	four
Ohio	0	1	2	3
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

data.drop(['Colorado','Ohio']) #默认删除行

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two	three	four
Utah	8	9	10	11
New York	12	13	14	15

data.drop('two',axis = 1) #显性标识1删除列

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	three	four
Ohio	0	2	3
Colorado	4	6	7
Utah	8	10	11
New York	12	14	15

data.drop(['two','four'],axis = 'columns') #等价写法

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	three
Ohio	0	2
Colorado	4	6
Utah	8	10
New York	12	14

#### 作用于原对象

obj.drop('c',inplace = True)

obj

a 0.0 b 1.0 d 3.0 e 4.0 dtype: float64 ### 索引/挑选和过滤

obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a 0.0 b 1.0 c 2.0 d 3.0 dtype: float64

obj['b']#索引

1.0

obj[1] #索引

1.0

obj[['b','a','d']] #多项索引

b 1.0 a 0.0 d 3.0 dtype: float64

obj[2:4]#切片

c 2.0 d 3.0 dtype: float64

obj[[1,3]] #多项

b 1.0 d 3.0 dtype: float64

obj[obj < 2] #按条件过滤

a 0.0 b 1.0 dtype: float64

obj['b':'c'] #过滤

b 1.0 c 2.0 dtype: float64

obj['b':'c'] = 5#赋值
obj

a 0.0 b 5.0 c 5.0 d 3.0 dtype: float64 #### dataframe

data = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['Ohio', 'Colorado', 'Utah', 'New York'],
columns=['one', 'two', 'three', 'four'])

data

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two	three	four
Ohio	0	1	2	3
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

data['two']#选择

Ohio 1 Colorado 5 Utah 9 New York 13 Name: two, dtype: int64

data[['three','one']]#多项

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	three	one
Ohio	2	0
Colorado	6	4
Utah	10	8
New York	14	12

data[:2] #选择

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two	three	four
Ohio	0	1	2	3
Colorado	4	5	6	7

data[data['three'] > 5] #条件

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two	three	four
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

data < 5

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two	three	four
Ohio	True	True	True	True
Colorado	True	False	False	False
Utah	False	False	False	False
New York	False	False	False	False

data[data < 5] = 0 #按条件过滤并赋值
data

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two	three	four
Ohio	0	0	0	0
Colorado	0	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

#### loc和iloc

data.loc['Colorado', ['two', 'three']] #行列选择

two 5 three 6 Name: Colorado, dtype: int64

data.iloc[2, [3, 0, 1]] #行列

four 11 one 8 two 9 Name: Utah, dtype: int64

data.iloc[2] #选中第二行

one 8 two 9 three 10 four 11 Name: Utah, dtype: int64

data.iloc[[1,2],[3,0,1]] #多行多列

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	four	one	two
Colorado	7	0	5
Utah	11	8	9

data.loc[:'Utah','two'] #loc标名,iloc标数字

Ohio 0 Colorado 5 Utah 9 Name: two, dtype: int64

data.iloc[:,:3][data.three > 5] #冒号代表全部选中,并加入过滤条件

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two	three
Colorado	0	5	6
Utah	8	9	10
New York	12	13	14

Type Notes
df[val] Select single column or sequence of columns from the DataFrame; special case conveniences: boolean array (filter rows), slice (slice rows), or boolean DataFrame (set values based on some criterion)
df.loc[val] Selects single row or subset of rows from the DataFrame by label
df.loc[:, val] Selects single column or subset of columns by label
df.loc[val1, val2] Select both rows and columns by label
df.iloc[where] Selects single row or subset of rows from the DataFrame by integer position
df.iloc[:, where] Selects single column or subset of columns by integer position
df.iloc[where_i, where_j] Select both rows and columns by integer position
df.at[label_i, label_j] Select a single scalar value by row and column label
df.iat[i, j] Select a single scalar value by row and column position (integers)
reindex method Select either rows or columns by labels
get_value, set_value methods Select single value by row and column label

#### 整数索引

ser = pd.Series(np.arange(3.))
ser[-1] #无法操作

————————————————————————— KeyError Traceback (most recent call last) in () 1 ser = pd.Series(np.arange(3.)) —-> 2 ser[-1] #无法操作 /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pandas/core/series.py in __getitem__(self, key) 621 key = com._apply_if_callable(key, self) 622 try: –> 623 result = self.index.get_value(self, key) 624 625 if not is_scalar(result): /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pandas/core/indexes/base.py in get_value(self, series, key) 2558 try: 2559 return self._engine.get_value(s, k, -> 2560 tz=getattr(series.dtype, ‘tz’, None)) 2561 except KeyError as e1: 2562 if len(self) > 0 and self.inferred_type in [‘integer’, ‘boolean’]: pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_value() pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_value() pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_loc() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item() KeyError: -1

ser

0 0.0 1 1.0 2 2.0 dtype: float64

ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])

ser2[-1] #自建索引就可以

2.0

ser[:1]

0 0.0 dtype: float64

ser.loc[:1]

0 0.0 1 1.0 dtype: float64

ser.iloc[:1] #注意三者区别

0 0.0 dtype: float64 ### 运算

s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

s1

a 7.3 c -2.5 d 3.4 e 1.5 dtype: float64

s2

a -2.1 c 3.6 e -1.5 f 4.0 g 3.1 dtype: float64

s1 + s2

a 5.2 c 1.1 d NaN e 0.0 f NaN g NaN dtype: float64

df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),index=['Utah', 'Ohio', 'Texas', 'Oregon'])

df1

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	c	d
Ohio	0.0	1.0	2.0
Texas	3.0	4.0	5.0
Colorado	6.0	7.0	8.0

df2

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	d	e
Utah	0.0	1.0	2.0
Ohio	3.0	4.0	5.0
Texas	6.0	7.0	8.0
Oregon	9.0	10.0	11.0

df1 + df2 #无共同索引返回Nan

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	c	d	e
Colorado	NaN	NaN	NaN	NaN
Ohio	3.0	NaN	6.0	NaN
Oregon	NaN	NaN	NaN	NaN
Texas	9.0	NaN	12.0	NaN
Utah	NaN	NaN	NaN	NaN

#### 插值

df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

df1

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b	c	d
0	0.0	1.0	2.0	3.0
1	4.0	5.0	6.0	7.0
2	8.0	9.0	10.0	11.0

df2

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b	c	d	e
0	0.0	1.0	2.0	3.0	4.0
1	5.0	6.0	7.0	8.0	9.0
2	10.0	11.0	12.0	13.0	14.0
3	15.0	16.0	17.0	18.0	19.0

df1 + df2

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b	c	d	e
0	0.0	2.0	4.0	6.0	NaN
1	9.0	11.0	13.0	15.0	NaN
2	18.0	20.0	22.0	24.0	NaN
3	NaN	NaN	NaN	NaN	NaN

df1.add(df2,fill_value=0) #不存在数字的一方以0参加运算

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b	c	d	e
0	0.0	2.0	4.0	6.0	4.0
1	9.0	11.0	13.0	15.0	9.0
2	18.0	20.0	22.0	24.0	14.0
3	15.0	16.0	17.0	18.0	19.0

1 / df1 #作用到每个元素

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b	c	d
0	inf	1.000000	0.500000	0.333333
1	0.250000	0.200000	0.166667	0.142857
2	0.125000	0.111111	0.100000	0.090909

df1.rdiv(1) #等价写法

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b	c	d
0	inf	1.000000	0.500000	0.333333
1	0.250000	0.200000	0.166667	0.142857
2	0.125000	0.111111	0.100000	0.090909

df1.reindex(columns = df2.columns,fill_value=0) #重建索引也可以插值

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b	c	d
0	0.0	1.0	2.0	3.0
1	4.0	5.0	6.0	7.0
2	8.0	9.0	10.0	11.0

运算符:
add, radd (+)
sub, rsub (-)
div, rdiv (/)
floordiv, (//)
mul, rmul (*)
pow, rpow (**)

#### series和dataframe间操作

frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
 columns=list('bde'),
index=['Utah', 'Ohio', 'Texas', 'Oregon'])

series = frame.iloc[0]

frame

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	d	e
Utah	0.0	1.0	2.0
Ohio	3.0	4.0	5.0
Texas	6.0	7.0	8.0
Oregon	9.0	10.0	11.0

series

b 0.0 d 1.0 e 2.0 Name: Utah, dtype: float64

frame - series #元素运算

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	d	e
Utah	0.0	0.0	0.0
Ohio	3.0	3.0	3.0
Texas	6.0	6.0	6.0
Oregon	9.0	9.0	9.0

series2 = pd.Series(range(3),index = ['b','e','f'])

frame + series2 #Nan

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	d	e	f
Utah	0.0	NaN	3.0	NaN
Ohio	3.0	NaN	6.0	NaN
Texas	6.0	NaN	9.0	NaN
Oregon	9.0	NaN	12.0	NaN

##### 指定运算

series3 = frame['d']

frame

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	d	e
Utah	0.0	1.0	2.0
Ohio	3.0	4.0	5.0
Texas	6.0	7.0	8.0
Oregon	9.0	10.0	11.0

series3

Utah 1.0 Ohio 4.0 Texas 7.0 Oregon 10.0 Name: d, dtype: float64

frame.sub(series3,axis = 0) #指定行参与运算

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	e
Utah	-1.0	1.0
Ohio	-1.0	1.0
Texas	-1.0	1.0
Oregon	-1.0	1.0

### 函数和映射

frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),index=['Utah', 'Ohio', 'Texas', 'Oregon'])

frame

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	d	e
Utah	-0.636008	1.531034	0.417312
Ohio	0.490817	-1.060737	0.454573
Texas	0.315152	-0.123696	1.613796
Oregon	1.031102	0.578078	-0.269054

np.abs(frame) #绝对值

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	d	e
Utah	0.636008	1.531034	0.417312
Ohio	0.490817	1.060737	0.454573
Texas	0.315152	0.123696	1.613796
Oregon	1.031102	0.578078	0.269054

##### apply函数

f = lambda x : x.max() - x.min() #lambda为匿名函数

frame.apply(f) #行应用

b 1.667110 d 2.591771 e 1.882850 dtype: float64

frame.apply(f,axis = 1) #列应用

Utah 2.167042 Ohio 1.551555 Texas 1.737492 Oregon 1.300156 dtype: float64 ###### 其他高级操作

def f(x):
    return pd.Series([x.min(),x.max()],index = ['min','max'])

frame.apply(f) #高级与否取决于编写的函数

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	d	e
min	-0.636008	-1.060737	-0.269054
max	1.031102	1.531034	1.613796

format = lambda x : '%.2f' % x

frame.applymap(format) #全部使用

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	b	d	e
Utah	-0.64	1.53	0.42
Ohio	0.49	-1.06	0.45
Texas	0.32	-0.12	1.61
Oregon	1.03	0.58	-0.27

frame.e.map(format) #映射

Utah 0.42 Ohio 0.45 Texas 1.61 Oregon -0.27 Name: e, dtype: object ### 排序

obj = pd.Series(range(4),index = ['d','a','b','c'])

obj.sort_index()

a 1 b 2 c 3 d 0 dtype: int64

frame = pd.DataFrame(np.arange(8).reshape((2, 4)),index=['three', 'one'],columns=['d', 'a', 'b', 'c'])

frame.sort_index()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	d	a	b	c
one	4	5	6	7
three	0	1	2	3

frame.sort_index(1) #注意行列

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b	c	d
three	1	2	3	0
one	5	6	7	4

frame.sort_index(1,ascending=False) #更改排序顺序

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	d	c	b	a
three	0	3	2	1
one	4	7	6	5

##### 按值排序

obj = pd.Series([4,7,-3,2])

obj.sort_values()

2 -3 3 2 0 4 1 7 dtype: int64

obj = pd.Series([4,np.nan,7,np.nan,-3,2])

obj.sort_values() #缺失值会被置于末尾

4 -3.0 5 2.0 0 4.0 2 7.0 1 NaN 3 NaN dtype: float64 ###### dataframe

frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

frame

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b
0	0	4
1	1	7
2	0	-3
3	1	2

frame.sort_values('b') #指定列

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b
2	0	-3
3	1	2
0	0	4
1	1	7

frame.sort_values(['a','b']) #指定多个列时,会按先后顺讯进行排序

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b
2	0	-3
0	0	4
3	1	2
1	1	7

##### rank

obj = pd.Series([7,-5,7,4,2,0,4])

obj.rank()

0 6.5 1 1.0 2 6.5 3 4.5 4 3.0 5 2.0 6 4.5 dtype: float64

obj.rank(method='first') #指定类型

0 6.0 1 1.0 2 7.0 3 4.0 4 3.0 5 2.0 6 5.0 dtype: float64

obj.rank(ascending=False, method = 'max') #降序,并指定类型

0 2.0 1 7.0 2 2.0 3 4.0 4 5.0 5 6.0 6 4.0 dtype: float64

frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],'c': [-2, 5, 8, -2.5]})

frame

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b	c
0	0	4.3	-2.0
1	1	7.0	5.0
2	0	-3.0	8.0
3	1	2.0	-2.5

frame.rank(1) #dataframe指定行列,此处指定列

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	a	b	c
0	2.0	3.0	1.0
1	1.0	3.0	2.0
2	2.0	1.0	3.0
3	2.0	3.0	1.0

一些选项:
Method Description
‘average’ Default: assign the average rank to each entry in the equal group
‘min’ Use the minimum rank for the whole group
‘max’ Use the maximum rank for the whole group
‘first’ Assign ranks in the order the values appear in the data
‘dense’ Like method=’min’, but ranks always increase by 1 in between groups rather than the number of equal elements in a group

### 轴

obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])

obj

a 0 a 1 b 2 b 3 c 4 dtype: int64 ###### 检验唯一性

obj.index.is_unique

False

obj.a #索引

a 0 a 1 dtype: int64

obj.c

4 ##### dataframe

df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])

df

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	0	1	2
a	-0.534059	-0.465903	0.440969
a	-0.251819	-0.324293	-0.034794
b	-0.840377	0.590484	-1.700600
b	-1.271153	0.897543	1.486386

df.loc['b'] #索引

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	0	1	2
b	-0.840377	0.590484	-1.700600
b	-1.271153	0.897543	1.486386

### 描述性统计

df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]],
index=['a', 'b', 'c', 'd'],
 columns=['one', 'two'])

df

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two
a	1.40	NaN
b	7.10	-4.5
c	NaN	NaN
d	0.75	-1.3

df.sum() #求和

one 9.25 two -5.80 dtype: float64

df.sum(1) #指定列

a 1.40 b 2.60 c 0.00 d -0.55 dtype: float64

df.mean(1,skipna = False)

a NaN b 1.300 c NaN d -0.275 dtype: float64

df.mean(1,skipna = True) #对na值得处理,当全为na值时,无法跳过

a 1.400 b 1.300 c NaN d -0.275 dtype: float64 ##### 显示最值索引

df.idxmax() #最大值

one b two d dtype: object

df.idxmin() #最小值

one d two b dtype: object ##### 其他

df.cumsum() #累计和

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two
a	1.40	NaN
b	8.50	-4.5
c	NaN	NaN
d	9.25	-5.8

描述性统计

df.describe()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two
count	3.000000	2.000000
mean	3.083333	-2.900000
std	3.493685	2.262742
min	0.750000	-4.500000
25%	1.075000	-3.700000
50%	1.400000	-2.900000
75%	4.250000	-2.100000
max	7.100000	-1.300000

##### 非数值型显示

 obj = pd.Series(['a', 'a', 'b', 'c'] * 4)

obj.describe()

count 16 unique 3 top a freq 8 dtype: object 一些统计内容方法 Method Description count Number of non-NA values describe Compute set of summary statistics for Series or each DataFrame column min, max Compute minimum and maximum values argmin, argmax Compute index locations (integers) at which minimum or maximum value obtained, respectively idxmin, idxmax Compute index labels at which minimum or maximum value obtained, respectively quantile Compute sample quantile ranging from 0 to 1 sum Sum of values mean Mean of values median Arithmetic median (50% quantile) of values mad Mean absolute deviation from mean value prod Product of all values var Sample variance of values std Sample standard deviation of values skew Sample skewness (third moment) of values kurt Sample kurtosis (fourth moment) of values cumsum Cumulative sum of values cummin, cummax Cumulative minimum or maximum of values, respectively cumprod Cumulative product of values diff Compute first arithmetic difference (useful for time series) pct_change Compute percent changes ### 相关

df.corr()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two
one	1.0	-1.0
two	-1.0	1.0

df['one'].corr(df['two'])

-1.0

df.cov() #协方差

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	one	two
one	12.205833	-10.16
two	-10.160000	5.12

df.corrwith(df.one) #特定

one 1.0 two -1.0 dtype: float64 ### 唯一值,值计数

 obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

#### series

uniques = obj.unique()

uniques

array([‘c’, ‘a’, ‘d’, ‘b’], dtype=object)

uniques.sort() #排序

uniques

array([‘a’, ‘b’, ‘c’, ‘d’], dtype=object) ##### 计数

obj.value_counts()

c 3 a 3 b 2 d 1 dtype: int64

pd.value_counts(obj.values,sort = False) #值大小排序

b 2 a 3 c 3 d 1 dtype: int64

obj

0 c 1 a 2 d 3 a 4 a 5 b 6 b 7 c 8 c dtype: object ##### 成员检验

mask = obj.isin(['b','c'])

mask

0 True 1 False 2 False 3 False 4 False 5 True 6 True 7 True 8 True dtype: bool

obj[mask] #筛选

0 c 5 b 6 b 7 c 8 c dtype: object ##### 变换索引

to_match = pd.Series(['c','a','b','b','c','a'])

u_v = pd.Series(['c','b','a'])

pd.Index(u_v).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2]) Method Description isin Compute boolean array indicating whether each Series value is contained in the passed sequence of values match Compute integer indices for each value in an array into another array of distinct values; helpful for data alignment and join-type operations unique Compute array of unique values in a Series, returned in the order observed value_counts Return a Series containing unique values as its index and frequencies as its values, ordered count in descending order ##### 其他

data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
 'Qu2': [2, 3, 1, 2, 3],
 'Qu3': [1, 5, 2, 4, 4]})

data

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	Qu1	Qu2	Qu3
0	1	2	1
1	3	3	5
2	4	1	2
3	3	2	4
4	4	3	4

result = data.apply(pd.value_counts).fillna(0)

result

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	Qu1	Qu2	Qu3
1	1.0	1.0	1.0
2	0.0	2.0	1.0
3	2.0	2.0	0.0
4	2.0	0.0	2.0
5	0.0	0.0	1.0

你可能感兴趣的:(python,pandas,Python,pydata)

Python在WRF模型自动化运行及前后处理中实践技术应用-包括数据处理、模型运行、结果可视化等步骤。 KY_chenzhao python 自动化开发语言
1.背景与目标WRF（WeatherResearchandForecasting）模型是中尺度气象数值模式的佼佼者，广泛应用于气象预报和气候研究。Python在WRF模型中的应用主要体现在前后处理、自动化运行和数据可视化等方面。本文将以风速预测为例，详细说明Python在WRF模型中的具体应用，包括数据处理、模型运行、结果可视化等步骤。2.数据准备数据来源包括WRF模型的输出数据和实际观测数据。这
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
PySide6 GUI 学习笔记——Python文件编译打包 Humbunklung PySide6 学习笔记 python
前面编写的软件工具都必须运行在Python环境中，且通过命令行的方式运行，通过Python打包工具，我们可以把.py文件封装成对应平台的运行文件，供用户执行。常见Python打包工具工具简介官网/文档地址py2exe将Python脚本转换为Windows可执行文件https://www.py2exe.orgcx_Freeze跨平台的Python打包工具，它可以将Python脚本打包为可执行文件或动
ChatGPT Canvas：开启AI编程新纪元——你的AI代码生成器来了！前端
OpenAI近日宣布ChatGPTCanvas全面开放，并带来了两项重磅更新：直接运行Python代码和整合GPTs生态系统。这意味着，即使你不是专业的程序员，也能轻松体验编程的乐趣，并利用AI的力量创造出更多可能性。这对于想要学习编程或提高工作效率的用户来说，无疑是一个巨大的福音。这篇文章将深入探讨这两项更新，并展望ChatGPTCanvas的未来发展。直接运行Python代码：降低编程门槛，释
华为OD机试E卷 --数大雁--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体：1.大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”2.大雁会依次完整发出”quack”，即字符串中’q，u,a，c，k这5个字母按
Python中的Pipeline快速教学、 Coding Is Fun python 开发语言
在Python中，Pipeline通常指的是机器学习工作流中的流水线，尤其是在使用scikit-learn库时。Pipeline允许你将多个数据处理步骤和模型训练步骤串联起来，形成一个有序的工作流程。这不仅使代码更简洁，还能确保在训练和预测时一致的数据处理。以下是一个快速教学，帮助你掌握Python中Pipeline的核心概念和使用方法。目录安装和导入必要的库Pipeline的基本概念创建一个简单
Python实用记录(十五)：PyQt/PySide6打包成exe，精简版（nuitka/pyinstaller/auto-py-to-exe） ZZY_dl 实用操作总结 python pyqt 开发语言
文章目录Python打包工具：Nuitka、PyInstaller和Auto-py-to-exe详解方式一：Nuitka安装与使用方式二：PyInstaller安装环境打包方式使用spec文件打包打包后文件说明打包参数说明方式三：Auto-py-to-exe安装环境✅⚠️▶️➡️⭐❄️✅⚠️▶️➡️⭐❄️✅⚠️▶️➡️⭐❄️✅⚠️Python打包工具：Nuitka、PyInstaller和Auto
Python 操作二进制文件昱晏 Python 1024程序员节 python
在计算机中，文件可以分为两种类型：文本文件和二进制文件。文本文件包含人类可读的字符，而二进制文件包含计算机指令或数据，无法直接阅读。常见的二进制文件包括图片、音频、视频、可执行文件等。Python提供了处理二进制文件的工具，允许你读写任意类型的数据。1以二进制模式打开文件在Python中，操作二进制文件时，需要使用'b'作为文件模式的一部分。常见的二进制文件模式有：'rb'：以二进制读取文件。'w
第9章：Python TDD解决货币对象相等性比较难题 Tester_孙大壮测试驱动开发 python 驱动开发开发语言
写在前面这本书是我们老板推荐过的，我在《价值心法》的推荐书单里也看到了它。用了一段时间Cursor软件后，我突然思考，对于测试开发工程师来说，什么才更有价值呢？如何让AI工具更好地辅助自己写代码，或许优质的单元测试是一个切入点。就我个人而言，这本书确实很有帮助。第一次读的时候，很多细节我都不太懂，但将书中内容应用到工作中后，我受益匪浅。比如面对一些让人抓狂的代码设计时，书里的方法能让我逐步深入理解
Python input 怎么使用彭彭不吃虫子 windows 数据库服务器
一、input()函数简介Python的input()函数是一个内置函数，用于从用户接收输入。当程序运行到input()函数时，会暂停并等待用户输入一些文本，用户输入的文本将作为函数的返回值。这使得我们可以在程序中获取用户的输入，以便根据输入执行相应的操作。二、input()函数语法input()函数的基本语法如下：input(prompt=None)其中，prompt参数是可选的，它表示在等待用
实操数据预处理：从理论到实践的基础步骤炼丹侠 python 机器学习人工智能
在快速发展的人工智能领域，数据不仅是基础，更是推动技术创新的关键力量。高质量的数据集是构建高效、准确模型的前提。本文将全面深入探讨数据预处理的各个环节，从基础的数据清洗到复杂的数据增强，再到高效的Python应用实践，为你提供一站式的数据处理解决方案。无论你的经验如何，这篇文章都将成为你宝贵的资源。数据清洗：打好数据质量的基础数据清洗是提升数据质量的首要步骤，涵盖了如下几个关键操作：缺失值的智能处
【python】实用的文件操作-多个excel文件的两种合并方式匡虐文件操作 python
【python】实用的文件操作-excel文件两种合并方式工作中常遇到多个excel文件表的结构一样，只是内容不同，现需要将其合并在一起。有两种方式，一种是合并成一张表，将其他表中的数据追加到同一张表中。另外一种是存放成一个文件多张表，不同的文件放到一个excel文件的不同工作簿中。1、合成一张表importpandasaspdimportospath=r'C:\Users\lenovo\Docu
python-mysql-连接池 Xiaohuansong python笔记 python mysql 连接池
利用内部队列编写的简易的支持上下文的连接池，目前只支持多线程内的链接代码如下实现了最大最小连接池的限制，链接回收，dml封装，动态维护链接等操作importMySQLdbimportloggingimportQueuefromthreadingimportThreadfromcontextlibimportcontextmanagerimporttimeclassMysqlTool(object)
BUUCTF_Crypto_[WUSTCTF2020]B@se qq_58370970 经验分享
给了一个txt文件：从题目可以看出是与base64相关，不难发现是base64的变种，将base64的顺序改变了，但还有4个字符不知道可以写python脚本得到缺失的4个字符代码如下：importstrings='JASGBWcQPRXEFLbCDIlmnHUVKTYZdMovwipatNOefghq56rs****kxyz012789+/'j='ABCDEFGHIJKLMNOPQRSTUVWXY
Python mysql数据库连接池戴** Python
最近在写一个Python的文本分析,需要大量的读取数据库(千万级别mysql)并进行更新操作,运行着程序发现一个问题,过了一会儿程序就报错说链接已经满了,或者是端口不可重复使用,因此我在网上找到了一个连接池的代码用于解决这个问题,在此处贴出代码本身是有配置文件的,因为我觉得在我的项目中不必要所以就删除了#!/usr/bin/envpython#-*-coding:utf-8-*-importpym
Python的Selenium库中的模块、类和异常的汇总 qq_24654817 python selenium 开发语言
1.`selenium.common.exceptions`：包含了Selenium中可能出现的异常。2.`selenium.webdriver.chrome.options`：用于配置Chrome浏览器的选项。3.`selenium.webdriver.chrome.service`：用于管理Chrome浏览器的后台服务。4.`selenium.webdriver.chrome.webdrive
代码编写java代做c++程序代编程Python代c#设计C语言接单软件定制 matlabgoodboy java c++c#
您提到的服务涵盖了多种编程语言和软件开发需求，包括Java代码编写、C++程序代编、Python编程代做、C#设计、C语言编程，以及软件定制服务。这些服务在软件开发领域非常常见，且有着广泛的应用。以下是对这些服务更详细的解释和接单时的一些建议：服务详解Java代码编写Java以其跨平台性、面向对象和丰富的API而著称，广泛应用于企业级应用、Android应用开发、Web服务端开发等领域。您可以提供
10个方法：用Python执行SQL、Excel常见任务_python util 前端收割机程序员 python sql excel
使用Python的最大优点之一是能够从网络的巨大范围中获取数据的能力，而不是只能访问手动下载的文件。在Python的requests库可以帮助你分类不同的网站，并从它们获取数据，而BeautifulSoup库可以帮助你处理和过滤数据，那么你精确得到你所需要的。如果你要去这条路线，请小心使用权问题。（不用担心，如果你想跳过这个部分，可以的！原始的csv文件在这里，你可以随意下载，如果你宁愿开始这个练
基于Python爬虫的豆瓣电影影评数据可视化分析 wp_tao Python副业接单实战项目 python 爬虫信息可视化
文章目录前言一、数据抓取二、数据可视化1.绘制词云图2.读入数据总结前言本文以电影《你好，李焕英》在豆瓣上的影评数据为爬取和分析的目标，利用python爬虫技术对影评数据进行了爬取，使用pandas库进行了数据清洗，使用jieba库进行分词，使用collections库进行词频统计，使用wordcloud库绘制词云图，使用matplotlib库绘制了评论人所在城市占比饼状图，并使用matplotl
BP神经网络及其Python和MATLAB实现预测陈辰学长神经网络 python matlab
BP神经网络及其Python和MATLAB实现预测引言BP神经网络（BackPropagationNeuralNetwork），即反向传播神经网络，是一种通过反向传播算法进行监督学习的多层前馈网络。这种网络能够通过不断地调整和改变神经元的连接权重，达到对特定任务的学习和优化。由于其高度的灵活性和适应性，BP神经网络在模式识别、函数逼近、优化问题等多个领域有着广泛的应用。本文将详细介绍BP神经网络的
【Python】selenium结合js模拟鼠标点击、拦截弹窗、鼠标悬停方法汇总（使用 execute_script 执行点击的方法）翠花上酸菜 selenium 网络爬虫 python selenium javascript
我们在写selenium获取网络信息的时候，有时候我们会受到对方浏览器的监控，对方通过分析用户行为模式，如点击、滚动、停留时间等，网站可以识别出异常行为，进而对Selenium爬虫进行限制。这里我们可以加入JavaScript的使用。Selenium可以执行JavaScript，通过使用execute_script方法，来执行点击操作。它可以绕过一些Selenium直接操作元素时可能遇到的问题，比
Conda与Bash的完美融合：激活你的开发环境 2401_85760095 conda bash 开发语言
Conda与Bash的完美融合：激活你的开发环境在Python开发者的日常工作中，Conda不仅作为包管理器，更是一个强大的环境管理工具。为了在bashshell中使用Conda创建的环境，需要进行初始化操作。condainitbash命令正是为此设计的，它可以修改bash的配置文件，使得Conda的环境能够在每次启动bashshell时自动激活。本文将详细介绍如何使用condainitbash命
2024年最全selenium UI使用小技巧集合_python selenium 中 2401_84692253 程序员 selenium ui python
al=driver.switch_to.alertal.send_keys(“口罩太贵了”)al.accept()#确认对话框time.sleep(3)driver.quit()###鼠标事件用selenium做自动化，有时候会遇到需要模拟鼠标操作才能进行的情况，比如单击、双击、点击鼠标右键、拖拽等等。而selenium给我们提供了一个类来处理这类事件——ActionChainsActionCha
webUI自动化之基本框架搭建（python + selenium + unittest）_python ui自动框架 2401_84140628 2024年程序员学习自动化 python selenium
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽黑客鹏哥 linux 网络安全 web安全密码学 CTF夺旗赛
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
Python: Python 多版本管理 mikes zhang python python 大数据 pip
PythonLauncherPythonLauncher是PythonforWindows才有的功能.(注一)PythonLauncher的出现,让我们可以不必依赖环境变数PATH的设定来简化python执行档的使用,同时也简化了多个版本的python同时存在时的管理工作.(试想如果你的系统里安装3或4个python时,你到底要如何指定使用其中一个版本?)PythonLauncherpy.exe是
【Python】类(class) shanks66 python 开发语言
@[toc]【Python】类(class)【Python】类(class)在Python中，类（Class）是面向对象编程（OOP）的核心概念。类用于创建对象，对象是类的实例。类可以包含属性（变量）和方法（函数），用于描述对象的行为和状态。Python类的基本结构和用法：1.基本语法class类名:#类属性（所有实例共享）类属性=值#构造方法（初始化对象）def__init__(self,参数1
深度解析：Python与TensorFlow在日平均气温预测中的应用——LSTM神经网络实战 AI_DL_CODE python 神经网络 tensorflow LSTM 气温预测 RNN
文章目录1.引言1.1研究背景与意义1.2研究目标与问题定义2.概念解析2.1Python语言简介2.2TensorFlow框架概述2.3LSTM神经网络原理3.原理详解3.1时间序列分析基础3.1.1时间序列的组成3.1.2时间序列分析方法3.2LSTM在时间序列分析中的应用3.2.1LSTM的优势3.2.2LSTM的结构3.3日平均气温预测的数学模型3.3.1ARIMA模型3.3.2LSTM模
python多版本管理_python 多版本管理春梅狐狸 python多版本管理
枫癫：您好！我用的是5.7版本，按照您的配置，错误如下麻烦看到了，还请回复，比较着急，谢谢您了！|@|[root@controllerwy]#snmpwalk-v1-cpublic192.168.1.100.1.3.6.1.4.1.2021.5000|@|UCD-SNMP-MIB::ucdavis.5000.1.0=INTEGER:1|@|UCD-SNMP-MIB::ucdavis.5000.2.
【python | pip list】pip list导入与导出苹榆枫 #深度学习框架 pip python linux
1.导出#查看当前安装的包piplist#导出当前安装的包记录pipfreeze>./requirements.txt2.导入#用anaconda创建一个虚拟环境condacreate-npy37python=3.7#激活当前py37环境MAC/Linux:sourceactivatepy37WIndows:activatepy37#导入安装之前的包列表pipinstall-r./requirem
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不