Good_77

【pandas】总结

1. 为什么学习pandas：

因为pandas含有使得数据分析工作变得更快和更简单的高级数据结构和操作工具；pandas是基于Numpy来进行创建的，让以numpy为中心的应用变得更加简单；

numpy能够帮我们处理处理数值型数据，但是这还不够

很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等

比如：我们通过爬虫获取到了存储在数据库中的数据

比如：之前youtube的例子中除了数值之外还有国家的信息，视频的分类(tag)信息，标题信息等

所以，numpy能够帮助我们处理数值，但是pandas除了处理数值之外(基于numpy)，还能够帮助我们处理其他类型的数据

2. Series一维数组

Series类型：这就是一种类似于一维数组的对象，它是由一组数据以及一组与之相关的数组标签组成（索引）。仅由一组数据即可产生最简单的Series；

在Series里，用.tolist()方法，Series取值，可以直接t["A"]

import pandas as pd

import string

#输入列表，不给定index，生成Series

In [153]: pd.Series([1,2,3,4,5])

Out[153]:

0 1

1 2

2 3

3 4

4 5

dtype: int64

#输入列表，给定index，生成Series

In [137]: obj = pd.Series([1,2,3,4,5], index=list(string.ascii_lowercase[:5]))

In [138]: obj

Out[138]:

a 1

b 2

c 3

d 4

e 5

dtype: int64

In [100]: [string.ascii_lowercase[:5]]

Out[100]: ['abcde']

In [101]: list(string.ascii_lowercase[:5])

Out[101]: ['a', 'b', 'c', 'd', 'e']

In [139]: obj[0]

Out[139]: 1

In [140]: obj['a']

Out[140]: 1

In [141]: obj.index

Out[141]: Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [142]: obj.values

Out[142]: array([1, 2, 3, 4, 5])

In [150]: obj.tolist()

Out[150]: [1, 2, 3, 4, 5]

#输入字典，生成Series，key作为index

In [16]: t = pd.Series({'name':'ethan', 'career':'AI engineer', 'lover':'jacky'})        



In [17]: t                                                                                

Out[17]:

name            ethan

career    AI engineer

lover           jacky

dtype: object



In [21]: t[0]                                                                            

Out[21]: 'ethan'



In [22]: t['name']                                                                        

Out[22]: 'ethan'



In [23]: t.index                                                                         

Out[23]: Index(['name', 'career', 'lover'], dtype='object')



In [24]: t.values                                                                         

Out[24]: array(['ethan', 'AI engineer', 'jacky'], dtype=object)



In [25]: t.values[0]                                                                     

Out[25]: 'ethan'



In [28]: t4 = pd.Series(np.arange(10), index=list(string.ascii_lowercase[:10]))          



In [29]: t4                                                                              

Out[29]:

a    0

b    1

c    2

d    3

e    4

f    5

g    6

h    7

i    8

j    9

dtype: int64

In [36]: t4[0]                                                                           

Out[36]: 0



In [37]: t4.astype(np.float32)                                                           

Out[37]:

a    0.0

b    1.0

c    2.0

d    3.0

e    4.0

f    5.0

g    6.0

h    7.0

i    8.0

j    9.0

dtype: float32

3. Series的索引和切片：

>>> t

A 0

B 1

C 2

D 3

E 4

F 5

G 6

H 7

I 8

J 9

dtype: int64

>>> t[2:10:2]

C 2

E 4

G 6

I 8

dtype: int64

>>> t[t>4]

F 5

G 6

H 7

I 8

J 9

dtype: int64

>>> t[[2,5,7]]

C 2

F 5

H 7

dtype: int64

>>> t[['A','F','g']]

A 0.0

F 5.0

g NaN

dtype: float64

4. DataFrame二维数组

DataFrame类型：DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同值的类型、数值、字符串、布尔值都可以（因此是一种比Numpy更高级的数据结构）；DataFrame本身有行索引，也有列索引；DataFrame也可以理解成是由Series组成的一个字典；

DataFrame对象既有行索引，又有列索引

行索引，表明不同行，横向索引，叫index，0轴，axis=0

列索引，表名不同列，纵向索引，叫columns，1轴，axis=1，1是竖着的，所以1是纵向索引

>>> pd.DataFrame(np.arange(12).reshape(3,4))

0 1 2 3

0 0 1 2 3

1 4 5 6 7

2 8 9 10 11

>>> pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("WXYZ"))

W X Y Z

a 0 1 2 3

b 4 5 6 7

c 8 9 10 11

>>> d2 = [{"name":"xaoming","age":30,"tel":10086},{"name":"xiaogang","age":32,"tel":10010},{"name":"xiaoqiang","tel":191}]

>>> d2

[{'name': 'xaoming', 'age': 30, 'tel': 10086}, {'name': 'xiaogang', 'age': 32, 'tel': 10010}, {'name': 'xiaoqiang', 'tel': 191}]

>>> t2 = pd.DataFrame(d2)

>>> t2

name age tel

0 xaoming 30.0 10086

1 xiaogang 32.0 10010

2 xiaoqiang NaN 191

>>>t2.to_dict()

{'name': {0: 'xaoming', 1: 'xiaogang', 2: 'xiaoqiang'},

'age': {0: 30.0, 1: 32.0, 2: nan},

'tel': {0: 10086, 1: 10010, 2: 191}}

>>> t2.index

RangeIndex(start=0, stop=3, step=1)

>>> t2.columns

Index(['name', 'age', 'tel'], dtype='object')

>>> t2.values

array([['xaoming', 30.0, 10086],

['xiaogang', 32.0, 10010],

['xiaoqiang', nan, 191]], dtype=object)

>>> t2.shape

(3, 3)

>>> t2.dtypes

name object

age float64

tel int64

dtype: object

>>> t2.info()

RangeIndex: 3 entries, 0 to 2

Data columns (total 3 columns):

name 3 non-null object

age 2 non-null float64

tel 3 non-null int64

dtypes: float64(1), int64(1), object(1)

memory usage: 200.0+ bytes

>>> t2.describe()

age tel

count 2.000000 3.000000

mean 31.000000 6762.333333

std 1.414214 5691.068470

min 30.000000 191.000000

25% 30.500000 5100.500000

50% 31.000000 10010.000000

75% 31.500000 10048.000000

max 32.000000 10086.000000

In [235]: t2.head(2)

Out[235]:

name age tel

0 xaoming 30.0 10086

1 xiaogang 32.0 10010

In [236]: t2.tail(2)

Out[236]:

name age tel

1 xiaogang 32.0 10010

2 xiaoqiang NaN 191

In [238]: t2['name'][0]

Out[238]: 'xaoming'

In [239]: t2.sort_values(by="age")

Out[239]:

name age tel

0 xaoming 30.0 10086

1 xiaogang 32.0 10010

2 xiaoqiang NaN 191

#默认ascending = True，即升序操作

In [240]: t2.sort_values(by="age", ascending = False)

Out[240]:

name age tel

1 xiaogang 32.0 10010

0 xaoming 30.0 10086

2 xiaoqiang NaN 191

5. DataFrame索引切片

In [243]: t1

Out[243]:

A B C D E F G H

a 0 1 2 3 4 5 6 7

b 8 9 10 11 12 13 14 15

c 16 17 18 19 20 21 22 23

d 24 25 26 27 28 29 30 31

e 32 33 34 35 36 37 38 39

f 40 41 42 43 44 45 46 47

In [97]: t1[:5]                             

Out[97]:

    A   B   C   D   E   F   G   H

a   0   1   2   3   4   5   6   7

b   8   9  10  11  12  13  14  15

c  16  17  18  19  20  21  22  23

d  24  25  26  27  28  29  30  31

e  32  33  34  35  36  37  38  39



In [98]: t1[:5]['A']                        

Out[98]:

a     0

b     8

c    16

d    24

e    32

Name: A, dtype: int64



In [99]: t1['A']                          

Out[99]:

a     0

b     8

c    16

d    24

e    32

f     2

Name: A, dtype: int64



In [100]: t1['A'][:5]                    

Out[100]:

a     0

b     8

c    16

d    24

e    32

Name: A, dtype: int64

df.loc通过标签索引行数据

df.iloc通过位置索引行数据

df.loc左右都是闭区间，左右的位置或索引都可以取到

df.iloc左开右闭，左能够取到，右取不到

In [111]: t1.loc["a"]                            

Out[111]:

A    0

B    1

C    2

D    3

E    4

F    5

G    6

H    7

Name: a, dtype: int64



In [112]: t1.loc["a", "A"]                 

Out[112]: 0





In [113]: t1.loc["a", ["A", "D"]]          

Out[113]:

A    0

D    3

Name: a, dtype: int64



In [114]: t1.loc["a":"c", ["A", "D"]]     

Out[114]:

    A   D

a   0   3

b   8  11

c  16  19

In [116]: t1.loc[["a","c"], ["A", "D"]]   

Out[116]:

    A   D

a   0   3

c  16  19





In [118]: t1.iloc[1]                            

Out[118]:

A     8

B     9

C    10

D    11

E    12

F    13

G    14

H    15

Name: b, dtype: int64



In [119]: t1.iloc[1, 0]                     

Out[119]: 8



In [122]: t1.iloc[0:2, [0, 2,4]] 

Out[122]:

   A   C   E

a  0   2   4

b  8  10  12



In [123]: t1.dtypes                            

Out[123]:

A    int64

B    int64

C    int64

D    int64

E    int64

F    int64

G    int64

H    int64

dtype: object



#不进行数据转换也不会报错

In [124]: t1.loc['a':'c', ['A','D']] = np.nan

In [125]: t1                                 

Out[125]:

      A   B   C     D   E   F   G   H

a   NaN   1   2   NaN   4   5   6   7

b   NaN   9  10   NaN  12  13  14  15

c   NaN  17  18   NaN  20  21  22  23

d  24.0  25  26  27.0  28  29  30  31

e  32.0  33  34  35.0  36  37  38  39

f   2.0  41  42  43.0  44  45  46  47



In [126]: t1.dtypes                        

Out[126]:

A    float64

B      int64

C      int64

D    float64

E      int64

F      int64

G      int64

H      int64

dtype: object



bool索引

In [133]: t1[t1['B']>20]                                                                 

Out[133]:

      A   B   C     D     E     F   G   H

d   NaN  25  26  27.0   NaN   NaN  30  31

e  32.0  33  34  35.0  36.0  37.0  38  39

f   2.0  41  42  43.0  44.0  45.0  46  47



In [140]: (t1['B']>20) & (t1['B']

Out[140]:

a    False

b    False

c    False

d     True

e     True

f    False

Name: B, dtype: bool



In [141]: t1[(t1['B']>20) & (t1['B']

Out[141]:

      A   B   C     D     E     F   G   H

d   NaN  25  26  27.0   NaN   NaN  30  31

e  32.0  33  34  35.0  36.0  37.0  38  39

6. DataFrame字符串操作

In [144]: data                               

Out[144]:

{'name': ['lilei', 'hanmeimei', 'zhangwei'],

 'age': [18, 17, 25],

 'gender': ['male', 'female', 'unknown']}



In [145]: t2 = pd.DataFrame(data)                           

In [147]: t2                               

Out[147]:

        name  age   gender

0      lilei   18     male

1  hanmeimei   17   female

2   zhangwei   25  unknown



In [148]: t2['name']                            

Out[148]:

0        lilei

1    hanmeimei

2     zhangwei

Name: name, dtype: object

In [150]: t2['name'].str.len()                     

Out[150]:

0    5

1    9

2    8

Name: name, dtype: int64



In [152]: t2[t2['name'].str.len()>5]                  

Out[152]:

        name  age   gender

1  hanmeimei   17   female

2   zhangwei   25  unknown



In [177]: t2['name'].str.cat()                      

Out[177]: 'lileihanmeimeizhangwei'



In [153]: t2['name'].str.count('m')                   

Out[153]:

0    0

1    2

2    0

Name: name, dtype: int64



In [154]: t2['name'].str.contains('e')                 

Out[154]:

0    True

1    True

2    True

Name: name, dtype: bool



In [155]: t2['name'].str.count('e')                    

Out[155]:

0    1

1    2

2    1

Name: name, dtype: int64



In [156]: t2['name'].str.startswith('l')                 

Out[156]:

0     True

1    False

2    False

Name: name, dtype: bool



In [157]: t2['name'].str.get(3)                   

Out[157]:

0    e

1    m

2    n

Name: name, dtype: object



In [158]: t2['name'].str.upper()                  

Out[158]:

0        LILEI

1    HANMEIMEI

2     ZHANGWEI

Name: name, dtype: object



In [159]: t2['name'].str.repeat(3)                            

Out[159]:

0                lileilileililei

1    hanmeimeihanmeimeihanmeimei

2       zhangweizhangweizhangwei

Name: name, dtype: object



In [160]: t2['name'].str.replace('e', 'c')   

Out[160]:

0        lilci

1    hanmcimci

2     zhangwci

Name: name, dtype: object



In [161]: a = [{'name': 'leon', 'actors': 'Ethan/Jacky/Kobe/Jordan'}, {'name': 'NBA', 'act

     ...: ors': 'Paul/Wall/Beal'}, {'name': 'Dunk', 'actors': 'Kevin/James/Durant'}]     



In [162]: a                                 

Out[162]:

[{'name': 'leon', 'actors': 'Ethan/Jacky/Kobe/Jordan'},

 {'name': 'NBA', 'actors': 'Paul/Wall/Beal'},

 {'name': 'Dunk', 'actors': 'Kevin/James/Durant'}]



In [163]: t3 = pd.DataFrame(a)

In [164]: t3                                

Out[164]:

   name                   actors

0  leon  Ethan/Jacky/Kobe/Jordan

1   NBA           Paul/Wall/Beal

2  Dunk       Kevin/James/Durant



In [165]: t3['actors'].str.split('/')                    

Out[165]:

0    [Ethan, Jacky, Kobe, Jordan]

1              [Paul, Wall, Beal]

2          [Kevin, James, Durant]

Name: actors, dtype: object



In [166]: t3['actors'].str.split('/').tolist()           

Out[166]:

[['Ethan', 'Jacky', 'Kobe', 'Jordan'],

 ['Paul', 'Wall', 'Beal'],

 ['Kevin', 'James', 'Durant']]

7. pandas之读取外部数据

我们的这组数据存在csv中，我们直接使用pd. read_csv即可，常用参数header=0，即第一行是表头

pd.read_excel(filepath, header=None)

和我们想象的有些差别，我们以为他会是一个Series类型，但是他是一个DataFrame，那么接下来我们就来了解这种数据类型

>>> import pandas as pd

>>> df = pd.read_csv("./data/dogNames2.csv")

>>> print (df)

Row_Labels Count_AnimalName

0 1 1

1 2 2

2 40804 1

3 90201 1

4 90203 1

... ... ...

16215 37916 1

16216 38282 1

16217 38583 1

16218 38948 1

16219 39743 1



[16220 rows x 2 columns]

>>> print (type(df))

8. pandas之缺失数据处理

一般情况下0，也是有意义的

对于NaN的数据，在numpy中我们是如何处理的？

在pandas中我们处理起来非常容易

判断数据是否为NaN：pd.isnull(df),pd.notnull(df)

处理方式1：删除NaN所在的行列dropna (axis=0, how='any', inplace=False)

处理方式2：填充数据，t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)

处理为0的数据：t[t==0]=np.nan

当然并不是每次为0的数据都需要处理

计算平均值等情况，nan是不参与计算的，但是0会

>>> import numpy as np

>>> t3=pd.DataFrame(np.arange(12).reshape(3,4), index=list("abc"), columns=list("WXYZ"))

>>> t3

W X Y Z

a 0 1 2 3

b 4 5 6 7

c 8 9 10 11

>>> t3.iloc[1:2,2:] = np.nan

>>> t3

W X Y Z

a 0 1 2.0 3.0

b 4 5 NaN NaN

c 8 9 10.0 11.0

>>> pd.isnull(t3)

W X Y Z

a False False False False

b False False True True

c False False False False

>>> pd.notnull(t3)

W X Y Z

a True True True True

b True True False False

c True True True True

>>> pd.notnull(t3["Y"])

a True

b False

c True

>>> t3.loc[pd.notnull(t3["Y"])]

W X Y Z

a 0 1 2.0 3.0

c 8 9 10.0 11.0

>>> t3

W X Y Z

a 0 1 2.0 3.0

b 4 5 NaN NaN

c 8 9 10.0 11.0

>>> t3.dropna(axis=0)

W X Y Z

a 0 1 2.0 3.0

c 8 9 10.0 11.0

>>> t3.dropna(axis=1)

W X

a 0 1

b 4 5

c 8 9

#how 默认是any，只要有1个na就丢掉这一行或者列，也可以设置all，这一行或者列全部是na才丢掉

>>> t3.dropna(axis=1, how="any")

W X

a 0 1

b 4 5

c 8 9

>>> t3.dropna(axis=1, how="all")

W X Y Z

a 0 1 2.0 3.0

b 4 5 NaN NaN

c 8 9 10.0 11.0

#inplace是对源文件进行修改，默认是False

>>> t3.dropna(axis=0,how="any",inplace=True)

>>> t3

W X Y Z

a 0 1 2.0 3.0

c 8 9 10.0 11.0



>>> t3

W X Y Z

a 0 1 NaN NaN

b 4 5 NaN NaN

c 8 9 10.0 11.0

>>> t3.fillna(0)

W X Y Z

a 0 1 0.0 0.0

b 4 5 0.0 0.0

c 8 9 10.0 11.0

>>> t3.fillna(100)

W X Y Z

a 0 1 100.0 100.0

b 4 5 100.0 100.0

c 8 9 10.0 11.0

>>> t3

W X Y Z

a 0 1 NaN NaN

b 4 5 NaN NaN

c 8 9 10.0 11.0

>>> t3.mean()

W 4.0

X 5.0

Y 10.0

Z 11.0

dtype: float64

>>> t3.fillna(t3.mean())

W X Y Z

a 0 1 10.0 11.0

b 4 5 10.0 11.0

c 8 9 10.0 11.0

>>> t3["Y"].fillna(t3["Y"].mean())

a 10.0

b 10.0

c 10.0

Name: Y, dtype: float64

>>> t3["Y"] = t3["Y"].fillna(t3["Y"].mean())

>>> t3

W X Y Z

a 0 1 10.0 NaN

b 4 5 10.0 NaN

c 8 9 10.0 11.0

>>> t3

W X Y Z

a 0 1 10.0 NaN

b 4 5 10.0 NaN

c 8 9 10.0 11.0

#求均值不会受NAN影响

>>> t3["Z"].mean()

11.0

注意：pandas处理完缺失数据后，索引通常不连续，所以需要更新索引：

pandas中的reset_index()

数据清洗时，会将带空值的行删除，此时DataFrame或Series类型的数据不再是连续的索引，可以使用reset_index()重置索引。

import pandas as pd import numpy as np df = pd.DataFrame(np.arange(20).reshape(5,4),index=[1,3,4,6,8]) print(df)

0 1 2 3 1 0 1 2 3 3 4 5 6 7 4 8 9 10 11 6 12 13 14 15 8 16 17 18 19

reset_index()重置索引：

print(df.reset_index())

index 0 1 2 3 0 1 0 1 2 3 1 3 4 5 6 7 2 4 8 9 10 11 3 6 12 13 14 15 4 8 16 17 18 19

在获得新的index，原来的index变成数据列，保留下来。

不想保留原来的index，使用参数 drop=True，默认 False。

print(df.reset_index(drop=True))

0 1 2 3 0 0 1 2 3 1 4 5 6 7 2 8 9 10 11 3 12 13 14 15 4 16 17 18 19

9. pandas之常用统计方法

In [180]: t2                                 

Out[180]:

        name  age   gender

0      lilei   18     male

1  hanmeimei   17   female

2   zhangwei   25  unknown



In [181]: t2['age'].mean()          

Out[181]: 20.0



In [182]: t2['age'].max()                         

Out[182]: 25



In [183]: t2['age'].argmax()                        

Out[183]: 2



In [184]: t2['age'].min()                       

Out[184]: 17



In [185]: t2['age'].argmin()                       

Out[185]: 1



In [186]: t2['age'].median()   

Out[186]: 18.0



In [188]: t3                                

Out[188]:

   name                   actors

0  leon  Ethan/Jacky/Kobe/Jordan

1   NBA           Paul/Wall/Beal

2  Dunk       Kevin/James/Durant



In [189]: t3['actors'].str.split('/')                 

Out[189]:

0    [Ethan, Jacky, Kobe, Jordan]

1              [Paul, Wall, Beal]

2          [Kevin, James, Durant]

Name: actors, dtype: object



In [191]: a = t3['actors'].str.split('/').tolist()

In [193]: a                                 

Out[193]:

[['Ethan', 'Jacky', 'Kobe', 'Jordan'],

 ['Paul', 'Wall', 'Beal'],

 ['Kevin', 'James', 'Durant']]



In [192]: print(len(set([i for j in a for i in j])))

10



In [195]: t2                                 

Out[195]:

        name  age   gender

0      lilei   18     male

1  hanmeimei   17   female

2   zhangwei   25  unknown



In [196]: t2.loc[2, 'gender']                  

Out[196]: 'unknown'



In [197]: t2.loc[2, 'gender'] = 'male'

In [198]: t2                                

Out[198]:

        name  age  gender

0      lilei   18    male

1  hanmeimei   17  female

2   zhangwei   25    male



In [199]: t2['gender'].unique()                       

Out[199]: array(['male', 'female'], dtype=object)

需求：假设现在我们有一组从2006年到2016年1000部最流行的电影数据，我们想知道这些电影数据中评分的平均分，导演的人数等信息，我们应该怎么获取？

数据来源：https://www.kaggle.com/damianpanek/sunday-eda/data

>>> df = pd.read_csv("data/IMDB-Movie-Data.csv")

>>> df

Rank Title Genre ... Votes Revenue (Millions) Metascore

0 1 Guardians of the Galaxy Action,Adventure,Sci-Fi ... 757074 333.13 76.0

1 2 Prometheus Adventure,Mystery,Sci-Fi ... 485820 126.46 65.0

2 3 Split Horror,Thriller ... 157606 138.12 62.0

3 4 Sing Animation,Comedy,Family ... 60545 270.32 59.0

4 5 Suicide Squad Action,Adventure,Fantasy ... 393727 325.02 40.0

.. ... ... ... ... ... ... ...

995 996 Secret in Their Eyes Crime,Drama,Mystery ... 27585 NaN 45.0

996 997 Hostel: Part II Horror ... 73152 17.54 46.0

997 998 Step Up 2: The Streets Drama,Music,Romance ... 70699 58.01 50.0

998 999 Search Party Adventure,Comedy ... 4881 NaN 22.0

999 1000 Nine Lives Comedy,Family,Fantasy ... 12435 19.64 11.0



[1000 rows x 12 columns]

>>> print(df.info())

RangeIndex: 1000 entries, 0 to 999

Data columns (total 12 columns):

Rank 1000 non-null int64

Title 1000 non-null object

Genre 1000 non-null object

Description 1000 non-null object

Director 1000 non-null object

Actors 1000 non-null object

Year 1000 non-null int64

Runtime (Minutes) 1000 non-null int64

Rating 1000 non-null float64

Votes 1000 non-null int64

Revenue (Millions) 872 non-null float64

Metascore 936 non-null float64

dtypes: float64(3), int64(4), object(5)

memory usage: 93.9+ KB

None

>>> print(df.head(1))

Rank Title Genre ... Votes Revenue (Millions) Metascore

0 1 Guardians of the Galaxy Action,Adventure,Sci-Fi ... 757074 333.13 76.0



[1 rows x 12 columns]

#获取所有电影平均评分

>>> print(df["Rating"].mean())

6.723199999999999

#获取所有导演数量

>>> print(len(set(df["Director"].tolist())))

644

>>> print(len(df["Director"].unique()))

644

#获取所有演员的数量

#先查看数据类型，是,分割的字符串

>>> print(df["Actors"].head())

0 Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...

1 Noomi Rapace, Logan Marshall-Green, Michael Fa...

2 James McAvoy, Anya Taylor-Joy, Haley Lu Richar...

3 Matthew McConaughey,Reese Witherspoon, Seth Ma...

4 Will Smith, Jared Leto, Margot Robbie, Viola D...

Name: Actors, dtype: object

>>> tmp_list = df["Actors"].str.split(",").tolist()

#tmp_list是大列表套小列表

>>> print(tmp_list)

... ['Robert Hoffman', ' Briana Evigan', ' Cassie Ventura', ' Adam G. Sevani'], ['Adam Pally', ' T.J. Miller', ' Thomas Middleditch', 'Shannon Woodward'], ['Kevin Spacey', ' Jennifer Garner', ' Robbie Amell', 'Cheryl Hines']]

#注意这种操作，非常巧妙

>>> actor_list = [i for j in tmp_list for i in j]

>>> print (len(set(actor_list)))

需求：对于这一组电影数据，如果我们想runtime的分布情况，应该如何呈现数据？

代码：


import numpy as np

import pandas as pd

from matplotlib import pyplot as plt



df = pd.read_csv("./data/IMDB-Movie-Data.csv")

Runtime_list = df["Runtime (Minutes)"].tolist()

bin_width = 5

bins = (max(Runtime_list) - min(Runtime_list))//bin_width

print( bins)

plt.figure(figsize=(16, 9), dpi=80)

plt.hist(Runtime_list, bins)

plt.xticks(range(min(Runtime_list), max(Runtime_list)+bin_width, bin_width))

plt.savefig("./t1.png")

10. Pandas数据合并

10.1 join把行索引相同的数据合并

>>> df1

a b c d

A 1.0 1.0 1.0 1.0

B 1.0 1.0 1.0 1.0

>>> df2

x y z

A 0.0 0.0 0.0

B 0.0 0.0 0.0

C 0.0 0.0 0.0

>>> df1.join(df2)

a b c d x y z

A 1.0 1.0 1.0 1.0 0.0 0.0 0.0

B 1.0 1.0 1.0 1.0 0.0 0.0 0.0

>>> df2.join(df1)

x y z a b c d

A 0.0 0.0 0.0 1.0 1.0 1.0 1.0

B 0.0 0.0 0.0 1.0 1.0 1.0 1.0

C 0.0 0.0 0.0 NaN NaN NaN NaN

10.2 merge按照指定的列把数据合并

>>> df1

a b c d

A 1.0 1.0 1.0 1.0

B 1.0 1.0 1.0 1.0

>>> df3

f a x

X 0 1 2

Y 3 4 5

Z 6 7 8

>>> df1.merge(df3, on="a")

a b c d f x

0 1.0 1.0 1.0 1.0 0 2

1 1.0 1.0 1.0 1.0 0 2

11. pandas之分组和聚合

分组方法：

在pandas中类似的分组的操作我们有很简单的方式来完成

df.groupby(by="columns_name")



In [230]: t2                                

Out[230]:

        name  age  gender

a      lilei   18    male

b  hanmeimei   17  female

c   zhangwei   25    male



In [238]: t2.sort_values(by="age")                  

Out[238]:

        name  age  gender

b  hanmeimei   17  female

a      lilei   18    male

c   zhangwei   25    male



In [233]: t2.groupby(by="gender")              

Out[233]:

In [234]: for i in t2.groupby(by="gender"):

     ...:     print (i)

('female',         name  age  gender

b  hanmeimei   17  female)

('male',        name  age gender

a     lilei   18   male

c  zhangwei   25   male)



In [240]: t2.groupby(by="gender").count()                 

Out[240]:

        name  age

gender          

female     1    1

male       2    2



In [241]: t2.groupby(by="gender").count()["name"]

Out[241]:

gender

female    1

male      2

Name: name, dtype: int64



In [242]: t2.groupby(by="gender")["name"].count() 

Out[242]:

gender

female    1

male      2

Name: name, dtype: int64



In [245]: t2.groupby(by="gender")["name"].count()["male"]

Out[245]: 2



In [246]: t2.groupby(by="gender").count()["name"]["male"]

Out[246]: 2



In [262]: t2[t2['gender']=="male"].groupby(by="name").count()      

Out[262]:

          age  gender

name                

lilei       1       1

zhangwei    1       1



In [267]: t2[t2['gender']=="male"].groupby(by="name")["name"].count().sort_values(ascending= False)[:50]                     

Out[267]:

name

zhangwei    1

lilei       1

Name: name, dtype: int64

12. pandas时间序列

先来复习一下python时间格式化：

strftime(）函数将指定的struct_time(默认为当前时间)，根据指定的格式化字符串输出

>>> from datetime import datetime

>>> datetime.now()

datetime.datetime(2020, 2, 7, 11, 40, 50, 266586)

>>> datetime.now().strftime('%Y-%m-%d %H:%M:%S %a')

'2020-02-07 11:40:53 Fri'

>>> datetime.now().strftime('%y-%m-%d %H:%M:%S %a')

'20-02-07 11:43:17 Fri'

>>> datetime.now().strftime('%y-%m-%d %H:%M:%S %A')

'20-02-07 11:43:48 Friday'

python中时间日期格式化符号：

%y 两位数的年份表示（00-99）

%Y 四位数的年份表示（000-9999）

%m 月份（01-12）

%d 月内中的一天（0-31）

%H 24小时制小时数（0-23）

%I 12小时制小时数（01-12）

%M 分钟数（00=59）

%S 秒（00-59）

%a 本地简化星期名称

%A 本地完整星期名称

%b 本地简化的月份名称

%B 本地完整的月份名称

%c 本地相应的日期表示和时间表示

%j 年内的一天（001-366）

%p 本地A.M.或P.M.的等价符

%U 一年中的星期数（00-53）星期天为星期的开始

%w 星期（0-6），星期天为星期的开始

%W 一年中的星期数（00-53）星期一为星期的开始

%x 本地相应的日期表示

%X 本地相应的时间表示

%Z 当前时区的名称

%% %号本身

>>> pd.date_range(start="20171230", end="20180131", freq="D")

DatetimeIndex(['2017-12-30', '2017-12-31', '2018-01-01', '2018-01-02',

'2018-01-03', '2018-01-04', '2018-01-05', '2018-01-06',

'2018-01-07', '2018-01-08', '2018-01-09', '2018-01-10',

'2018-01-11', '2018-01-12', '2018-01-13', '2018-01-14',

'2018-01-15', '2018-01-16', '2018-01-17', '2018-01-18',

'2018-01-19', '2018-01-20', '2018-01-21', '2018-01-22',

'2018-01-23', '2018-01-24', '2018-01-25', '2018-01-26',

'2018-01-27', '2018-01-28', '2018-01-29', '2018-01-30',

'2018-01-31'],

dtype='datetime64[ns]', freq='D')

>>> pd.date_range(start="20171230", end="20180131", freq="10D")

DatetimeIndex(['2017-12-30', '2018-01-09', '2018-01-19', '2018-01-29'], dtype='datetime64[ns]', freq='10D')

>>> pd.date_range(start="20171230", periods=10, freq="10D")

DatetimeIndex(['2017-12-30', '2018-01-09', '2018-01-19', '2018-01-29',

'2018-02-08', '2018-02-18', '2018-02-28', '2018-03-10',

'2018-03-20', '2018-03-30'],

dtype='datetime64[ns]', freq='10D')

>>> pd.date_range(start="20171230", periods=10, freq="M")

DatetimeIndex(['2017-12-31', '2018-01-31', '2018-02-28', '2018-03-31',

'2018-04-30', '2018-05-31', '2018-06-30', '2018-07-31',

'2018-08-31', '2018-09-30'],

dtype='datetime64[ns]', freq='M')

>>> pd.date_range(start="20171230", periods=10, freq="T")

DatetimeIndex(['2017-12-30 00:00:00', '2017-12-30 00:01:00',

'2017-12-30 00:02:00', '2017-12-30 00:03:00',

'2017-12-30 00:04:00', '2017-12-30 00:05:00',

'2017-12-30 00:06:00', '2017-12-30 00:07:00',

'2017-12-30 00:08:00', '2017-12-30 00:09:00'],

dtype='datetime64[ns]', freq='T')

>>> index=pd.date_range("20170101",periods=10)

>>> df = pd.DataFrame(np.random.rand(10),index=index)

>>> df

0

2017-01-01 0.094399

2017-01-02 0.923081

2017-01-03 0.980860

2017-01-04 0.167984

2017-01-05 0.504205

2017-01-06 0.921958

2017-01-07 0.881825

2017-01-08 0.405544

2017-01-09 0.196156

2017-01-10 0.347028

>>> pd.date_range(start="2017/12/30 10:10:10", periods=10, freq="T")

DatetimeIndex(['2017-12-30 10:10:10', '2017-12-30 10:11:10',

'2017-12-30 10:12:10', '2017-12-30 10:13:10',

'2017-12-30 10:14:10', '2017-12-30 10:15:10',

'2017-12-30 10:16:10', '2017-12-30 10:17:10',

'2017-12-30 10:18:10', '2017-12-30 10:19:10'],

dtype='datetime64[ns]', freq='T')

重采样：指的是将时间序列从一个频率转化为另一个频率进行处理的过程，将高频率数据转化为低频率数据为降采样，低频率转化为高频率为升采样

pandas提供了一个resample的方法来帮助我们实现频率转化

In [273]: t = pd.DataFrame(np.random.uniform(10, 50, (100, 1)), index= pd.date_range("20170101", periods=100))

In [274]: t                        

Out[274]:

     0

2017-01-01  33.534974

2017-01-02  15.102734

2017-01-03  28.826946

2017-01-04  10.063349

2017-01-05  20.740533

...               ...

2017-04-06  28.283353

2017-04-07  41.277973

2017-04-08  13.308545

2017-04-09  36.027962

2017-04-10  40.969535



[100 rows x 1 columns]



In [278]: t.resample("10D").mean()                     

Out[278]:

                    0

2017-01-01  27.914261

2017-01-11  28.681582

2017-01-21  31.130641

2017-01-31  30.972632

2017-02-10  31.600134

2017-02-20  29.230198

2017-03-02  30.104250

2017-03-12  30.276918

2017-03-22  26.510953

2017-04-01  31.701654



>>> import pandas as pd

>>> df = pd.read_csv("./data/911.csv")

>>> df["timeStamp"]

0 2015-12-10 17:10:52

1 2015-12-10 17:29:21

2 2015-12-10 14:39:21

3 2015-12-10 16:47:36

4 2015-12-10 16:56:52

...

249732 2017-09-20 19:38:35

249733 2017-09-20 19:37:39

249734 2017-09-20 19:42:36

249735 2017-09-20 19:42:05

249736 2017-09-20 19:42:29

Name: timeStamp, Length: 249737, dtype: object

>>> df["timeStamp"] = pd.to_datetime(df["timeStamp"])

>>> df["timeStamp"]

0 2015-12-10 17:10:52

1 2015-12-10 17:29:21

2 2015-12-10 14:39:21

3 2015-12-10 16:47:36

4 2015-12-10 16:56:52

...

249732 2017-09-20 19:38:35

249733 2017-09-20 19:37:39

249734 2017-09-20 19:42:36

249735 2017-09-20 19:42:05

249736 2017-09-20 19:42:29

Name: timeStamp, Length: 249737, dtype: datetime64[ns]

可以看到经过处理dtype变了；

综合练习：

现在我们有2015到2017年25万条911的紧急电话的数据，

数据来源：https://www.kaggle.com/mchirico/montcoalert/data

1.统计出911数据中不同月份电话次数的变化情况

代码：

import pandas as pd

from matplotlib import pyplot as plt

df = pd.read_csv("./data/911.csv")

df["timeStamp"] = pd.to_datetime(df["timeStamp"])

df["cate"] = pd.DataFrame([i[0] for i in df["title"].str.split(":")])

df = df.set_index("timeStamp")

resampled = df["lng"].resample("M").count()

_x = resampled.index

_y = resampled.values

plt.figure(figsize=(16,9), dpi=80)

plt.bar(range(len(_y)), _y)

plt.xticks(range(len(_y)), _x.strftime('%Y-%m'), rotation=45)

plt.savefig("t148_1.png")

13. pandas apply()函数

先来复习一下python时间格式化：

Series.apply()

回到主题， pandas 的 apply() 函数可以作用于 Series 或者整个 DataFrame，功能也是自动遍历整个 Series 或者 DataFrame, 对每一个元素运行指定的函数。

举一个例子，现在有这样一组数据，学生的考试成绩：

Name Nationality Score 张汉 400 李回 450 王汉 460

如果民族不是汉族，则总分在考试分数上再加 5 分，现在需要用 pandas 来做这种计算，我们在 Dataframe 中增加一列。当然如果只是为了得到结果， numpy.where() 函数更简单，这里主要为了演示 Series.apply() 函数的用法。

import pandas as pd

df = pd.read_csv("studuent-score.csv")

df['ExtraScore'] = df['Nationality'].apply(lambda x : 5 if x != '汉' else 0)

df['TotalScore'] = df['Score'] + df['ExtraScore']

对于 Nationality 这一列， pandas 遍历每一个值，并且对这个值执行 lambda 匿名函数，将计算结果存储在一个新的 Series 中返回。上面代码在 jupyter notebook 中显示的结果如下：

Name Nationality Score ExtraScore TotalScore 0 张汉 400 0 400 1 李回 450 5 455 2 王汉 460 0 460

apply() 函数当然也可执行 python 内置的函数，比如我们想得到 Name 这一列字符的个数，如果用 apply() 的话：

df['NameLength'] = df['Name'].apply(len)

DataFrame.apply()

DataFrame.apply() 函数则会遍历每一个元素，对元素运行指定的 function。比如下面的示例：

import pandas as pd

import numpy as np

matrix = [ [1,2,3], [4,5,6], [7,8,9] ]

df = pd.DataFrame(matrix, columns=list('xyz'), index=list('abc'))

df.apply(np.square)

x y z

a 1 4 9

b 16 25 36

c 49 64 81

如果只想 apply() 作用于指定的行和列，可以用行或者列的 name 属性进行限定。比如下面的示例将 x 列进行平方运算：

df.apply(lambda x : np.square(x) if x.name=='x' else x)

x y z

a 1 2 3

b 16 5 6

c 49 8 9

下面的示例对 x 和 y 列进行平方运算：

df.apply(lambda x : np.square(x) if x.name in ['x', 'y'] else x)

x y z

a 1 4 3

b 16 25 6

c 49 64 9

下面的示例对第一行（a 标签所在行）进行平方运算：

df.apply(lambda x : np.square(x) if x.name == 'a' else x, axis=1)

>>> df.apply(lambda x : np.square(x) if x.name == 'a' else x, axis=1)

x y z

a 1 4 9

b 4 5 6

c 7 8 9

默认情况下 axis=0 表示按列，axis=1 表示按行。

apply() 计算日期相减示例

平时我们会经常用到日期的计算，比如要计算两个日期的间隔，比如下面的一组关于 wbs 起止日期的数据：

wbs date_from date_to

job1 2019-04-01 2019-05-01

job2 2019-04-07 2019-05-17

job3 2019-05-16 2019-05-31

job4 2019-05-20 2019-06-11

假定要计算起止日期间隔的天数。比较简单的方法就是两列相减（datetime 类型)：

import pandas as pd

import datetime as dt

wbs = { "wbs": ["job1", "job2", "job3", "job4"], "date_from": ["2019-04-01", "2019-04-07", "2019-05-16","2019-05-20"], "date_to": ["2019-05-01", "2019-05-17", "2019-05-31", "2019-06-11"] }

df = pd.DataFrame(wbs)

df['elpased'] = df['date_to'].apply(pd.to_datetime) -df['date_from'].apply(pd.to_datetime)

apply() 函数将 date_from 和 date_to 两列转换成 datetime 类型。我们 print 一下 df:

wbs date_from date_to elapsed 0 job1 2019-04-01 2019-05-01 30 days 1 job2 2019-04-07 2019-05-17 40 days 2 job3 2019-05-16 2019-05-31 15 days 3 job4 2019-05-20 2019-06-11 22 days

日期间隔已经计算出来，但后面带有一个单位 days，这是因为两个 datetime 类型相减，得到的数据类型是 timedelta64，如果只要数字，还需要使用 timedelta 的 days 属性转换一下。

elapsed= df['date_to'].apply(pd.to_datetime) - df['date_from'].apply(pd.to_datetime)

df['elapsed'] = elapsed.apply(lambda x : x.days)

使用 DataFrame.apply() 函数也能达到同样的效果，我们需要先定义一个函数 get_interval_days() 函数的第一列是一个 Series 类型的变量，执行的时候，依次接收 DataFrame 的每一行。

你可能感兴趣的:(python,开发语言)

python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
从单体脚本到模块化设计：Python工程师的架构思维跃迁
引言：从“一团乱麻”到“乐高积木”你是否曾经打开一个Python脚本，里面密密麻麻挤着上千行代码？函数相互缠绕，全局变量随处可见，想改一个小功能却心惊胆战，生怕牵一发而动全身？这就是典型的“单体脚本”(MonolithicScript)困境。作为过来人，我深知这种痛苦。本文将手把手带你跳出这个泥潭，掌握模块化设计的核心思想，并初步建立宝贵的架构设计思维，让你的代码从“勉强运行”跃迁到“优雅可维护”
python json 反序列化-V1 CATTLECODE python json 开发语言
在编程中，‌反序列化函数‌用于将序列化后的数据（如JSON、XML等格式）重新转换为程序可操作的对象或数据结构。以下是不同语言和场景下的实现方式及特点：‌1.Python中的反序列化‌‌(1)标准库json模块‌‌json.loads()‌：将JSON字符串反序列化为Python对象（如字典、列表）。importjsonjson_str='{"name":"Alice","age":25}'dat
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
day49-ansible初体验朱包林 linux python 运维服务器云计算
1.选型工具说明缺点xshell不适应机器过多场景，需要连接后才能用for+ssh/scp+密钥认证密钥认证，免密码登录scp传输文本/脚本ssh远程执行命令或脚本串行saltstack需要安装客户端ansible无客户端（密钥认证）批量部署环境需要新python版本，被红帽收购了Terraform关注基础设施（云环境），一键创建100台云服务器，一键创建负载均衡，数据库产品2.ansible架构
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。