Mercy92

【Pandas】实操手册

文章目录

- - 一、读取数据
  - - 1.导包
    - 2.从csv导入数据
    - 3.从excel导入文件
    - 4.从数据库读取数据
    - 5.读取网页表格
  - 二、属性更改
  - - 1.针对某（些）个字段（列）|索引更名
  - 三、结构变动
  - - 1.插入行
    - - a.在指定位置插入：
      - STEP1：分割
        
        STEP2：添加——底部追加内容
        
        STEP3：合并——多个dataframe堆叠
      - b.默认位置（尾部）：
    - 2.插入列
    - - a.在指定位置插入：
      - b.默认插入(尾部)：
    - 3.一般方法删除指定行或列（按照索引或列名）
    - - a.删除行
      - STEP1：获取记录index
        
        STEP2：删除索引所在行
      - b.删除列
    - 4.调整列顺序
    - 5.去除重复记录
    - 6.删除空行|空列
    - 7.连接merge
    - 8.透视
    - 9.排序
    - 10.get_dummies() 方法-按照内容分列，以0-1作为布尔结果填充
  - 四、筛选数据
  - - 1.按照行列名来筛选行或者列
    - 2.按照列值条件来筛选记录
    - - (1).单列条件筛选记录
      - 1).筛选某列包含某字符串的记录
        
        2).从某列筛选等于|不等于某值的记录
        
        3).从某列筛选等于|不等于某些值的记录
        
        4).找到重复的记录 | 非重复的记录-提取汇总项
        
        5).找到空值记录|非空值记录
      - (2).多个列组合筛选
  - 五、列的值处理
  - - 1.填充空值
    - - a.直接填充
      - b.规律填充（内插法）
    - 2.单列赋值
    - 2.替换单个值和批量替换值
    - 3.类型转换：日期-数值-字符串转换
    - - 1)字符串类型的数据，转换成日期
      - 2)日期转成指定样式的字符串
      - 3)字符串转数值
      - 4)数值转字符串
      - 5)从日期提取数值
  - 六、字符串内容的处理
  - - 1.由现有的两列拼接成一个新的字段
    - 2.查找子串在字符值中的位置
    - 3.返回指定位置的字符
    - 4.判断字符值中是否包含子串
    - 5.计算子串在字符值中的出现次数
    - 6.替换字符值中的子串
    - 7.去除字符串前后空格或指定字符
    - 8.根据字符分割整字符串,再截取子串
    - 9.字符大小写
    - 10.使用函数-实现字符处理
    - 11.使用正则表达式
  - 七、构建函数公式计算字段
  - - 1.函数写法
    - 2.公式写法
  - 八、分组
  - - 1.分组
    - 2.分组聚合计算
    - 3.取指定列来分组聚合计算/分组聚合计算后取指定列
    - 4.分组聚合指定列排序后取topN
  - 九、索引—列的转换，索引-维度转换
  - - 1.索引转列
    - 2.列转索引
    - 3.索引-维度
    - 4.维度-索引
  - 十、文件存储
  - - 1.保存到excel
    - 2.同名文件避免被替换：同一文件夹文件重名时增序命名
    - 3.保存到数据库
  - CASE

一、读取数据

1.导包

import pandas as pd

2.从csv导入数据

pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', 
			names=None, index_col=None, usecols=None, squeeze=False, 
			prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, 
			converters=None, true_values=None, false_values=None, 
			skipinitialspace=False, skiprows=None, nrows=None, 
			na_values=None, keep_default_na=True, na_filter=True, 
			verbose=False, skip_blank_lines=True, parse_dates=False, 
			infer_datetime_format=False, keep_date_col=False, 
			date_parser=None, dayfirst=False, iterator=False, chunksize=None,
			compression='infer', thousands=None, decimal=b'.', 
			lineterminator=None, quotechar='"', quoting=0, escapechar=None, 
			comment=None, encoding=None, dialect=None, tupleize_cols=None,
			error_bad_lines=True, warn_bad_lines=True, skipfooter=0,
			doublequote=True, delim_whitespace=False, low_memory=True,
			memory_map=False, float_precision=None)

df=pd.read_csv('file.csv',encoding='utf')

如果文件名带中文，上述方法可能报初始化错误，使用以下方法：
f=open('文件.csv')或wirh open('文件.csv') as f:
df = pd.read_csv(f)

with open('文件.csv',encoding='utf-8') as f:
    df=pd.read_csv(f)

该方法其实有很多参数可以实现很多功能，比如在读取文件的时候设定参数na_value='值‘，就可以将该表中为该值的数据当做成np.nan,当然这些功能也可以在read之后实现。参考：pandas系列 read_csv 与 to_csv 方法各参数详解（全，中文版）

tip:批量读表

#first订单1-3.csv和其他以”订单“开头的表结构相同
df_orderpd.read_csv(r'first订单1-3.csv',dtype={'员工邀请码': 'str'})
#https://laowangblog.com/python-pandas-csv-dtypewarning-mixed-types.html
pat=re.compile('订单.*?')
for file_name in os.listdir(os.getcwd()):
    if re.match(pat,file_name):
        df_order=pd.concat([df_order,pd.read_csv(file_name,dtype={'员工邀请码': 'str'})])

3.从excel导入文件

pd.read_excel(file.xlsx')

df_order=pd.read_excel('file名.xlsx')

该方法接受文件名带中文

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, 
			  usecols=None, squeeze=False, dtype=None, engine=None, 
			  converters=None, true_values=None, false_values=None, 
			  skiprows=None, nrows=None, na_values=None, parse_dates=False, 
			  date_parser=None, thousands=None, comment=None, skipfooter=0, 
			  convert_float=True, **kwds)

该方法有很多参数可以应对不同的情况，例如指定工作表等。

4.从数据库读取数据

连接数据库参考：
[Python]第十三章数据库支持
【Python小笔记】Python连接Oracle数据库——cx_Oracle

pandas.read_sql(sql, con, index_col=None, coerce_float=True, params=None, 
				parse_dates=None, columns=None, chunksize=None)

sqllite3

import pandas as pd
import sqllite3
with sqllite3.connect('country_stat.sqlite') as cons:
    dfs = pd.read_sql('SELECT * FROM regional_gross_product WHERE year = 2015 ORDER BY gross_product DESC LIMIT 3', con = cons)
dfs.head()

mysql
没有自带__enter__() 和 __exit__() 方法，不能直接使用with上下文管理器，推荐阅读使用with语句优化pymysql的操作

import pymysql
conm=pymysql.connect('localhost','root','123456','mytest')
dfm=pandas.read_sql('SELECT * FROM EMPLOYEES',con=conm)
conm.close()
dfm.head()

oracle

import cx_Oracle
name='scott'
pwd='tiger'
add='localhost/orcl.16.2.133'
with cx_Oracle.connect(name,pwd,add) as cono:
    dfo=pandas.read_sql('SELECT * FROM EMP WHERE DEPTNO=20',con=cono)
dfo.head()

5.读取网页表格

pd.read_html(io, match='.+', flavor=None, header=None, index_col=None, 
			skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None,
			thousands=',', encoding=None, decimal='.', converters=None, 
			na_values=None, keep_default_na=True, displayed_only=True)

二、属性更改

1.针对某（些）个字段（列）|索引更名

df.rename(mapper=None, index=None, columns=None, axis=None, copy=True, inplace=False, level=None)

df_order.rename(columns={'下单日期':'日期','下单小时':'小时'},inplace=True)
或
df_order.rename({'下单日期':'日期','下单小时':'小时'},axis='columns',inplace=True)
#inplace=True对原dataframe进行修改

该方法可以更改列名或行名或更改标签值类型
如果需要改的列名特别多，可以直接给df的columns属性赋值，修改全部列名

df.columns=['年','周','频道','性别','销售数量','销售金额']

三、结构变动

1.插入行

a.在指定位置插入：

STEP1：分割

df=pd.DataFrame([list('abc'),list('anf'),list('abc'),list('fgc'),list('rbc')])
df_p1=df[:2]
df_p2=df[2:]

STEP2：添加——底部追加内容

df.append(other, ignore_index=False, verify_integrity=False, sort=None)

ser_m=pd.Series([44,55,66])
df_p1=df_p1.append(ser_m,ignore_index=True)

STEP3：合并——多个dataframe堆叠

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True)
该方法不仅可以上下堆叠，还可以左右堆叠

df=df_p1.append(df_p2,ignore_index=True)
或
df=pd.concat([df_p1,df_p2],ignore_index=True]

b.默认位置（尾部）：

append方法可以快速在底部追加

df=df.append(ser_m,ignore_index=True)
df=df.append(df_new,ignore_index=True)

concat不截断，就是默认在底部合并

df=pd.concat([df,df_new],ignore_index=True]

如果知道要添加的行的索引,直接赋值（注意如果索引号错误则会覆盖原df数据）

df.iloc[5]=ser_m

参考：【Python数据科学手册】Pandas——七、合并数据集：Concat和Append操作

2.插入列

a.在指定位置插入：

df.insert(loc, column, value, allow_duplicates=False)

df.insert(7,'brand_supplier',brand_supplier)

插入的列除了源dataframe结构的序列，也可以是常量，或者空值np.nan
但是这种方法只能一次插入单列

b.默认插入(尾部)：

如果不需要指定位置插入，直接单列赋值，如df['new']=11，会在最后列添加’new’列
指定列方向，使用concat方法也可以合并列，如果需要指定位置，可以插入后调整列序

pd.concat([df,df_new],axis=1)

3.一般方法删除指定行或列（按照索引或列名）

a.删除行

(1). 先获取索引，再使用drop方法删除

STEP1：获取记录index

获取索引的方法见下文<单列条件筛选记录>
df[条件序列].index
ser[条件序列].index

del_index=df[df['subcategory'].isin(list_type)].index
ser_nor[ser_nor>1].index

STEP2：删除索引所在行

df.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
其中：axis=0代表行，axis=1代表列

df=df.drop(del_index,axis=0,inplace=True)

(2). 如果条件不复杂，条件取反后赋值给原df

df=df.query('ID!=12123')
df

b.删除列

del df[列名]
df=df.drop(列名，1)
df.drop(列名，axis=1,inpalce=True)

df_house.drop('Brick',axis=1)
df_house.drop(['No','West','Brick','Neighborhood'],axis=1)

如果需要删除的列太多而要保留的列很少，或者只需要从原df中选取指定的某（几）列，可以列表选取后直接赋值
df=df[['列名1','列名2',...]]
当然列表中也可以只有一个元素，表示只有一列的dataframe,需要与df['列名']这个Series区别
df=df[['列名']]

4.调整列顺序

如果仅调整某列的位置，可以取出-删除-插入

df_id = df.id
df = df.drop('id',axis=1)
df.insert(0,'id',df_id)

如果要调整的列比较繁杂，可以直接定义好列序，赋值给原df即可

df=df[['姓名','年龄','工号']]

或者使用reindex方法(reindex方法还可以插入空列)

df_sp=df_sp.reindex(columns=list('卫室厅厨'))

5.去除重复记录

去除重复记录，可以用删除的一般方法，先用duplicated()找到重复数据的索引，再drop删除，也可以直接使用：
df.drop_duplicates(subset=None, keep='first', inplace=False)
df.drop_duplicates(subset=['姓名','性别'], keep='first', inplace=False)

6.删除空行|空列

df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

axis：0删除行，1删除列
how：'any’表示一旦有缺失值就删除，'all’表示全部是缺失值才删除
thresh：设置缺失值个数的删除边界，一旦超过某值，就删除
subset：要删除的行或列的标签列表
inplace：是否更新到原df

#删除’作者ID‘列有空值的所在行
df_cont.dropna(axis=0,subset=['作者ID'],inplace=True)

7.连接merge

merge操作类似于excel中vlookup的存在，在sql中效通join，一般会伴随这字段的新增或更改。
df.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

df=df1.merge(right=df2,how='left',on=['店铺名称','日期','小时'])
df_A=df_A1.merge(right=df_A2,how='left',left_on=['公司名','业务主体'],right_on=['公司名','业务线'])

8.透视

df.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

df_pv_pivot=df_pv.pivot_table(index=['资讯ID','日期'],values='PV',aggfunc='sum')

参考：【Python数据科学手册】Pandas——十、数据透视表 df. pivot_table

9.排序

df.sort_index()按索引排序
df.sort_value()按某列值排序
df.rank()排名
注意：通过axis参数可以指定行排序

df.sort_values(by='PV',ascending=False)

如果需要取topN,或者倒序取topN，可以先排序后切片

df.sort_values(by='销售',ascending=False).iloc[:5]

也可以使用df.nlargest()和df.nsmallest()直接取

df.nlargest(5,'销售')

对于分组取topN，可以使用以下函数，内涵也是先排序后切片

#分组df取topN
def func(x,N,asc):
    return x.sort_values('population',ascending=asc)[:N]
df.groupby('continent').apply(func,N=3,asc=False)

10.get_dummies() 方法-按照内容分列，以0-1作为布尔结果填充

get_dummies()
作为普通方法，将整个值内容提取作为新列

pd.get_dummies(df['朝向'])

作为str方法，按照特定符号提取字符作为新列

df['info'].str.get_dummies(',')

四、筛选数据

1.按照行列名来筛选行或者列

单列df[列名]，多列可以使用df.filter()，改方法也可筛选行

#取列名取列
df.filter(regex='.*销.*')
df.filter(items=['销售'])
df.filter(like='销')

#取索引名取行
df.set_index('客户').filter(like='华鼎',axis='index')
#先用set_index方法给每一行设置一个索引名作为行名，再去筛选这个行名

2.按照列值条件来筛选记录

选取数据的方法有很多种，本节简单使用df[条件]选取符合条件的行记录，列全部保留。
实际操作中使用索引器loc\iloc可以灵活选取所需数据，包括列的选择，例如

df[df['ID']==12121].iloc[:,2:5]#df[条件].iloc[:,列号:列号]

等价于掩码操作

df.loc[df['ID']==12121,'标题':'编辑']#df.loc[条件,列名:列名]

也可以使用df.query()方法取，适用于运算条件，例如：

df.query('ID==12121').loc[:,'标题':'编辑']#df.query(字符串表达式).loc[:,列名:列名]

参考【Python数据科学手册】Pandas——三、数据取值与选择
参考【Python数据科学手册】Pandas——十三、高性能的Pandas:eval()和query()

(1).单列条件筛选记录

1).筛选某列包含某字符串的记录

df[df[列名].str.contains(正则表达式)]

df[df['brand_supplier'].str.contains('.*华鼎.*')]

2).从某列筛选等于|不等于某值的记录

不等于：!=
df[df[列名]==值]
df[df[列名]!=值]

df[df['shop_name']=='XXXTRENTA']
df[df['shop_name']!='XXXTRENTA']

3).从某列筛选等于|不等于某些值的记录

非：~
df[df[列名].isin(列表)]
df[~df[列名].isin(列表)]

list_type=['运动','美妆','男装','女装']
df[df['subcategory'].isin(list_type)]
df[~df['subcategory'].isin(list_type)]

4).找到重复的记录 | 非重复的记录-提取汇总项

（同样的记录第一次出现是非重复，之后又出现的都算重复）
df[df.duplicated(subset=None, keep='first')]
df[~df.duplicated(subset=None, keep='first')]
subset是列名或列名集合，用它来定义重复，缺失默认全字段重合的数据才是重复。

#重复的记录
df_passenger[df_passenger.duplicated('店铺名称')]
#非重复的记录
df_passenger[~df_passenger.duplicated('店铺名称')]

EXTEND:
如果要提取汇总项，除了上述方法找到非重复记录后取该列，

df_passenger[~df_passenger.duplicated('店铺名称')]['店铺名称']#pandas.core.series.Series

也可以用分组groupby汇总项索引转列后提取使用

df_passenger.groupby(by='店铺名称').count().reset_index()['店铺名称']#pandas.core.series.Series

或者df[列名].unique()——最快捷

df_passenger['店铺名称'].unique()#numpy.ndarray, len()得到非重复个数

甚至可以对汇总项快速计数df[列名].value_counts()

df_passenger['店铺名称'].value_counts()#pandas.core.series.Series

5).找到空值记录|非空值记录

判断某行或者某列是否有空值
df.any()存在
df.all()全部

#查看全列
df.isnull()#返回一个dataframe，和原dataframe的结果一一对应
df.isnull().any()#得到一个序列对应每列的结果
df.isnull().values.any()#得到一个布尔值，反应整体的结果
df.isnull().sum()#加总布尔值True等价于1，合计每列有多少个缺失值
df.isnull().sum().sum()#将所有列的缺失值都加总
#或者仅查看某列
df['客户'].isnull()#得到一个序列对应改列每一个值的结果
df['客户'].isnull().any()#得到该列的整体结果
df['客户'].isnull().sum()#合计该列的缺失值数

空值记录：df[pd.isna(df[列名])]等价于df[pd.isnull(df[列名])]

df[pd.isna(df['name'])]

非空值记录：df[pd.notna(df[列名])]等价于df[pd.notnull(df[列名])]

(2).多个列组合筛选

与：df[(条件列筛选序列1)&(条件列筛选序列2)]
或：df[(条件列筛选序列1)|(条件列筛选序列2)]
异或：df[(条件列筛选序列1)^(条件列筛选序列2)]

df[(df['brand_supplier'].str.contains('.*华鼎.*'))&(df['shop_name']!='XXXTRENTA')]

五、列的值处理

1.填充空值

a.直接填充

df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

单列填充空值df[列名].fillna(值)
全表填充空值df.fillna(值)

这里的value可以是scalar, dict, Series, or DataFrame，不能是list

df['subcategory'].fillna('其它')
df['age'].fillna(df['age'].mean())#填充平均值
df['age'].fillna(df.groupby('gender')['age'].transform('mean'))#填充分组平均值

transform参考：【Python数据科学手册】Pandas——九、累计与分组groupby

method：‘pad’、'ffill’向后填充（用上一位的值填空值），‘bfill’、'backfill’向前填充
limit：要填多少个值

df.fillna(method="bfill", limit = 2)

b.规律填充（内插法）

df2 = pd.DataFrame([[1, 870],\
                    [2, 900],\
                    [np.nan, np.nan],\
                    [4, 950],\
                    [5,1080],\
                    [6,1200]])
df2.columns = ['time', 'val']
df2.interpolate()

详细参考scipy库官方文档interpolate部分

2.单列赋值

df[列名]=值
这里的值可以是函数应用公式（见第七节），也可以是常量

df['channel']='淘宝'

如果原先没有该列，则会默认在dataframe的最后添加新列。

2.替换单个值和批量替换值

(1)单值替换
方法1：定位要替换的值后直接赋替换后的值：df.loc[df[列名]==被替换的值,列名]=值

df.loc[df['subcategory']=='关店','subcategory']='其它'

方法2：replace方法df.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')

df['subcategory']=df['subcategory'].replace('关店','其它')

(2)批量替换

一对一

#方法一:使用列表，保证顺序对应
xlist=['A','B','C']
ylist=['a','b','c']
#for o,l in zip(xlist,ylist):
#	df[列名]=df[列名].replace(o,l)
df[列名].replace(xlist,ylist,inplace=True)

#方法二:使用字典
mapdict={'A':'a','B':'b','C':'c'}
#for m in maplist:
#	df[列名]=df[列名].replace(m,mapdict[m])
df[列名].replace(mapdict)

多对一

#条件查找，模糊替换
df.loc[pd.to_numeric(df_pp.loc[:,'年季'].str[0:2])<=17,'年季']='17年以前'

#确值替换
df['姓名'].replace(['张倩','张茜'],'张芊')

3.类型转换：日期-数值-字符串转换

主要方法有:

pandas内置函数、
自定义函数、
numpy中的强制类型交换方法astype(dtype, order='K', casting='unsafe', subok=True, copy=True)
| b boolean
| i signed integer
| u unsigned integer
| f floating-point
| c complex floating-point
| m timedelta
| M datetime
| O object
| S (byte-)string
| U Unicode
| V void
参考：https://www.jb51.net/article/175212.htm

1)字符串类型的数据，转换成日期

对于形似日期的字符串数据，可以转换成真正的日期

对于单个数据：
from dateutil import parser
parser.parse(string)

from dateutil import parser
date=parser.parse('2020-6-1')
date
>>>datetime.datetime(2020, 6, 1, 0, 0)

对于pandas序列：
pd.to_datetime(df[列名])

pd.to_datetime(df_order['日期'],format="%Y-%m-%d")#这里format是传入的格式

或者
df[列名].astype('M')datetime64[ns]

2)日期转成指定样式的字符串

对于单个数据：
date.strftime(样式)

date.strftime("%Y%m%d")
>>>'20200601'
#获取当天日期
import time
time.strftime('%Y%m%d')
#或者
import datetime
datetime.date.today().strftime('%Y%m%d')
#动态相对日期（两天前）
(datetime.date.today()-datetime.timedelta(2)).strftime('%Y-%m-%d')

datetime库参考：Python中datetime库的用法
时间相关资料：
[Python]第十章开箱即用
【Python数据科学手册】Pandas——十二、处理时间序列

对于pandas序列，没有直接的转换方法，需要使用函数转换
df[列名].apply(lambda x:x.strftime(指定格式))

pd.to_datetime(df_order['日期']).apply(lambda x:x.strftime("%Y%m%d"))
或者
def dtos(x):
    return x.strftime("%Y%m%d")
pd.to_datetime(df_order['日期']).apply(dtos)

3)字符串转数值

对于单个数据，直接int(string)即可
对于pandas序列
pd.to_numeric(df[列名]）

df_order['日期']=pd.to_numeric(pd.to_datetime(df_order['日期']).apply(lambda x:x.strftime("%Y%m%d")))

或者
df[列名].astype('int')int32

4)数值转字符串

str(number)

df_order['年龄'].apply(lambda x:str(x))

或者
df[列名].astype('str')object

5)从日期提取数值

对于单个数据

import datetime
d=datetime.datetime.now()
d
>>>datetime.datetime(2020, 8, 26, 10, 19, 25, 910701)
#年、月、日、时、分、秒、微秒
d.year,d.month,d.day,d.hour,d.minute,d.second,d.microsecond
(2020, 8, 26, 10, 19, 25, 910701)

对于pandas序列

#year年, month月, day日,date日期,hour小时
df['日期'].dt.date

取相差天数

(pd.to_datetime('2020-12-25',format='%Y-%m-%d')-df_rfm['ORDERDATE']).dt.days

六、字符串内容的处理

这里是对字符串值的字符内容的处理，与字段内容处理不同，例如替换值，excel里面是ctrl+h，python里参考本文，可以用df[A].replace()方法；
而本节是针对字符串内容的处理，在excel中替换字符用的是substitute函数,python里面需要df[A].str.replace()。
大部分在python基础中学习的对字符串的方法，这里都能实现

查看这些内置方法：help(pd.Series.str)阅读英文帮助文档
参考文档：
【Python数据科学手册】Pandas——十一、向量化字符串操作str
https://blog.csdn.net/qq_28219759/article/details/52919233

1.由现有的两列拼接成一个新的字段

df[A].str.cat(df[B])

brand_supplier=df['brand_name'].str.cat(df['supplier_name'])

如果两个字段是形同类型的字符串，也可以直接用加号

brand_supplier=df['brand_name']+df['supplier_name']

但是如果有字段不是字符类型，需要先将该字段转成字符类型

df['总价'].astype('str').str.cat(df['价格单位'])

2.查找子串在字符值中的位置

df[A].str.find(childstring)

df['店铺名称'].str.find('餐厅')

3.返回指定位置的字符

返回单个字符df[A].str.get(index)

df['店铺名称'].str.get(0)

返回片段用切片

df['店铺名称'].str[:3]

4.判断字符值中是否包含子串

df[A].str.contains(childstring)

df['店铺名称'].str.contains('餐厅')

5.计算子串在字符值中的出现次数

df[A].str.count(childstring)

df['店铺名称'].str.count('餐厅')

6.替换字符值中的子串

df[A].str.replace(原字符,后字符)

df['姓名'].str.replace('三','二')#将‘三替’换成‘二’

字符串中的replace一般只可以一个字符串对应一个字符串替换，不能是列表或字典。

7.去除字符串前后空格或指定字符

#建筑年代：1996\r\n
df['age'].str.strip().str.strip('建筑年代：')
>>>1996

同

df['age'].map(lambda e:e.strip().strip('建筑年代：') )

8.根据字符分割整字符串,再截取子串

df[A].str.split(childstring)

df['姓名'].str.split('三').str[-1]
df['室']=df['户型'].str.split('室').str[0]

9.字符大小写

df_passenger['店铺名称'].str.lower()
df_passenger['店铺名称'].str.upper()

10.使用函数-实现字符处理

除了str内置方法，也可以根据需求定制处理函数,通用的函数方法具体见下节。
举例：

根据字符分割整字符串，截取子串
split()分割字符串，分割后生成子字符串列表，根据列表索引选择要截取的部分

df['姓名'].apply(lambda x:x.split('三')[-1])

效果同上一小节
2) 字符大小写
小写lower()大写upper()

df_passenger['店铺名称'].apply(lambda x:x.lower())
df_passenger['店铺名称'].apply(lambda x:x.upper())

11.使用正则表达式

#st='2室2厅1厨1卫'
df[list('室厅厨卫')] = df['户型'].str.extract('(\d+)室(\d+)厅(\d+)厨(\d+)卫')

'''
df_sp=df['户型'].str.extract('(\d+)室(\d+)厅(\d+)厨(\d+)卫')
#df['室'],df['厅'],df['厨'],df['卫']=[df_sp.iloc[:,i] for i in range(4)]
df_sp.columns=list('室厅厨卫')
df=pd.concat([df,df_sp],axis=1)
'''

七、构建函数公式计算字段

上一节字符内容的处理也是计算字段，包括转换类型部分也涉及到。本节介绍更通用的函数方法处理字段值。
要传入的计算对象.apply(func, axis=0, broadcast=None, raw=False, reduce=None, result_type=None, args=(), **kwds)
要传入的对象可以是df，也可以是series、groupbySeries
func可以是匿名函数或者自定义函数

1.函数写法

1.apply()是一种让函数作用于DataFrame中行或列的操作。
2.applymap()是一种让函数作用于DataFrame每一个元素的操作。
3.map()是一种让函数作用于Series每一个元素的操作。

(1).匿名函数

df['ID'].apply(lambda x: 'Boy' if x>30000 else 'Girl')
#是否包含任意关键词
keycategorylist=df_hx['核心品类'].tolist()
df_order['核心品类商品']=df_order['商品品类'].apply(lambda x:'核心' if any(kt in str(x) for kt in keycategorylist) else '非核心')
##是否包含某个子串
df_plat['本月新增商户']=df_plat_order['收入时间'].apply(lambda x:'新增' if year_month in str(x) else '非新增')

(2).自定义函数

传入series

def compare(x):
    if x>30000:
        y='Boy'
    else:
        y='Girl'
    return y
df['ID'].apply(compare)#传入series，不需要指定axis
#df['ID'].map(compare)#map方法可以将函数套用到Series上的每个元素

传入df，指定方向

def dfcompare(x):
    if x['ID']>30000:
        y='Boy'
    else:
        y='Girl'
    return y
df.apply(dfcompare,axis=1)#传入df，axis=1指定逐行

CASE:结合re模块，利用正则表达式拆分字段成新列,并转换数据类型
split()函数无法依据多个符号拆分字符串，因此可以用到正则表达式的编组
(如上节所示，其实pandas字符串自带re模块函数方法，但是extract()方法是编组后直接返回，中间不能插入转换类型这一操作，只能返回后一列列转换)
分组-返回-转换

cols=list('室厅厨卫')
df[cols] = df['layout'].str.extract('(\d+)室(\d+)厅(\d+)厨(\d+)卫')
for i in range(4):
	df[cols[i]]=pd.to_numeric(df[cols[i]])

以下方法自己写的函数，思路是先分组-转换-最后返回新列

#st='2室2厅1厨1卫'
from re import *
pat=compile('(\d+)室(\d+)厅(\d+)厨(\d+)卫')
def pa(x):
    m=match(pat,x)    
    nums=[m.group(1),m.group(2),m.group(3),m.group(4)]
    return nums
for i in range(4):
    df[colli[i]]=pd.to_numeric(df['layout'].map(pa).map(lambda x:x[i]))

pandas的str本身就有re模块相对应的方法,相对而言，正则匹配相对re模块要宽松，

s='中层(共7层)\r\n'
#pandas
pat=compile('\s*(\d+)室(\d+)厅\s*')
#re
df['floor_info'].str.extract('共(\d+)层')

2.公式写法

参考：
【Python数据科学手册】Pandas——十三、高性能的Pandas:eval()和query()
a.常规：

#(入库金额-退供应商金额)*90天售罄/100
df_sq['收入']=(df_sq['销售']-df_sq['退货'] )* df_sq['90天均价']/100

b.numpy的通用函数:

df['收入']=df['销售'].sub(df['退货']).mul(df['90天均价'])/100

c.df.assign:

df=df.assign(收入=lambda df:(df['销售']-df['退货'])*df['90天均价']/100)

d.df.eval():

nisq=df_sq['90天均价']
df_sq['收入']=df_sq.eval('(销售-退货)*@nisq/100')
#列名不规范，可以先定义变量
#df_sq['收入']=df_sq.eval('(销售-退货)*90天均价/100')
#报错，不能直接使用带数字的不规范列名

e.pd.eval():

#df_sq['收入']=pd.eval("(df_sq.销售-df_sq.退货 )*df_sq.90天均价/100")
#报错，【df_sq.90天均价】写法错误

f.其它
原则上可以通过以上方法构建大部分公式获得新列，但是pandas提供了许多原生的方法，比如计算环比的方法pct_change()就是用本项减去上一项的差除以上一项，含义就是变动百分比，比自定义函数方便，这些方法工作中注意积累。

df['ret'] = df['Close'].pct_change(1)

八、分组

1.分组

df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)

df.groupby(by=['brand_supplier','shop_name'])

注意：对于多重分组，如果但凡一个分组依据列有空值，那么分组后所有涉及该空值所在组都会被删除，因此在多重分组之前，最后在这几列空值填充一下

df_cont[['作者ID','作者身份','文章类型']]=df_cont[['作者ID','作者身份','文章类型']].fillna('缺失')
df_contf=df_cont.groupby(by=['文章ID','作者ID','作者身份','文章类型']).sum()[['曝光量','浏览量']].reset_index()

2.分组聚合计算

DataFrameGroupBy.函数()

df.groupby(by=['brand_supplier','shop_name']).sum()

3.取指定列来分组聚合计算/分组聚合计算后取指定列

DataFrameGroupBy.函数()[列名]/
DataFrameGroupBy[列名].函数()

ser_nor=df_nor.groupby('brand_supplier').count()['shop_name']
或者
ser_nor=df_nor.groupby('brand_supplier')['shop_name'].count()
#多指标
ser_nor=df_nor.groupby('brand_supplier')[['shop_name','fuid']].count()

4.分组聚合指定列排序后取topN

orders.groupby('User')['Total_price'].sum().sort_values(ascending=False)[0:10]

九、索引—列的转换，索引-维度转换

参考：【Python数据科学手册】Pandas——六、层级索引

1.索引转列

groupby后，by字段会变成index，如果需要转成正常列，操作如下
索引转列reset_index()

df_nor=df.groupby(by=['brand_supplier','shop_name']).sum().reset_index()
#'brand_supplier','shop_name'原本是index,转成正常列侯，也由Series变成了dataframe

2.列转索引

列转索引set_index()

3.索引-维度

unstack

df_plat_order.groupby(by=['分部','开单挂零']).agg({'公司名':'count'}).unstack()

4.维度-索引

stack

参考：【Python数据科学手册】Pandas——六、层级索引
也可以考虑使用数据透视表功能
参考：【Python数据科学手册】Pandas——十、数据透视表 df. pivot_table

df_plat_order.groupby(by=['分部','开单挂零']).agg({'公司名':'count','实际支付金额':sum}).unstack()
df_plat_order.pivot_table(index='分部',columns='开单挂零',aggfunc={'公司名':'count','实际支付金额':sum})

十、文件存储

1.保存到excel

pd.to_excel()
ser.to_excel()

 ser[ser!=0].to_excel('G:\\work files\\file.xlsx',encoding='utf')
 df[df['amount']!=0].to_excel('G:\\work files\\file.xlsx',encoding='utf')

如果多个df或series保存到同一个excel的不同sheet,需要用到pd.ExcelWriter()作为存储目标

with pd.ExcelWriter('G:\\work files\\work_from_20\\'+filename+'.xlsx') as exf:
    df_a.to_excel(exf,sheet_name='编辑',index=False)
    df_b.to_excel(exf,sheet_name='优质用户',index=False)

2.同名文件避免被替换：同一文件夹文件重名时增序命名

impoert os
filepath='文件存放路径'
newfile_name='带后缀的完整文件名'
i=0
while newfile_name in os.listdir(filepath):#如果当前路径已经存在文件
    i=i+1#指定增序
    newfile_name='文件名'+'('+str(i)+')'+'.xlsx'#要保存的文件重命名：在文件名后加序号
#循环至没有同名文件
newfile=filepath+'\\'+ newfile_name#要保存的完整路径文件名

df.to_excel(newfile,index=None)

3.保存到数据库

df.to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None)
官方文档：pandas.DataFrame.to_sql
关于con参数，文档中写到如下，这意味着，con只支持sqlalchemy.engine和sqlite3.Connection。
使用SQLAlchemy可以使用该库支持的任何数据库。为sqlite3.Connection对象提供了旧版支持。

con ：sqlalchemy.engine.(Engine or Connection) or sqlite3.Connection

如果需要指定数据类型，会用到dtype参数，参考Python sqlalchemy.types模块，常用函数和类
sqllite3

import sqlite3
with sqlite3.connect('test.sqlite') as conn:
    df.to_sql(name = 'employee', con = conn, if_exists='replace', index = None)

mysql

from sqlalchemy import create_engine
connect_info = 'mysql+pymysql://root:123456@localhost:3306/mytest'
engine=create_engine(connect_info)
df.to_sql('product', con = engine, if_exists='replace', index=None)

oracle
参考： sqlalchemy.exc.DatabaseError: (cx_Oracle.DatabaseError) ORA-12505: TNS: 监听程序当前无法识别连接描述符中所给出的 SID

import cx_Oracle
from sqlalchemy import create_engine
dnsStr=cx_Oracle.makedsn('localhost', '1521', service_name='orcl.16.2.133')
connect_info = 'oracle://scott:tiger@%s' %(dnsStr)
engine=create_engine(connect_info)
df.to_sql('product', con = engine, if_exists='replace', index=None)

CASE

插入拼接列
并剔除有多个shop_name的brand_supplier重复数据

import sys
def main(inda):
    import pandas as pd
    
    df=pd.read_csv('G:\\temp files\\file.csv',encoding='utf')

    #插入新字段
    brand_supplier=df['brand_name'].str.cat(df['supplier_name'])#拼接两个字段成一个新字段
    df.insert(7,'brand_supplier',brand_supplier)#插入新字段到dataframe

    #删除“华鼎”系列重复项
    del_col=df[(df.brand_supplier.str.contains('.*华鼎.*'))&(df.shop_name!='XXXTRENTA')].index#获取要删除数据的索引号（品牌供应商名包含“华鼎”且店铺不为"XXXTRENTA"）
    df.drop(del_col,axis=0,inplace=True)#删除获得的索引号所在行记录

    #获得有重复店铺数据的品牌供应商
    df_nor=df.groupby(by=['brand_supplier','shop_name']).sum().reset_index()#多维度分组，随意指定一个计算行数sum()，方便将index'brand_supplier','shop_name'转为DataFrame普通列
          
    ser_nor=df_nor.groupby('brand_supplier').count().shop_name#取到分组序列，索引号是分组依据字段'brand_supplier'
    dup_list=list(ser_nor[ser_nor>1].index)#筛选计数大于1即店铺有多个的'brand_supplier'的列表


    #删除多余店铺
    for bs in dup_list:
        shnm_list=list(df[df.brand_supplier==bs].groupby('shop_name').count().reset_index().shop_name)#多店铺的brand_supplier下的各shop_name列表
        brnm=df[df.brand_supplier==bs].brand_name.iloc[0]#brand_supplier对应的brand_name（唯一），所以只要取一个就行

        #逻辑：如果多个店铺名中至少有跟品牌同名的，那就将该brand_supplier下店铺名不等于品牌的数据删掉（保留店铺名与品牌有同名关系的店铺）
        if brnm.lower() in [shlw.lower() for shlw in shnm_list]:#忽略大小写需要同时转大写或小写才能比较
            for sn in shnm_list:#将shop_name和brand_name对比
                if sn.lower()!=brnm.lower():#如果shop_name和brand_name不能完全相等
                    del_col_sh=df[(df.brand_supplier==bs)&(df.shop_name==sn)].index#那就找到该brand_supplier下的该shop_name
                    df.drop(del_col_sh,axis=0,inplace=True)#删除
        #逻辑：如果店铺名没有一个与品牌名同名，那就只保留subcategory不为空的店铺
        else:
            list_type=['运动','美妆','男装','女装'']

            del_col_su=df[(df.brand_supplier==bs)&(~df['subcategory'].isin(list_type))].index#找到该brand_supplier下subcategory不为列表中项的数据，就是subcategory空
            df.drop(del_col_su,axis=0,inplace=True)
            
                
    #导出所需透视图
    df.subcategory=df.subcategory.fillna('其它')#空值和关店改成其它
    df.loc[df.subcategory=='关店','subcategory']='其它'

    ser=df.groupby(['shop_name','subcategory']).sum().amount#df.groupby(['shop_name','subcategory'])['amount'].sum()
    ser[ser!=0].to_excel('G:\\work files\\file'+str(inda)+'.xlsx',encoding='utf')#取值为不为0的项

        
if __name__=='__main__':
    main(sys.argv[1])

你可能感兴趣的:(#,Python数据科学手册,python)

python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio