Python进阶者

实战案例，手把手教你构建电商用户画像 | 附代码

点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

鸡

汤

欲把一麾江海去，乐游原上望昭陵。

导读：本文以真实案例，手把手教你搭建电商系统的用户画像。

先来看该电商用户画像用到的标签。

数据内容包括user_id（用户身份）、item_id（商品）、IDbehavior_type（用户行为类型，包含点击、收藏、加购物车、支付四种行为，分别用数字1、2、3、4表示）、user_geohash（地理位置）、item_category（品类ID，即商品所属的品类）、Time（用户行为发生的时间），其中user_id和item_id因为涉及隐私，做了脱敏处理，显示的是数字编号。

下面是具体的代码实现过程。

导入库

本示例除了用到numpy、pandas、matplotlib，还用到其他一些模块。

1# 导入所需的库
 2
 3%matplotlib inline
 4
 5import numpy as np
 6
 7import pandas as pd
 8
 9from matplotlib import pyplot as plt
10
11from datetime import datetime

参数说明如下。

%matplotlib inline：一个魔法函数，由于%matplotlib inline的存在，当输入plt.plot()后，不必再输入plt.show()，图像将自动显示出来。
datetime：用来显示时间的模块。

数据准备

1# 导入数据集
2
3df_orginal = pd.read_csv('./taobao_persona.csv')
4
5# 抽取部分数据
6
7df = df_orginal.sample(frac=0.2,random_state=None)

此处使用Pandas的read_csv方法读取数据文件，由于数据集太大，为了提高运行效率，使用sample函数随机抽取20%的数据。

DataFrame.sample()是Pandas中的函数，DataFrame是一种数据格式，代指df_orginal。frac(fraction)是抽取多少数据，random_state是随机数种子，目的是保证每次随机抽取的数据一样，防止执行命令时使用不一样的数据。

数据预处理

1# 查看其中是否有缺失值，统计各字段缺失值
 2
 3df.isnull().any().sum()
 4
 5# 发现只有user_geohash有缺失值，且缺失的比例很高，无统计分析的意义，将此列删除
 6
 7df.drop('user_geohash',axis=1,inplace=True)
 8
 9# 将time字段拆分为日期和时段
10
11df['date'] = df['time'].str[0:10]
12
13df['time'] = df['time'].str[11:]
14
15df['time'] = df['time'].astype(int)
16
17# date用str方法取0-9位的字符，time取11位到最后一位，将time转化成int类型。
18
19# 将时段分为'凌晨','上午','中午','下午','晚上'
20
21df['hour'] = pd.cut(df['time'],bins=[-1,5,10,13,18,24],labels=['凌晨','上午',
22
23    '中午','下午','晚上'])

结果如图1所示。

图1　数据预处理结果

1# 生成用户标签表，制作好的标签都加入这个表中
2
3users = df['user_id'].unique()
4
5labels = pd.DataFrame(users,columns=['user_id'])

pd.DataFrame()：其中数据填充的是users，列名为user_id。

结果如图2所示。

图2 制作好的用户ID

之后分析后的内容都会放置在此表中，相当于建立了一个空白表，将自己分析后的结论一一加入。

数构建用户行为标签

1）对用户浏览时间段进行分析

选取出各用户浏览次数最多的时段，看看用户到底在什么时间浏览商品比较多。

1# 对用户和时段分组，统计浏览次数
 2
 3time_browse = df[df['behavior_type']==1].groupby(['user_id','hour']).item_
 4
 5    id.count().reset_index()
 6
 7time_browse.rename(columns={'item_id':'hour_counts'},inplace=True)
 8
 9# 统计每个用户浏览次数最多的时段
10
11time_browse_max = time_browse.groupby('user_id').hour_counts.max().reset_index()
12
13time_browse_max.rename(columns={'hour_counts':'read_counts_max'},inplace=True)
14
15time_browse = pd.merge(time_browse,time_browse_max,how='left',on='user_id')
16
17# 之前已经按照user_id和hour进行了浏览物品次数的计数统计，现在借用浏览次数统计user_id在
18
19# 哪个时间段浏览次数最多，并将其作为该用户的浏览时间标签的代表。
20
21# 选取各用户浏览次数最多的时段，如有并列最多的时段，用逗号连接
22
23time_browse_hour=time_browse.loc[time_browse['hour_counts']==time_browse['read_
24
25    counts_max'],'hour'].groupby(time_browse['user_id']).aggregate(lambda 
26
27    x:','.join(x)).reset_index()
28
29time_browse_hour.head()
30
31# 将用户浏览活跃时间段加入用户标签表中
32
33labels = pd.merge(labels,time_browse_hour,how='left',on='user_id')
34
35labels.rename(columns={'hour':'time_browse'},inplace=True)
36
37# labels相当于一张考试卷纸，上面展示的都是最后处理好的结果

结果如图3所示。

图3 用户浏览时间段

groupby(['key1','key2'])：多列聚合，分组键为列名。
reset_index()：默认drop=False，可以获得新的index，原来的index变成数据列保留下来，第一列会添加计数的数字，不会使用数据中的index。
rename()：进行重命名，此处将item_id替换成hour_counts，inplace为是否原地填充。
pd.merge()：将两个表合并在一起，横向合并，on代表通过某个主键，how指左合并，每行一一对应。
loc函数：通过行索引Index中的具体值来取指定数据。
aggregate函数：groupby分组之后会返回多个子数据帧，该函数可以实现数据聚合，可以得到每个子数据帧的某些列的某些信息。
lambda函数：可以定义一个匿名函数，lambda [arg1[, arg2, … argN]]: expression，其中参数是函数的输入，是可选的，后面的表达式则为输出，此处和join()函数一起用，其中每个x值能被“,”隔开;使用类似的代码可以生成浏览活跃时间段，此处就不再赘述。

2）关于类目的用户行为。

1df_browse = df.loc[df['behavior_type']==1,['user_id','item_id','item_category']]
2
3df_collect = df.loc[df['behavior_type']==2,['user_id','item_id','item_category']]
4
5df_cart = df.loc[df['behavior_type']==3,['user_id','item_id','item_category']]
6
7df_buy = df.loc[df['behavior_type']==4,['user_id','item_id','item_category']]

根据不同的用户行为，如浏览、收藏等，分别导出数据进行分析。

1# 对用户与类目进行分组，统计浏览次数
 2
 3df_cate_most_browse = df_browse.groupby(['user_id','item_category']).item_id.count().
 4
 5    reset_index()
 6
 7df_cate_most_browse.rename(columns={'item_id':'item_category_counts'},inplace=
 8
 9    True)
10
11# 统计每个用户浏览次数最多的类目
12
13df_cate_most_browse_max=df_cate_most_browse.groupby('user_id').item_category_
14
15    counts.max().reset_index()
16
17df_cate_most_browse_max.rename(columns={'item_category_counts':'item_category_
18
19    counts_max'},inplace=True)
20
21df_cate_most_browse = pd.merge(df_cate_most_browse,df_cate_most_browse_max,
22
23    how='left',on='user_id')
24
25# 将item_category的数字类型改为字符串型
26
27df_cate_most_browse['item_category'] = df_cate_most_browse['item_category'].
28
29    astype(str)
30
31# 选取各用户浏览次数最多的类目，如有并列最多的类目，用逗号连接
32
33df_cate_browse=df_cate_most_browse.loc[df_cate_most_browse['item_category_
34
35    counts']==
36
37df_cate_most_browse['item_category_counts_max'],'item_category'].groupby(df_
38
39    cate_most_browse['user_id']).aggregate(lambda x:','.join(x)).reset_index()
40
41# 将用户浏览最多的类目加入用户标签表中
42
43labels = pd.merge(labels,df_cate_browse,how='left',on='user_id')
44
45labels.rename(columns={'item_category':'cate_most_browse'},inplace=True)
46
47labels.head(5)

用户浏览最多的类目如图4所示。

图4　浏览最多的类目

收藏、加购和购买最多的类目生成逻辑相同，重复操作后结果如图5所示。

图5　关于类目的用户行为

从整理的数据中可以看出，浏览、加购物车、收藏、购买之前其实不一定存在明显的必然关系，我们还需要进一步分析得到一些规律。

3）近30天用户行为分析。

近30天购买次数：

1# 将购买行为按用户进行分组，统计次数
2
3df_counts_30_buy = df[df['behavior_type']==4].groupby('user_id').item_id.
4
5    count().reset_index()
6
7labels = pd.merge(labels,df_counts_30_buy,how='left',on='user_id')
8
9labels.rename(columns={'item_id':'counts_30_buy'},inplace=True)

近30天加购次数：

1# 将加购行为按用户进行分组，统计次数
2
3df_counts_30_cart = df[df['behavior_type']==3].groupby('user_id').item_id.
4
5    count().reset_index()
6
7labels = pd.merge(labels,df_counts_30_cart,how='left',on='user_id')
8
9labels.rename(columns={'item_id':'counts_30_cart'},inplace=True)

近30天活跃天数：

1# 对用户进行分组，统计活跃的天数，包括浏览、收藏、加购、购买
2
3counts_30_active = df.groupby('user_id')['date'].nunique()
4
5labels = pd.merge(labels,counts_30_active,how='left',on='user_id')
6
7labels.rename(columns={'date':'counts_30_active'},inplace=True)
8
9这里pd.nunique()是指返回的是唯一值的个数。

结果如图6所示。

图6　近30天用户行为

近30天用户行为分析属于中长期的用户行为，我们可以依此判断是否需要调整营销策略，类似可以得到短期的7天用户行为分析，观察中短期或一个小周期内，用户的行为是何种情况。

4）最后一次行为距今天数。

分析上次和本次用户行为的时间差值可以实现精确推荐分析，下面我们来看看具体如何实现。

上次浏览距今天数：

1days_browse = df[df['behavior_type']==1].groupby('user_id')['date'].max().apply
2
3(lambda x:(datetime.strptime('2014-12-19','%Y-%m-%d')-x).days)
4
5labels = pd.merge(labels,days_browse,how='left',on='user_id')
6
7labels.rename(columns={'date':'days_browse'},inplace=True)

datetime.strptime('2014-12-19','%Y-%m-%d')-x).days：该部分属于lambda中的函数表达式部分，即计算规则，此处最后取相减后的天数总和。
apply()：格式为apply(func,*args,**kwargs)，当一个函数的参数存在于一个元组或者一个字典中时，可间接调用这个函数，并将元组或者字典中的参数按照顺序传递给该函数，返回值就是func函数的返回值。相当于循环遍历，起到处理每一条数据的效果。

类似可以生成上次加购、购买距今天数，分析得到用户的活跃情况，如图7所示，如果长时间没有活跃，则需要推送一些内容，或者发放优惠券刺激用户。

图7　最后一次行为距今天情况统计

5）最近两次购买间隔天数。

1df_interval_buy = df[df['behavior_type']==4].groupby(['user_id','date']).item_
 2
 3    id.count().reset_index()
 4
 5interval_buy = df_interval_buy.groupby('user_id')['date'].apply
 6
 7(lambda x:x.sort_values().diff(1).dropna().head(1)).reset_index()
 8
 9interval_buy['date'] = interval_buy['date'].apply(lambda x : x.days)
10
11interval_buy.drop('level_1',axis=1,inplace=True)
12
13interval_buy.rename(columns={'date':'interval_buy'},inplace=True)
14
15labels = pd.merge(labels,interval_buy,how='left',on='user_id')

用购买间隔数分析用户的购买频率，方便确定用户的消费活跃等级，精准制定营销方式。结果如图8所示。

图8　最近两次购买间隔天数统计

6）是否浏览未下单。

1df_browse_buy=df.loc[(df['behavior_type']==1)|(df['behavior_type']==4),
 2
 3['user_id','item_id','behavior_type','time']]
 4
 5browse_not_buy=pd.pivot_table(df_browse_buy,index=['user_id','item_id'],
 6
 7columns=['behavior_type'],values=['time'],aggfunc=['count'])
 8
 9browse_not_buy.columns = ['browse','buy']
10
11browse_not_buy.fillna(0,inplace=True)
12
13# 添加了一列browse_not_buy，初始值为0。
14
15browse_not_buy['browse_not_buy'] = 0
16
17# 浏览数>0,购买数=0的数据输出1.
18
19browse_not_buy.loc[(browse_not_buy['browse']>0) & (browse_not_buy['buy']==0),
20
21    'browse_not_buy'] = 1
22
23browse_not_buy=browse_not_buy.groupby('user_id')['browse_not_buy'].sum().reset_
24
25    index()
26
27labels = pd.merge(labels,browse_not_buy,how='left',on='user_id')
28
29labels['browse_not_buy'] = labels['browse_not_buy'].apply(lambda x: '是' if x>0 
30
31    else '否')

|：在Python语句中表示或，&表示且。
pd.pivot_table()：透视表功能，df_browse_buy为data块，values可以对需要的计算数据进行筛选，aggfunc参数可以设置我们对数据聚合时进行的函数操作。
fillna：会填充NaN数据，返回填充后的结果，inplace=True代表原地填充。

结果如图9所示。

图9　是否浏览未下单情况统计

针对浏览未下单的用户要加大推广力度，可以增加优惠券的发放次数，促进购物。

7）是否加购未下单。

1df_cart_buy=df.loc[(df['behavior_type']==3)|(df['behavior_type']==4),['user_
 2
 3    id','item_id','behavior_type','time']]
 4
 5cart_not_buy=pd.pivot_table(df_cart_buy,index=['user_id','item_id'],columns=
 6
 7    ['behavior_type'],values=['time'],aggfunc=['count'])
 8
 9cart_not_buy.columns = ['cart','buy']
10
11cart_not_buy.fillna(0,inplace=True)
12
13cart_not_buy['cart_not_buy'] = 0
14
15cart_not_buy.loc[(cart_not_buy['cart']>0) & (cart_not_buy['buy']==0),'cart_not_
16
17    buy'] = 1
18
19cart_not_buy = cart_not_buy.groupby('user_id')['cart_not_buy'].sum().reset_index()
20
21labels = pd.merge(labels,cart_not_buy,how='left',on='user_id')
22
23labels['cart_not_buy'] = labels['cart_not_buy'].apply(lambda x: '是' if x>0 
24
25    else '否')

结果如图10所示。

图10　是否加购未下单情况统计

制定营销策略时，要重点注意这部分人群，因为加购未下单的购买转化率是最大的，有成功下单、最大潜力的客户就在这里。

构建用户属性标签

1）是否复购用户：

1buy_again = df[df['behavior_type']==4].groupby('user_id')['item_id'].count().
 2
 3    reset_index()
 4
 5buy_again.rename(columns={'item_id':'buy_again'},inplace=True)
 6
 7labels = pd.merge(labels,buy_again,how='left',on='user_id')
 8
 9labels['buy_again'].fillna(-1,inplace=True)
10
11# 未购买的用户标记为'未购买'，有购买未复购的用户标记为'否'，有复购的用户标记为'是'
12
13labels['buy_again'] = labels['buy_again'].apply(lambda x: '是' if x>1 else  
14
15    '否' if x==1 else '未购买')

结果如图11所示。

图11　是否复购用户统计

2）访问活跃度：

1user_active_level = labels['counts_30_active'].value_counts().sort_index(ascending=
 2
 3    False)
 4
 5plt.figure(figsize=(16,9))
 6
 7user_active_level.plot(title='30天内访问次数与访问人数的关系',fontsize=18)
 8
 9plt.ylabel('访问人数',fontsize=14)
10
11plt.xlabel('访问次数',fontsize=14)
12
13# 用于显示中文
14
15plt.rcParams["font.sans-serif"] = ['SimHei']
16
17plt.rcParams['axes.unicode_minus'] = False
18
19# 先将user_active_level全部设置成高，再搜索数值<16的部分，设置成低
20
21labels['user_active_level'] = '高'
22
23labels.loc[labels['counts_30_active']<=16,'user_active_level'] = '低'

结果如图12所示。

图12　30天内访问次数与访问人数的关系

value_counts()：查看表格某列中有多少个不同值，并计算每个不同值在该列中有多少重复值。
sort_index()：按照某一列的大小进行排序，ascending=False是按照从大到小排序。
plt.figure(figsize=(a,b))：创建画板，figsize代表宽为a，高为b的图形，单位为英寸。
plt.ylabel：设置y轴，fontsize是字体大小。
plt.xlabel：设置x轴。

通过图12可以看出，访问次数多的用户比访问次数少的用户数量多，且以15次左右为拐点，因此定义访问次数小于等于16次的用户为低活跃用户，访问次数大于16次的用户定义为高活跃用户，此定义只是从用户的角度出发，工作中当从业务角度定义。访问次数多的访客比访问次数少的访客数量多，与绝大多数的产品访问规律相反，从侧面反映了用户黏性之强。

3）购买活跃度：

1buy_active_level = labels['counts_30_buy'].value_counts().sort_index(ascending=
 2
 3    False)
 4
 5plt.figure(figsize=(16,9))
 6
 7buy_active_level.plot(title='30天内购买次数与购买人数的关系',fontsize=18)
 8
 9plt.ylabel('购买人数',fontsize=14)
10
11plt.xlabel('购买次数',fontsize=14)
12
13labels['buy_active_level'] = '高'
14
15labels.loc[labels['counts_30_buy']<=14,'buy_active_level'] = '低'

结果如图13所示。

图13　30天内购买次数与购买人数的关系

由图13可知，14次左右是个拐点，因此定义购买次数小于等于14次的用户为低活跃用户，大于14次的用户为高活跃用户。

4）购买的品类是否单一：

1buy_single=df[df['behavior_type']==4].groupby('user_id').item_category.nunique()
 2
 3.reset_index()
 4
 5buy_single.rename(columns={'item_category':'buy_single'},inplace=True)
 6
 7labels = pd.merge(labels,buy_single,how='left',on='user_id')
 8
 9labels['buy_single'].fillna(-1,inplace=True)
10
11labels['buy_single'] = labels['buy_single'].apply(lambda x: '是' if x>1 else  
12
13    '否' if x==1 else '未购买' )

结果如图14所示。

图14　购买品类单一情况统计

了解用户购买的品类有利于构建用户群体行为，比如该群体统一对化妆品消费占比巨大，则该用户群体的主要特征标签之一就是化妆品。

5）用户价值分组（RFM模型）：

1last_buy_days = labels['days_buy'].value_counts().sort_index()
2
3plt.figure(figsize=(16,9))
4
5last_buy_days.plot(title='最后一次购买距今天数与购买人数的关系',fontsize=18)
6
7plt.ylabel('购买人数',fontsize=14)
8
9plt.xlabel('距今天数',fontsize=14)

结果如图15所示。

图15　最后购买行为距今天数与购买人数的关系

使用RFM模型分析：

1labels['buy_days_level'] = '高'
 2
 3labels.loc[labels['days_buy']>8,'buy_days_level'] = '低'
 4
 5labels['rfm_value'] = labels['buy_active_level'].str.cat(labels['buy_days_level'])
 6
 7def trans_value(x):
 8
 9    if x == '高高':
10
11        return '重要价值客户'
12
13    elif x == '低高':
14
15        return '重要深耕客户'
16
17    elif x == '高低':
18
19        return '重要唤回客户'
20
21    else: 
22
23        return '即将流失客户'
24
25labels['rfm'] = labels['rfm_value'].apply(trans_value)
26
27# 此处的apply()调用了一个自己定义（def）的函数
28
29labels.drop(['buy_days_level','rfm_value'],axis=1,inplace=True)
30
31labels['rfm'].value_counts()

结果如图16所示。

图16 RFM模型分析结果

str.cat()是指将两个独立的字符串拼接，此处将
'buy_active_level‘和'buy_days_level'拼接。如果要在两个合并的列中间加一个分隔符号，可在cat括号内加：sep='-'，用-连接合并内容。

将buy_active_level和buy_days_level组合，形成“高高”或者“高低”等。将两个重要指标合并后，每个user_id进入不同的分类组。RFM模型是衡量客户价值和客户创利能力的重要工具和手段，其中，R(recently)：最近一次消费；F（Frequently）：消费频率；M（Monetary）：消费金额。

对最后输出的用户群体制定不同的营销策略。针对重要价值客户要予以关注并维护；针对重要深耕用户，予以相应的价格刺激，如折扣和捆绑销售等增加用户的购买频率，提高黏性；针对重要唤回用户，要在特定时间点进行刺激，比如进行产品卖点刺激、品牌灌输等，不断加强他们对品牌的认可，提高忠诚度；针对流失客户，在此例中，因其数量占三分之一左右，需进一步分析得出流失原因。

关于作者：刘鹏，教授，清华大学博士，云计算、大数据和人工智能领域的知名专家，南京云创大数据科技股份有限公司总裁、中国大数据应用联盟人工智能专家委员会主任。中国电子学会云计算专家委员会云存储组组长、工业和信息化部云计算研究中心专家。

高中强，人工智能与大数据领域技术专家，有非常深厚的积累，擅长机器学习和自然语言处理，尤其是深度学习，熟悉Tensorflow、PyTorch等深度学习开发框架。曾获“2019年全国大学生数学建模优秀命题人奖”。参与钟南山院士指导新型冠状病毒人工智能预测系统研发项目，与钟南山院士团队共同发表学术论文。

本文摘编自《Python金融数据挖掘与分析实战》，经出版方授权发布。（ISBN：9787111696506）

《Python金融数据挖掘与分析实战》

点击上图了解及购买

推荐语：云创大数据（上市公司）总裁撰写，零基础学会金融数据挖掘，配有案例、视频、代码、数据、习题及答案。

赠书

    按以下方式和公众号互动，即有机会获赠以上一本图书！
活动方式：在公众号后台回复“金融数据”参与活动，届时会在参与的小伙伴中抽取1名幸运鹅！

    活动时间：截至1月24日20点（周三）开奖，不见不散。
    快快拉上你的小伙伴参与进来吧~

让我知道你在看哟☟☟

你可能感兴趣的:(数据挖掘,python,数据分析,大数据,人工智能)

阿里巴巴Qwen团队发布AI模型，可操控PC和手机新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/这周，科技界的目光几乎都被DeepSeek的R1模型吸引，但阿里巴巴并没有袖手旁观。1月
对比DeepSeek、ChatGPT和Kimi的学术写作摘要能力 AIWritePaper官方账号 DeepSeek AIWritePaper ChatGPT 人工智能 chatgpt llama 数据分析论文阅读
摘要摘要是文章的精华，通常在200-250词左右。要包括研究的目的、方法、结果和结论。让AI工具作为某领域内资深的研究专家，编写摘要需要言简意赅，直接概括论文的核心，为读者提供快速了解的窗口。下面我们使用DeepSeek、ChatGPT4以及Kimi辅助编写摘要。提示词：你现在是一名[计算机理论专家]，研究方向集中在[人工智能、大模型、数据挖掘等计算机相关方向]。我现在需要撰写一篇围绕[人工智能在
Python——Pickle库 Devin01213
pickle是python语言的一个标准模块，安装python后已包含pickle库，不需要单独再安装。那么为什么需要序列化和反序列化这一操作呢？1.便于存储。序列化过程将文本信息转变为二进制数据流。这样就信息就容易存储在硬盘之中，当需要读取文件的时候，从硬盘中读取数据，然后再将其反序列化便可以得到原始的数据。在Python程序运行中得到了一些字符串、列表、字典等数据，想要长久的保存下来，方便以后
Pathlib操作文件IN Python Louis yeap python python 开发语言 pathlib 文件
系列文章目录文章目录目录系列文章目录文章目录前言一、Pathlib是什么？二、使用步骤前言pathlib是Python标准库中用于操作文件和目录路径的模块，自Python3.4起引入。它提供了一种面向对象的方式处理路径，使路径操作更加简洁、可读和跨平台。pathlib取代了传统模块如os.path和部分shutil的功能，成为推荐的路径操作工具。一、Pathlib是什么？pathlib是Pytho
Async协程保姆级教学 Louis yeap python 大数据 python 开发语言协程 async
目录编辑前言二、Async协程使用步骤1.导入标准库2.协程三、协程的应用场景1.网络IO2.数据库IO3.文件IO4.异步任务调度5.Web服务6.设备和串口IO7.队列和管道总结前言介绍：Python协程的概念源于生成器（Generator）。但它通过asyncio和事件循环，进一步扩展了生成器的功能，从而支持异步非阻塞操作。允许程序在执行过程中暂停（挂起），然后在需要时恢复运行。与传统的线程
垃圾回收机制 Louis yeap 算法 python go
系列文章目录文章目录目录系列文章目录文章目录前言一、垃圾回收算法二、golang垃圾回收算法三、python垃圾回收算法前言垃圾回收（GarbageCollection,GC）是一种自动管理内存的技术，用于动态分配内存的编程语言中。当程序运行时，会创建大量的对象和变量，这些对象占用内存。在程序的某些阶段，一些对象不再被需要，或者不再被引用，这些对象占用的内存就可以被释放，以便其他对象使用。垃圾回收
计算机视觉：解锁未来智能的钥匙及其代码实践我的运维人生计算机视觉人工智能运维开发技术共享
计算机视觉：解锁未来智能的钥匙及其代码实践在当今这个数据爆炸的时代，计算机视觉作为人工智能的一个重要分支，正以前所未有的速度推动着科技的边界。它不仅让机器“看懂”世界，更在自动驾驶、医疗影像分析、智能制造、安防监控等众多领域展现出巨大的应用潜力。本文将深入探讨计算机视觉的核心技术、最新进展，并通过一个具体的代码案例，展示如何在实践中应用这些技术，旨在为读者提供一个理论与实践相结合的全面视角。一、计
ImportError: DLL load failed while importing _rust: 找不到指定的程序的解决方案爱编程的喵喵 Python基础课程 python ImportError DLL load failed _rust 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:DLLloa
python pickle 模块的使用 weixin_30305735 python json 数据结构与算法
用于序列化的两个模块json：用于字符串和Python数据类型间进行转换pickle:用于python特有的类型和python的数据类型间进行转换json提供四个功能：dumps,dump,loads,loadpickle提供四个功能：dumps,dump,loads,loadpickle可以存储什么类型的数据呢？所有python支持的原生类型：布尔值，整数，浮点数，复数，字符串，字节，None。
Python中Pickle库 SteveKenny Python python 开发语言后端
文章目录简介函数dumpsloadsdumpload简介Python中有个序列化过程叫作pickle，它能够实现任意对象与文本之间的相互转化，也可以实现任意对象与二进制之间的相互转化。也就是说，pickle可以实现Python对象的存储及恢复。pickle模块的应用很简单，只有四个方法dumps()：将Python中的对象序列化成二进制对象，并返回loads()：读取给定的二进制对象数据，并将其转
python中的序列化 fate252 Python python 序列化 pickle json
序列化（picking）把不方便存储或不可传输的对象转换为可存储或可传输的数据的过程称之为序列化。序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。反过来，把从磁盘或网络得到的序列化数据重建为对象的过程称之为反序列化（unpickling）。序列化和反序列化实际是为了通用存储或传输而编码和解码的过程。举例：网络游戏mabi洛奇的存档功能，当每次不想玩的时候就可以存档到服务器
Selenium自动化测试框架入门与使用 Future_yzx selenium 测试工具
目录1.Selenium简介2.使用Selenium2.1Java使用Selenium2.2Python使用Selenium2.3支持的浏览器及WebDriver3.ChromeDriver的安装3.1查看本机Chrome版本3.2匹配对应的ChromeDriver并下载3.3配置ChromeDriver路径3.4在服务器（如CentOS）上安装ChromeJava中使用Selenium的代码示例
小南每日 AI 资讯 | 国产AI之光DeepSeek暴击硅谷？？？ | 25/01/29 小南AI学院人工智能
1.中国AI模型震惊硅谷：DeepSeek为何一夜火出圈？国产AI大模型DeepSeek迅速崛起，引发硅谷关注。2.中国银行支持AI产业：1万亿元金融扶持助推智能化升级中国银行宣布提供1万亿元资金支持人工智能产业链发展，助力智能化升级。3.国产AI大模型DeepSeek惊艳全球：游戏科学冯骥称其为“国运级别科技成果”DeepSeek的AI模型引起全球关注，游戏科学的冯骥高度评价其意义。4.AI产业
【我的阅读】【nature |ai4science】Scientific discovery in the age of artificial intelligence【人工智能时代的科学发现】算法研究员【AI 4 Science】人工智能
相关资料：https://www.nature.com/articles/s41586-023-06221-2#Sec15文章目录Abstract摘要Conclusion结论Abstract摘要Artificialintelligence(AI)isbeingincreasinglyintegratedintoscientificdiscoverytoaugmentandaccelerateres
python selenium清除缓存_python 解决selenium 中的 .clear()方法失效问题许吴倩 python selenium清除缓存
最近在使用selenium做一个数字货币的自动化脚本时，遇到一个问题就是okex网站的input使用clear()方法居然无法清空，但是后来试了好多次发现方法是可以使用的，而且这个网站修改input的value也没用，必须在文本框里修改才行，本次的目的就是要清除输入框的默认值，然而clear()没有反应，最后还是用了别的方法解决了问题，那就是使用鼠标双击事件，全选后输入内容。fromseleniu
Django SimpleUI运维管理系统搭建教程 ivwdcwso 开发运维 sqlite 数据库 Django SimpleUI Django python 开发
DjangoSimpleUI运维管理系统搭建教程本教程将详细介绍如何从零搭建一个基于DjangoSimpleUI的运维管理系统。一、环境准备1.安装Python和相关依赖#安装Python3.8+sudoaptinstallpython3.8python3.8-dev#安装虚拟环境pip3installvirtualenv#创建并激活虚拟环境virtualenvvenvsourcevenv/bin
Robot Framework 测试总结 Change is good 测试框架和工具 robotframework
在2014年结识robotframework，缘于一个偶然的机会。一个测试前辈推荐了robotframework。Robotframework是python语言的测试框架。简单的看了一下介绍，觉得不错，很适合新手入门。而且测试部门的领导也很支持引入开源的自动化测试工具。RobotFramework是一个开源的测试自动化框架，用于验收测试和验收测试驱动开发。它遵循不同的测试用例样式——关键字驱动、行
python-unittest-selenium执行用例实例/执行多个用例 Change is good python python selenium 开发语言
我们在做selenium测试的时候呢，经常会碰到一些需要执行多个用例的情况，也就是多线程执行py程序，我们前面讲过单个的py用例怎么执行和生产html报告，下面给大家介绍下多个用例怎么执行并自动生成html报告。一、写好每个测试用例，如我_register/_boot/_check/_buy/_longin/，我这里写了六条用例，当然每个用例下还是有分支的测试点。上面是一个例子，其他的不截图出来了
python 连接数据库之jaydebeapi SmartManWind
让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接：https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw密码：3etc2、pipinstallJayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码importjaydebeapiurl='jdbc:ora
Hugging Face挑战DeepSeek，AI开源竞赛升级！新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/DeepSeek的R1推理模型刚刚引发全球轰动，开源AI界的“顶流”HuggingFac
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
selenium clear（）方法清除文本框内容 Change is good selenium python 测试工具
在使用Selenium进行Web自动化测试时，清除文本框内容是一个常见的需求。这可以通过多种方式实现，取决于你使用的是哪种编程语言（如Python、Java等）以及你的具体需求。以下是一些常见的方法：1.使用clear()方法clear()方法是Selenium提供的一个非常直接的方法来清除文本框的内容。这个方法会删除文本框中的所有内容，并将其设置为空字符串。python：fromselenium
DeepSeek：硅谷AI格局的拐点？新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/本周，硅谷迎来了一个令人大跌眼镜的现实：打造先进人工智能模型，可能远没有想象中那么高深莫
conda创建新虚拟环境——从无到有 S.T.A.R. 深度学习 tensorflow anaconda
自己租的GPU最近有点鱼的记忆，base配什么环境自己都忘了，所以自己开始学习如何创建并且配置一个新环境，当然这一切建立在andonate3安装完的前提下自己的配置：Linux系统，Xshell编译器创建环境condacreate-nyourEnvnamepython=3.6激活环境condaactivateyourEnvname就可以看到命令行的base换成了你的环境名可以开始installco
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
【Python数据分析】Pandas_Series如何转变为DataFrame Root_Smile 【Python数据分析】python 数据分析 pandas
1.使用pd.DataFrame()构造函数可以使用pd.DataFrame()构造函数将Series转换为DataFrame。在构造函数中，将Series作为一个列传递给DataFrame，并且可以通过指定列名来为DataFrame的列命名。代码示例：importpandasaspddata=[10,20,30,40,50]index=['A','B','C','D','E']series=pd
miniforge选择躺平小菜菜 python
一、介绍说明Miniforge是一款Python环境和包管理工具，相比Anaconda，推荐使用Miniforge的原因主要有以下三个方面。首先，miniforge集成了Anaconda的核心工具：conda。conda是一个包和环境管理工具，因此，miniforge里面的conda和Anaconda里面的conda完全一样；你能用Anaconda做的安装、升级、删除包等功能，miniforge都
(6) 深入探索Python-Pandas库的核心数据结构：DataFrame全面解析码界领航 pandas 数据结构 python numpy
目录前言1.DataFrame简介2.DataFrame的特点3.DataFrame的创建3.1使用字典创建DataFrame3.2使用列表的列表（或元组）创建DataFrame3.3使用NumPy数组创建DataFrame3.4使用Series构成的字典创建DataFrame3.5使用字典构成的字典创建DataFrame4.从CSV文件读取5.DataFrame的属性和方法5.1查看DataFr
初始Pandas数据结构(DataFrame和Series) aerfaqi 数据分析 python 数据挖掘
认识PandasPandas是Python语言的一个扩展程序库，用于数据挖掘和数据分析，同时也提供数据清洗功能。pandas（paneldata&dataanalysis），是基于numpy（提供高性能的矩阵运算）专门用于数据分析的工具，是一个强大的分析结构化数据（表格数据）的工具集；Pandas的操作是基于两种结构：DataFrame结构和Series结构DataFrame每一列都为Series
Selenium 结合 Requests 爬取网易云音乐“我喜欢的”及评论数API分析 dreadp selenium python 前端 web安全网络协议爬虫
前言基于selenium和requests，在网易云音乐网页上爬取前1000首“我喜欢的音乐”以供后续数据分析。重点讲解了__init__.py文件的重要性、Cookie的添加和检查方式、Selenium选择器的使用技巧，特别是的处理方法。同时，也分享了我对网易云评论数API接口的探索。提供完整的脚本。项目地址:Github链接文件相对路径:NeteaseCloudMusicGaze/src/AP
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_