Python学习与数据挖掘

实战案例，手把手教你用 Python 构建电商用户画像

大家好，本文以真实案为例手把手教你搭建电商系统的用户画像。

先来看该电商用户画像用到的标签。

数据内容包括user_id（用户身份）、item_id（商品）、IDbehavior_type（用户行为类型，包含点击、收藏、加购物车、支付四种行为，分别用数字1、2、3、4表示）、user_geohash（地理位置）、item_category（品类ID，即商品所属的品类）、Time（用户行为发生的时间），其中user_id和item_id因为涉及隐私，做了脱敏处理，显示的是数字编号。

下面是具体的代码实现过程。

导入库

本示例除了用到numpy、pandas、matplotlib，还用到其他一些模块。

# 导入所需的库
%matplotlib inline
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from datetime import datetime

参数说明如下。

%matplotlib inline： 一个魔法函数，由于%matplotlib inline的存在，当输入plt.plot()后，不必再输入plt.show()，图像将自动显示出来。
datetime： 用来显示时间的模块。

数据准备

# 导入数据集
df_orginal = pd.read_csv('./taobao_persona.csv')
# 抽取部分数据
df = df_orginal.sample(frac=0.2,random_state=None)

此处使用Pandas的read_csv方法读取数据文件，由于数据集太大，为了提高运行效率，使用sample函数随机抽取20%的数据。

DataFrame.sample()是Pandas中的函数，DataFrame是一种数据格式，代指df_orginal。frac(fraction)是抽取多少数据，random_state是随机数种子，目的是保证每次随机抽取的数据一样，防止执行命令时使用不一样的数据。

数据预处理

# 查看其中是否有缺失值，统计各字段缺失值
df.isnull().any().sum()
# 发现只有user_geohash有缺失值，且缺失的比例很高，无统计分析的意义，将此列删
df.drop('user_geohash',axis=1,inplace=True)
# 将time字段拆分为日期和时段
df['date'] = df['time'].str[0:10]
df['time'] = df['time'].str[11:]
df['time'] = df['time'].astype(int)
# date用str方法取0-9位的字符，time取11位到最后一位，将time转化成int类型。
# 将时段分为'凌晨','上午','中午','下午','晚上'
df['hour'] = pd.cut(df['time'],bins=[-1,5,10,13,18,24],labels=['凌晨','上午','中午','下午','晚上'])

结果如图1所示。

图1　数据预处理结果

# 生成用户标签表，制作好的标签都加入这个表中
users = df['user_id'].unique()
labels = pd.DataFrame(users,columns=['user_id'])

pd.DataFrame()： 其中数据填充的是users，列名为user_id。

结果如图2所示。

图2 制作好的用户ID

之后分析后的内容都会放置在此表中，相当于建立了一个空白表，将自己分析后的结论一一加入。

数构建用户行为标签

1）对用户浏览时间段进行分析

选取出各用户浏览次数最多的时段，看看用户到底在什么时间浏览商品比较多。

 # 对用户和时段分组，统计浏览次数
time_browse = df[df['behavior_type']==1].groupby(['user_id','hour']).item_id.count().reset_index()
time_browse.rename(columns={'item_id':'hour_counts'},inplace=True)
 # 统计每个用户浏览次数最多的时段
time_browse_max = time_browse.groupby('user_id').hour_counts.max().reset_index()
time_browse_max.rename(columns={'hour_counts':'read_counts_max'},inplace=True)
time_browse = pd.merge(time_browse,time_browse_max,how='left',on='user_id')
# 之前已经按照user_id和hour进行了浏览物品次数的计数统计，现在借用浏览次数统计user_id在
# 哪个时间段浏览次数最多，并将其作为该用户的浏览时间标签的代表。
# 选取各用户浏览次数最多的时段，如有并列最多的时段，用逗号连接
time_browse_hour=time_browse.loc[time_browse['hour_counts']==time_browse['read_counts_max'],'hour'].groupby(time_browse['user_id']).aggregate(lambda x:','.join(x)).reset_index()
time_browse_hour.head()
# 将用户浏览活跃时间段加入用户标签表中
labels = pd.merge(labels,time_browse_hour,how='left',on='user_id')
labels.rename(columns={'hour':'time_browse'},inplace=True)
# labels相当于一张考试卷纸，上面展示的都是最后处理好的结果

结果如图3所示。

图3 用户浏览时间段

groupby([‘key1’,‘key2’])： 多列聚合，分组键为列名。
reset_index()： 默认drop=False，可以获得新的index，原来的index变成数据列保留下来，第一列会添加计数的数字，不会使用数据中的index。
rename()： 进行重命名，此处将item_id替换成hour_counts，inplace为是否原地填充。
pd.merge()： 将两个表合并在一起，横向合并，on代表通过某个主键，how指左合并，每行一一对应。
loc函数： 通过行索引Index中的具体值来取指定数据。
aggregate函数： groupby分组之后会返回多个子数据帧，该函数可以实现数据聚合，可以得到每个子数据帧的某些列的某些信息。
lambda函数： 可以定义一个匿名函数，lambda [arg1[, arg2, … argN]]: expression，其中参数是函数的输入，是可选的，后面的表达式则为输出，此处和join()函数一起用，其中每个x值能被“,”隔开;使用类似的代码可以生成浏览活跃时间段，此处就不再赘述。

2）关于类目的用户行为。

df_browse = df.loc[df['behavior_type']==1,['user_id','item_id','item_category']]
df_collect = df.loc[df['behavior_type']==2,['user_id','item_id','item_category']]
df_cart = df.loc[df['behavior_type']==3,['user_id','item_id','item_category']]
df_buy = df.loc[df['behavior_type']==4,['user_id','item_id','item_category']]

根据不同的用户行为，如浏览、收藏等，分别导出数据进行分析。

 # 对用户与类目进行分组，统计浏览次数
df_cate_most_browse = df_browse.groupby(['user_id','item_category']).item_id.count().reset_index()
df_cate_most_browse.rename(columns={'item_id':'item_category_counts'},inplace=True)
# 统计每个用户浏览次数最多的类目
df_cate_most_browse_max=df_cate_most_browse.groupby('user_id').item_category_counts.max().reset_index()
df_cate_most_browse_max.rename(columns={'item_category_counts':'item_category_counts_max'},inplace=True)
df_cate_most_browse = pd.merge(df_cate_most_browse,df_cate_most_browse_max,how='left',on='user_id')
# 将item_category的数字类型改为字符串型
df_cate_most_browse['item_category'] = df_cate_most_browse['item_category'].astype(str)
# 选取各用户浏览次数最多的类目，如有并列最多的类目，用逗号连接
df_cate_browse=df_cate_most_browse.loc[df_cate_most_browse['item_category_counts']==df_cate_most_browse['item_category_counts_max'],'item_category'].groupby(df_cate_most_browse['user_id']).aggregate(lambda x:','.join(x)).reset_index()

# 将用户浏览最多的类目加入用户标签表中
labels = pd.merge(labels,df_cate_browse,how='left',on='user_id')
labels.rename(columns={'item_category':'cate_most_browse'},inplace=True)
labels.head(5)

用户浏览最多的类目如图4所示。

图4　浏览最多的类目

收藏、加购和购买最多的类目生成逻辑相同，重复操作后结果如图5所示。

图5　关于类目的用户行为

从整理的数据中可以看出，浏览、加购物车、收藏、购买之前其实不一定存在明显的必然关系，我们还需要进一步分析得到一些规律。

3）近30天用户行为分析。

近30天购买次数：

# 将购买行为按用户进行分组，统计次数
df_counts_30_buy = df[df['behavior_type']==4].groupby('user_id').item_id.count().reset_index()
labels = pd.merge(labels,df_counts_30_buy,how='left',on='user_id')
labels.rename(columns={'item_id':'counts_30_buy'},inplace=True)

近30天加购次数：

# 将加购行为按用户进行分组，统计次数
df_counts_30_cart = df[df['behavior_type']==3].groupby('user_id').item_id.count().reset_index()
labels = pd.merge(labels,df_counts_30_cart,how='left',on='user_id')
labels.rename(columns={'item_id':'counts_30_cart'},inplace=True)

近30天活跃天数：

# 对用户进行分组，统计活跃的天数，包括浏览、收藏、加购、购买
counts_30_active = df.groupby('user_id')['date'].nunique()
labels = pd.merge(labels,counts_30_active,how='left',on='user_id')
labels.rename(columns={'date':'counts_30_active'},inplace=True)

结果如图6所示。

图6　近30天用户行为

近30天用户行为分析属于中长期的用户行为，我们可以依此判断是否需要调整营销策略，类似可以得到短期的7天用户行为分析，观察中短期或一个小周期内，用户的行为是何种情况。

4）最后一次行为距今天数。

分析上次和本次用户行为的时间差值可以实现精确推荐分析，下面我们来看看具体如何实现。

上次浏览距今天数：

days_browse = df[df['behavior_type']==1].groupby('user_id')['date'].max().apply(lambda x:(datetime.strptime('2014-12-19','%Y-%m-%d')-x).days)
labels = pd.merge(labels,days_browse,how='left',on='user_id')
labels.rename(columns={'date':'days_browse'},inplace=True)

datetime.strptime(‘2014-12-19’,’%Y-%m-%d’)-x).days： 该部分属于lambda中的函数表达式部分，即计算规则，此处最后取相减后的天数总和。
apply()： 格式为apply(func,*args,**kwargs)，当一个函数的参数存在于一个元组或者一个字典中时，可间接调用这个函数，并将元组或者字典中的参数按照顺序传递给该函数，返回值就是func函数的返回值。相当于循环遍历，起到处理每一条数据的效果。

类似可以生成上次加购、购买距今天数，分析得到用户的活跃情况，如图7所示，如果长时间没有活跃，则需要推送一些内容，或者发放优惠券刺激用户。

图7　最后一次行为距今天情况统计

5）最近两次购买间隔天数。

 df_interval_buy = df[df['behavior_type']==4].groupby(['user_id','date']).item_id.count().reset_index()
 interval_buy = df_interval_buy.groupby('user_id')['date'].apply(lambda x:x.sort_values().diff(1).dropna().head(1)).reset_index()
 interval_buy['date'] = interval_buy['date'].apply(lambda x : x.days)
 interval_buy.drop('level_1',axis=1,inplace=True)
interval_buy.rename(columns={'date':'interval_buy'},inplace=True)
labels = pd.merge(labels,interval_buy,how='left',on='user_id')

用购买间隔数分析用户的购买频率，方便确定用户的消费活跃等级，精准制定营销方式。结果如图8所示。

图8　最近两次购买间隔天数统计

6）是否浏览未下单。

df_browse_buy=df.loc[(df['behavior_type']==1)|(df['behavior_type']==4),['user_id','item_id','behavior_type','time']]
browse_not_buy=pd.pivot_table(df_browse_buy,index=['user_id','item_id'],
columns=['behavior_type'],values=['time'],aggfunc=['count'])
browse_not_buy.columns = ['browse','buy']
browse_not_buy.fillna(0,inplace=True)
# 添加了一列browse_not_buy，初始值为0。
browse_not_buy['browse_not_buy'] = 0
# 浏览数>0,购买数=0的数据输出1.
browse_not_buy.loc[(browse_not_buy['browse']>0) & (browse_not_buy['buy']==0),'browse_not_buy'] = 1
browse_not_buy=browse_not_buy.groupby('user_id')['browse_not_buy'].sum().reset_index()
labels = pd.merge(labels,browse_not_buy,how='left',on='user_id')
labels['browse_not_buy'] = labels['browse_not_buy'].apply(lambda x: '是' if x>0  else '否')

|：在Python语句中表示或，&表示且。
pd.pivot_table()： 透视表功能，df_browse_buy为data块，values可以对需要的计算数据进行筛选，aggfunc参数可以设置我们对数据聚合时进行的函数操作。
fillna： 会填充NaN数据，返回填充后的结果，inplace=True代表原地填充。

结果如图9所示。

图9　是否浏览未下单情况统计

针对浏览未下单的用户要加大推广力度，可以增加优惠券的发放次数，促进购物。

7）是否加购未下单。

 df_cart_buy=df.loc[(df['behavior_type']==3)|(df['behavior_type']==4),['user_id','item_id','behavior_type','time']]
cart_not_buy=pd.pivot_table(df_cart_buy,index=['user_id','item_id'],columns=['behavior_type'],values=['time'],aggfunc=['count'])
cart_not_buy.columns = ['cart','buy']
cart_not_buy.fillna(0,inplace=True)
cart_not_buy['cart_not_buy'] = 0
cart_not_buy.loc[(cart_not_buy['cart']>0) & (cart_not_buy['buy']==0),'cart_not_buy'] = 1
cart_not_buy = cart_not_buy.groupby('user_id')['cart_not_buy'].sum().reset_index()
labels = pd.merge(labels,cart_not_buy,how='left',on='user_id')
labels['cart_not_buy'] = labels['cart_not_buy'].apply(lambda x: '是' if x>0 else '否')

结果如图10所示。

图10　是否加购未下单情况统计

制定营销策略时，要重点注意这部分人群，因为加购未下单的购买转化率是最大的，有成功下单、最大潜力的客户就在这里。

构建用户属性标签

1）是否复购用户：

buy_again = df[df['behavior_type']==4].groupby('user_id')['item_id'].count().reset_index()
buy_again.rename(columns={'item_id':'buy_again'},inplace=True)
labels = pd.merge(labels,buy_again,how='left',on='user_id')
labels['buy_again'].fillna(-1,inplace=True)
# 未购买的用户标记为'未购买'，有购买未复购的用户标记为'否'，有复购的用户标记为'是'
labels['buy_again'] = labels['buy_again'].apply(lambda x: '是' if x>1 else   '否' if x==1 else '未购买')

结果如图11所示。

图11　是否复购用户统计

2）访问活跃度：

user_active_level = labels['counts_30_active'].value_counts().sort_index(ascending=False)
plt.figure(figsize=(16,9))
user_active_level.plot(title='30天内访问次数与访问人数的关系',fontsize=18)
plt.ylabel('访问人数',fontsize=14)
plt.xlabel('访问次数',fontsize=14)
# 用于显示中文
plt.rcParams["font.sans-serif"] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
# 先将user_active_level全部设置成高，再搜索数值<16的部分，设置成低
labels['user_active_level'] = '高'
labels.loc[labels['counts_30_active']<=16,'user_active_level'] = '低'

结果如图12所示。

图12　30天内访问次数与访问人数的关系

value_counts()： 查看表格某列中有多少个不同值，并计算每个不同值在该列中有多少重复值。
sort_index()： 按照某一列的大小进行排序，ascending=False是按照从大到小排序。
plt.figure(figsize=(a,b))： 创建画板，figsize代表宽为a，高为b的图形，单位为英寸。
plt.ylabel： 设置y轴，fontsize是字体大小。
plt.xlabel： 设置x轴。

通过图12可以看出，访问次数多的用户比访问次数少的用户数量多，且以15次左右为拐点，因此定义访问次数小于等于16次的用户为低活跃用户，访问次数大于16次的用户定义为高活跃用户，此定义只是从用户的角度出发，工作中当从业务角度定义。访问次数多的访客比访问次数少的访客数量多，与绝大多数的产品访问规律相反，从侧面反映了用户黏性之强。

3）购买活跃度：

buy_active_level = labels['counts_30_buy'].value_counts().sort_index(ascending= False)
plt.figure(figsize=(16,9))
buy_active_level.plot(title='30天内购买次数与购买人数的关系',fontsize=18)
plt.ylabel('购买人数',fontsize=14)
plt.xlabel('购买次数',fontsize=14)
labels['buy_active_level'] = '高'
labels.loc[labels['counts_30_buy']<=14,'buy_active_level'] = '低'

结果如图13所示。

图13　30天内购买次数与购买人数的关系

由图13可知，14次左右是个拐点，因此定义购买次数小于等于14次的用户为低活跃用户，大于14次的用户为高活跃用户。

4）购买的品类是否单一：

buy_single=df[df['behavior_type']==4].groupby('user_id').item_category.nunique().reset_index()
buy_single.rename(columns={'item_category':'buy_single'},inplace=True)
 
labels = pd.merge(labels,buy_single,how='left',on='user_id')
 
labels['buy_single'].fillna(-1,inplace=True)

labels['buy_single'] = labels['buy_single'].apply(lambda x: '是' if x>1 else '否' if x==1 else '未购买' )

结果如图14所示。

图14　购买品类单一情况统计

了解用户购买的品类有利于构建用户群体行为，比如该群体统一对化妆品消费占比巨大，则该用户群体的主要特征标签之一就是化妆品。

5）用户价值分组（RFM模型）：

last_buy_days = labels['days_buy'].value_counts().sort_index()
plt.figure(figsize=(16,9))
last_buy_days.plot(title='最后一次购买距今天数与购买人数的关系',fontsize=18)
plt.ylabel('购买人数',fontsize=14)
plt.xlabel('距今天数',fontsize=14)

结果如图15所示。

图15　最后购买行为距今天数与购买人数的关系

使用RFM模型分析：

labels['buy_days_level'] = '高'
labels.loc[labels['days_buy']>8,'buy_days_level'] = '低'
labels['rfm_value'] = labels['buy_active_level'].str.cat(labels['buy_days_level'])
def trans_value(x):
    if x == '高高':
        return '重要价值客户'
    elif x == '低高':
        return '重要深耕客户'
    elif x == '高低':
        return '重要唤回客户'
    else: 
        return '即将流失客户'
labels['rfm'] = labels['rfm_value'].apply(trans_value)
# 此处的apply()调用了一个自己定义（def）的函数
labels.drop(['buy_days_level','rfm_value'],axis=1,inplace=True)
labels['rfm'].value_counts()

结果如图16所示。

图16 RFM模型分析结果

str.cat() 是指将两个独立的字符串拼接，此处将
’buy_active_level‘和’buy_days_level’ 拼接。如果要在两个合并的列中间加一个分隔符号，可在cat括号内加：sep=’-’，用-连接合并内容。

将buy_active_level和buy_days_level组合，形成“高高”或者“高低”等。将两个重要指标合并后，每个user_id进入不同的分类组。RFM模型是衡量客户价值和客户创利能力的重要工具和手段，其中，R(recently)：最近一次消费；F（Frequently）：消费频率；M（Monetary）：消费金额。

对最后输出的用户群体制定不同的营销策略。针对重要价值客户要予以关注并维护；针对重要深耕用户，予以相应的价格刺激，如折扣和捆绑销售等增加用户的购买频率，提高黏性；针对重要唤回用户，要在特定时间点进行刺激，比如进行产品卖点刺激、品牌灌输等，不断加强他们对品牌的认可，提高忠诚度；针对流失客户，在此例中，因其数量占三分之一左右，需进一步分析得出流失原因。

技术交流

欢迎转载、收藏、有所收获点赞支持一下！

目前开通了技术交流群，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、添加微信号：dkl88191，备注：来自CSDN
方式③、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

你可能感兴趣的:(python,python,数据挖掘,数据分析)

Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
大数据学习（四）：Livy的安装配置及pyspark的会话执行猪笨是念来过倒大数据 pyspark
一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行；提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行；提交批处理应用在集群中运行。从Livy所提供的基本功能可以看到Livy涵盖了原生Spar
隐语安装部署 HZGame. 大数据数据库架构
主讲老师：周爱辉讲课链接：第4讲（上）：隐语安装部署-理论篇丨隐私计算实训营第2期_哔哩哔哩_bilibili主讲老师：王祖利讲课链接：第4讲（下）：SecretFlow与Secretnote的安装部署—实操篇丨隐私计算实训营第2期_哔哩哔哩_bilibili一、SecretFlow运行要求：1、环境要求Python>=3.8操作系统：•CentOS7•Anolis8•Ubuntu18.04/20
可以用于分割字符串的方法（python）小臭希 python 开发语言
一、str.split(sep,maxsplit)函数（返回列表）sep：分隔符maxsplit：分割次数a="Helloworld"list1=a.split("",1)print(list1)结果：['Hello','world']二、str.rsplit(sep,maxsplit)函数（从右边开始分割，返回列表）sep：分隔符maxsplit：分割次数a="Helloworld"list2=
python str转bytes类型三希 python 开发语言
在Python中，将字符串（str）类型转换为字节（bytes）类型，通常可以使用以下几种方法：方法一：使用encode()方法这是最常用的方法，适用于任何类型的字符串，尤其是包含非ASCII字符的字符串。使用encode()方法时，需要指定编码方式，如utf-8、latin-1等。例如：pythonstring="Hello,World!"encoded_bytes=string.encode(
【Python进阶】Python中的操作系统接口：使用os模块进行系统调用 m 哆哆.ღ python python 开发语言
1、操作系统接口的重要性1.1操作系统接口概览操作系统接口就像一座桥梁，连接着用户程序与底层操作系统服务。它是软件开发中不可或缺的一部分，让程序员能够借助标准化的方式与操作系统进行对话，执行诸如文件管理、进程控制、系统资源分配等各种关键任务。操作系统接口可分为以下几类：●命令行接口：通过shell或命令行工具直接与系统交互。●图形用户接口：如WindowsExplorer或MacOS的Finder
5.0在python中是一个整数常量_python学习之路，基础篇-变量和常量 weixin_39553753
python语言基础1、常量和变量1.1、常量常量是内存中用于保存固定值的单元，在程序中常量的值不能发生改变；python并没有命名常量，也就是说不能像C语言那样给常量起一个名字。python常量包括：数字、字符串、布尔值、空值；1.1.1数字python包括：整数、长整数、浮点数、复数，4种类型的数字；1>整数：表示不包含小数点的实数，在32位计算机上，标准整数的取值范围为-231~231-1，
python之str与bytes互转 ancy_i_cv python python
#-*-coding:utf-8-*-bytes_object =b"example"#strobjectstr_object ="example"#方法（1）#str转bytesbytes(str_object,encoding="utf8")#bytes转strstr(bytes_object,encoding="utf-8")#方法（2）#str转bytesstr.encode(str_ob
PYTHON中字符串(str)类型和比特(bytes)类型转换齐柏林fly 艇 python
bytes主要是用于二进制的数据处理的数据类型，在网络编程中，由于服务器和浏览器只能识别bytes类型数据。所以就需要进行数据类型转换例如socket编程中的.send()和.recv()就需要用到str类型和bytes类型转换一、str转bytes:第一种：在str类型前加b，即b"str"第二种：在str后加.encode("utf-8")，即str.encode("utf-8")，编码方式默
通俗易懂之广义加性模型GAM时序预测(pyGAM) 智识小站可解释机器学习 python
广义加性模型（GAM）在时间序列预测中是一种强大的工具，能够捕捉数据中的非线性趋势和复杂模式。本文将详细介绍如何在Python中实现广义加性模型进行时间序列预测，包括所需的库、数据预处理、模型构建、训练以及评估。如果这篇文章对你有一点点的帮助，欢迎点赞、关注、收藏、转发、评论哦！我也会在微信公众号“智识小站”坚持分享更多内容，以期记录成长、普及技术、造福后来者！一、GAM在时间序列中的应用时间序列
Python 数据结构与算法学习 X天地不仁数据结构学习
2022年秋季，笔者初次接触数据结构与算法，当时只觉得书上写的内容晦涩难懂，加之自己的怠惰，很难理解所讲解的内容。所幸，期末的考核因为疫情放开，延迟到了2023年的春季开学，并且试卷的难度很低，60来分，混了个及格。1、什么是数据结构官方定义:并没有…民间定义:“数据结构是数据对象，以及存在于该对象的实例和组成实例的数据元素之间的各种联系。这些联系可以通过定义相关的函数来给出。”---《数据结构、
CTF题型 Python中pickle反序列化进阶利用&；例题&；opache绕过 PDD工程师程序员 python 开发语言
题目分析：`app.config['SECRET_KEY']=os.urandom(2).hex()`secret\_key是弱密钥可以爆破进行伪造@app.route(‘/path:note\_id’,methods=[‘GET’])defview_note(note_id):notes=session.get(‘notes’)ifnotnotes:returnrender_template(‘
Python绘制圣诞树 CodeXTreme工作室 python 开发语言
importturtle#设置画布大小和背景颜色turtle.setup(800,600)turtle.bgcolor("#008080")#定义一个函数来绘制树杈defbranch(length,level):iflevel==0:#到达最后一层，绘制树叶turtle.color("#008000")turtle.begin_fill()turtle.circle(10)turtle.end_f
python str与bytes之间的转换 upDiff Python
#bytesobjectb=b"example"#strobjects="example"#strtobytessb=bytes(s,encoding="utf8")#bytestostrbs=str(b,encoding="utf8")#analternativemethod#strtobytessb2=str.encode(s)#bytestostrbs2=bytes.decode(b)转载地
Python中的十六进制字节转换为字符串时代在召唤吗 python 前端开发语言 Python
Python中的十六进制字节转换为字符串在Python编程中，有时我们需要将十六进制字节（hexbytes）转换为字符串。这种情况可能出现在网络通信、文件读取或加密解密等应用中。本文将介绍如何使用Python将十六进制字节转换为字符串，并提供相应的源代码示例。在Python中，可以使用binascii模块提供的函数来进行十六进制字节和字符串之间的转换。下面是一个示例代码，演示了如何将十六进制字节转
python str byte 转换 LI4836 Python 字符串 python
bytes转字符串方式一b=b'\xe9\x80\x86\xe7\x81\xab'string=str(b,'utf-8')print(string)#逆火bytes转字符串方式二b=b'\xe9\x80\x86\xe7\x81\xab'string=b.decode()#第一参数默认utf8，第二参数默认strictprint(string)#逆火bytes转字符串方式三b=b'\xe9\x80
Python 网络爬虫高级教程：分布式爬取与大规模数据处理 Milk夜雨 python python 爬虫网络
经过基础爬虫和进阶爬虫的学习，我们已经掌握了爬虫的基本原理、动态内容处理及反爬机制的应对。然而，当我们面对海量数据或需要高效爬取多个站点时，分布式爬虫和数据存储、处理能力就显得尤为重要。本篇博客将带你迈向网络爬虫的高级阶段，学习分布式爬取、大规模数据处理以及性能优化。一、分布式爬虫的概念1.什么是分布式爬虫？分布式爬虫是指通过多个节点协作完成大规模网页爬取任务的爬虫架构。它能有效解决以下问题：单台
MATLAB语言的数据库交互 Quantum&Coder 包罗万象 golang 开发语言后端
MATLAB语言的数据库交互引言在当今数据驱动的时代，掌握数据库的使用和管理是非常重要的。MATLAB作为一种强大的数值计算和数据分析工具，广泛应用于科学研究、工程设计和数据分析等领域。为了更有效地处理和分析数据，MATLAB提供了与各类数据库交互的功能。本文将探讨MATLAB语言如何与数据库进行交互，包括连接数据库、执行SQL查询、读取和写入数据等基本操作，并结合实例进行详细说明，以帮助读者理解
2025年01月19日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：MiniCPM-o项目地址url：https://github.com/OpenBMB/MiniCPM-o项目语言：Python历史star数：15826今日star数：959项目维护者：yiranyyu,iceflame89,yaoyuanTHU,LDLINGLINGLING,tc-mb项目简介：MiniCPM-o2.6:一个适用于视觉、语音和多模态直播的GPT-4o级别模型，可在手机
python取列表前3个元素_Python3基础 list pop(含参) 取出列表中的指定索引的元素 weixin_39848097 python取列表前3个元素
Python:3.7.0OS:Ubuntu18.04.1LTSIDE:PyCharm2018.2.4Conda:4.5.11typesetting:Markdowncode"""@Author:行初心@Date:18-9-23@Blog:www.cnblogs.com/xingchuxin@Gitee:gitee.com/zhichengjiu"""defmain():member=['黄帝内经'
python统计列表中元素个数_python中计算一个列表中连续相同的元素个数方法 weixin_39611008 python统计列表中元素个数
python中计算一个列表中连续相同的元素个数方法最简单的例子：a=[1,1,1,1,2,2,2,3,3,1,1,1,3]#问：计算a中最多有几个连续的1很明显，答案是4如果用代码实现，最先想到的就是itertools：importitertoolsa=[1,1,1,1,2,2,2,3,3,1,1,1,3]printmax([len(list(v))fork,vinitertools.groupb
python中水量_python 画降水量色斑图问题张少壮 python中水量
#引用部分importnumpyasnpimportpandasaspdfromscipy.interpolateimportRbf#径向基函数：将站点信息插到格点上用于绘制等值线importmatplotlib.pyplotaspltimportmatplotlib.colorsascolorsimportmatplotlibasmplimportcartopy.crsasccrsimportc
python获取字典第一个元素,从字典中获取第一个元素 CHM单 python获取字典第一个元素
Ihavethefollowingdeclaration:Dictionary>like=newDictionary>();Ineedtogetthefirstelementout,butdonotknowthekeyorvalue.What'sthebestwaytodothis?解决方案EditTosatisfythecommenters.NotethattocallFirsthereisac
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
Python 中模拟键盘输入在线码BUG python 开发语言后端
键盘编码对照表在日常学习编程的过程中，特别是一些自动化处理时，我们需要模拟键盘进行一些输入这是我们就需要代码来模拟我们进行物理键盘输入。在Python中我们要模拟键盘进行一些输入首先我们需要进行导入模块importwin32apiimportwin32con这两个模块可以帮助我们进行模拟物理键盘的输入，接下来我们就要进行代码的编辑：win32api.keybd_event(17,0,0,0)#Ct
python 操作excel的模块总结技术求知者 python excel 开发语言
python操作excel的模块总结1Pythonxlrd读取操作Excel1.1xlrd模块介绍（1）什么是xlrd模块？python操作excel主要用到xlrd和xlwt这两个库，即xlrd是读excel，xlwt是写excel的库。（2）为什么使用xlrd模块？在UI自动化或者接口自动化中数据维护是一个核心，所以此模块非常实用。xlrd模块可以用于读取Excel的数据，速度非常快，推荐使用
一文了解数字孪生是什么？数字孪生赋能哪些行业应用场景橙子吖21 数字孪生区块链人工智能数学建模交互
导语数字孪生是物理系统向信息空间映射的关键技术，通过传感器和数据分析实现实时模拟和控制。与元宇宙不同，数字孪生强调物理对象的复现，是元宇宙的技术基础。NewIT技术支撑数字孪生的广泛应用，助力工业、城市等多领域实现虚拟与现实融合，促进经济社会创新发展。01什么是数字孪生？数字孪生，英文名为DiditalTwin(数字双胞胎)，也成为数字映射、数字镜像。它的官方定义非常复杂，是这么说的：是充分利用物
通俗易懂之样条函数的原理、计算、案例、python实现智识小站可解释机器学习 python 算法
理解样条函数（SplineFunctions）是掌握广义加性模型（GAMs）及其他非线性回归技术的关键。样条函数通过分段多项式的形式，在不同区间内灵活地拟合数据，从而捕捉复杂的非线性关系。本文将更为详细地讲解样条函数的原理、具体示例以及在Python中的实现方法。如果这篇文章对你有一点点的帮助，欢迎点赞、关注、收藏、转发、评论哦！我也会在微信公众号“智识小站”坚持分享更多内容，以期记录成长、普及技
第9篇：从入门到精通：深入理解Python中的类与对象猿享天开 python从入门到精通 python 开发语言
第9篇：类与对象内容简介本篇文章将深入探讨Python中的类与对象概念。您将学习如何定义类、创建对象，理解属性与方法的区别与用法，掌握构造函数的使用，以及了解self关键字的作用。通过丰富的代码示例，您将能够熟练运用面向对象编程（OOP）在Python中的核心概念，提升您的编程能力和代码组织水平。目录类与对象概述什么是类与对象面向对象编程的优势定义类与创建对象类的基本结构创建对象实例属性与方法类属
解放双手，提高生产力，看我如何用 Python 实现自动化剪视频程序猿-小菜 python
人类和动物最本质的区别就是人类懂的制造并使用工具，这是由上古时代一直延续至今的基因所决定的。前段时间朋友的一个业务需要大量的原创短视频，问我是否可以帮忙弄下，我了解了具体需求之后发现不需要很高质量的内容，操作也不是很复杂，完全可以通过Python实现自动化操作，也是就把这个事给应承了下来。我们知道PyAutoGUI是一个通过编程方式来控制鼠标和键盘的Python库，那么就从它身上下手了
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，