promt:帮我生成一份10行左右的电商平台用户行为数据,并给出关于这份数据的探索性分析结果
output:
我可以为你生成一份模拟的电商平台用户行为数据,并进行简单的探索性分析。
数据通常会包括以下几个字段:
user_id: 用户标识
product_id: 产品标识
action: 用户行为(例如,浏览、点击、购买等)
timestamp: 时间戳
price: 产品价格
首先,让我生成这份数据。
mport pandas as pd
import random
from datetime import datetime, timedelta
# Generate random user behavior data
random.seed(0)
n = 10 # Number of rows
user_ids = [f"U{i:03d}" for i in range(1, 6)] # 5 different users
product_ids = [f"P{i:03d}" for i in range(1, 6)] # 5 different products
actions = ["view", "click", "purchase"] # 3 types of actions
prices = [random.randint(50, 200) for _ in range(n)]
base_time = datetime.now()
timestamps = [base_time - timedelta(seconds=random.randint(0, 3600)) for _ in range(n)]
data = {
"user_id": [random.choice(user_ids) for _ in range(n)],
"product_id": [random.choice(product_ids) for _ in range(n)],
"action": [random.choice(actions) for _ in range(n)],
"timestamp": timestamps,
"price": prices
}
df = pd.DataFrame(data)
df.sort_values(by='timestamp', inplace=True)
df.reset_index(drop=True, inplace=True)
df
user_id product_id action timestamp price
0 U005 P005 purchase 2023-09-13 08:13:52.577337 141
1 U001 P005 click 2023-09-13 08:16:51.577337 153
2 U004 P004 purchase 2023-09-13 08:26:14.577337 172
3 U003 P001 click 2023-09-13 08:28:37.577337 148
4 U005 P004 purchase 2023-09-13 08:33:59.577337 60
5 U003 P005 view 2023-09-13 08:49:12.577337 180
6 U005 P003 view 2023-09-13 08:53:32.577337 157
7 U001 P002 purchase 2023-09-13 08:58:54.577337 174
8 U002 P003 view 2023-09-13 08:58:56.577337 116
9 U003 P004 purchase 2023-09-13 09:01:58.577337 127
我已经生成了一份包含10行数据的电商平台用户行为数据,该数据具有以下字段:
user_id: 用户标识
product_id: 产品标识
action: 用户行为(view、click、purchase)
timestamp: 时间戳
price: 产品价格
数据内容如下:
user_id product_id action timestamp price
U005 P005 purchase 2023-09-13 08:13:52.577337 141
U001 P005 click 2023-09-13 08:16:51.577337 153
U004 P004 purchase 2023-09-13 08:26:14.577337 172
U003 P001 click 2023-09-13 08:28:37.577337 148
U005 P004 purchase 2023-09-13 08:33:59.577337 60
U003 P005 view 2023-09-13 08:49:12.577337 180
U005 P003 view 2023-09-13 08:53:32.577337 157
U001 P002 purchase 2023-09-13 08:58:54.577337 174
U002 P003 view 2023-09-13 08:58:56.577337 116
U003 P004 purchase 2023-09-13 09:01:58.577337 127
接下来,我将进行一些基础的探索性分析,包括:
每种用户行为(view、click、purchase)的数量统计。
不同用户的活跃度(即行为数量)。
不同产品的流行度(即被交互次数)。
让我们开始分析。
# Perform exploratory data analysis (EDA)
# 1. Count of each type of user action
action_count = df['action'].value_counts()
# 2. Activity level of each user (number of actions taken)
user_activity = df['user_id'].value_counts()
# 3. Popularity of each product (number of interactions)
product_popularity = df['product_id'].value_counts()
action_count, user_activity, product_popularity
(purchase 5
view 3
click 2
Name: action, dtype: int64,
U005 3
U003 3
U001 2
U004 1
U002 1
Name: user_id, dtype: int64,
P005 3
P004 3
P003 2
P001 1
P002 1
Name: product_id, dtype: int64)
探索性分析结果
每种用户行为的数量统计
purchase(购买): 5次
view(浏览): 3次
click(点击): 2次
不同用户的活跃度
用户 U005: 3次行为
用户 U003: 3次行为
用户 U001: 2次行为
用户 U004: 1次行为
用户 U002: 1次行为
不同产品的流行度
产品 P005: 3次交互
产品 P004: 3次交互
产品 P003: 2次交互
产品 P001: 1次交互
产品 P002: 1次交互
分析结论:
购买行为是最常见的,共有5次,而点击行为相对较少,只有2次。
用户 U005 和 U003 相对更活跃,都有3次行为记录。
产品 P005 和 P004 较为流行,各有3次用户交互。
这只是一个非常简单的探索性数据分析,对于真实世界的电商数据,通常需要进行更深入和复杂的分析。希望这对你有所帮助!