住在天上的云

【机器学习】某闯关类手游用户流失预测

Final Project: 某闯关类手游用户流失预测

1 案例简介

手游在当下的日常娱乐中占据着主导性地位，成为人们生活中放松身心的一种有效途径。近年来，各种类型的手游，尤其是闯关类的休闲手游，由于其对碎片化时间的利用取得了非常广泛的市场。然而在此类手游中，新用户流失是一个非常严峻的问题，有相当多的新用户在短暂尝试后会选择放弃，而如果能在用户还没有完全卸载游戏的时候针对流失可能性较大的用户施以干预（例如奖励道具、暖心短信），就可能挽回用户从而提升游戏的活跃度和公司的潜在收益，因此用户的流失预测成为一个重要且挑战性的问题。在毕业项目中我们将从真实游戏中非结构化的日志数据出发，构建用户流失预测模型，综合已有知识设计适合的算法解决实际问题。

✍作业说明：

根据给出的实际数据（包括用户游玩历史，关卡特征等），预测测试集中的用户是否为流失用户（二分类）；
方法不限，使用学堂在线云平台进行评测，评价指标使用 AUC；
提交代码与实验报告，报告展示对数据的观察、分析、最后的解决方案以及不同尝试的对比等；
最终评分会参考达到的效果以及对所尝试方法的分析。

2 数据概览

本次使用的是一个休闲类闯关手游的数据，用户在游戏中不断闯关，每一关的基本任务是在限定步数内达到某个目标。每次闯关可能成功也可能失败，一般情况下用户只在完成一关后进入下一关，闯关过程中可以使用道具或提示等帮助。

对大多数手游来说，用户流失往往发生在早期，因此次周的留存情况是公司关注的一个重点。本次数据选取了 2020.2.1 注册的所有用户在 2.1-2.4 的交互数据，数据经过筛选保证这些注册用户在前四日至少有两日登录。流失的定义则参照次周（2.7-2.13）的登录情况，如果没有登录为流失。

本次的数据和以往结构化的形式不同，展现的是更原始的数据记录，更接近公司实际日志的形式，共包含 5 个文件：

2.1 训练集 train.csv

训练集用户，包括用户 id（从 1 开始）以及对应是否为流失用户的 label（1：流失，0：留存）。

训练集共 8158 个用户，其中流失用户大约占 1/3，需要注意的是为了匿名化，这里数据都经过一定的非均匀抽样处理，流失率并不反映实际游戏的情况，用户与关卡的 id 同样经过了重编号，但对于流失预测任务来说并没有影响。

import pandas as pd
import numpy as np
from tqdm import tqdm


train_df = pd.read_csv('./data/train.csv', sep='\t')
train_df.T

	0	1	2	3	4	5	6	7	8	9	...	8148	8149	8150	8151	8152	8153	8154	8155	8156	8157
user_id	2774	2775	2776	2777	2778	2779	2780	2781	2782	2783	...	10922	10923	10924	10925	10926	10927	10928	10929	10930	10931
label	0	0	1	0	1	1	0	0	0	1	...	0	0	0	1	1	1	1	0	1	0

2 rows × 8158 columns

# 检查是否有空数据
train_df.isna().any().any()

False

train_df['label'].value_counts()

label
0    5428
1    2730
Name: count, dtype: int64

2.2 验证集 dev.csv

验证集格式和训练集相同，主要为了方便离线测试与模型选择。

dev_df = pd.read_csv('./data/dev.csv', sep='\t')
dev_df.T

	0	1	2	3	4	5	6	7	8	9	...	2648	2649	2650	2651	2652	2653	2654	2655	2656	2657
user_id	10932	10933	10934	10935	10936	10937	10938	10939	10940	10941	...	13580	13581	13582	13583	13584	13585	13586	13587	13588	13589
label	0	1	0	1	0	0	0	0	0	1	...	0	1	1	0	1	0	0	0	1	0

2 rows × 2658 columns

# 检查是否有空数据
dev_df.isna().any().any()

False

2.3 测试集 test.csv

测试集只包含用户 id，任务就是要预测这些用户的流失概率。

test_df = pd.read_csv('./data/test.csv', sep='\t')
test_df.T

	0	1	2	3	4	5	6	7	8	9	...	2763	2764	2765	2766	2767	2768	2769	2770	2771	2772
user_id	1	2	3	4	5	6	7	8	9	10	...	2764	2765	2766	2767	2768	2769	2770	2771	2772	2773

1 rows × 2773 columns

# 检查是否有空数据
test_df.isna().any().any()

False

2.4 核心数据集 level_seq.csv

这个是核心的数据文件，包含用户游玩每个关卡的记录，每一条记录是对某个关卡的一次尝试，具体每列的含义如下：

user_id：用户 id，和训练、验证、测试集中的可以匹配；
level_id：关卡 id；
f_success：是否通关（1：通关，0：失败）；
f_duration：此次尝试所用的时间（单位 s）；
f_reststep：剩余步数与限定步数之比（失败为 0）；
f_help：是否使用了道具、提示等额外帮助（1：使用，0：未使用）；
time：时间戳。

seq_df = pd.read_csv('./data/level_seq.csv', sep='\t')
seq_df

	user_id	level_id	f_success	f_duration	f_reststep	f_help	time
0	10932	1	1	127.0	0.500000	0	2020-02-01 00:05:51
1	10932	2	1	69.0	0.703704	0	2020-02-01 00:08:01
2	10932	3	1	67.0	0.560000	0	2020-02-01 00:09:50
3	10932	4	1	58.0	0.700000	0	2020-02-01 00:11:16
4	10932	5	1	83.0	0.666667	0	2020-02-01 00:13:12
...	...	...	...	...	...	...	...
2194346	10931	40	1	111.0	0.250000	1	2020-02-03 16:26:37
2194347	10931	41	1	76.0	0.277778	0	2020-02-03 16:28:06
2194348	10931	42	0	121.0	0.000000	1	2020-02-03 16:30:17
2194349	10931	42	0	115.0	0.000000	0	2020-02-03 16:33:40
2194350	10931	42	1	91.0	0.181818	0	2020-02-03 16:35:18

2194351 rows × 7 columns

# 检查是否有空数据
seq_df.isna().any().any()

False

2.5 关卡统计数据集 level_meta.csv

每个关卡的一些统计特征，可用于表示关卡，具体每列的含义如下：

f_avg_duration：平均每次尝试花费的时间（单位 s，包含成功与失败的尝试）；
f_avg_passrate：平均通关率；
f_avg_win_duration：平均每次通关花费的时间（单位 s，只包含通关的尝试）；
f_avg_retrytimes：平均重试次数（第二次玩同一关算第 1 次重试）；
level_id：关卡 id，可以和 level_seq.csv 中的关卡匹配。

meta_df = pd.read_csv('./data/level_meta.csv', sep='\t')
meta_df

	f_avg_duration	f_avg_passrate	f_avg_win_duration	f_avg_retrytimes	level_id
0	39.889940	0.944467	35.582757	0.017225	1
1	60.683975	0.991836	56.715706	0.004638	2
2	76.947355	0.991232	71.789943	0.004480	3
3	58.170347	0.993843	54.842882	0.004761	4
4	101.784577	0.954170	85.650547	0.027353	5
...	...	...	...	...	...
1504	594.878788	0.453730	133.625000	3.187500	1505
1505	486.562500	0.454180	115.906250	3.218750	1506
1506	325.968750	0.573525	86.250000	2.687500	1507
1507	793.096774	0.322684	164.000000	5.419355	1508
1508	423.406250	0.461409	106.833333	2.200000	1509

1509 rows × 5 columns

# 检查是否有空数据
meta_df.isna().any().any()

False

3 特征工程

在特征工程设计中，选择分为两部分进行：

根据 level_seq.csv 提取用户特征数据
- 用户ID
- 游戏次数
- 通关率
- 游戏总时间
- 平均剩余步数
- 总帮助次数
- 登陆天数
根据 level_meta.csv 提取关卡特征数据

在提取关卡特征数据之后，根据设计的公式，计算出不同分值，合并到用户特征中
- 用户闯关时间分值：
  用户参与关卡中，通关时间小于平均时间 得0分 ，大于平均时间 得1分
- 用户重试次数分值：
  用户参与关卡中，重试次数小于平均重试次数 得0分 ，大于平均重试次数 得1分
- 用户通关率分值：
  用户参与关卡中，通关成功 得1-通关率的分值 ，通关失败 得0分
- 用户通关时间分值：
  用户通关关卡中，通关时间小于平均时间 得0分 ，大于平均时间 得1分

3.1 提取用户特征

用户ID
游戏次数
通关率
游戏总时间
平均剩余步数
总帮助次数
登陆天数

'''
提取用户特征测试：
    根据训练集第一个用户的数据，进行特征提取
'''
user_features = []
user_id = train_df['user_id'][0]

# 提取该用户的信息到user_df
user_df = seq_df[seq_df['user_id'] == user_id]

# 添加用户id
user_features.append(user_id)

# 添加用户游戏次数
user_features.append(len(user_df))

# 添加用户通关率
user_df_succ = user_df[user_df['f_success']==1]
success_rate = round(len(user_df_succ) / len(user_df), 6)
user_features.append(success_rate)

# 添加用户游戏总时间
duration_all = user_df['f_duration'].sum()
user_features.append(duration_all)

# 添加平均剩余步数
reststep_mean = round(user_df['f_reststep'].mean(),6)
user_features.append(reststep_mean)

# 添加累积帮助次数
times_help = user_df['f_help'].sum()
user_features.append(times_help)

# 登陆天数
user_time = pd.to_datetime(user_df['time'])
days = user_time.dt.date.nunique()
user_features.append(days)

user_features

[2774, 215, 0.632558, 25398.0, 0.189056, 18, 4]

# 打印单用户数据
user_df

	user_id	level_id	f_success	f_duration	f_reststep	f_help	time
617	2774	1	1	50.0	0.500000	0	2020-02-01 00:02:21
618	2774	2	1	63.0	0.814815	0	2020-02-01 00:05:22
619	2774	3	1	71.0	0.720000	0	2020-02-01 00:07:25
620	2774	4	1	45.0	0.733333	0	2020-02-01 00:09:39
621	2774	5	1	78.0	0.375000	0	2020-02-01 00:11:36
...	...	...	...	...	...	...	...
827	2774	134	0	145.0	0.000000	0	2020-02-04 22:53:41
828	2774	134	0	129.0	0.000000	0	2020-02-04 22:55:51
829	2774	134	0	262.0	0.000000	0	2020-02-04 23:00:15
830	2774	134	0	164.0	0.000000	0	2020-02-04 23:03:00
831	2774	134	0	162.0	0.000000	0	2020-02-04 23:05:43

215 rows × 7 columns

def Features_Contrust_User(df):
    features = []

    for user_id in tqdm(df['user_id'],desc='Processing Users'):
        user_features = []
        # 提取该用户的信息到user_df
        user_df = seq_df[seq_df['user_id'] == user_id]

        # 添加用户id
        user_features.append(user_id)

        # 添加用户游戏次数
        user_features.append(len(user_df))

        # 添加用户通关率
        user_df_succ = user_df[user_df['f_success']==1]
        success_rate = round(len(user_df_succ) / len(user_df), 6)
        user_features.append(success_rate)

        # 添加用户游戏总时间
        duration_all = user_df['f_duration'].sum()
        user_features.append(duration_all)

        # 添加平均剩余步数
        reststep_mean = round(user_df['f_reststep'].mean(),6)
        user_features.append(reststep_mean)

        # 添加累积帮助次数
        times_help = user_df['f_help'].sum()
        user_features.append(times_help)

        # 登陆天数
        user_time = pd.to_datetime(user_df['time'], format="%Y-%m-%d %H:%M:%S")
        days = user_time.dt.date.nunique()
        user_features.append(days)

        features.append(user_features)

    features_df = pd.DataFrame(features)
    features_df.columns =['user_id','游戏次数','通关率','游戏总时间','平均剩余步数比','累积帮助次数','登陆天数']
    return features_df

Features_Contrust_User(dev_df)

Processing Users: 100%|██████████| 2658/2658 [00:05<00:00, 510.69it/s]

	user_id	游戏次数	通关率	游戏总时间	平均剩余步数比	累积帮助次数	登陆天数
0	10932	222	0.504505	41146.0	0.143857	20	4
1	10933	86	0.604651	9482.0	0.189069	4	3
2	10934	97	0.731959	10707.0	0.265445	7	3
3	10935	20	0.750000	1811.0	0.339879	2	3
4	10936	229	0.524017	33288.0	0.115141	22	4
...	...	...	...	...	...	...	...
2653	13585	248	0.451613	27237.0	0.119008	12	3
2654	13586	311	0.446945	38920.0	0.108392	16	3
2655	13587	20	0.700000	2195.0	0.228793	0	2
2656	13588	28	0.964286	2118.0	0.441202	0	2
2657	13589	21	0.809524	1403.0	0.421839	0	2

2658 rows × 7 columns

3.2 提取关卡特征

根据level_meta.csv包含的关卡数据，计算不同类型的用户分数，合并到用户特征中

用户闯关时间分值：

用户参与关卡中，通关时间小于平均时间 得0分 ，大于平均时间 得1分
用户重试次数分值：

用户参与关卡中，重试次数小于平均重试次数 得0分 ，大于平均重试次数 得1分
用户通关率分值：

用户参与关卡中，通关成功 得1-通关率的分值 ，通关失败 得0分
用户通关时间分值：

用户通关关卡中，通关时间小于平均时间 得0分 ，大于平均时间 得1分


user_scores = []
user_id = train_df['user_id'][0]

# 提取该用户的信息到user_df
user_df = seq_df[seq_df['user_id'] == user_id]

# 添加用户id
user_scores.append(user_id)

scores_duration = 0
scores_win_duration = 0
scores_passrate = 0
for item,row in user_df.iterrows():
    level_id = row['level_id']
    level_df = (meta_df[meta_df['level_id'] == level_id]).iloc[0]
    
    # 用户闯关时间分值
    my_duration = row['f_duration']
    avg_duration = level_df['f_avg_duration']
    score_duration = 1 if my_duration> avg_duration else 0
    scores_duration+=score_duration

    # 用户通关率分值
    my_suc = row['f_success']
    avg_duration = level_df['f_avg_passrate']
    score_passrate = 1-avg_duration if my_suc==1 else 0
    scores_passrate += score_passrate

    # 用户通关时间分值
    if(my_suc == 1):
        my_win_duration = row['f_duration']
        avg_win_duration = level_df['f_avg_win_duration']
        score_win_duration = 1 if my_win_duration> avg_win_duration else 0
        scores_win_duration+=score_win_duration

scores_retrytimes = 0
# 用户重试次数分值
my_retrytimes = user_df['level_id'].value_counts()
for level, count in my_retrytimes.items():
    level_df = (meta_df[meta_df['level_id'] == level]).iloc[0]
    avg_retrytime = level_df['f_avg_retrytimes']
    score_retrytime = 1 if count > avg_retrytime else 0
    scores_retrytimes+=score_retrytime

scores_duration,scores_retrytimes,scores_passrate,scores_win_duration

(16, 112, 29.332141329431998, 60)


def Features_Contrust_Score(df):
    features = []
    
    for user_id in tqdm(df['user_id'], desc='Processing Users'):
        user_scores = []

        # 提取该用户的信息到user_df
        user_df = seq_df[seq_df['user_id'] == user_id]

        # 添加用户id
        user_scores.append(user_id)

        scores_duration = 0
        scores_win_duration = 0
        scores_passrate = 0
        scores_retrytimes = 0
        for _,row in user_df.iterrows():
            level_id = row['level_id']
            level_df = (meta_df[meta_df['level_id'] == level_id]).iloc[0]
            
            # 用户闯关时间分值
            my_duration = row['f_duration']
            avg_duration = level_df['f_avg_duration']
            score_duration = 1 if my_duration> avg_duration else 0
            scores_duration+=score_duration

            # 用户通关率分值
            my_suc = row['f_success']
            avg_duration = level_df['f_avg_passrate']
            score_passrate = 1-avg_duration if my_suc==1 else 0
            scores_passrate += score_passrate

            # 用户通关时间分值
            if(my_suc == 1):
                my_win_duration = row['f_duration']
                avg_win_duration = level_df['f_avg_win_duration']
                score_win_duration = 1 if my_win_duration> avg_win_duration else 0
                scores_win_duration+=score_win_duration
        
        user_scores.append(scores_duration)
        user_scores.append(scores_win_duration)
        user_scores.append(scores_passrate)

        # 用户重试次数分值
        my_retrytimes = user_df['level_id'].value_counts()
        for level, count in my_retrytimes.items():
            level_df = (meta_df[meta_df['level_id'] == level]).iloc[0]
            avg_retrytime = level_df['f_avg_retrytimes']
            score_retrytime = 1 if count > avg_retrytime else 0
            scores_retrytimes+=score_retrytime
        user_scores.append(scores_retrytimes)
    
        features.append(user_scores)
    
    features_df = pd.DataFrame(features)
    features_df.columns =['user_id','用户闯关时间分值','用户通关率分值','用户通关时间分值','用户重试次数分值']
    return features_df

Features_Contrust_Score(dev_df)

Processing Users: 100%|██████████| 2658/2658 [01:38<00:00, 26.99it/s]

	user_id	用户闯关时间分值	用户通关率分值	用户通关时间分值	用户重试次数分值
0	10932	51	99	23.017459	108
1	10933	16	24	5.818085	53
2	10934	5	37	9.240510	69
3	10935	6	8	0.675395	15
4	10936	22	86	25.570134	113
...	...	...	...	...	...
2653	13585	3	20	21.389009	111
2654	13586	14	88	30.931455	130
2655	13587	0	5	5.035768	8
2656	13588	1	7	1.587732	27
2657	13589	3	3	0.810620	18

2658 rows × 5 columns

4 数据集构建

4.1 训练集

import warnings

# 训练集 用户数据
train_features_user_df = Features_Contrust_User(train_df)
train_features_user_df

Processing Users: 100%|██████████| 8158/8158 [00:14<00:00, 559.99it/s]

	user_id	游戏次数	通关率	游戏总时间	平均剩余步数比	累积帮助次数	登陆天数
0	2774	215	0.632558	25398.0	0.189056	18	4
1	2775	111	0.738739	18839.0	0.258456	14	3
2	2776	69	0.637681	6119.0	0.186543	1	3
3	2777	286	0.506993	40808.0	0.124245	4	4
4	2778	162	0.672840	32045.0	0.299450	9	3
...	...	...	...	...	...	...	...
8153	10927	350	0.505714	34697.0	0.166471	10	4
8154	10928	50	1.000000	4073.0	0.471203	3	2
8155	10929	243	0.469136	28858.0	0.117959	14	3
8156	10930	39	0.948718	6120.0	0.380187	6	2
8157	10931	56	0.785714	6193.0	0.284601	6	2

8158 rows × 7 columns

# 训练集 关卡数据
train_features_score_df = Features_Contrust_Score(train_df)
train_features_score_df

Processing Users: 100%|██████████| 8158/8158 [04:53<00:00, 27.78it/s]

	user_id	用户闯关时间分值	用户通关率分值	用户通关时间分值	用户重试次数分值
0	2774	16	60	29.332141	112
1	2775	37	67	12.707471	81
2	2776	1	7	7.606755	46
3	2777	14	79	38.681589	130
4	2778	45	87	20.940867	90
...	...	...	...	...	...
8153	10927	12	36	55.843120	147
8154	10928	2	11	5.034296	48
8155	10929	9	32	23.423420	114
8156	10930	21	30	2.612521	37
8157	10931	13	23	3.959152	45

8158 rows × 5 columns

# 合并训练集
train_features_df = pd.merge(train_features_user_df,train_features_score_df,on='user_id')
train_features_df['label'] = train_df['label']
train_features_df

	user_id	游戏次数	通关率	游戏总时间	平均剩余步数比	累积帮助次数	登陆天数	用户闯关时间分值	用户通关率分值	用户通关时间分值	用户重试次数分值	label
0	2774	215	0.632558	25398.0	0.189056	18	4	16	60	29.332141	112	0
1	2775	111	0.738739	18839.0	0.258456	14	3	37	67	12.707471	81	0
2	2776	69	0.637681	6119.0	0.186543	1	3	1	7	7.606755	46	1
3	2777	286	0.506993	40808.0	0.124245	4	4	14	79	38.681589	130	0
4	2778	162	0.672840	32045.0	0.299450	9	3	45	87	20.940867	90	1
...	...	...	...	...	...	...	...	...	...	...	...	...
8153	10927	350	0.505714	34697.0	0.166471	10	4	12	36	55.843120	147	1
8154	10928	50	1.000000	4073.0	0.471203	3	2	2	11	5.034296	48	1
8155	10929	243	0.469136	28858.0	0.117959	14	3	9	32	23.423420	114	0
8156	10930	39	0.948718	6120.0	0.380187	6	2	21	30	2.612521	37	1
8157	10931	56	0.785714	6193.0	0.284601	6	2	13	23	3.959152	45	0

8158 rows × 12 columns

4.2 验证集

# 验证集 用户数据
dev_features_user_df = Features_Contrust_User(dev_df)
dev_features_user_df

Processing Users: 100%|██████████| 2658/2658 [00:04<00:00, 554.20it/s]

	user_id	游戏次数	通关率	游戏总时间	平均剩余步数比	累积帮助次数	登陆天数
0	10932	222	0.504505	41146.0	0.143857	20	4
1	10933	86	0.604651	9482.0	0.189069	4	3
2	10934	97	0.731959	10707.0	0.265445	7	3
3	10935	20	0.750000	1811.0	0.339879	2	3
4	10936	229	0.524017	33288.0	0.115141	22	4
...	...	...	...	...	...	...	...
2653	13585	248	0.451613	27237.0	0.119008	12	3
2654	13586	311	0.446945	38920.0	0.108392	16	3
2655	13587	20	0.700000	2195.0	0.228793	0	2
2656	13588	28	0.964286	2118.0	0.441202	0	2
2657	13589	21	0.809524	1403.0	0.421839	0	2

2658 rows × 7 columns

# 验证集 关卡数据
dev_features_score_df = Features_Contrust_Score(dev_df)
dev_features_score_df

Processing Users: 100%|██████████| 2658/2658 [01:36<00:00, 27.51it/s]

	user_id	用户闯关时间分值	用户通关率分值	用户通关时间分值	用户重试次数分值
0	10932	51	99	23.017459	108
1	10933	16	24	5.818085	53
2	10934	5	37	9.240510	69
3	10935	6	8	0.675395	15
4	10936	22	86	25.570134	113
...	...	...	...	...	...
2653	13585	3	20	21.389009	111
2654	13586	14	88	30.931455	130
2655	13587	0	5	5.035768	8
2656	13588	1	7	1.587732	27
2657	13589	3	3	0.810620	18

2658 rows × 5 columns

# 合并验证集
dev_features_df = pd.merge(dev_features_user_df,dev_features_score_df,on='user_id')
dev_features_df['label'] = dev_df['label']
dev_features_df

	user_id	游戏次数	通关率	游戏总时间	平均剩余步数比	累积帮助次数	登陆天数	用户闯关时间分值	用户通关率分值	用户通关时间分值	用户重试次数分值	label
0	10932	222	0.504505	41146.0	0.143857	20	4	51	99	23.017459	108	0
1	10933	86	0.604651	9482.0	0.189069	4	3	16	24	5.818085	53	1
2	10934	97	0.731959	10707.0	0.265445	7	3	5	37	9.240510	69	0
3	10935	20	0.750000	1811.0	0.339879	2	3	6	8	0.675395	15	1
4	10936	229	0.524017	33288.0	0.115141	22	4	22	86	25.570134	113	0
...	...	...	...	...	...	...	...	...	...	...	...	...
2653	13585	248	0.451613	27237.0	0.119008	12	3	3	20	21.389009	111	0
2654	13586	311	0.446945	38920.0	0.108392	16	3	14	88	30.931455	130	0
2655	13587	20	0.700000	2195.0	0.228793	0	2	0	5	5.035768	8	0
2656	13588	28	0.964286	2118.0	0.441202	0	2	1	7	1.587732	27	1
2657	13589	21	0.809524	1403.0	0.421839	0	2	3	3	0.810620	18	0

2658 rows × 12 columns

4.3 测试集

# 测试集 用户数据
test_features_user_df = Features_Contrust_User(test_df)
test_features_user_df

Processing Users: 100%|██████████| 2773/2773 [00:05<00:00, 533.79it/s]

	user_id	游戏次数	通关率	游戏总时间	平均剩余步数比	累积帮助次数	登陆天数
0	1	395	0.263291	38860.0	0.060526	8	4
1	2	237	0.514768	20190.0	0.150546	20	4
2	3	230	0.608696	22291.0	0.235325	14	2
3	4	107	0.532710	13234.0	0.143748	8	4
4	5	238	0.420168	29454.0	0.118816	20	4
...	...	...	...	...	...	...	...
2768	2769	41	0.829268	3294.0	0.324696	3	3
2769	2770	411	0.501217	41576.0	0.147572	18	4
2770	2771	255	0.701961	24327.0	0.198157	15	4
2771	2772	87	0.632184	10432.0	0.211336	1	2
2772	2773	247	0.497976	32303.0	0.119077	2	2

2773 rows × 7 columns

# 测试集 关卡数据
test_features_score_df = Features_Contrust_Score(test_df)
test_features_score_df

Processing Users: 100%|██████████| 2773/2773 [01:38<00:00, 28.24it/s]

	user_id	用户闯关时间分值	用户通关率分值	用户通关时间分值	用户重试次数分值
0	1	9	28	19.660024	106
1	2	1	10	28.858450	113
2	3	4	30	30.559213	131
3	4	22	35	6.669461	58
4	5	10	62	18.637362	105
...	...	...	...	...	...
2768	2769	2	4	2.208893	35
2769	2770	1	37	67.168588	164
2770	2771	2	40	50.195715	136
2771	2772	9	33	6.195868	57
2772	2773	17	88	26.838850	118

2773 rows × 5 columns

# 合并测试集
test_features_df = pd.merge(test_features_user_df,test_features_score_df,on='user_id')
test_features_df

	user_id	游戏次数	通关率	游戏总时间	平均剩余步数比	累积帮助次数	登陆天数	用户闯关时间分值	用户通关率分值	用户通关时间分值	用户重试次数分值
0	1	395	0.263291	38860.0	0.060526	8	4	9	28	19.660024	106
1	2	237	0.514768	20190.0	0.150546	20	4	1	10	28.858450	113
2	3	230	0.608696	22291.0	0.235325	14	2	4	30	30.559213	131
3	4	107	0.532710	13234.0	0.143748	8	4	22	35	6.669461	58
4	5	238	0.420168	29454.0	0.118816	20	4	10	62	18.637362	105
...	...	...	...	...	...	...	...	...	...	...	...
2768	2769	41	0.829268	3294.0	0.324696	3	3	2	4	2.208893	35
2769	2770	411	0.501217	41576.0	0.147572	18	4	1	37	67.168588	164
2770	2771	255	0.701961	24327.0	0.198157	15	4	2	40	50.195715	136
2771	2772	87	0.632184	10432.0	0.211336	1	2	9	33	6.195868	57
2772	2773	247	0.497976	32303.0	0.119077	2	2	17	88	26.838850	118

2773 rows × 11 columns

4.4 数据归一化

归一化：Min-Max Normalization
- $\frac{x_{i}-min(x_i)}{max(x_i)-min(x_i)}$

''' 
函数说明：对数据进行归一化
Parameters:
    dataSet - 特征矩阵
Returns:
    normDataSet - 归一化后的特征矩阵
'''
def autoNorm(dataSet):
    # 获得数据的最小值
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    # 最大值和最小值的范围
    ranges = maxVals - minVals
    # shape(dataSet)返回dataSet的矩阵行列数
    normDataSet = np.zeros(np.shape(dataSet))
    # 返回dataSet的行数
    m = dataSet.shape[0]
    # 原始值减去最小值
    normDataSet = dataSet - np.tile(minVals, (m, 1))
    # 除以最大和最小值的差,得到归一化数据
    normDataSet = normDataSet / np.tile(ranges, (m, 1))
    # 返回归一化数据结果,数据范围,最小值
    return normDataSet

# 训练集
train_features = np.array(train_features_df.iloc[:, 1:11])
train_features = autoNorm(train_features) # 归一化
train_labels = train_features_df.iloc[:, -1].values
# 验证集
dev_features = np.array(dev_features_df.iloc[:, 1:11])
dev_features = autoNorm(dev_features) # 归一化
dev_labels = dev_features_df.iloc[:, -1].values
train_features.shape,train_labels.shape,dev_features.shape,dev_labels.shape

((8158, 10), (8158,), (2658, 10), (2658,))

# 测试集
test_features = np.array(test_features_df.iloc[:, 1:11])
test_features = autoNorm(test_features) # 归一化
test_features.shape

(2773, 10)

5 模型构建

from sklearn import tree
from sklearn.ensemble import AdaBoostClassifier
from sklearn.naive_bayes import MultinomialNB, BernoulliNB, ComplementNB
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

p_list = [] # 记录模型预测结果（0/1）
pro_list = [] # 记录模型预测结果（probability）

5.1 决策树

parameters = {'criterion':['entropy', 'gini'], 
              'max_depth': range(1, 6), 
              'min_samples_split': [10, 50, 100, 200, 500, 1000]} # 定义需要遍历的参数
              
clf = tree.DecisionTreeClassifier()
grid_search = GridSearchCV(clf, parameters, scoring='accuracy', cv=5, verbose=100, n_jobs=4) # 传入模型和要遍历的参数
grid_search.fit(train_features,train_labels) # 在所有数据上搜索参数
print(grid_search.best_score_, grid_search.best_params_) # 输出最佳指标和最佳参数

Fitting 5 folds for each of 60 candidates, totalling 300 fits
0.7391579056515309 {'criterion': 'entropy', 'max_depth': 2, 'min_samples_split': 10}

clf = tree.DecisionTreeClassifier(**grid_search.best_params_)
clf.fit(train_features,train_labels) # 在训练集上训练
p_test = clf.predict(dev_features) # 在测试集上预测，获得预测值
print(p_test) # 输出预测值
pro_test = clf.predict_proba(dev_features)

test_acc = accuracy_score(p_test, dev_labels) # 将测试预测值与测试集标签对比获得准确率
test_prec = precision_score(p_test, dev_labels)
test_rec = recall_score(p_test, dev_labels)
test_AUC = roc_auc_score(dev_labels,pro_test[:,1])
print('>> accuracy: {:.4f}, precision: {:.4f}, recall: {:.4f}'.format(test_acc, test_prec, test_rec)) # 输出评价指标
print('>> AUC: {:.4f}'.format(test_AUC))

p_list.append(p_test)
pro_list.append(pro_test)

[0 0 0 ... 1 1 1]
>> accuracy: 0.7397, precision: 0.5239, recall: 0.6422
>> AUC: 0.7663

5.2 贝叶斯学习

for NB in [BernoulliNB(), MultinomialNB(), ComplementNB()]: # 测试三种类型的朴素贝叶斯
    NB.fit(train_features,train_labels) # 在训练集上训练
    p_test = NB.predict(dev_features) # 在测试集上预测，获得预测值
    pro_test = NB.predict_proba(dev_features)
    test_acc = accuracy_score(dev_labels, p_test) # 准确率
    test_prec = precision_score(dev_labels, p_test) # 精准率
    test_rec = recall_score(dev_labels, p_test) # 召回率
    test_AUC = roc_auc_score(dev_labels,pro_test[:,1])
    print(NB)
    print(p_test)
    print('>> accuracy: {:.4f}, precision: {:.4f}, recall: {:.4f}'.format(test_acc, test_prec, test_rec)) # 输出评价指标
    print('>> AUC: {:.4f}'.format(test_AUC))

BernoulliNB()
[0 0 0 ... 1 1 1]
>> accuracy: 0.7385, precision: 0.6366, recall: 0.5327
>> AUC: 0.7073
MultinomialNB()
[0 0 0 ... 0 0 0]
>> accuracy: 0.6731, precision: 0.7162, recall: 0.0588
>> AUC: 0.7786
ComplementNB()
[0 0 0 ... 1 1 1]
>> accuracy: 0.7400, precision: 0.6067, recall: 0.6626
>> AUC: 0.7786

NB = ComplementNB()
NB.fit(train_features,train_labels)
p_test = NB.predict(dev_features)
pro_test = NB.predict_proba(dev_features)

p_list.append(p_test)
pro_list.append(pro_test)

5.3 k-邻近

parameters = {'n_neighbors': range(1, 30),
              'weights':['uniform', 'distance'],
              'metric':['euclidean', 'manhattan', 'chebyshev', 'minkowski']}
KNN = KNeighborsClassifier()
grid_search = GridSearchCV(KNN, parameters, scoring='accuracy', cv=5, verbose=100, n_jobs=4)
grid_search.fit(train_features,train_labels) # 在所有数据上搜索参数
print(grid_search.best_score_, grid_search.best_params_) # 输出最佳指标和最佳参数

Fitting 5 folds for each of 232 candidates, totalling 1160 fits
0.7329049001574879 {'metric': 'chebyshev', 'n_neighbors': 29, 'weights': 'uniform'}

KNN = KNeighborsClassifier(**grid_search.best_params_)  # 取最佳参数
KNN.fit(train_features,train_labels) # 在训练集上训练
p_test = KNN.predict(dev_features) # 在测试集上预测，获得预测值
print(p_test) # 输出预测值
pro_test = KNN.predict_proba(dev_features)
test_acc = accuracy_score(p_test, dev_labels) # 将测试预测值与测试集标签对比获得准确率
test_prec = precision_score(p_test, dev_labels)
test_rec = recall_score(p_test, dev_labels)
test_AUC = roc_auc_score(dev_labels,pro_test[:,1])

print('>> accuracy: {:.4f}, precision: {:.4f}, recall: {:.4f}'.format(test_acc, test_prec, test_rec)) # 输出评价指标
print('>> AUC: {:.4f}'.format(test_AUC))

p_list.append(p_test)
pro_list.append(pro_test)

[0 0 0 ... 1 1 1]
>> accuracy: 0.7348, precision: 0.4917, recall: 0.6420
>> AUC: 0.7712

5.4 SVM

param_grid = {'C': [0.1,1, 10, 100], 'gamma': [1,0.1,0.01,0.001]} 
grid_search  = GridSearchCV(SVC(),param_grid,scoring='accuracy', cv=5, verbose=100, n_jobs=4)
grid_search.fit(train_features,train_labels)
print(grid_search.best_score_, grid_search.best_params_)

Fitting 5 folds for each of 16 candidates, totalling 80 fits
0.7401390491819045 {'C': 1, 'gamma': 0.01}

SVM = SVC(probability=True,**grid_search.best_params_)  # 取最佳参数
SVM.fit(train_features,train_labels) # 在训练集上训练
p_test = SVM.predict(dev_features) # 在测试集上预测，获得预测值
print(p_test) # 输出预测值
pro_test = SVM.predict_proba(dev_features)
test_acc = accuracy_score(p_test, dev_labels) 
test_prec = precision_score(p_test, dev_labels)
test_rec = recall_score(p_test, dev_labels)
test_AUC = roc_auc_score(dev_labels,pro_test[:,1])

print('>> accuracy: {:.4f}, precision: {:.4f}, recall: {:.4f}'.format(test_acc, test_prec, test_rec)) # 输出评价指标
print('>> AUC: {:.4f}'.format(test_AUC))

p_list.append(p_test)
pro_list.append(pro_test)

[0 0 0 ... 1 1 1]
>> accuracy: 0.7397, precision: 0.5250, recall: 0.6418
>> AUC: 0.7801

from itertools import cycle
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, auc

fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(4):
    fpr[i], tpr[i], _ = roc_curve(dev_labels, pro_list[i][:,1])
    roc_auc[i] = auc(fpr[i], tpr[i])

plt.figure()
colors = cycle(["aqua", "darkorange", "cornflowerblue","deeppink"])
models = cycle(["DT","BN","KNN","SVM"])
for i, color,model in zip(range(4), colors, models):
    plt.plot(
        fpr[i],
        tpr[i],
        color=color,
        label="ROC curve {0} (auc = {1:0.4f})".format(model, roc_auc[i]),
    )
plt.plot([0, 1], [0, 1], color="black", linestyle="--")
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.title("ROC curve")
plt.legend(loc="lower right")
plt.grid("open")
plt.show()

5.5 集成学习

p_list_Adaboost = [] # 记录Adaboost+模型预测结果（0/1）
pro_list_Adaboost = [] # 记录Adaboost+模型预测结果（probability）

for baseclf in [tree.DecisionTreeClassifier(criterion='entropy', max_depth=2, min_samples_split=50),
                BernoulliNB(),
                SVC(C=1,  gamma=0.01,probability=True)]:
    Adaboost_ = AdaBoostClassifier(baseclf,algorithm='SAMME')
    Adaboost_.fit(train_features,train_labels)
    p_test = Adaboost_.predict(dev_features)
    p_list_Adaboost.append(p_test)
    pro_test = Adaboost_.predict_proba(dev_features)
    pro_list_Adaboost.append(pro_test)
    
    test_acc = accuracy_score(p_test, dev_labels)
    test_prec = precision_score(p_test, dev_labels) 
    test_rec = recall_score(p_test, dev_labels)
    test_AUC = roc_auc_score(dev_labels,pro_test[:,1])
    
    print(baseclf)
    print('>> accuracy: {:.4f}, precision: {:.4f}, recall: {:.4f}'.format(test_acc, test_prec, test_rec)) # 输出评价指标
    print('>> AUC: {:.4f}'.format(test_AUC))

DecisionTreeClassifier(criterion='entropy', max_depth=2, min_samples_split=50)
>> accuracy: 0.7216, precision: 0.3929, recall: 0.6472
>> AUC: 0.7811
BernoulliNB()
>> accuracy: 0.7397, precision: 0.5239, recall: 0.6422
>> AUC: 0.7072
SVC(C=1, gamma=0.01, probability=True)
>> accuracy: 0.6610, precision: 0.0000, recall: 0.0000
>> AUC: 0.5000

for i,model in enumerate(["Adaboost + D_T","Adaboost + B_N","Adaboost + SVM"]):
    auc = roc_auc_score(dev_labels,pro_list_Adaboost[i][:,1])
    print("{0} model: \n>> AUC = {1:.4f}".format(model,auc))

Adaboost + D_T model: 
>> AUC = 0.7811
Adaboost + B_N model: 
>> AUC = 0.7072
Adaboost + SVM model: 
>> AUC = 0.5000

6 提交测试

提交文件需要对测试集中每一个用户给出预测流失的概率，每行包括一个ID（和 test.csv 中的user_id对应）以及预测的概率Prediction（0-1的浮点数），用逗号分隔。示例提交格式如下：

ID,Prediction  
1,0.9  
2,0.45  
3,0.78  
...

base = tree.DecisionTreeClassifier(criterion='entropy', max_depth=2, min_samples_split=50)
TEST = Adaboost_ = AdaBoostClassifier(base,algorithm='SAMME')
TEST.fit(train_features,train_labels)
pro_test = TEST.predict_proba(test_features)

test_df['Prediction'] = pro_test[:,1]
test_df.rename(columns={'user_id':'ID'},inplace=True)
test_df.T

	0	1	2	3	4	5	6	7	8	9	...	2763	2764	2765	2766	2767	2768	2769	2770	2771	2772
ID	1.000000	2.00000	3.000000	4.000000	5.000000	6.00000	7.000000	8.000000	9.000000	10.000000	...	2764.000000	2765.000000	2766.000000	2767.000000	2768.000000	2769.000000	2770.000000	2771.00000	2772.000000	2773.000000
Prediction	0.297698	0.38273	0.485057	0.359337	0.324984	0.37153	0.520123	0.308808	0.289494	0.504076	...	0.376291	0.442527	0.397151	0.569864	0.508034	0.498919	0.355091	0.36625	0.464252	0.477353

2 rows × 2773 columns

# DataFrame 转 .csv
test_df.to_csv(r'./result.csv',index=False)

Tips

一个基本的思路可以是：根据游玩关卡的记录为每个用户提取特征 → 结合 label 构建表格式的数据集 → 使用不同模型训练与测试；
还可以借助其他模型（如循环神经网络）直接对用户历史序列建模；
数据量太大运行时间过长的话，可以先在一个采样的小训练集上调参；
集成多种模型往往能达到更优的效果；
可以使用各种开源工具。

你可能感兴趣的:(机器学习,机器学习,人工智能,算法)

【加解密与C】Rot系列(四)Rot8000 阿捏利加解密与C c语言 Rot8000
Rot8000简介Rot8000是一种基于Unicode字符集的旋转加密算法，类似于经典的Rot13，但扩展到了更大的字符范围（通常是Unicode的基本多语言平面，即U+0000到U+FFFF）。Rot13仅适用于26个拉丁字母，而Rot8000通过覆盖更多字符（如中文、符号等），增强了加密的灵活性和趣味性。Rot8000加密原理Rot8000的核心思想是将每个Unicode字符的码点值加上0x
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
48Days-Day03 | 删除公共字符，两个链表的第一个公共结点，mari和shiny TinaAmber 笔试训练48Days 链表 java 算法
删除公共字符删除公共字符_牛客题霸_牛客网算法思路直接哈希，把第二个字符塞集合里面，遍历第一个，只要在集合里面有的就跳过代码importjava.util.HashSet;importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerscan=newScanner(System.in);Strin
李航老师-统计学习小三爷_df1b
三个准则1.作为入门选手，不要每章都看2.不要从零造轮子去实现算法，太浪费时间3.必须能手推公式章节目录##统计学习概论-统计学习的目的是对数据进行==预测与分析==-统计学习的前提是同类数据具有一定的统计规律性-统计学习的方法-监督学习(supervisedlearning)-非监督学习(unsupervisedlearning)-半监督学习(semi-supervisedlearning)-强
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
假冒朱民！通达OA社科院朱民ST-balance项目就是假的，被骗亏损真相揭秘，亲身亏损经历正义青天
通达OA社科院朱民ST-balance项目不正规——杀猪盘不能提现投票骗局曝光！随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
InPixio Photo Maximizer(图片无损放大软件) v5.3.8625 便携版
InPixioPhotoMaximizer是一款用于放大和增强照片的软件。它提供了一系列功能和特点，使用户能够通过增大分辨率和细节来改善照片的质量和清晰度。软件功能图像放大：通过使用高级算法，可以将照片放大到原始分辨率的4倍，而保持良好的清晰度和细节。细节增强：通过增加图像的细节和锐度，可以改善照片的质量，并使图像更加清晰和逼真。手动调整：用户可以使用软件的手动调整工具，根据自己的需求进行尺寸和细
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
“专属私有云”或“行业公有云（逻辑隔离的公共云专区）”两种主流部署模式到底有什么区别？政务云不就应该是专属的私有云么？政务云是不是不能混用？
一、安全合规性要求分层，驱动部署模式分化核心敏感系统需物理隔离（专属私有云）涉及公民隐私、国家安全（如公安、财政、医保核心数据库）的系统，必须通过物理隔离的专属私有云保障绝对控制权。例如：浦东新区公安局的涉密数据采用自建私有云，确保数据完全自主管控3。某省地市政务云要求核心业务部署在信创私有云，满足等保三级和国密算法评估要求5。非敏感公共服务适用逻辑隔离（行业公有云）面向公众的服务（如社保查询、线
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
AES加密算法简要介绍 ° 安如少年初如梦662 Java学习记录后端前端
前言项目中需要在接口中添加加密，简单了解关于AES的有关知识，低质低创见谅。什么是AESAES（AdvancedEncryptionStandard，高级加密标准）是一种对称加密算法，被广泛应用于数据加密领域。它是由美国国家标准与技术研究院（NIST）于2001年发布，作为一种公开标准，用于保护电子数据的安全。值得一提的是微信小程序的加密传输就是用这个加密算法基本原理和加解密过程由于站内有很详细，
对话谷歌前 CEO Eric Schmidt：数字超智能将在十年内到来，AI 将创造更多更高薪的工作 AI科技大本营人工智能
责编|王启隆出品|CSDN（ID：CSDNnews）投稿或寻求报道|[email protected]科技巨擘、谷歌前CEOEricSchmidt最近做客PeterDiamandis的Moonshots播客，与主持人PeterDiamandis及DaveLondon展开了一场关于人工智能未来的深度对话。全世界都在为AI的飞速发展感到兴奋又焦虑时，这位曾经执掌谷歌帝国长达十年、亲眼见证并推动了这场技术
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs