MarkLiu皮皮兽

《绝地求生》玩家排名预测-pubg(竞赛)参考型模

1 《绝地求生》玩家排名预测

---- 你能预测《绝地求生》玩家战斗结束后的排名吗？

2 项目背景

2.1 项目简介

绝地求生(Player unknown’s Battlegrounds)，俗称吃鸡，是一款战术竞技型射击类沙盒游戏。这款游戏是一款大逃杀类型的游戏，每一局游戏将有最多100名玩家参与，他们将被投放在绝地岛(battlegrounds)上，在游戏的开始时所有人都一无所有。玩家需要在岛上收集各种资源，在不断缩小的安全区域内对抗其他玩家，让自己生存到最后。

该游戏拥有很高的自由度，玩家可以体验飞机跳伞、开越野车、丛林射击、抢夺战利品等玩法，小心四周埋伏的敌人，尽可能成为最后1个存活的人。

2.2 项目涉及知识点

sklearn基本操作

数据基本处理
机器学习基本算法的使用

2.3 数据集介绍

本项目中，将为您提供大量匿名的《绝地求生》游戏统计数据。其格式为每行包含一个玩家的游戏后统计数据，列为数据的特征值。数据来自所有类型的比赛：单排，双排，四排；不保证每场比赛有100名人员，每组最多4名成员。

文件说明:

train_V2.csv - 训练集

test_V2.csv - 测试集

数据集局部图如下图所示:


数据集中字段解释：

Id [用户id]
Player’s Id
groupId [所处小队id]
ID to identify a group within a match. If the same group of players plays in different matches, they will have a different groupId each time.
matchId [该场比赛id]
ID to identify match. There are no matches that are in both the training and testing set.
assists [助攻数]
Number of enemy players this player damaged that were killed by teammates.
boosts [使用能量,道具数量]
Number of boost items used.
damageDealt [总伤害]
Total damage dealt. Note: Self inflicted damage is subtracted.
DBNOs [击倒敌人数量]
Number of enemy players knocked.
headshotKills [爆头数]
Number of enemy players killed with headshots.
heals [使用治疗药品数量]
Number of healing items used.
killPlace [本厂比赛杀敌排行]
Ranking in match of number of enemy players killed.
killPoints [Elo杀敌排名]
Kills-based external ranking of player. (Think of this as an Elo ranking where only kills matter.) If there is a value other than -1 in rankPoints, then any 0 in killPoints should be treated as a “None”.
kills [杀敌数]
Number of enemy players killed.
killStreaks [连续杀敌数]
Max number of enemy players killed in a short amount of time.
longestKill [最远杀敌距离]
Longest distance between player and player killed at time of death. This may be misleading, as downing a player and driving away may lead to a large longestKill stat.
matchDuration [比赛时长]
Duration of match in seconds.
matchType [比赛类型(小组人数)]
String identifying the game mode that the data comes from. The standard modes are “solo”, “duo”, “squad”, “solo-fpp”, “duo-fpp”, and “squad-fpp”; other modes are from events or custom matches.
maxPlace [本局最差名次]
Worst placement we have data for in the match. This may not match with numGroups, as sometimes the data skips over placements.
numGroups [小组数量]
Number of groups we have data for in the match.
rankPoints [Elo排名]
Elo-like ranking of player. This ranking is inconsistent and is being deprecated in the API’s next version, so use with caution. Value of -1 takes place of “None”.
revives [救活队员的次数]
Number of times this player revived teammates.
rideDistance [驾车距离]
Total distance traveled in vehicles measured in meters.
roadKills [驾车杀敌数]
Number of kills while in a vehicle.
swimDistance [游泳距离]
Total distance traveled by swimming measured in meters.
teamKills [杀死队友的次数]
Number of times this player killed a teammate.
vehicleDestroys [毁坏机动车的数量]
Number of vehicles destroyed.
walkDistance [步行距离]
Total distance traveled on foot measured in meters.
weaponsAcquired [收集武器的数量]
Number of weapons picked up.
winPoints [胜率Elo排名]
Win-based external ranking of player. (Think of this as an Elo ranking where only winning matters.) If there is a value other than -1 in rankPoints, then any 0 in winPoints should be treated as a “None”.
winPlacePerc [百分比排名]
The target of prediction. This is a percentile winning placement, where 1 corresponds to 1st place, and 0 corresponds to last place in the match. It is calculated off of maxPlace, not numGroups, so it is possible to have missing chunks in a match.

3 项目评估方式

3.1 评估方式

你必须创建一个模型，根据他们的最终统计数据预测玩家的排名，从1（第一名）到0（最后一名）。

最后结果通过平均绝对误差（MAE）进行评估，即通过预测的winPlacePerc和真实的winPlacePerc之间的平均绝对误差

3.2 MAE(Maean Absolute Error)介绍

就是绝对误差的平均值
能更好地反映预测值误差的实际情况
(,ℎ)=1∑=1|ℎ(())−()|
api:

sklearn.metrics.mean_absolute_error

4 项目实现（数据分析+RL）

在接下来的分析中，我们将分析数据集，检测异常值。

然后我们通过随机森林模型对其训练，并对对该模型进行了优化。

导入数据基本处理阶段需要用到的api

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

4.1 获取数据、基本数据信息查看

导入数据，且查看数据的基本信息

train = pd.read_csv("./data/train_V2.csv")
train.describe()
assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	killPoints	kills	killStreaks	...	revives	rideDistance	roadKills	swimDistance	teamKills	vehicleDestroys	walkDistance	weaponsAcquired	winPoints	winPlacePerc
count	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	...	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446966e+06	4.446965e+06
mean	2.338149e-01	1.106908e+00	1.307171e+02	6.578755e-01	2.268196e-01	1.370147e+00	4.759935e+01	5.050060e+02	9.247833e-01	5.439551e-01	...	1.646590e-01	6.061157e+02	3.496091e-03	4.509322e+00	2.386841e-02	7.918208e-03	1.154218e+03	3.660488e+00	6.064601e+02	4.728216e-01
std	5.885731e-01	1.715794e+00	1.707806e+02	1.145743e+00	6.021553e-01	2.679982e+00	2.746294e+01	6.275049e+02	1.558445e+00	7.109721e-01	...	4.721671e-01	1.498344e+03	7.337297e-02	3.050220e+01	1.673935e-01	9.261157e-02	1.183497e+03	2.456544e+00	7.397004e+02	3.074050e-01
min	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	1.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	...	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00
25%	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	2.400000e+01	0.000000e+00	0.000000e+00	0.000000e+00	...	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	1.551000e+02	2.000000e+00	0.000000e+00	2.000000e-01
50%	0.000000e+00	0.000000e+00	8.424000e+01	0.000000e+00	0.000000e+00	0.000000e+00	4.700000e+01	0.000000e+00	0.000000e+00	0.000000e+00	...	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	6.856000e+02	3.000000e+00	0.000000e+00	4.583000e-01
75%	0.000000e+00	2.000000e+00	1.860000e+02	1.000000e+00	0.000000e+00	2.000000e+00	7.100000e+01	1.172000e+03	1.000000e+00	1.000000e+00	...	0.000000e+00	1.909750e-01	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	1.976000e+03	5.000000e+00	1.495000e+03	7.407000e-01
max	2.200000e+01	3.300000e+01	6.616000e+03	5.300000e+01	6.400000e+01	8.000000e+01	1.010000e+02	2.170000e+03	7.200000e+01	2.000000e+01	...	3.900000e+01	4.071000e+04	1.800000e+01	3.823000e+03	1.200000e+01	5.000000e+00	2.578000e+04	2.360000e+02	2.013000e+03	1.000000e+00
8 rows × 25 columns

train.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4446966 entries, 0 to 4446965
Data columns (total 29 columns):
Id                 object
groupId            object
matchId            object
assists            int64
boosts             int64
damageDealt        float64
DBNOs              int64
headshotKills      int64
heals              int64
killPlace          int64
killPoints         int64
kills              int64
killStreaks        int64
longestKill        float64
matchDuration      int64
matchType          object
maxPlace           int64
numGroups          int64
rankPoints         int64
revives            int64
rideDistance       float64
roadKills          int64
swimDistance       float64
teamKills          int64
vehicleDestroys    int64
walkDistance       float64
weaponsAcquired    int64
winPoints          int64
winPlacePerc       float64
dtypes: float64(6), int64(19), object(4)
memory usage: 983.9+ MB
可以看到数据一共有4446966条，

train.shape
(4446966, 29)

4.2 数据基本处理

4.2.1 数据缺失值处理

查看目标值，我们发现有一条样本，比较特殊，其“winplaceperc”的值为NaN，也就是目标值是缺失值，

因为只有一个玩家是这样，直接进行删除处理。

# 查看缺失值

train[train['winPlacePerc'].isnull()]
Id	groupId	matchId	assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	...	revives	rideDistance	roadKills	swimDistance	teamKills	vehicleDestroys	walkDistance	weaponsAcquired	winPoints	winPlacePerc
2744604	f70c74418bb064	12dfbede33f92b	224a123c53e008	0	0	0.0	0	0	0	1	...	0	0.0	0	0.0	0	0	0.0	0	0	NaN
1 rows × 29 columns

# 删除缺失值
train.drop(2744604, inplace=True)
train.shape
(4446965, 29)
4.2.2  特征数据规范化处理
4.2.2.1  查看每场比赛参加的人数
处理完缺失值之后，我们看一下每场参加的人数会有多少呢，是每次都会匹配100个人，才开始游戏吗？

# 显示每场比赛参加人数
# transform的作用类似实现了一个一对多的映射功能，把统计数量映射到对应的每个样本上
count = train.groupby('matchId')['matchId'].transform('count')
count
0          96
1          91
2          98
3          91
4          97
           ..
4446961    94
4446962    93
4446963    98
4446964    94
4446965    98
Name: matchId, Length: 4446965, dtype: int64
train['playersJoined'] = count
count.count()
4446965
train.head()
Id	groupId	matchId	assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	...	rideDistance	roadKills	swimDistance	teamKills	vehicleDestroys	walkDistance	weaponsAcquired	winPoints	winPlacePerc	playersJoined
0	7f96b2f878858a	4d4b580de459be	a10357fd1a4a91	0	0	0.00	0	0	0	60	...	0.0000	0	0.00	0	0	244.80	1	1466	0.4444	96
1	eef90569b9d03c	684d5656442f9e	aeb375fc57110c	0	0	91.47	0	0	0	57	...	0.0045	0	11.04	0	0	1434.00	5	0	0.6400	91
2	1eaf90ac73de72	6a4a42c3245a74	110163d8bb94ae	1	0	68.00	0	0	0	47	...	0.0000	0	0.00	0	0	161.80	2	0	0.7755	98
3	4616d365dd2853	a930a9c79cd721	f1f1f4ef412d7e	0	0	32.90	0	0	0	75	...	0.0000	0	0.00	0	0	202.70	3	0	0.1667	91
4	315c96c26c9aac	de04010b3458dd	6dc8ff871e21e6	0	0	100.00	0	0	0	45	...	0.0000	0	0.00	0	0	49.75	2	0	0.1875	97
5 rows × 30 columns

# 通过每场参加人数进行，按值升序排列
train["playersJoined"].sort_values().head()
1206365    2
2109739    2
3956552    5
3620228    5
696000     5
Name: playersJoined, dtype: int64
通过结果发现，最少的一局，竟然只有两个人，wtf!!!!

# 通过绘制图像，查看每局开始人数
# 通过seaborn下的countplot方法，可以直接绘制统计过数量之后的直方图
plt.figure(figsize=(20,10))
sns.countplot(train['playersJoined'])
plt.title('playersJoined')
plt.grid()
plt.show()

通过观察，发现一局游戏少于75个玩家，就开始的还是比较少

同时大部分游戏都是在接近100人的时候才开始

限制每局开始人数大于等于75，再进行绘制。

猜想：把这些数据在后期加入数据处理，应该会得到的结果更加准确一些

# 再次绘制每局参加人数的直方图
plt.figure(figsize=(20,10))
sns.countplot(train[train['playersJoined']>=75]['playersJoined'])
plt.title('playersJoined')
plt.grid()
plt.show()

4.2.2.2 规范化输出部分数据

现在我们统计了“每局玩家数量”，那么我们就可以通过“每局玩家数量”来进一步考证其它特征，同时对其规范化设置

试想：一局只有70个玩家的杀敌数，和一局有100个玩家的杀敌数，应该是不可以同时比较的

可以考虑的特征值包括

1.kills（杀敌数）

2.damageDealt（总伤害）

3.maxPlace（本局最差名次）

4.matchDuration（比赛时长）

# 对部分特征值进行规范化
train['killsNorm'] = train['kills']*((100-train['playersJoined'])/100 + 1)
train['damageDealtNorm'] = train['damageDealt']*((100-train['playersJoined'])/100 + 1)
train['maxPlaceNorm'] = train['maxPlace']*((100-train['playersJoined'])/100 + 1)
train['matchDurationNorm'] = train['matchDuration']*((100-train['playersJoined'])/100 + 1)
# 比较经过规范化的特征值和原始特征值的值
to_show = ['Id', 'kills','killsNorm','damageDealt', 'damageDealtNorm', 'maxPlace', 'maxPlaceNorm', 'matchDuration', 'matchDurationNorm']
train[to_show][0:11]
Id	kills	killsNorm	damageDealt	damageDealtNorm	maxPlace	maxPlaceNorm	matchDuration	matchDurationNorm
0	7f96b2f878858a	0	0.00	0.000	0.00000	28	29.12	1306	1358.24
1	eef90569b9d03c	0	0.00	91.470	99.70230	26	28.34	1777	1936.93
2	1eaf90ac73de72	0	0.00	68.000	69.36000	50	51.00	1318	1344.36
3	4616d365dd2853	0	0.00	32.900	35.86100	31	33.79	1436	1565.24
4	315c96c26c9aac	1	1.03	100.000	103.00000	97	99.91	1424	1466.72
5	ff79c12f326506	1	1.05	100.000	105.00000	28	29.40	1395	1464.75
6	95959be0e21ca3	0	0.00	0.000	0.00000	28	28.84	1316	1355.48
7	311b84c6ff4390	0	0.00	8.538	8.87952	96	99.84	1967	2045.68
8	1a68204ccf9891	0	0.00	51.600	53.14800	28	28.84	1375	1416.25
9	e5bb5a43587253	0	0.00	37.270	38.38810	29	29.87	1930	1987.90
10	2b574d43972813	0	0.00	28.380	28.66380	29	29.29	1811	1829.11

4.2.3 部分变量合成

此处我们把特征：heals(使用治疗药品数量)和boosts(能量、道具使用数量)合并成一个新的变量，命名：”healsandboosts“，这是一个探索性过程，最后结果不一定有用，如果没有实际用处，最后再把它删除。

# 创建新变量“healsandboosts”
train['healsandboosts'] = train['heals'] + train['boosts']
train[["heals", "boosts", "healsandboosts"]].tail()
heals	boosts	healsandboosts
4446961	0	0	0
4446962	0	1	1
4446963	0	0	0
4446964	2	4	6
4446965	1	2	3

4.2.4 异常值处理

4.2.4.1 异常值处理：删除有击杀，但是完全没有移动的玩家

异常数据处理：

一些行中的数据统计出来的结果非常反常规，那么这些玩家肯定有问题，为了训练模型的准确性，我们会把这些异常数据剔除

通过以下操作，识别出玩家在游戏中有击杀数，但是全局没有移动；

这类型玩家肯定是存在异常情况（挂**），我们把这些玩家删除。


# 创建新变量，统计玩家移动距离
train['totalDistance'] = train['rideDistance'] + train['walkDistance'] + train['swimDistance']
# 创建新变量，统计玩家是否在游戏中，有击杀，但是没有移动，如果是返回True, 否则返回false
train['killsWithoutMoving'] = ((train['kills'] > 0) & (train['totalDistance'] == 0))
train["killsWithoutMoving"].head()
0    False
1    False
2    False
3    False
4    False
Name: killsWithoutMoving, dtype: bool
train["killsWithoutMoving"].describe()
count     4446965
unique          2
top         False
freq      4445430
Name: killsWithoutMoving, dtype: object
# 检查是否存在有击杀但是没有移动的数据
train[train['killsWithoutMoving'] == True].shape
(1535, 37)
train[train['killsWithoutMoving'] == True].head()
Id	groupId	matchId	assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	...	winPoints	winPlacePerc	playersJoined	killsNorm	damageDealtNorm	maxPlaceNorm	matchDurationNorm	healsandboosts	totalDistance	killsWithoutMoving
1824	b538d514ef2476	0eb2ce2f43f9d6	35e7d750e442e2	0	0	593.0	0	0	3	18	...	0	0.8571	58	8.52	842.060	21.30	842.06	3	0.0	True
6673	6d3a61da07b7cb	2d8119b1544f87	904cecf36217df	2	0	346.6	0	0	6	33	...	0	0.6000	42	4.74	547.628	17.38	2834.52	6	0.0	True
11892	550398a8f33db7	c3fd0e2abab0af	db6f6d1f0d4904	2	0	1750.0	0	4	5	3	...	0	0.8947	21	35.80	3132.500	35.80	1607.42	5	0.0	True
14631	58d690ee461e9d	ea5b6630b33d67	dbf34301df5e53	0	0	157.8	0	0	0	69	...	1500	0.0000	73	1.27	200.406	24.13	1014.73	0	0.0	True
15591	49b61fc963d632	0f5c5f19d9cc21	904cecf36217df	0	0	100.0	0	1	0	37	...	0	0.3000	42	1.58	158.000	17.38	2834.52	0	0.0	True
5 rows × 37 columns

# 删除这些数据
train.drop(train[train['killsWithoutMoving'] == True].index, inplace=True)
4.2.4.2  异常值处理：删除驾车杀敌数异常的数据
# 查看载具杀敌数超过十个的玩家
train[train['roadKills'] > 10]
Id	groupId	matchId	assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	...	winPoints	winPlacePerc	playersJoined	killsNorm	damageDealtNorm	maxPlaceNorm	matchDurationNorm	healsandboosts	totalDistance	killsWithoutMoving
2733926	c3e444f7d1289f	489dd6d1f2b3bb	4797482205aaa4	0	0	1246.0	0	0	0	1	...	1371	0.4286	92	15.12	1345.68	99.36	1572.48	0	1282.302	False
2767999	34193085975338	bd7d50fa305700	a22354d036b3d6	0	0	1102.0	0	0	0	1	...	1533	0.4713	88	12.32	1234.24	98.56	2179.52	0	4934.600	False
2890740	a3438934e3e535	1081c315a80d14	fe744430ac0070	0	8	2074.0	0	1	11	1	...	1568	1.0000	38	32.40	3359.88	61.56	3191.40	19	5876.000	False
3524413	9d9d044f81de72	8be97e1ba792e3	859e2c2db5b125	0	3	1866.0	0	5	7	1	...	1606	0.9398	84	20.88	2164.56	97.44	2233.00	10	7853.000	False
4 rows × 37 columns

# 删除这些数据
train.drop(train[train['roadKills'] > 10].index, inplace=True)
train.shape
(4445426, 37)
4.2.4.3  异常值处理：删除玩家在一局中杀敌数超过30人的数据
# 首先绘制玩家杀敌数的条形图
plt.figure(figsize=(10,4))
sns.countplot(data=train, x=train['kills']).set_title('Kills')
plt.show()

train[train['kills'] > 30].shape
(95, 37)
train[train['kills'] > 30].head()
Id	groupId	matchId	assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	...	winPoints	winPlacePerc	playersJoined	killsNorm	damageDealtNorm	maxPlaceNorm	matchDurationNorm	healsandboosts	totalDistance	killsWithoutMoving
57978	9d8253e21ccbbd	ef7135ed856cd8	37f05e2a01015f	9	0	3725.0	0	7	0	2	...	1500	0.8571	16	64.40	6854.00	14.72	3308.32	0	48.82	False
87793	45f76442384931	b3627758941d34	37f05e2a01015f	8	0	3087.0	0	8	27	3	...	1500	1.0000	16	57.04	5680.08	14.72	3308.32	27	780.70	False
156599	746aa7eabf7c86	5723e7d8250da3	f900de1ec39fa5	21	0	5479.0	0	12	7	4	...	0	0.7000	11	90.72	10355.31	20.79	3398.22	7	23.71	False
160254	15622257cb44e2	1a513eeecfe724	db413c7c48292c	1	0	4033.0	0	40	0	1	...	1500	1.0000	62	57.96	5565.54	11.04	1164.72	0	718.30	False
180189	1355613d43e2d0	f863cd38c61dbf	39c442628f5df5	5	0	3171.0	0	6	15	1	...	0	1.0000	11	66.15	5993.19	17.01	3394.44	15	71.51	False
5 rows × 37 columns

# 异常数据删除
train.drop(train[train['kills'] > 30].index, inplace=True)
4.2.4.4  异常值处理：删除爆头率异常数据
如果一个玩家的击杀爆头率过高，也说明其有问题

# 创建变量爆头率
train['headshot_rate'] = train['headshotKills'] / train['kills']
train['headshot_rate'] = train['headshot_rate'].fillna(0)
train["headshot_rate"].tail()
4446961    0.0
4446962    0.0
4446963    0.0
4446964    0.5
4446965    0.0
Name: headshot_rate, dtype: float64
# 绘制爆头率图像
plt.figure(figsize=(12,4))
sns.distplot(train['headshot_rate'], bins=10)
plt.show()

train[(train['headshot_rate'] == 1) & (train['kills'] > 9)].shape
(24, 38)
train[(train['headshot_rate'] == 1) & (train['kills'] > 9)].head()
Id	groupId	matchId	assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	...	winPlacePerc	playersJoined	killsNorm	damageDealtNorm	maxPlaceNorm	matchDurationNorm	healsandboosts	totalDistance	killsWithoutMoving	headshot_rate
281570	ab9d7168570927	add05ebde0214c	e016a873339c7b	2	3	1212.0	8	10	0	1	...	0.8462	93	10.70	1296.84	28.89	1522.61	3	2939.0	False	1.0
346124	044d18fc42fc75	fc1dbc2df6a887	628107d4c41084	3	5	1620.0	13	11	3	1	...	1.0000	96	11.44	1684.80	28.08	1796.08	8	8142.0	False	1.0
871244	e668a25f5488e3	5ba8feabfb2a23	f6e6581e03ba4f	0	4	1365.0	9	13	0	1	...	1.0000	98	13.26	1392.30	27.54	1280.10	4	2105.0	False	1.0
908815	566d8218b705aa	a9b056478d71b2	3a41552d553583	2	5	1535.0	10	10	3	1	...	0.9630	95	10.50	1611.75	29.40	1929.90	8	7948.0	False	1.0
963463	1bd6fd288df4f0	90584ffa22fe15	ba2de992ec7bb8	2	6	1355.0	12	10	2	1	...	1.0000	96	10.40	1409.20	28.08	1473.68	8	3476.0	False	1.0
5 rows × 38 columns

train.drop(train[(train['headshot_rate'] == 1) & (train['kills'] > 9)].index, inplace=True)
4.2.4.5  异常值处理：删除最远杀敌距离异常数据
# 绘制图像
plt.figure(figsize=(12,4))
sns.distplot(train['longestKill'], bins=10)
plt.show()

# 找出最远杀敌距离大于等于1km的玩家
train[train['longestKill'] >= 1000].shape
(20, 38)
train[train['longestKill'] >= 1000]["longestKill"].head()
202281    1000.0
240005    1004.0
324313    1026.0
656553    1000.0
803632    1075.0
Name: longestKill, dtype: float64
train.drop(train[train['longestKill'] >= 1000].index, inplace=True)
train.shape
(4445287, 38)
4.2.4.6  异常值处理：删除关于运动距离的异常值
# 距离整体描述
train[['walkDistance', 'rideDistance', 'swimDistance', 'totalDistance']].describe()
walkDistance	rideDistance	swimDistance	totalDistance
count	4.445287e+06	4.445287e+06	4.445287e+06	4.445287e+06
mean	1.154619e+03	6.063215e+02	4.510898e+00	1.765451e+03
std	1.183508e+03	1.498562e+03	3.050738e+01	2.183248e+03
min	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00
25%	1.554000e+02	0.000000e+00	0.000000e+00	1.584000e+02
50%	6.863000e+02	0.000000e+00	0.000000e+00	7.892500e+02
75%	1.977000e+03	2.566000e-01	0.000000e+00	2.729000e+03
max	2.578000e+04	4.071000e+04	3.823000e+03	4.127010e+04
a）行走距离处理
plt.figure(figsize=(12,4))
sns.distplot(train['walkDistance'], bins=10)
plt.show()

train[train['walkDistance'] >= 10000].shape
(219, 38)
train[train['walkDistance'] >= 10000].head()
Id	groupId	matchId	assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	...	winPlacePerc	playersJoined	killsNorm	damageDealtNorm	maxPlaceNorm	matchDurationNorm	healsandboosts	totalDistance	killsWithoutMoving	headshot_rate
23026	8a6562381dd83f	23e638cd6eaf77	b0a804a610e9b0	0	1	0.00	0	0	0	44	...	0.8163	99	0.00	0.0000	99.99	1925.06	1	13540.3032	False	0.0
34344	5a591ecc957393	6717370b51c247	a15d93e7165b05	0	3	23.22	0	0	1	34	...	0.9474	65	0.00	31.3470	27.00	2668.95	4	10070.9073	False	0.0
49312	582685f487f0b4	338112cd12f1e7	d0afbf5c3a6dc9	0	4	117.20	1	0	1	24	...	0.9130	94	1.06	124.2320	49.82	2323.52	5	12446.7588	False	0.0
68590	8c0d9dd0b4463c	c963553dc937e9	926681ea721a47	0	1	32.34	0	0	1	46	...	0.8333	96	0.00	33.6336	50.96	1909.44	2	12483.6200	False	0.0
94400	d441bebd01db61	7e179b3366adb8	923b57b8b834cc	1	1	73.08	0	0	3	27	...	0.8194	73	0.00	92.8116	92.71	2293.62	4	11490.6300	False	0.0
5 rows × 38 columns

train.drop(train[train['walkDistance'] >= 10000].index, inplace=True)
b）载具行驶距离处理
plt.figure(figsize=(12,4))
sns.distplot(train['rideDistance'], bins=10)
plt.show()

train[train['rideDistance'] >= 20000].shape
(150, 38)
train[train['rideDistance'] >= 20000].head()
Id	groupId	matchId	assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	...	winPlacePerc	playersJoined	killsNorm	damageDealtNorm	maxPlaceNorm	matchDurationNorm	healsandboosts	totalDistance	killsWithoutMoving	headshot_rate
28588	6260f7c49dc16f	b24589f02eedd7	6ebea3b4f55b4a	0	0	99.2	0	0	1	30	...	0.6421	96	1.04	103.168	99.84	1969.76	1	26306.6	False	0.000000
63015	adb7dae4d0c10a	8ede98a241f30a	8b36eac66378e4	0	0	0.0	0	0	0	55	...	0.5376	94	0.00	0.000	99.64	2004.46	0	22065.4	False	0.000000
70507	ca6fa339064d67	f7bb2e30c3461f	3bfd8d66edbeff	0	0	100.0	0	0	0	26	...	0.8878	99	1.01	101.000	99.99	1947.28	0	28917.5	False	0.000000
72763	198e5894e68ff4	ccf47c82abb11f	d92bf8e696b61d	0	0	0.0	0	0	0	46	...	0.7917	97	0.00	0.000	99.91	1861.21	0	21197.2	False	0.000000
95276	c3fabfce7589ae	15529e25aa4a74	d055504340e5f4	0	7	778.2	0	1	2	2	...	0.9785	94	7.42	824.892	99.64	1986.44	9	26733.2	False	0.142857
5 rows × 38 columns

train.drop(train[train['rideDistance'] >= 20000].index, inplace=True)
c）游泳距离处理
plt.figure(figsize=(12,4))
sns.distplot(train['swimDistance'], bins=10)
plt.show()

train[train['swimDistance'] >= 2000].shape
(12, 38)
train[train['swimDistance'] >= 2000][["swimDistance"]]
swimDistance
177973	2295.0
274258	2148.0
1005337	2718.0
1195818	2668.0
1227362	3823.0
1889163	2484.0
2065940	3514.0
2327586	2387.0
2784855	2206.0
3359439	2338.0
3513522	2124.0
4132225	2382.0
train.drop(train[train['swimDistance'] >= 2000].index, inplace=True)
4.2.4.7  异常值处理：武器收集异常值处理
plt.figure(figsize=(12,4))
sns.distplot(train['weaponsAcquired'], bins=100)
plt.show()

train[train['weaponsAcquired'] >= 80].shape
(19, 38)
train[train['weaponsAcquired'] >= 80][['weaponsAcquired']].head()
weaponsAcquired
233643	128
588387	80
1437471	102
1449293	95
1592744	94
train.drop(train[train['weaponsAcquired'] >= 80].index, inplace=True)
4.2.4.8  异常值处理：删除使用治疗药品数量异常值
plt.figure(figsize=(12,4))
sns.distplot(train['heals'], bins=10)
plt.show()

train[train['heals'] >= 40].shape
(135, 38)
train[train['heals'] >= 40][["heals"]].head()
heals
18405	47
54463	43
126439	52
259351	42
268747	48
train.drop(train[train['heals'] >= 40].index, inplace=True)
train.shape
(4444752, 38)
4.2.5  类别型数据处理
4.2.5.1  比赛类型one-hot处理
# 关于比赛类型，共有16种方式
train['matchType'].unique()
array(['squad-fpp', 'duo', 'solo-fpp', 'squad', 'duo-fpp', 'solo',
       'normal-squad-fpp', 'crashfpp', 'flaretpp', 'normal-solo-fpp',
       'flarefpp', 'normal-duo-fpp', 'normal-duo', 'normal-squad',
       'crashtpp', 'normal-solo'], dtype=object)
# 对matchType进行one_hot编码
# 通过在后面添加的方式,实现,赋值并不是替换
train = pd.get_dummies(train, columns=['matchType'])
train.head()
Id	assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	killPoints	kills	...	matchType_normal-solo	matchType_normal-solo-fpp	matchType_normal-squad	matchType_normal-squad-fpp	matchType_solo	matchType_solo-fpp	matchType_squad	matchType_squad-fpp	groupId_cat	matchId_cat
0	7f96b2f878858a	0	0	0.00	0	0	0	60	1241	0	...	0	0	0	0	0	0	0	1	613591	30085
1	eef90569b9d03c	0	0	91.47	0	0	0	57	0	0	...	0	0	0	0	0	0	0	1	827580	32751
2	1eaf90ac73de72	1	0	68.00	0	0	0	47	0	0	...	0	0	0	0	0	0	0	0	843271	3143
3	4616d365dd2853	0	0	32.90	0	0	0	75	0	0	...	0	0	0	0	0	0	0	1	1340070	45260
4	315c96c26c9aac	0	0	100.00	0	0	0	45	0	1	...	0	0	0	0	0	1	0	0	1757334	20531
5 rows × 53 columns

train.shape
(4444752, 53)
# 通过正则匹配查看具体内容
matchType_encoding = train.filter(regex='matchType')
matchType_encoding.head()
matchType_crashfpp	matchType_crashtpp	matchType_duo	matchType_duo-fpp	matchType_flarefpp	matchType_flaretpp	matchType_normal-duo	matchType_normal-duo-fpp	matchType_normal-solo	matchType_normal-solo-fpp	matchType_normal-squad	matchType_normal-squad-fpp	matchType_solo	matchType_solo-fpp	matchType_squad	matchType_squad-fpp
0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1
1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1
2	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0
3	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1
4	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0
4.2.5.2  对groupId,matchId等数据进行处理
关于groupId,matchId这类型数据，也是类别型数据。但是它们的数据量特别多，如果你使用one-hot编码，无异于自杀。

在这儿我们把它们变成用数字统计的类别型数据依旧不影响我们正常使用。

# 把groupId 和 match Id 转换成类别类型 categorical types
# 就是把一堆不怎么好识别的内容转换成数字

# 转换group_id
train["groupId"].head()
0    4d4b580de459be
1    684d5656442f9e
2    6a4a42c3245a74
3    a930a9c79cd721
4    de04010b3458dd
Name: groupId, dtype: object
train['groupId'] = train['groupId'].astype('category')
train["groupId"].head()
0    4d4b580de459be
1    684d5656442f9e
2    6a4a42c3245a74
3    a930a9c79cd721
4    de04010b3458dd
Name: groupId, dtype: category
Categories (2026153, object): [00000c08b5be36, 00000d1cbbc340, 000025a09dd1d7, 000038ec4dff53, ..., fffff305a0133d, fffff32bc7eab9, fffff7edfc4050, fffff98178ef52]
train["groupId_cat"] = train["groupId"].cat.codes
train["groupId_cat"].head()
0     613591
1     827580
2     843271
3    1340070
4    1757334
Name: groupId_cat, dtype: int32
# 转换match_id
train['matchId'] = train['matchId'].astype('category')

train['matchId_cat'] = train['matchId'].cat.codes

# 删除之前列
train.drop(['groupId', 'matchId'], axis=1, inplace=True)

# 查看新产生列
train[['groupId_cat', 'matchId_cat']].head()
groupId_cat	matchId_cat
0	613591	30085
1	827580	32751
2	843271	3143
3	1340070	45260
4	1757334	20531
train.head()
Id	assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	killPoints	kills	...	matchType_normal-solo	matchType_normal-solo-fpp	matchType_normal-squad	matchType_normal-squad-fpp	matchType_solo	matchType_solo-fpp	matchType_squad	matchType_squad-fpp	groupId_cat	matchId_cat
0	7f96b2f878858a	0	0	0.00	0	0	0	60	1241	0	...	0	0	0	0	0	0	0	1	613591	30085
1	eef90569b9d03c	0	0	91.47	0	0	0	57	0	0	...	0	0	0	0	0	0	0	1	827580	32751
2	1eaf90ac73de72	1	0	68.00	0	0	0	47	0	0	...	0	0	0	0	0	0	0	0	843271	3143
3	4616d365dd2853	0	0	32.90	0	0	0	75	0	0	...	0	0	0	0	0	0	0	1	1340070	45260
4	315c96c26c9aac	0	0	100.00	0	0	0	45	0	1	...	0	0	0	0	0	1	0	0	1757334	20531
5 rows × 53 columns

4.2.6  数据截取
4.2.6.1  取部分数据进行使用（1000000）
# 取前100万条数据，进行训练
sample = 1000000
df_sample = train.sample(sample)
df_sample.shape
(1000000, 53)
4.2.7  确定特征值和目标值
# 确定特征值和目标值
df = df_sample.drop(["winPlacePerc", "Id"], axis=1) #all columns except target

y = df_sample['winPlacePerc'] # Only target variable
df.head()
assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	killPoints	kills	killStreaks	...	matchType_normal-solo	matchType_normal-solo-fpp	matchType_normal-squad	matchType_normal-squad-fpp	matchType_solo	matchType_solo-fpp	matchType_squad	matchType_squad-fpp	groupId_cat	matchId_cat
2324052	0	1	120.20	0	0	0	67	1337	0	0	...	0	0	0	0	0	0	0	1	339395	43113
533207	0	0	32.93	0	0	0	44	1100	0	0	...	0	0	0	0	0	0	0	1	914206	13399
325801	0	2	161.10	0	0	3	52	0	0	0	...	0	0	0	0	0	0	0	1	1119774	45981
478373	0	0	63.94	0	0	0	56	0	0	0	...	0	0	0	0	0	0	0	0	1932650	44393
1021200	0	0	0.00	0	0	0	89	0	0	0	...	0	0	0	0	0	0	0	0	1706611	44723
5 rows × 51 columns

y.head()
2324052    0.4074
533207     0.6923
325801     0.8000
478373     0.4894
1021200    0.0816
Name: winPlacePerc, dtype: float64
print(df.shape, y.shape)
(1000000, 51) (1000000,)
4.2.8  分割训练集和验证集
# 自定义函数，分割训练集和验证集
def split_vals(a, n : int): 
    # ps: n:int 是一种新的定义函数方式，告诉你这个n,传入应该是int类型，但不是强制的
    return a[:n].copy(), a[n:].copy()
val_perc = 0.12 # % to use for validation set
n_valid = int(val_perc * sample) 
n_trn = len(df)-n_valid

# 分割数据集
raw_train, raw_valid = split_vals(df_sample, n_trn)
X_train, X_valid = split_vals(df, n_trn)
y_train, y_valid = split_vals(y, n_trn)

# 检查数据集维度
print('Sample train shape: ', X_train.shape, 
      '\nSample target shape: ', y_train.shape, 
      '\nSample validation shape: ', X_valid.shape)
Sample train shape:  (880000, 51) 
Sample target shape:  (880000,) 
Sample validation shape:  (120000, 51)
4.3  机器学习（模型训练）和评估
# 导入需要训练和评估api
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
4.3.1  初步使用随机森林进行模型训练
# 模型训练
m1 = RandomForestRegressor(n_estimators=40, min_samples_leaf=3, max_features='sqrt', n_jobs=-1)
# n_jobs=-1 表示训练的时候，并行数和cpu的核数一样，如果传入具体的值，表示用几个核去跑

m1.fit(X_train, y_train)
RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='sqrt', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=3, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=40, n_jobs=-1,
           oob_score=False, random_state=None, verbose=0, warm_start=False)
y_pre = m1.predict(X_valid)
m1.score(X_valid, y_valid)
0.9209745520056316
mean_absolute_error(y_true=y_valid, y_pred=y_pre)
0.06134694645458625
经过第一次计算，得出准确率为：0.92， mae=0.06

4.3.2  再次使用随机森林，进行模型训练
减少特征值，提高模型训练效率

# 查看特征值在当前模型中的重要程度
m1.feature_importances_
array([2.78018429e-03, 7.09256632e-02, 1.29069372e-02, 2.66242891e-03,
       3.22533248e-03, 4.03021778e-02, 1.96128120e-01, 1.93034113e-03,
       6.83785312e-03, 7.15347972e-03, 1.41163125e-02, 9.47316429e-03,
       6.60520545e-03, 7.54587098e-03, 3.77642011e-03, 2.36387992e-03,
       1.79286139e-02, 2.71369501e-05, 1.37579746e-03, 1.15328556e-04,
       2.24318554e-05, 2.84514166e-01, 4.87906687e-02, 2.25145604e-03,
       6.34793081e-03, 1.17778514e-02, 9.38100747e-03, 6.92348737e-03,
       1.26945601e-02, 3.77781917e-02, 1.57621968e-01, 0.00000000e+00,
       1.22717096e-03, 6.59880420e-05, 7.40618079e-07, 2.08886376e-04,
       4.90619346e-04, 4.92684576e-08, 2.07956404e-06, 2.76274752e-07,
       9.83807884e-05, 0.00000000e+00, 9.89167941e-06, 1.01437578e-06,
       2.77453616e-04, 2.41390349e-04, 1.06886660e-03, 1.08671409e-03,
       9.27714940e-04, 4.00129494e-03, 4.00750039e-03])
imp_df = pd.DataFrame({"cols":df.columns, "imp":m1.feature_importances_})
imp_df.head()
cols	imp
0	assists	0.002780
1	boosts	0.070926
2	damageDealt	0.012907
3	DBNOs	0.002662
4	headshotKills	0.003225
imp_df = imp_df.sort_values("imp", ascending=False)
imp_df.head()
cols	imp
21	walkDistance	0.284514
6	killPlace	0.196128
30	totalDistance	0.157622
1	boosts	0.070926
22	weaponsAcquired	0.048791
# Plot a feature importance graph for the 20 most important features
# 绘制特征重要性程度图，仅展示排名前二十的特征
plot_fea = imp_df[:20].plot('cols', 'imp', figsize=(14,6), legend=False, kind = 'barh')
plot_fea
<matplotlib.axes._subplots.AxesSubplot at 0x1713427b8>

# 保留比较重要的特征
to_keep = imp_df[imp_df.imp>0.005].cols
print('Significant features: ', len(to_keep))
to_keep
Significant features:  20
21         walkDistance
6             killPlace
30        totalDistance
1                boosts
22      weaponsAcquired
5                 heals
29       healsandboosts
16         rideDistance
10          longestKill
2           damageDealt
28    matchDurationNorm
25            killsNorm
11        matchDuration
26      damageDealtNorm
13            numGroups
9           killStreaks
27         maxPlaceNorm
8                 kills
12             maxPlace
24        playersJoined
Name: cols, dtype: object
# 由这些比较重要的特征值，生成新的df
df[to_keep].head()
walkDistance	killPlace	totalDistance	boosts	weaponsAcquired	heals	healsandboosts	rideDistance	longestKill	damageDealt	matchDurationNorm	killsNorm	matchDuration	damageDealtNorm	numGroups	killStreaks	maxPlaceNorm	kills	maxPlace	playersJoined
2324052	1192.0000	67	1754.9000	1	6	0	1	562.9	0.0	120.20	1965.60	0.0	1872	126.2100	28	0	29.40	0	28	95
533207	3105.0000	44	3105.0000	0	7	0	0	0.0	0.0	32.93	1857.42	0.0	1821	33.5886	27	0	27.54	0	27	98
325801	4036.0000	52	4342.9000	2	2	3	5	306.9	0.0	161.10	1820.00	0.0	1820	161.1000	31	0	31.00	0	31	100
478373	611.0000	56	611.0000	0	5	0	0	0.0	0.0	63.94	1501.50	0.0	1430	67.1370	47	0	50.40	0	48	95
1021200	0.3298	89	0.3298	0	1	0	0	0.0	0.0	0.00	1505.86	0.0	1462	0.0000	46	0	51.50	0	50	97
df.head()
assists	boosts	damageDealt	DBNOs	headshotKills	heals	killPlace	killPoints	kills	killStreaks	...	matchType_normal-solo	matchType_normal-solo-fpp	matchType_normal-squad	matchType_normal-squad-fpp	matchType_solo	matchType_solo-fpp	matchType_squad	matchType_squad-fpp	groupId_cat	matchId_cat
2324052	0	1	120.20	0	0	0	67	1337	0	0	...	0	0	0	0	0	0	0	1	339395	43113
533207	0	0	32.93	0	0	0	44	1100	0	0	...	0	0	0	0	0	0	0	1	914206	13399
325801	0	2	161.10	0	0	3	52	0	0	0	...	0	0	0	0	0	0	0	1	1119774	45981
478373	0	0	63.94	0	0	0	56	0	0	0	...	0	0	0	0	0	0	0	0	1932650	44393
1021200	0	0	0.00	0	0	0	89	0	0	0	...	0	0	0	0	0	0	0	0	1706611	44723
5 rows × 51 columns

# 重新制定训练集和测试集
df_keep = df[to_keep]
X_train, X_valid = split_vals(df_keep, n_trn)
# 模型训练
m2 = RandomForestRegressor(n_estimators=40, min_samples_leaf=3, max_features='sqrt',
                          n_jobs=-1)
# n_jobs=-1 表示训练的时候，并行数和cpu的核数一样，如果传入具体的值，表示用几个核去跑

m2.fit(X_train, y_train)
RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='sqrt', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=3, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=40, n_jobs=-1,
           oob_score=False, random_state=None, verbose=0, warm_start=False)
# 模型评分
y_pre = m2.predict(X_valid)
m2.score(X_valid, y_valid)
0.9247615702679183
# mae评估
mean_absolute_error(y_true=y_valid, y_pred=y_pre)
0.05956897962889757
print(m2.score)
<bound method RegressorMixin.score of RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='sqrt', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=3, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=40, n_jobs=-1,
           oob_score=False, random_state=None, verbose=0, warm_start=False)>

你可能感兴趣的:(数据挖掘)

基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
高省app没有邀请码怎么注册？高省app总部邀请码是什么？古楼
高省是正规平台吗？高省app是杭州长孚科技有限公司旗下的一款电商导购应用，为用户打造一个电商购物优惠平台，用户可以在这个App中领取主流商城的商品隐藏优惠券以及获得返利。基于第三方电商平台海量数据挖掘与分析，“高省”APP通过内容制作、分享等方式，为消费者打通吃喝玩乐购全场景全业态，让消费者省心省钱省时省力，为平台和品牌方导流创造收入，拓展了商家新的销售渠道。高省app逐渐构筑起了集各大主流电商平
如何使用爬虫简单的爬取一个网页的静态前端代码
什么是爬虫？Python爬虫是一种使用Python语言编写的程序，用于自动访问网页并提取所需信息。它通常用于网络数据抓取、数据挖掘和信息收集。Python爬虫可以模拟浏览器行为，向服务器发送请求并接收响应数据，然后解析这些数据以获取有用的信息。爬虫的基本原理（流程）发送请求：爬虫向目标网站的服务器发送HTTP请求（通常是GET请求）。获取响应：服务器返回网页的HTML内容。解析内容：爬虫解析HTM
【Pandas超实用经验汇总-数据建模分析】 Mr.小海 Python 数据挖掘数据分析 python
Pandas超实用经验汇总-数据分析前言基本方法1.读取文件2.查看数据3.修改、删除、替换数据等总结前言看见了很多教程虽然很全，但是很多技巧容易忘记且几乎用不上，读起来晦涩难懂，今天我给大家总结了Pandas的一些学习经验技巧，包含常见日常使用的pandas知识，以及一些技巧,这些技巧常见于数学建模，数据分析，数据挖掘比赛等。基本方法1.读取文件方法如下：importpandasaspd#正常写
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
推荐文章：《同济大学软件学院万院长谈择业》 weixin_34087301
同济大学软件学院万院长谈择业一、关于企业计算方向企业计算（EnterpriseComputing）是稍时髦较好听的名词，主要是指企业信息系统，如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件），银行证券软件，财务软件，电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最大的，因为这是计算
计算机系毕业生的前途在哪（一个牛人对计算机系的阐述）蚊子嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
值得未毕业的、刚毕业的、或想转行的朋友们揣摩参考。一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统如：ERP软件(企业资源规划)、CRM软件(客户关系管理)、SCM软件(供应链管理，即物流软件)，银行证券软件财务软件电子商务/政务(包括各种网站)，数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最
大学生学软件必看欧巴Godwin 日志嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统,如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件）,银行证券软件,财务软件,电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统.企业计算领域对人才的需求显然永远是数量最大的,因为这是计算机应用最多的领域.搞这方面的
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
【字节跳动】数据挖掘面试题0010：解释全国人均收入下降，各省份人均收入增加的现象，属于辛普森悖论（开放性问题）言析数智数据挖掘常见面试题辛普森悖论局部与整体分析差异归因数据分析面试题
文章大纲一、辛普森悖论的核心定义二、现象成因：加权平均中的“权重偏移”三、数学逻辑与案例说明1.数学表达式2.具体案例四、辛普森悖论的本质：忽略“混杂因素”的影响五、生活中常见的辛普森悖论案例及应对策略1.医疗疗法效果评估2.大学录取率的性别偏差3.篮球运动员投篮效率4.公司员工绩效与部门规模如何利用辛普森悖论？（数据分析中的价值）六、总结全国人均收入下降而各省份人均收入增加的现象，确实属于辛普森
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
【力扣（LeetCode）】数据挖掘面试题0003： 356. 直线镜像
文章大纲题目描述**坐标变化规律**解题方案题目描述在一个二维平面空间中，给你n个点的坐标。问，是否能找出一条平行于y轴的直线，让这些点关于这条直线成镜像排布？平行于y轴的直线（即垂直于x轴的直线，其方程形式为(x=a)，其中(a)为常数）的对称点具有以下显著特点：坐标变化规律设直线为(x=a)，平面内任意一点(P(x,y))关于该直线的对称点为(P’(x’,y’))，则两者坐标满足：纵坐标不变：
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
Python 爬虫实战：京东商品数据采集（登录态验证 + 价格监控系统） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言在电商飞速发展的当下，京东作为国内头部电商平台之一，拥有海量商品数据。对于商家而言，精准掌握这些数据能助力优化定价策略、洞察市场动态；对消费者来说，追踪商品价格走势有助于把握最佳购买时机。本文将深入剖析如何借助Python爬虫技术实现京东商品数据采集，包括突破登录态验证以及搭建价格监控系统，为读者呈上一份实用的电商数据挖掘指南。二、环境搭建安装Python库：执行以下命令安装所需的库：pi
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
满血DeepSeek加持的AlphaGPT，助力高文律师事务所全面拥抱AI
2025年初,中国团队精心雕琢的通用大模型DeepSeek凭借其创新的架构优化以及深入的数据挖掘技术,在逻辑推理、多轮对话和知识搜索等关键领域大放异彩,其为诸多垂直领域,特别是法律行业的智能化转型,开拓了全新的方向。2月8日,法律科技领域的领军者iCourt将旗下的AlphaGPT与DeepSeek深度融合,重磅推出业内首款“DeepSeek+法律专业”AI大模型。这一创举彻底打破了传统法律智能工
量化策略进阶：事件驱动与另类数据挖掘实战
前面的章节，我们已经详细探讨了量化系统的基础架构：从数据的获取与管理（数据层），到策略的研发与验证（回测层），再到指令的高速执行（交易执行层），以及确保资金安全的防线（风控与监控运维层），我们共同构建了一套完整的量化交易体系。今天，我们将深入探讨量化策略的更高维度：事件驱动型策略和另类数据挖掘。这不仅仅是技术栈的扩展，更是对市场洞察力和信息处理能力的全面提升，旨在帮助您的策略在传统量价数据之外，捕
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
【力扣（LeetCode）】数据挖掘面试题0013：1264. 页面推荐（泛化后，基于MySQL题解）言析数智数据挖掘常见面试题 leetcode 数据挖掘 mysql 笔试笔试题
文章大纲一、题目要求：二、模拟数据构建三、题解参考方案朋友关系列表：Friendship+---------------+---------+|ColumnName|Type|+---------------+---------+|user1_id|int||user2_id|int|+---------------+---------+(user1_id,user2_id)是这张表具有唯一值的列
R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
【数据挖掘】支持向量机（SVM）大雨淅淅大数据数据挖掘支持向量机算法大数据回归
目录一、支持向量机（SVM）算法概述二、支持向量机（SVM）算法优缺点和改进2.1支持向量机（SVM）算法优点2.2支持向量机（SVM）算法缺点2.3支持向量机（SVM）算法改进三、支持向量机（SVM）算法实现3.1支持向量机（SVM）算法C语言实现3.2支持向量机（SVM）算法JAVA实现3.3支持向量机（SVM）算法python实现四、支持向量机（SVM）算法应用五、支持向量机（SVM）算法发
【字节跳动】数据挖掘面试题0005：在旋转有序数组中查找是否存在元素key 言析数智数据挖掘常见面试题算法面试题数据挖掘二分查找法
文章大纲方法思路代码解释问题场景：在“打乱”的有序数组里找数核心思路：每次排除一半可能性分步骤找数（以数组[7,8,9,10,1,2,3]为例，找数字10）再举个反例：找数字5（数组中没有）用“左右有序”的逻辑来总结代码的“人话”翻译为什么时间复杂度是O(logn)？要在旋转后的有序数组中以O(logn)时间复杂度查找元素，可利用二分查找的变体。关键在于确定哪一半数组仍然有序，并判断目标值是否在该
【字节跳动】数据挖掘面试题0006：SVM（支持向量机）详细原理言析数智数据挖掘常见面试题支持向量机数据挖掘算法 SVM
文章大纲SVM（支持向量机）原理：用最通俗的话讲清楚1.核心思想：找一条“最安全”的分界线2.数学背后的“人话”逻辑3.处理“分不开”的情况：核函数的魔法4.为什么SVM有时比神经网络“聪明”？`5.SVM的优缺点：适合什么场景？`6.一句话总结SVM7.SVM常见的面试知识点除了原理相关内容外**1.硬间隔SVM的数学表达****2.软间隔SVM的数学表达****3.拉格朗日对偶问题推导****
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，