KDD Cup 2020 - Debiasing：user-item feature

Written by wanping7

from datetime import datetime

# data process
import numpy as np, pandas as pd
from  datetime import datetime, timedelta

# visualize
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
%config ZMQInteractiveShell.ast_node_interactivity='all'

import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
from plotly.subplots import make_subplots

# sys
import os, sys


import warnings
warnings.filterwarnings('ignore')

# 大小设置
sns.set(rc={'figure.figsize':(13,7)})
# 风格设置
sns.set_style("whitegrid")


PATH = "../data/"

结论

每个CSV文件用户-项目点击分布

用户点击：呈现右尾分布，log1p近似正态。
项目被点击：呈现右尾分布，但是在点击量很高的商品中也出现了一个峰，可能是热点商品。
时间【最小，90分位数，最大】分布：发现时间随文件重心慢慢转移，说明文件分割是有一定时间顺序。每个均为四个峰左右，说明是四五天左右的数据。
每个文件：用户量1700 、项目项4100
整体文件：用户量2900 、项目项8900

整体CSV文件用户-项目点击分布

1546265点击中，将近一半有重复点击
时间分布：
- 9个峰，大概是前后9天的数据
- 最左边与最右边数据量较中间小，可能左右并非完整的一天数据或者中间包含节假日、促销等成分

用户画像与用户点击

用户画像中有6786个用户，整个训练点击数据用户量在29128，说明有用户画像的只是一部分。
用户画像中三个用户重复信息：两个用户年龄变化（更新），一个用户城市变化。

合并数据分布

以下分析均为有用户画像的点击数据

这些有用户画像的数据：
- 用户点击量较整体大
- 项目点击量较整体小
- 总结：这些有用户画像的人，更爱多次点击那种稀有的物件（可能是需要反复对比的奢饰品牌）

有用户画像——性别、年龄、城市分布

男女随时间点击趋势均呈现周期性（天）
各年龄阶段的访问量大致呈正态分布
从城市level看不出城市背后的真实等级
男女在年龄上的点击量存在差异性，比如年龄阶段6
男女在城市上的点击量差异性看不出。

TEST_PATH = PATH + "underexpose_test/"
TEST_DIRS = os.listdir(TEST_PATH)
TEST_FILES = [i for i in TEST_DIRS if ("underexpose_test_" in i) and ".csv" in i]
TEST_FILES
# # 输出所有文件和文件夹
# for file in dirs:
#     print(file)

['underexpose_test_click-0.csv',
 'underexpose_test_click-1.csv',
 'underexpose_test_click-2.csv',
 'underexpose_test_click-3.csv',
 'underexpose_test_click-4.csv',
 'underexpose_test_click-5.csv',
 'underexpose_test_qtime-0.csv',
 'underexpose_test_qtime-1.csv',
 'underexpose_test_qtime-2.csv',
 'underexpose_test_qtime-3.csv',
 'underexpose_test_qtime-4.csv',
 'underexpose_test_qtime-5.csv']

TRAIN_PATH = PATH + "underexpose_train/"
TRAIN_DIRS = os.listdir(TRAIN_PATH)
TRAIN_FILES = [i for i in TRAIN_DIRS if ("underexpose_" in i) and ".csv" in i]
TRAIN_FILES
# # 输出所有文件和文件夹
# for file in dirs:
#     print(file)

['underexpose_item_feat.csv',
 'underexpose_train_click-0.csv',
 'underexpose_train_click-1.csv',
 'underexpose_train_click-2.csv',
 'underexpose_train_click-3.csv',
 'underexpose_train_click-4.csv',
 'underexpose_train_click-5.csv',
 'underexpose_user_feat.csv']

TRAIN_PATH = PATH + "underexpose_train/"

Click特征

underexpose_train_click-T.csv/underexpose_test_click-T.csv
- user_id
- item_id
- time：点击事件发生时的时间戳，即（unix_timestamp - random_number_1）/ random_number_2

1 训练Click特征

1.1 每个CSV文件用户-项目点击分布

用户点击：呈现右尾分布，log1p近似正态。
项目被点击：呈现右尾分布，但是在点击量很高的商品中也出现了一个峰，可能是热点商品。
时间【最小，90分位数，最大】分布：发现时间随文件重心慢慢转移，说明文件分割是有一定时间顺序。每个均为四个峰左右，说明是四五天左右的数据。
每个文件：用户量1700 、项目项4100
整体文件：用户量2900 、项目项8900

# 大小设置
sns.set(rc={'figure.figsize':(17, 3)})
# 风格设置
sns.set_style("whitegrid")


TRAIN_CLICK_FILES = [i for i in TRAIN_FILES if "underexpose_train_click" in i]
names=["user_id", "item_id", "time"]
for i, TRAIN_CLICK_FILE in enumerate(TRAIN_CLICK_FILES):

    train_click = pd.read_csv(TRAIN_PATH + TRAIN_CLICK_FILE, header=None, names=names)
    #################### 拼接所有train_click数据
    if i == 0:
        merge_train_click = train_click
    else:
        merge_train_click = pd.concat([merge_train_click, train_click], axis=0)
    #################### 用户click统计
    user = train_click[["user_id"]].groupby(["user_id"]).size().reset_index()
    user.columns = ["user_id", "click"]
    #################### 项目click统计
    item = train_click[["item_id"]].groupby(["item_id"]).size().reset_index()
    item.columns = ["item_id", "click"]

    #################### 用户、项目click可视化
    f, axes = plt.subplots(1, 5)
    ######## user-click
    g0 = sns.kdeplot(user["click"], color="Red", shade = True, ax=axes[0])
    x = g0.set_xlabel("user-click")
    x = g0.set_ylabel("Frequency")
    g = g0.legend([TRAIN_CLICK_FILE])
    ## user-click log
    g01 = sns.kdeplot(np.log(user["click"]), color="Red", shade = True, ax=axes[1])
    x = g01.set_xlabel("LOG_user-click")
    x = g01.set_ylabel("Frequency")
    g = g01.legend([TRAIN_CLICK_FILE])
    ######## item-click
    g1 = sns.kdeplot(item["click"], color="Blue", shade = True, ax=axes[2])
    x = g1.set_xlabel("item-click")
    x = g1.set_ylabel("Frequency")
    g1 = g1.legend([TRAIN_CLICK_FILE])
    ## item-click log
    g11 = sns.kdeplot(np.log(item["click"]), color="Blue", shade = True, ax=axes[3])
    x = g11.set_xlabel("LOG_item-click")
    x = g11.set_ylabel("Frequency")
    g11 = g11.legend([TRAIN_CLICK_FILE])
    ######## time-click
    g2 = sns.kdeplot(train_click["time"], color="Orange", shade = True, ax=axes[4])
    x = g2.set_xlabel("time-click")
    x = g2.set_ylabel("Frequency")
    g2 = g2.legend([TRAIN_CLICK_FILE])
    print("=========> {file}文件".format(file=TRAIN_CLICK_FILE))
    print("                     time【MIN, P90, MAX】", [round(train_click.time.min(), 5), 
                                                       round(train_click.time.quantile(0.9), 5), 
                                                       round(train_click.time.max(), 5)])
    print("                     用户量..............", train_click.user_id.unique().shape[0])
    print("                     项目量..............", train_click.item_id.unique().shape[0])
    if sum(train_click.user_id==16):
        print("                     用户16", [min(train_click[train_click.user_id==16]["time"]), 
                                            max(train_click[train_click.user_id==16]["time"])])
    else:
        print("                     用户16", [ ])
    print("\n")

print("=========> 整体")
print("                     time【MIN, P90, MAX】", [round(merge_train_click.time.min(), 5), 
                                                   round(merge_train_click.time.quantile(0.9), 5), 
                                                   round(merge_train_click.time.max(), 5)])
print("                     用户量..............", merge_train_click.user_id.unique().shape[0])
print("                     项目量..............", merge_train_click.item_id.unique().shape[0])

=========> underexpose_train_click-0.csv文件
                     time【MIN, P90, MAX】 [0.98374, 0.98394, 0.98396]
                     用户量.............. 16842
                     项目量.............. 40772
                     用户16 [0.9837661478343862, 0.9839314082881014]


=========> underexpose_train_click-1.csv文件
                     time【MIN, P90, MAX】 [0.98379, 0.984, 0.98401]
                     用户量.............. 16946
                     项目量.............. 41403
                     用户16 []


=========> underexpose_train_click-2.csv文件
                     time【MIN, P90, MAX】 [0.98385, 0.98406, 0.98407]
                     用户量.............. 16708
                     项目量.............. 41027
                     用户16 [0.9839314082881014, 0.984065931883478]


=========> underexpose_train_click-3.csv文件
                     time【MIN, P90, MAX】 [0.9839, 0.98411, 0.98412]
                     用户量.............. 17146
                     项目量.............. 42811
                     用户16 [0.9839314082881014, 0.98410057961589]


=========> underexpose_train_click-4.csv文件
                     time【MIN, P90, MAX】 [0.98396, 0.98416, 0.98418]
                     用户量.............. 16910
                     项目量.............. 42839
                     用户16 [0.9840638057912652, 0.98415624790214]


=========> underexpose_train_click-5.csv文件
                     time【MIN, P90, MAX】 [0.98401, 0.98422, 0.98423]
                     用户量.............. 17661
                     项目量.............. 45628
                     用户16 []


=========> 整体
                     time【MIN, P90, MAX】 [0.98374, 0.98415, 0.98423]
                     用户量.............. 29128
                     项目量.............. 89468

1.2 整体CSV文件用户-项目点击分布

1546265点击中，将近一半有重复点击
时间分布：
- 9个峰，大概是前后9天的数据
- 最左边与最右边数据量较中间小，可能左右并非完整的一天数据或者中间包含节假日、促销等成分

拼接文件样本量

print("==============================> 拼接文件样本量：", merge_train_click.shape[0])
merge_train_click.head(2)

==============================> 拼接文件样本量： 1546265

	user_id	item_id	time
0	4965	18	0.983763
1	20192	34	0.983772

对所有列去重之后样本量

merge_train_click_unique = merge_train_click[["user_id", "item_id", "time"]
                                            ].groupby(["user_id", "item_id", "time"]).size().reset_index()
merge_train_click_unique.columns = ["user_id", "item_id", "time", "click"]
print("==============================> 去重后样本量：", merge_train_click_unique.shape[0])
print("==============================> 最大重复click：", merge_train_click_unique.click.max())
merge_train_click_unique.head(2)

==============================> 去重后样本量： 804043
==============================> 最大重复click： 4

	user_id	item_id	time	click
0	1	2945	0.984153	2
1	1	4033	0.984044	2

整体时间分布

9个峰，大概是前后9天的数据
最左边与最右边数据量较中间小，可能左右并非完整的一天数据或者中间包含节假日、促销等成分

g = sns.kdeplot(merge_train_click["time"], color="Blue", shade = True)
x = g.set_xlabel("LOG_item-click")
x = g.set_ylabel("Frequency")
g = g.legend(["time"])

2 用户画像与用户点击

用户画像中有6786个用户，整个训练点击数据用户量在29128，说明有用户画像的只是一部分。
用户画像中三个用户重复信息：两个用户年龄变化（更新），一个用户城市变化。

2.1 数据导入

user_feat = pd.read_csv(TRAIN_PATH + "underexpose_user_feat.csv", header=None, 
                        names=["user_id", "user_age_level", "user_gender", "user_city_level"])

print("==============================> 用户画像原始用户量：", user_feat.shape[0])
print("==============================> 用户画像去重用户量：", user_feat.user_id.unique().shape[0])
print("==============================> 取出重复用户id的数据：")
user_feat[(user_feat.user_id == 32152) | (user_feat.user_id == 23453) | (user_feat.user_id == 14818)]

==============================> 用户画像原始用户量： 6789
==============================> 用户画像去重用户量： 6786
==============================> 取出重复用户id的数据：

	user_id	user_age_level	user_gender	user_city_level
1466	14818	3.0	M	3.0
1467	14818	2.0	M	3.0
5733	23453	5.0	F	2.0
5734	23453	5.0	F	5.0
6513	32152	1.0	F	6.0
6514	32152	2.0	F	6.0

2.2 数据合并与筛选

# 重复的用户删除年龄小的记录，删除城市大的记录
user_feat.drop(index=[1467, 6513, 5734], inplace=True)

# 合并用户画像与用户点击数据
trainClick_userFeat = merge_train_click.merge(user_feat, how="left", on=["user_id"])

# 筛选有用户画像的点击数据
trainClick_userFeat = trainClick_userFeat[~(trainClick_userFeat.user_age_level.isnull()) | 
                                          ~(trainClick_userFeat.user_gender.isnull()) | 
                                          ~(trainClick_userFeat.user_city_level.isnull())]

print("==============================> 用户画像与点击数据合并：")
trainClick_userFeat.head(2)

==============================> 用户画像与点击数据合并：

	user_id	item_id	time	user_age_level	user_gender	user_city_level
0	4965	18	0.983763	4.0	F	1.0
3	29473	189	0.983930	4.0	F	3.0

2.3 合并数据分布

以下分析均为有用户画像的点击数据

这些有用户画像的数据：
- 用户点击量较整体大
- 项目点击量较整体小
- 总结：这些有用户画像的人，更爱多次点击那种稀有的物件（可能是需要反复对比的奢饰品牌）

有用户画像与整体点击——用户、项目分布

检验分布是否一致

#################### 用户click统计
click_user = trainClick_userFeat[["user_id"]].groupby(["user_id"]).size().reset_index()
click_user.columns = ["user_id", "click"]

all_click_user = merge_train_click[["user_id"]].groupby(["user_id"]).size().reset_index()
all_click_user.columns = ["user_id", "click"]


#################### 项目click统计
click_item = trainClick_userFeat[["item_id"]].groupby(["item_id"]).size().reset_index()
click_item.columns = ["item_id", "click"]

all_click_item = merge_train_click[["item_id"]].groupby(["item_id"]).size().reset_index()
all_click_item.columns = ["item_id", "click"]

################################## USER
tmp0 = all_click_user.copy()
tmp0["dt_type"] = "User full volume click data"
tmp1 = click_user.copy()
tmp1["dt_type"] = "User profile click data"
tmp00 = pd.concat([tmp0, tmp1], axis=0)

### raw
g = sns.FacetGrid(tmp00, hue="dt_type", size=3, aspect=3)
g.map(sns.kdeplot, "click")
g.fig.suptitle("User: Probability density curve of raw cilck data")
g.add_legend();

### log1p
tmp00["click"] = np.log(tmp00.click)
g = sns.FacetGrid(tmp00, hue="dt_type", size=3, aspect=3)
g.map(sns.kdeplot, "click")
g.fig.suptitle("User: Probability density curve of log1p cilck data")
g.add_legend();


################################## ITEM

tmp0 = all_click_item.copy()
tmp0["dt_type"] = "Item full volume click data"
tmp1 = click_item.copy()
tmp1["dt_type"] = "Item profile click data"
tmp11 = pd.concat([tmp0, tmp1], axis=0)

### raw
g = sns.FacetGrid(tmp11, hue="dt_type", palette="Set2", size=3, aspect=3)
g.map(sns.kdeplot, "click")
g.fig.suptitle("Item: Probability density curve of raw cilck data")
g.add_legend();

### log1p
tmp11["click"] = np.log(tmp11.click)
g = sns.FacetGrid(tmp11, hue="dt_type", palette="Set2", size=3, aspect=3)
g.map(sns.kdeplot, "click")
g.fig.suptitle("Item: Probability density curve of log1p cilck data")
g.add_legend();

有用户画像——性别、年龄、城市分布

男女随时间点击趋势均呈现周期性（天）
各年龄阶段的访问量大致呈正态分布
从城市level看不出城市背后的真实等级
男女在年龄上的点击量存在差异性，比如年龄阶段6
男女在城市上的点击量差异性看不出。

trainClick_userFeat.head(2)

	user_id	item_id	time	user_age_level	user_gender	user_city_level
0	4965	18	0.983763	4.0	F	1.0
3	29473	189	0.983930	4.0	F	3.0

性别-年龄点击量

# 大小设置
sns.set(rc={'figure.figsize':(17, 5)})
# 风格设置
sns.set_style("whitegrid")

# 可视化
f, axes = plt.subplots(1, 2)
# 1
trainClick_userFeat_cp = trainClick_userFeat.copy()
trainClick_userFeat_cp["time"] = trainClick_userFeat_cp["time"].map(lambda x:round(x, 5))
sex_age_click = trainClick_userFeat_cp[["user_gender", "user_age_level"]].groupby(["user_gender", "user_age_level"]).size().reset_index()
sex_age_click.columns = ["user_gender", "user_age_level", "click"]
x = sns.barplot(x="user_age_level", y="click", hue="user_gender", data=sex_age_click, palette=sns.color_palette("Set2", 6), ax=axes[0])
x = x.set_title("Click volume statistics by age_level")

# 2
trainClick_userFeat_cp = trainClick_userFeat.copy()
trainClick_userFeat_cp["time"] = trainClick_userFeat_cp["time"].map(lambda x:round(x, 6))
sex_time = trainClick_userFeat_cp[["user_gender", "time"]].groupby(["user_gender", "time"]).size().reset_index()
sex_time.columns = ["user_gender", "time", "click"]
x = sns.lineplot(x="time", y="click", data=sex_time, hue="user_gender", palette=sns.color_palette("Set2", 2), ax=axes[1])
x = x.set_title("Time trends in user clicks by gender")

性别-年龄点击量趋势

# 大小设置
sns.set(rc={'figure.figsize':(17, 10)})
# 风格设置
sns.set_style("whitegrid")

# 聚合数据
sex_age_time = trainClick_userFeat_cp[["user_gender", "user_age_level", "time"]
                                     ].groupby(["user_gender", "user_age_level", "time"]).size().reset_index()
sex_age_time.columns = ["user_gender", "user_age_level", "time", "click"]

# 可视化
# 1
f, axes = plt.subplots(2, 1)
x0 = sns.lineplot(x="time", y="click", data=sex_age_time[sex_age_time.user_gender=="M"], hue="user_age_level", 
                  palette=sns.color_palette("Set1", 8), ax=axes[0])
x0 = x0.set_title("Time trends in Male user clicks by age_level")
# 2
x1 = sns.lineplot(x="time", y="click", data=sex_age_time[sex_age_time.user_gender=="F"], hue="user_age_level", 
                  palette=sns.color_palette("Set1", 8), ax=axes[1])
x1 = x1.set_title("Time trends in Female user clicks by age_level")

性别-城市点击量

# 大小设置
sns.set(rc={'figure.figsize':(17, 5)})
# 风格设置
sns.set_style("whitegrid")

# 可视化
f, axes = plt.subplots(1, 2)
# 1
trainClick_userFeat_cp = trainClick_userFeat.copy()
trainClick_userFeat_cp["time"] = trainClick_userFeat_cp["time"].map(lambda x:round(x, 5))
sex_city_click = trainClick_userFeat_cp[["user_gender", "user_city_level"]].groupby(["user_gender", "user_city_level"]).size().reset_index()
sex_city_click.columns = ["user_gender", "user_city_level", "click"]
x = sns.barplot(x="user_city_level", y="click", hue="user_gender", data=sex_city_click, palette=sns.color_palette("Set2", 6), ax=axes[0])
x = x.set_title("Click volume statistics by city_level")

# 2
trainClick_userFeat_cp = trainClick_userFeat.copy()
trainClick_userFeat_cp["time"] = trainClick_userFeat_cp["time"].map(lambda x:round(x, 6))
sex_time = trainClick_userFeat_cp[["user_gender", "time"]].groupby(["user_gender", "time"]).size().reset_index()
sex_time.columns = ["user_gender", "time", "click"]
x = sns.lineplot(x="time", y="click", data=sex_time, hue="user_gender", palette=sns.color_palette("Set2", 2), ax=axes[1])
x = x.set_title("Time trends in user clicks by gender")

性别-城市点击量趋势

# 大小设置
sns.set(rc={'figure.figsize':(17, 10)})
# 风格设置
sns.set_style("whitegrid")

# 聚合数据
sex_city_time = trainClick_userFeat_cp[["user_gender", "user_city_level", "time"]
                                     ].groupby(["user_gender", "user_city_level", "time"]).size().reset_index()
sex_city_time.columns = ["user_gender", "user_city_level", "time", "click"]

# 可视化
# 1
f, axes = plt.subplots(2, 1)
x0 = sns.lineplot(x="time", y="click", data=sex_city_time[sex_city_time.user_gender=="M"], hue="user_city_level", 
                  palette=sns.color_palette("Set1", 6), ax=axes[0])
x0 = x0.set_title("Time trends in Male user clicks by city_level")
# 2
x1 = sns.lineplot(x="time", y="click", data=sex_city_time[sex_city_time.user_gender=="F"], hue="user_city_level", 
                  palette=sns.color_palette("Set1", 6), ax=axes[1])
x1 = x1.set_title("Time trends in Female user clicks by city_level")

中国男足亚运队热身赛公布，迎战韩国U24队！鸿飞体育
近来，中国足协宣布，中国男足亚运队将于6月15日、6月19日在浙江金华迎战韩国U24男足，这也是中国足协在6月的男足国际比赛日敲定的又一支国字号球队的热身赛方案。此次热身赛不仅是一次冲刺杭州亚运会的重要机会，还是一个加速磨合阵容的好机会。由于这两场比赛均为国际A级赛事，事关国家队积分排名，因此，中国男足亚运队非常重视。近年来，中国足球始终掀起一波波高潮，中国男足亚运队也一直备受关注。前任中国足协主
《观察叶》教学反思 linzi111
第一次接触到《观察叶》是去年10月份，当时需要准备微课大赛，虽然没有教一年级，但比赛的年级只能从一二年级中选，于是乎选了这一课。初次接触本课，还要选取一部分录一节微课，觉得无从下手。在细读了教参后，心里有些底了。今年再次接触本课，参考了去年的设计，再一次根据教参做出修改。叶的特点部分给与学生充分发言的机会，“观察各种各样的叶部分”先复习观察方法，学生们能够说出基本的观察叶子方法：看、摸、闻……，还
叶延珍焦点网络七期洛阳坚持分享328天(2018.07.11星期三）叶子_6c11
下班回到家，看见婆婆正拿着吹风机吹电视。猛的一下，感觉有点儿不妙的感觉。问婆婆怎么回事儿？婆婆说看你的两个宝贝干的好事儿。等婆婆说完我才明白:婆婆当时出去摘菜了，俩宝看着电视无聊，就玩起了打水枪的游戏，他们比赛看谁在电视上喷的水多。结果可想而知，电视美美的洗了一遍澡。天哪，谁想的游戏，顿时心里的怒火就上来了，(因为这电视可是自己结婚时买的最贵的一样家电。相当于半年不吃不喝的工资啊！)想要揍孩子一顿
成家文日 22小石头贺文汐
加油！加油！,我喊道.哦,我很抱歉,我忘了说我为什么要喊了。.不过你必须听了一个故事,在这个故事当中，你可能就发现了。好，我要开始讲了这件事就发生在昨天,我们小石头班和小蝴蝶痛痛快快的打了一场跆拳道比赛。之前连了好几场都是小蝴蝶般的人赢,我们很不服气,我们班就发怒了,大家就打的更猛了我们也，一下子赢了好几场,我们班有好多人得意忘形了。一下子又不团结了,老师说了我们,但是有几个女孩大汗淋漓,他们也很
为荣誉而战念薇薇
晚上准时打开电视，准备观看中国女排和意大利的比赛。等到了九点多都没有开始，百度搜索，显示：中国女排和意大利队20:45开始，延期。想着今天不会比赛了，我关了电视。我瞌睡了，准备睡觉了，可还想最后再看看有什么消息。又打开百度搜索，延期竟然变成了1:0，瞬间我睡意全无，赶紧打开电视，中国女排和意大利队的比赛第二局刚开始。中国女排打出了气势和激情，情绪高涨，队员配合默契，第二局获胜。比赛进入第三局，两个
随笔206－对待比赛的态度一弯静水流深
或许生活需要很多的点缀，就像一件事情有一个仪式感就会让人觉得很好。女儿学习轮滑多半年了，一直没有参加过考级，因为我主观意识考级一则需要花钱，也就是自己花钱买一个奖牌，证书。二则对于学习这项运动本身没什么意义。所以我一直很冷静地不参与所谓的选拔或者什么其他的活动。星期天教练说这次考三星级轮滑证可以在当地进行，动员孩子们参加，女儿一听很高兴，课后就征求我的意见，我想都没想直接说：明天妈妈要上班，没时间
话说运动：第十七届冬季运动会糖糖是个粉红控
图片发自App第十周的星期五，我们学校举办了“第十七届冬季运动会”，全校师生都参加了比赛，而且比赛项目非常多，有扔沙包、毛毛虫、击掌接力……我最喜欢的项目是“毛毛虫”，大家在垫子上爬来爬去，真的像一只只毛毛虫，但速度可比毛毛虫快多了。虽然我们没有得到第一名，但唐老师说，只要尽力就是最好的。小作者：叶凯乐
追逐绿茵场（二）图书八折贱卖
今天是校队的第一次集训日。清晖小学对学习方面抓的比较紧，小升初的考试成绩都还不错，但体育方面就比较一般。每次市里的足球联赛篮球联赛，清晖小学的成绩就算不垫底也是在倒数前三徘徊。这几年因为恒大队夺取了亚冠，也掀起了一场足球热，再加上每个学校也都开始重视足球，因此市里的各级学生联赛也都被教委重视起来。当然，市里更多重视的是初中和高中的校际足球联赛，而小学的足球联赛大家都不太重视，女足的比赛的重视度也更
留给思考的时间越来越少了化浊
标题这话是从哪儿冒出来的呢？哦，中国男足。但凡转播男足的比赛，临近末尾，主持人们经常需要艰难地喊一声，“留给中国男足的时间越来越少了。”这不，我也依样画葫芦，喊一句“留给思考的时间越来越少了”。之所以有这样的感慨，兴许是因前一阵，抖音突然大火。大家看着很乐呵，刷刷刷，不知不觉一天就过去了。相比阅读，看视频显然是更不需费脑的，而相比普通的视频，十五秒的短视频，则更直接、更不需深思，简简单单地刺激人的
只激烈、不惊喜老贼
2017-11-2720:38:55第三届江湖地位大赛冠军争夺战由第二届原班选手，在BA球场再次拉开帷幕。凌晨四点大部分选手已经按耐不住激动的心情，纷纷起床洗漱、活动，以一万分的热情迎接新的挑战。所有选手均提前赶到赛场，特别值得表扬的是over，早早就代表组委会与球童及相关场地工作人员，约定比赛规则，要求公平记分，over还着重强调了要对其他选手严格要求、对自己嘛、嘿嘿嘿。一号洞过水五杆洞，ove
【剽悍一只猫的剽悍财富行动营】你的生命有什么可能？财务自由的社群运营人苏宝
文/花花【22天每天5：45起床，啃了15本书，写了22篇文章，近2万字输出，3次优秀文章，6次打卡先锋，7枚勋章，演讲比赛第2名】面对曾经懒怂拖的自己，这22天发生了什么？2020年10月，熊先森给我分享剽悍一只猫的公众号名片，点开，关注，之后忽略，忘记。2021年1月，熊先森给我分享剽悍财富行动营课程，点开，报名。那一刻我还是屯课心态。直到我发现...居然还要审核才能参加！没错，之前无门槛的社
【web安全】从2022中科大hackgame web中学习pdflatex RCE和python反序列化热心网友易小姐 python web安全前端
ctf比赛地址：https://hack.lug.ustc.edu.cn大佬博客里wp写的很清楚了，官方wp也写的很好，我比不过大佬，只能把基础多讲一些（大佬在tttang把wp全发了T0T)官方wp:https://github.com/USTC-Hackergame/hackergame2022-writeups大佬全WP：https://miaotony.xyz/?utm_source=tt
相识艺馨有你
微信加好了，但是两个人因推理比赛的结束就没有继续联系了。两个这样异地的又回归的各自的生活轨道上了。这种沉默一直持续到2014年的10月1日，这是个国庆节也要过中秋节，馨就群发了一个国庆节快乐的消息，而回复馨的不是很多，回复的人中就有和馨一起参加推理比赛的那个人，虽然两个人一起参加比赛但是双方的名字都不知道只知道笔名，就是这次的节日快乐，让双方重新认识了一下，对方的基本信息都了解了。从这次的国庆节开
苏炳添的第六名比金牌还要荣耀泠之屋
八点五十。想起这是奥运会男子百米的比赛时间，就打开了电视。奥运比赛看得不多，从小对体育兴趣就不大，但奥运的百米必是要看的，虽然没有博尔特，一个都不认识。当电视画面亮起来的时候，看到苏炳添站在百米起跑线，让我颇为意外。从来没想过中国选手可以进入百米决赛。这个黑人统治的项目，黄种人天生就处于劣势，这是固定观念。但这个固定观念今天被打破了。比赛并不精彩，看不到往年博尔特那种一骑绝尘的叹为观止，看着心如止
MS COCO数据集目标检测评估（Detection Evaluation） Ambition_LAO 人工智能计算机视觉
MSCOCO(MicrosoftCommonObjectsinContext)是一个广泛应用于计算机视觉领域的数据集和评估平台，尤其是在目标检测、分割和人体关键点检测等任务中。COCO数据集和其评估方法被广泛用于学术研究和工业应用。以下是对MSCOCO数据集目标检测评估、人体关键点评估、输出数据的结果格式以及如何参加比赛的详细阐述和总结。1.MSCOCO数据集目标检测评估（DetectionEva
ELO评分机制公式灵海之森 LLM python
ELO评分是一种常用于棋类等竞技游戏中的评分系统，用来衡量玩家（或模型）的相对技能水平。在大模型竞技场中，ELO评分可以用来比较不同模型的表现。ELO评分系统的核心是根据比赛结果调整模型的评分。ELO评分的计算公式具体案例推导
美丽的家乡昊若星空文如春华
“啊，美丽的家乡，我回来了。”每逢放假爸爸妈妈就会带我去我的家乡——外婆家。这不！又回来了！我从两三岁的时候就到这来过，我喜欢这里的一切，我爱这里的人们。春天的早晨，太阳刚刚露出小脸蛋，百花就苏醒了，大口大口、贪婪地，呼吸着这里的空气，我也出去散散步，河流醒来了。在石子之间来回穿梭，似乎在比赛跑步……太阳不知不觉中升起了。夏天，它悄无声息的到来和里顿时热闹了起来，全村的人几乎都到了河边，妇女在河边
国足主力阵容再出伤病！24岁锋线新支柱被曝伤退，伤情未知！枫桥落夜
现在对于中国足球最大的事儿就是备战世预赛12强赛的比赛了。而就在昨天国足拿下了12强赛的首场胜利，他们以3-2战胜了越南队，成功地摆脱了垫底的位置，保留了冲击世界杯的希望。而对阵越南队的比赛中，我们国足实现了很多突破，打进了12强赛的首粒进球，拿下了12强赛首场胜利，而这场比赛的胜利也让两连败的国足将士重拾信心。当然了最重要的一点就是这么多年以来，我们终于看到了锋线位置的希望。大家都知道国足这几十
2019法国女足世界杯开战，中国女足今晚首秀引关注（附小组赛赛程）闹儿不闹
当地时间6月7日，第八届女足世界杯在法国拉开了大幕，这也是法国首次女足世界杯的比赛。24支队伍将在这里向冠军发起冲击。摩拳擦掌、雄心勃勃的24强之中，既有实力不俗的如美国、德国、挪威等老牌劲旅，也有首次登陆世界杯舞台的如南非、苏格兰、牙买加、智利等国家队新军。本届法国女足世界杯堪称史上最受重视的女足世界杯——同四年前的加拿大女足世界杯相比，2019年法国女足世界杯的奖金数翻番达3000万美元，冠军
你一定有你独特的人生意义，拍下来吧！欧阳风Plus
老家风景周末踢球，踢完球队聚餐，虽然比赛输了，但过得很有意义。当然，我也拍下了很多素材。拍球场，拍我们队的比赛，拍颁奖典礼，拍球队聚餐…既然决定要拍短视频，拍VLOG，就得时刻准备着，用镜头记录今天你觉得值得记录的事。大多数人的日常没有那么多大起大落，但每个人的日子都有其独特的意义，你得向内向外挖掘出来，一旦你每日都有心去思索，去记录你的灵感，你的系统性拍摄方法就会抽丝剥茧地越来越清晰。我目前就是
斩获奥运入场劵，中国女排九月将再迎大考（附赛程）闹儿不闹
在刚刚结束的东京奥运会女排资格赛第一阶段比赛中，中国女排姑娘们可谓渐入佳境，以三战全胜小组头名的战绩，最终斩获一张珍贵的奥运入场劵。除中国女排外，其它五个直通东京奥运的球队是意大利、塞尔维亚、美国、巴西和俄罗斯。尽管美国、巴西和俄罗斯3队直通之路并不顺畅，都历经5局大战才最终过关。其中巴西队打了两个3：2，俄罗斯队更是在连丢两局的情况下，连扳3局逆转韩国队。但最终还是没有意外，直通的六支队伍都是各
同样是跑步，来这里能轻松跑完马拉松，还能拿奖牌 weixin_34248118 人工智能
上周末上海马拉松开幕，朋友圈里的小伙伴们特意打飞的去参加比赛，让大周末躺在床上玩手机的小编感受到一波来自运动爱好者的活（qi）力（shi）。正想着要不要跑个步，随手打开手机搜了一下马拉松的里程：约42公里（42.195公里），相当于从通州北苑到海淀西二旗的距离。（毕竟坐地铁都要一个半小时，别问我为什么知道难道就要因此放弃跑步打卡的机会，永远也完不成42公里的目标了吗？难道就一直久坐在办公室几乎不运
亲子日记199天留下一杯金黄的阳光
2018.11.23星期五天气晴今天包了一天水饺，哄着二宝准备了韭菜鸡蛋馅和白菜肉馅，然后和了面，趁机包了点，然后等涵同学和老公回家看着二宝又包了好多。接到通知涵同学下午要会操比赛，正好给涵同学网购了双白色鞋，穿上新鞋涵同学美滋滋的上学去了，看到老师发到群里的体操视频，好像又回到了自己上学的年月，英姿飒爽、朝气蓬勃，用什么词语都无法比拟的靓，孩子们加油，你们是最棒的、最可爱的，同时也要感谢老师们及
2019-04-15 晴岚85
郑海燕焦点初十中12坚持分享308天2019.4.15明天就要去区里参加优质课比赛了，今天下午和同事一起磨课，发现自己的讲课时间，又是需要大概10分钟左右，还是不能控制在8分钟以内，所以我们临时又做了探讨和调整，最后终于可以7分钟讲完。所以说人的潜力是无穷的，压力有多大，可能动力就有多强，所以明天讲课，希望自己能够沉着冷静讲出自己应有的水平，稳生定，定生慧。
极品小农场名窑龘龑文轩
第70章牧草存储随后几天都过着挺清闲，陪着爸妈去黄石公园转了一圈，难得来一次，满足宝宝做小飞机愿望，只是直升飞机价格高了点，一人二百多美元，真是太贵了点，李汉想着有机会自己买一架，没事打猎，或是玩，挺好。农场的活，休顿和杰姆打理，轻松不少，回到农场，一早溜溜马，沿着农场溜达一圈呼吸一下新鲜空气，上午帮着嘟嘟种种菜，浇浇水。周末参加了一次橄榄球比赛，玩的挺开心，身体素质好反应能力提高不少，赢了超过二
第12周《创造的教育》读后感板凳校长
从国庆假期的第一天到今天，一天也没有休息好，主要是忙着在学校里发现安全隐患，忙着整改上级的安全督查。到今天带领学生去参加淄博市的人工智能比赛，才算喘口气。于是，今天黄昏，听着窗外的雨声，静下心来，读读书，真好。今天读的是陶行知先生的《创造的教育》。文章很长，干货很多，记录一些谈谈自己的感想。“中国现在的教育是关门来干的，只有思想，没行动的。教员们教死书，死教书，教书死；学生们读死书，死读书，读书死
《你的能力，要学会用故事讲出来》小媛笔记
湿婆和妻子帕瓦蒂是印度的天神和天后，他们有两个儿子，分别是甘尼许和马鲁哈。甘尼许象头大耳，敦实憨厚；马鲁哈风度翩翩，身材修长优雅，俊美的容貌无人可比。他们两人争相向父母邀宠，吵得不可开交。他们轮番逼迫父母表态：“我是不是您最爱的儿子？”湿婆说：“我会给你答案的，但是你要发誓，以后再也不能问这个问题了”他们对儿子们说：“你们两个，就从这里出发，绕世界三圈，谁先回到这里，谁就是我们最喜爱的儿子。比赛从
基于华为昇腾910B和LLaMA Factory多卡微调的实战教程 herosunly 大模型微调华为昇腾 910B 多卡微调实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
LPL有毒！！！ Aa左左木
Lpl有毒!!!Msi赛季刚过去，让我经历了大喜大悲，转眼之间LPL春季赛又来了，不知道为什么，我看他们打比赛，我的心在空中一直都没掉下来过。打的好害怕要被翻盘，稍微弱势吓得手心出汗，抢个大龙都不敢看，就害怕整个一波团灭汗。（莫名其妙rap起来了）总之看lpl的比赛真的要有颗大大的心脏，并且还要具备一手瞬间变脸的能力。“能不能不送!!!!”“666666”“你们在犯罪！！！！”“666666”“完
包粽子比赛 d22201e7460c
为了弘扬中华民族优秀传统文化，丰富教师的课余文化生活，我校在端午节到来之际举行“浓浓粽香情满校园”——教师包粽子比赛。让我们感受到了浓浓的节日氛围。比赛分年级组、学科组进行。虽然我不常包粽子，好在我有个会包粽子的妈妈，每年端午，妈妈都会包一些粽子给我们吃，耳濡目染也算是能包。赛前各组的参赛选手跃跃欲试。比赛开始，每个组都是全力以赴，争分夺秒的包起来。我们组也是分工明确、配合默契，有人递绳子，有人系
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

KDD Cup 2020 - Debiasing：user-item feature

Written by wanping7

结论

每个CSV文件用户-项目点击分布

整体CSV文件用户-项目点击分布

用户画像与用户点击

合并数据分布

有用户画像——性别、年龄、城市分布

Click特征

1 训练Click特征

1.1 每个CSV文件用户-项目点击分布

1.2 整体CSV文件用户-项目点击分布

拼接文件样本量

对所有列去重之后样本量

整体时间分布

2 用户画像与用户点击

2.1 数据导入

2.2 数据合并与筛选

2.3 合并数据分布

有用户画像与整体点击——用户、项目分布

有用户画像——性别、年龄、城市分布

你可能感兴趣的:(比赛)