Kevin Davis

2022华为推荐赛事——广告-信息流跨域ctr预估——0.79方案分享

本文目录如下：

- 一、赛事背景
- 二、解决方案
- - 2.1 导入必要的库
  - 2.2 数据读取
  - 2.3 特征工程
  - - 自然数编码
    - 目标域（广告域）穿越特征提取
    - 内存压缩
    - 源域特征构建
    - 内存压缩
  - 2.4 划分训练集和测试集
  - 2.5 训练模型
  - 2.5 输出特征重要性结果
  - 2.6 结果保存
- 三、总结
- - 参考资料

一、赛事背景

广告推荐主要基于用户对广告的历史曝光、点击等行为进行建模，如果只是使用广告域数据，用户行为数据稀疏，行为类型相对单一。而引入同一媒体的跨域数据，可以获得同一广告用户在其他域的行为数据，深度挖掘用户兴趣，丰富用户行为特征。引入其他媒体的广告用户行为数据，也能丰富用户和广告特征。本赛题希望选手基于广告日志数据，用户基本信息和跨域数据优化广告ctr预估准确率。目标域为广告域，源域为信息流推荐域，通过获取用户在信息流域中曝光、点击信息流等行为数据，进行用户兴趣建模，帮助广告域ctr的精准预估。比赛官网链接。

二、解决方案

基于鱼佬提供的2.1版本baseline代码，我做了进一步改进得到了以下的解决方案。

2.1 导入必要的库

#---------------------------------------------------
#导入库
#----------------数据探索----------------
import pandas as pd
import numpy as np
import os
import gc
import matplotlib.pyplot as plt
from tqdm import * 
import featuretools as ft
#----------------核心模型----------------
from catboost import CatBoostClassifier
from sklearn.linear_model import SGDRegressor, LinearRegression, Ridge
#----------------交叉验证----------------
from sklearn.model_selection import StratifiedKFold, KFold
#----------------评估指标----------------
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, log_loss
#----------------忽略报警----------------
import warnings
warnings.filterwarnings('ignore')

2.2 数据读取

# 读取训练数据和测试数据
train_data_ads = pd.read_csv('./train/train_data_ads.csv')
train_data_feeds = pd.read_csv('./train/train_data_feeds.csv')

test_data_ads = pd.read_csv('./test/test_data_ads.csv')
test_data_feeds = pd.read_csv('./test/test_data_feeds.csv')

train_data_ads.head(10)

	log_id	label	user_id	age	gender	residence	city	city_rank	series_dev	series_group	...	ad_click_list_v001	ad_click_list_v002	ad_click_list_v003	ad_close_list_v001	ad_close_list_v002	ad_close_list_v003	pt_d	u_newsCatInterestsST	u_refreshTimes	u_feedLifeCycle
0	373250	0	100005	3	2	16	147	2	32	6	...	30157^30648^14278^31706	2066^1776^1036	114^219^312	24107	1218	173	202206030326	39^220^16	0	15
1	373253	1	100005	3	2	16	147	2	32	6	...	30157^30648^14278^31706	2066^1776^1036	114^219^312	24107	1218	173	202206030326	39^220^16	0	15
2	373252	1	100005	3	2	16	147	2	32	6	...	30157^30648^14278^31706	2066^1776^1036	114^219^312	24107	1218	173	202206030326	39^220^16	0	15
3	373251	0	100005	3	2	16	147	2	32	6	...	30157^30648^14278^31706	2066^1776^1036	114^219^312	24107	1218	173	202206030326	39^220^16	0	15
4	373255	0	100005	3	2	16	147	2	32	6	...	30157^30648^14278^31706	2066^1776^1036	114^219^312	24107	1218	173	202206030328	39^220^16	0	15
5	373254	0	100005	3	2	16	147	2	32	6	...	30157^30648^14278^31706	2066^1776^1036	114^219^312	24107	1218	173	202206030326	39^220^16	0	15
6	101100	0	100006	5	2	13	191	4	32	6	...	28554^22548^13312^29694^11623	1776^1696^1230^1886	219^349^198^314	24107	1218	173	202206030844	39^78^220^142^16	3	17
7	101097	0	100006	5	2	13	191	4	32	6	...	28554^22548^13312^29694^11623	1776^1696^1230^1886	219^349^198^314	24107	1218	173	202206030359	39^78^220^142^16	3	17
8	101098	0	100006	5	2	13	191	4	32	6	...	28554^22548^13312^29694^11623	1776^1696^1230^1886	219^349^198^314	24107	1218	173	202206030916	39^78^220^142^16	3	17
9	101094	0	100006	5	2	13	191	4	32	6	...	28554^22548^13312^29694^11623	1776^1696^1230^1886	219^349^198^314	24107	1218	173	202206030914	39^78^220^142^16	3	17

10 rows × 35 columns

train_data_feeds.head(10)

	u_userId	u_phonePrice	u_browserLifeCycle	u_browserMode	u_feedLifeCycle	u_newsCatInterests	u_newsCatInterestsST	u_click_ca2_news	...	e_ch	e_m	e_po	e_pl	e_rn	e_section	e_et	label	cillabel
0	135880	16	17	10	17	195^168^109^98^108	195^44^168^112^21	195^168^44^112^21	...	19	1217	1	561	2	0	202206081521	-1	-1
1	135880	16	17	10	17	195^168^109^98^108	195^44^168^112^21	195^168^44^112^21	...	19	1217	9	561	1	0	202206081521	-1	-1
2	135880	16	17	10	17	195^168^109^98^108	195^44^168^112^21	195^168^44^112^21	...	19	1217	18	561	1	0	202206081521	-1	-1
3	135880	16	17	10	17	195^168^109^98^108	195^44^168^112^21	195^168^44^112^21	...	19	1217	7	561	1	1	202206081521	-1	-1
4	135880	16	17	10	17	195^168^109^98^108	195^44^168^112^21	195^168^44^112^21	...	19	1217	7	561	2	0	202206081522	-1	-1
5	135880	16	17	10	17	195^168^109^98^108	195^44^168^112^21	195^168^44^112^21	...	19	1217	13	561	1	0	202206081521	-1	-1
6	135880	16	17	10	17	195^168^109^98^108	195^44^168^112^21	195^168^44^112^21	...	19	1217	5	561	3	0	202206081522	-1	-1
7	135880	16	17	10	17	195^168^109^98^108	195^44^168^112^21	195^168^44^112^21	...	19	1217	17	561	1	0	202206081521	-1	-1
8	135880	16	17	10	17	195^168^109^98^108	195^44^168^112^21	195^168^44^112^21	...	19	1217	6	561	1	1	202206081520	-1	-1
9	135880	16	17	10	17	195^168^109^98^108	195^44^168^112^21	195^168^44^112^21	...	19	1217	4	561	3	0	202206081522	-1	-1

10 rows × 28 columns

# 合并数据
train_data_ads['istest'] = 0
test_data_ads['istest'] = 1
data_ads = pd.concat([train_data_ads, test_data_ads], axis=0, ignore_index=True)

train_data_feeds['istest'] = 0
test_data_feeds['istest'] = 1
data_feeds = pd.concat([train_data_feeds, test_data_feeds], axis=0, ignore_index=True)

del train_data_ads, test_data_ads, train_data_feeds, test_data_feeds
gc.collect()

def reduce_mem_usage(df, verbose=True):
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2    
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)    
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose: print('Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction)'.format(end_mem, 100 * (start_mem - end_mem) / start_mem))
    return df

2.3 特征工程

自然数编码

将文本变量数值化，方便后续计算。

# 自然数编码
def label_encode(series, series2):
    unique = list(series.unique())
    return series2.map(dict(zip(
        unique, range(series.nunique())
    )))

for col in ['ad_click_list_v001','ad_click_list_v002','ad_click_list_v003','ad_close_list_v001','ad_close_list_v002','ad_close_list_v003','u_newsCatInterestsST']:
    data_ads[col] = label_encode(data_ads[col], data_ads[col])

目标域（广告域）穿越特征提取

由于这个数据的变量里有时间戳，所以我们可以统计用户两次行为之间的时间差来构建穿越特征。

穿越特征是一个非常强的特征，用了之后我的结果从0.72提升到了0.79，虽然没有鱼佬提升0.1那么厉害，但也说明这个穿越特征的重要性了。

浅薄理解：穿越特征本质就是时序特征，由于有了时间的加入，因此我们可以利用样本 $t$ 的历史数据 $\dots, t-1$ 来更好地预测 $t$ 时刻的结果。类似的方法还有做差分、构建多阶滞后数据等。

Trick：这里的代码不仅构建了历史数据的穿越特征，还加入了 $t$ 时刻之后的穿越特征，也就是把未来的数据也加入到训练过程中，因此结果表现亮眼。但平心而论，这已经发生数据泄露了，因为工业上实际预测时不可能有未来的数据给你辅助预测。

%%time
gap_max = 4
gap_list = list(range(1, gap_max+1))  #穿越的间隔
print(f'间隔列表：{gap_list}')
print(data_ads.columns)

# 要找哪些不适合构建穿越特征
col_ads_deprecated = ['label', 'istest','age','gender','pt_d', 'log_id','residence','city','city_rank',
                      'series_dev','series_group','emui_dev','device_name','device_size', 'site_id',
                       'ad_close_list_v002', 'ad_close_list_v003', 'net_type',
                       'u_feedLifeCycle','hispace_app_tags', 'app_second_class', 'app_score',
                      ]
cols = [f for f in data_ads.columns if f not in col_ads_deprecated]
print(f'用来构建穿越特征的广告域变量有{len(cols)}个，分别是：{cols}')

print(f'data_ads.shape = {data_ads.shape}')
print(f'data_feeds.shape = {data_feeds.shape}')

## 构建穿越特征
for col in tqdm(cols):
    for gap in gap_list:
        tmp = data_ads.groupby([col])['pt_d'].shift(-gap)  #往左移动，即未来时刻的数据
        data_ads['ts_{}_{}_diff_last'.format(col, gap)] = tmp - data_ads['pt_d']   #上一条样本到本条样本的时间差

    for gap in gap_list:
        tmp = data_ads.groupby([col])['pt_d'].shift(+gap)  #往右移动，即过去时刻的数据
        data_ads['ts_{}_{}_diff_next'.format(col, gap)] = tmp - data_ads['pt_d']   #上一条样本到本条样本的时间差

间隔列表：[1, 2, 3, 4]
Index(['log_id', 'label', 'user_id', 'age', 'gender', 'residence', 'city',
       'city_rank', 'series_dev', 'series_group', 'emui_dev', 'device_name',
       'device_size', 'net_type', 'task_id', 'adv_id', 'creat_type_cd',
       'adv_prim_id', 'inter_type_cd', 'slot_id', 'site_id', 'spread_app_id',
       'hispace_app_tags', 'app_second_class', 'app_score',
       'ad_click_list_v001', 'ad_click_list_v002', 'ad_click_list_v003',
       'ad_close_list_v001', 'ad_close_list_v002', 'ad_close_list_v003',
       'pt_d', 'u_newsCatInterestsST', 'u_refreshTimes', 'u_feedLifeCycle',
       'istest'],
      dtype='object')
用来构建穿越特征的广告域变量有14个，分别是：['user_id', 'task_id', 'adv_id', 'creat_type_cd', 'adv_prim_id', 'inter_type_cd', 'slot_id', 'spread_app_id', 'ad_click_list_v001', 'ad_click_list_v002', 'ad_click_list_v003', 'ad_close_list_v001', 'u_newsCatInterestsST', 'u_refreshTimes']
data_ads.shape = (8651575, 36)
data_feeds.shape = (3597073, 29)


100%|██████████| 14/14 [00:43<00:00,  3.08s/it]

CPU times: user 32.6 s, sys: 10.5 s, total: 43.1 s
Wall time: 43.1 s

注：col_ads_deprecated为经过特征重要性结果筛选出来的较为不重要的特征，为防止维度爆炸和占内存，这里就不对这些不重要的变量构建穿越特征了。

内存压缩

此时的数据占用内存比较大了，先压缩一遍防止爆内存。

# 压缩使用内存
data_ads = reduce_mem_usage(data_ads)
print(f'data_ads.shape = {data_ads.shape}')
# Mem. usage decreased to 2351.47 Mb (69.3% reduction)

Mem. usage decreased to 3655.10 Mb (62.6% reduction)
data_ads.shape = (8651575, 148)

源域特征构建

源域即为信息域，目标域为广告域。这两者的关系就好比，你刷淘宝（源域），支付宝（广告域）根据你在淘宝的行为来给你推送广告。

源域可以提取的特征类型有：去重计数特征nunique，计数count，均值mean，最大值max，最小值min，方差std，是否为工作日weekday等。

print(f'data_feeds.shape = ',data_feeds.shape)
print(f'data_ads.shape = ',data_ads.shape)
print('信息域特征：')
print(data_feeds.columns)

## 去重计数特征
cols = [f for f in data_feeds.columns if f not in [ 'u_phonePrice', 'u_browserLifeCycle', 'u_browserMode',
       'u_feedLifeCycle', 'u_refreshTimes', 'u_newsCatInterests','u_newsCatDislike','i_dislikeTimes','u_userId', 
       'i_dtype', 'e_ch', 'e_m', 'e_pl', 'e_rn', 'e_section', 'label', 'cillabel', 'pro', 'istest']]
print(f'用来构建nunique特征的源域变量有{len(cols)}个，分别是：{cols}')
for col in tqdm(cols):
    tmp = data_feeds.groupby(['u_userId'])[col].nunique().reset_index()  #无重复值
    tmp.columns = ['user_id', col+'_feeds_nuni']
    data_ads = data_ads.merge(tmp, on='user_id', how='left')

## 均值特征
cols = [f for f in data_feeds.columns if f in ['i_upTimes', 'u_refreshTimes']]
print(f'用来构建mean特征的源域变量有{len(cols)}个，分别是：{cols}')
for col in tqdm(cols):
    tmp = data_feeds.groupby(['u_userId'])[col].mean().reset_index()
    tmp.columns = ['user_id', col+'_feeds_mean']
    data_ads = data_ads.merge(tmp, on='user_id', how='left')

print(f'data_feeds.shape = ',data_feeds.shape)
print(f'data_ads.shape = ',data_ads.shape)

data_feeds.shape =  (3597073, 29)
data_ads.shape =  (8651575, 148)
信息域特征：
Index(['u_userId', 'u_phonePrice', 'u_browserLifeCycle', 'u_browserMode',
       'u_feedLifeCycle', 'u_refreshTimes', 'u_newsCatInterests',
       'u_newsCatDislike', 'u_newsCatInterestsST', 'u_click_ca2_news',
       'i_docId', 'i_s_sourceId', 'i_regionEntity', 'i_cat', 'i_entities',
       'i_dislikeTimes', 'i_upTimes', 'i_dtype', 'e_ch', 'e_m', 'e_po', 'e_pl',
       'e_rn', 'e_section', 'e_et', 'label', 'cillabel', 'pro', 'istest'],
      dtype='object')
用来构建nunique特征的源域变量有10个，分别是：['u_newsCatInterestsST', 'u_click_ca2_news', 'i_docId', 'i_s_sourceId', 'i_regionEntity', 'i_cat', 'i_entities', 'i_upTimes', 'e_po', 'e_et']


100%|██████████| 10/10 [01:56<00:00, 11.65s/it]


用来构建mean特征的源域变量有2个，分别是：['u_refreshTimes', 'i_upTimes']


100%|██████████| 2/2 [00:20<00:00, 10.35s/it]

data_feeds.shape =  (3597073, 29)
data_ads.shape =  (8651575, 160)

内存压缩

合并源域的特征后，此时的数据已经占用了10多个G的内存，在进模型之前再压缩一遍内存。

# 压缩使用内存
print(f'data_ads.shape = {data_ads.shape}')
print(f'data_feeds.shape = {data_feeds.shape}')
data_ads = reduce_mem_usage(data_ads)
# Mem. usage decreased to 2351.47 Mb (69.3% reduction)

data_ads.shape = (8651575, 160)
data_feeds.shape = (3597073, 29)
Mem. usage decreased to 3894.37 Mb (13.7% reduction)

2.4 划分训练集和测试集

# 划分训练集和测试集
cols = [f for f in data_ads.columns if f not in ['label','istest']]
X_train = data_ads[data_ads.istest==0][cols]
X_test = data_ads[data_ads.istest==1][cols]
Y_train = data_ads[data_ads.istest==0]['label']

print('X_train.shape = ', X_train.shape)
print('Y_train.shape = ', Y_train.shape)
print('X_test.shape = ', X_test.shape)

del data_ads, data_feeds
gc.collect()

val_counts = Y_train.value_counts()
print(val_counts)
ratio = val_counts[1] / len(Y_train)
print(f'正样本个数：{val_counts[1]}，样本总数：{Y_train.shape[0]}，点击率：{ratio*100}%')

X_train.shape =  (7675517, 158)
Y_train.shape =  (7675517,)
X_test.shape =  (976058, 158)
0.0    7556381
1.0     119136
Name: label, dtype: int64
正样本个数：119136，样本总数：7675517，点击率：1.552156030662169%

2.5 训练模型

配置说明：服务器6核CPU，英伟达A4000显卡，显存16G，内存30G，模型训练耗时20min左右。

def cv_model(clf, train_x, train_y, test_x, clf_name, seed=2022):
    
    kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=seed)

    train = np.zeros(train_x.shape[0])
    test = np.zeros(test_x.shape[0])

    cv_scores = []

    for i, (train_index, valid_index) in enumerate(kf.split(train_x, train_y)):
        print('************************************ Fold: {}************************************'.format(str(i+1)))
        trn_x, trn_y, val_x, val_y = train_x.iloc[train_index], train_y[train_index], train_x.iloc[valid_index], train_y[valid_index]
               
        params = {'learning_rate': 0.3, 'depth': 7, 'l2_leaf_reg': 10, 'bootstrap_type':'Bernoulli','random_seed':seed, 
                  'od_type': 'Iter', 'early_stopping_rounds' : 100, 'random_seed': 11, 'allow_writing_files': False, 'task_type':'GPU'}

        model = clf(iterations=20000, **params, eval_metric='AUC')
        model.fit(trn_x, trn_y, eval_set=(val_x, val_y),
                  metric_period=200,
                  cat_features=[], 
                  use_best_model=True, 
                  verbose=1)

        val_pred  = model.predict_proba(val_x)[:,1]
        test_pred = model.predict_proba(test_x)[:,1]
            
        train[valid_index] = val_pred
        test += test_pred / kf.n_splits
        cv_scores.append(roc_auc_score(val_y, val_pred))
        
        print('Fold: ', i+1, ', cv_scores: ', cv_scores)
       
    print("%s_score_list:" % clf_name, cv_scores)
    print("%s_score_mean:" % clf_name, np.mean(cv_scores))
    print("%s_score_std:" % clf_name, np.std(cv_scores))
    return train, test, model

%%time
cat_train, cat_test, model_cat = cv_model(CatBoostClassifier, X_train, Y_train, X_test, "CatBoost")

************************************ Fold: 1************************************
0:	test: 0.7189325	best: 0.7189325 (0)	total: 65.2ms	remaining: 21m 44s
200:	test: 0.8568486	best: 0.8568486 (200)	total: 11.1s	remaining: 18m 10s
400:	test: 0.8603237	best: 0.8603237 (400)	total: 22.1s	remaining: 17m 58s
600:	test: 0.8611539	best: 0.8612658 (566)	total: 33s	remaining: 17m 44s
800:	test: 0.8613431	best: 0.8614171 (774)	total: 44.3s	remaining: 17m 41s
bestTest = 0.8614170849
bestIteration = 774
Shrink model to first 775 iterations.
Fold:  1 , cv_scores:  [0.8614170406506998]
************************************ Fold: 2************************************
0:	test: 0.7211291	best: 0.7211291 (0)	total: 63.7ms	remaining: 21m 13s
200:	test: 0.8612604	best: 0.8612604 (200)	total: 11.1s	remaining: 18m 17s
400:	test: 0.8640077	best: 0.8640400 (373)	total: 22s	remaining: 17m 55s
600:	test: 0.8653538	best: 0.8653761 (597)	total: 33s	remaining: 17m 46s
800:	test: 0.8659144	best: 0.8660083 (764)	total: 44.1s	remaining: 17m 38s
bestTest = 0.8660082817
bestIteration = 764
Shrink model to first 765 iterations.
Fold:  2 , cv_scores:  [0.8614170406506998, 0.8660083224675101]
************************************ Fold: 3************************************
0:	test: 0.7199210	best: 0.7199210 (0)	total: 62.8ms	remaining: 20m 54s
200:	test: 0.8606131	best: 0.8606131 (200)	total: 11.1s	remaining: 18m 8s
400:	test: 0.8643171	best: 0.8643319 (398)	total: 22.1s	remaining: 17m 58s
600:	test: 0.8649400	best: 0.8650057 (577)	total: 32.9s	remaining: 17m 43s
800:	test: 0.8653334	best: 0.8653587 (793)	total: 44s	remaining: 17m 33s
bestTest = 0.8653598428
bestIteration = 836
Shrink model to first 837 iterations.
Fold:  3 , cv_scores:  [0.8614170406506998, 0.8660083224675101, 0.8653597903214642]
************************************ Fold: 4************************************
0:	test: 0.7193976	best: 0.7193976 (0)	total: 65.9ms	remaining: 21m 58s
200:	test: 0.8614899	best: 0.8614899 (200)	total: 11.1s	remaining: 18m 11s
400:	test: 0.8645635	best: 0.8645635 (400)	total: 21.9s	remaining: 17m 52s
600:	test: 0.8654521	best: 0.8654521 (600)	total: 32.9s	remaining: 17m 43s
800:	test: 0.8661223	best: 0.8661552 (756)	total: 44.2s	remaining: 17m 39s
bestTest = 0.8661551774
bestIteration = 756
Shrink model to first 757 iterations.
Fold:  4 , cv_scores:  [0.8614170406506998, 0.8660083224675101, 0.8653597903214642, 0.8661551906990169]
************************************ Fold: 5************************************
0:	test: 0.7192921	best: 0.7192921 (0)	total: 64.8ms	remaining: 21m 36s
200:	test: 0.8610862	best: 0.8610862 (200)	total: 11s	remaining: 18m 7s
400:	test: 0.8647963	best: 0.8647963 (400)	total: 22.1s	remaining: 17m 59s
600:	test: 0.8656041	best: 0.8656041 (600)	total: 33.1s	remaining: 17m 47s
bestTest = 0.8656666577
bestIteration = 642
Shrink model to first 643 iterations.
Fold:  5 , cv_scores:  [0.8614170406506998, 0.8660083224675101, 0.8653597903214642, 0.8661551906990169, 0.8656667777361056]
CatBoost_score_list: [0.8614170406506998, 0.8660083224675101, 0.8653597903214642, 0.8661551906990169, 0.8656667777361056]
CatBoost_score_mean: 0.8649214243749593
CatBoost_score_std: 0.001773806552522081
CPU times: user 24min 6s, sys: 2min 35s, total: 26min 41s
Wall time: 18min 8s

2.5 输出特征重要性结果

importances = model_cat.feature_importances_

plt.figure(figsize=(24,60), dpi=80)
plt.rc('font', size = 18)
plt.barh(X_train.columns, importances)
plt.title('Feature importances computed by CatBoost')
plt.savefig('feature_importances.png')
# plt.show()

ranks = pd.DataFrame({'feature':X_train.columns, 'importance':importances})
ranks.sort_values(by=['importance'], ascending=False)[0:20]

	feature	importance
15	creat_type_cd	25.840919
18	slot_id	5.278525
17	inter_type_cd	3.995419
101	ts_ad_click_list_v001_4_diff_last	3.205468
153	i_upTimes_feeds_nuni	2.922680
54	ts_adv_id_1_diff_next	2.548166
66	ts_adv_prim_id_1_diff_last	2.305442
70	ts_adv_prim_id_1_diff_next	2.237118
90	ts_spread_app_id_1_diff_last	2.233946
94	ts_spread_app_id_1_diff_next	2.032714
50	ts_adv_id_1_diff_last	1.929151
82	ts_slot_id_1_diff_last	1.926440
152	i_entities_feeds_nuni	1.685816
151	i_cat_feeds_nuni	1.557056
91	ts_spread_app_id_2_diff_last	1.553180
95	ts_spread_app_id_2_diff_next	1.529100
100	ts_ad_click_list_v001_3_diff_last	1.342199
86	ts_slot_id_1_diff_next	1.328587
37	ts_user_id_4_diff_last	1.112328
96	ts_spread_app_id_3_diff_next	1.045964

result_importance = pd.DataFrame({'feature':X_train.columns, 'importance':importances})
result_importance.to_csv('feature_importance.csv', index=False)
print('Saved.')

Saved.

2.6 结果保存

X_test['pctr'] = cat_test
X_test[['log_id','pctr']].to_csv('submission.csv', index=False)
print('Done.')

Done.

三、总结

这次比赛我的最好结果为0.794884，一直没有突破0.8大关，有点遗憾。但也从这次比赛学到了许多，最重要的是了解掌握了一些特征工程的方法，算是半只脚踏进了推荐系统。

未来还可以提升的方向：

特征工程：还有一些特征我可能没注意到，比如是否工作日，穿越特征按天或按小时来算等。
模型：由于时间关系，这次只尝试了CatBoost模型（快），还有很多其他模型可以尝试，比如DeepFM、DCN等。
模型融合：比如Bagging、Stacking等。

欢迎各位大佬在评论区留言赐教。

参考资料

[1 鱼佬带你高分突破：广告信息流跨域ctr预估

[2] Datawhale_零基础入门推荐系统竞赛实践

[3] Coggle 30 Days of ML（22年8月）

《精雕细琢 Python 对象：深入理解 __slots__ 的性能魔法与实战应用》
《精雕细琢Python对象：深入理解slots的性能魔法与实战应用》引言：探索Python的对象管理机制在Python中，一切皆对象。然而，每一个对象背后都隐藏着复杂的运行机制。尤其在类设计中，我们往往忽略了对象属性的存储方式。今天，我们将深入剖析一个常被高级开发者使用的“利器”——__slots__，它能有效减少内存占用、提升性能，但也伴随着一些权衡和陷阱。本文旨在回答三个核心问题：__slot
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
LeetCode第337题_打家劫舍III @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习
LeetCode第337题：打家劫舍III文章摘要本文详细解析LeetCode第337题"打家劫舍III"，这是一道中等难度的二叉树动态规划问题。文章提供了基于深度优先搜索和动态规划的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升二叉树和动态规划能力的程序员。核心知识点：二叉树、动态规划、深度优先搜索难度等级：中等推荐人群：具有基础数据结构知识，想要提
python：numpy分享（保姆级教程）苏苏susuus python numpy 开发语言
目录一、概念二、相关属性三、ndarray及其实例创建（一）ndarray介绍（二）zeros（）、ones（）、empty（）函数（三）**arange(),**类似python的range()，创建一个一维ndarray数组。（四）**matrix()**,是ndarray的子类，只能生成2维的矩阵（五）rand（）、randn（）、randint（）、uniform（）（都是numpy.ra
《任长霞》：心系民众，为他们排忧解难，而忘了自己显山露水
任长霞的父亲生日到了，她母亲这几年一直想在这一天照一张全家福。可她被任命为登封市公安局长三年来，总是工作忙无法赶回家照全家福被搁浅。快到这一天时，一家人早就约好一定赶回来。当然，任长霞没有忘记这事。她计划好在参加完郑州市公安局举报的拔河比赛后，就回去给患上痴呆的父亲庆生照全家福。可在她心有不甘获得比赛亚军后，在通往安平煤矿厂的小路上，发现了两具尸体，她又马不蹄停地从郑州市回登封市破案。当任长霞的妹
Gin框架路由 TZX_0710
介绍Gin是一个golang的微框架，封装比较优雅，API友好，源码注释比较明确，具有快速灵活，容错方便等特点对于golang而言，web框架的依赖要远比Python，Java之类的要小。自身的net/http足够简单，性能也非常不错借助框架开发，不仅可以省去很多常用的封装带来的时间，也有助于团队的编码风格和形成规范安装1.安装Gingoget-ugithub.com/gin-gonic/gin2
学习日志15 python im_AMBER 学习 python
1filter()函数filter(function,iterable)filter函数是python中的高阶函数,第一个参数是一个筛选函数,第二个参数是一个可迭代对象,返回的是一个生成器类型,可以通过next获取值。filter()函数是Python内置的高阶函数，其主要功能是对可迭代对象中的每个元素运用筛选函数进行判断，然后把符合条件的元素以生成器的形式返回。下面为你详细介绍它的用法和特性：基
抖音花10亿买2022年世界杯转播权，能回本吗？少语聊财会
【少语聊财会】和您一起算笔账！我的答案是肯定能回本，而且是稳赚不赔的买卖！为什么能得到这个结论，让我们一起来看几组数据！1、2022年世界杯比赛时间，从2022年11月21日至2022年12月18日，共计27天，投入10亿元，相当于每天投入3703万元；2、2022年世界杯比赛共计64场比赛，平均每场投入1562.5万元；3、参考2018年俄罗斯世界杯期间观看数据，中国人观看世界杯共计6.6亿人，
生活不止眼前的苟且，还有诗和远方的田野。我是志强同学
ONE一个力不从心“你身上穿着的不单单是一件球衣，你是代表化学院在打球。”记起这句话，是一位已毕业的师兄所言，那虽然是一场比赛，但对他而言，意义非凡，因三年一直都输于数学，这次，终于赢了！要说最近为啥迟迟没复盘周记和没剽悍晨读输出，大概是对自己说慌，给自己说要好好打球的理由，其他事暂时放一放，但事实，我并没有那么专注，而且，我也没把球打好来。四场比赛下来，连续吞了四连败，真不好受。被教练和队友们给
Python爬虫热点项目之实现代理IP池（IP proxy pool）薛定谔的猫96 Python 爬虫
代理池概述代理池就是由多个稳定可用代理IP组成的池子。用来应对ip反爬，而网上的免费代理稳定可用的极少，更有甚者连收费的也不都是稳定可用。开发环境：windous，python3，sublimetext使用的主要模块：requests，lxml，pymongo，Flask完整源码请前往我的github仓库查看：https://github.com/R2h1/ProxyPool欢迎star哦！！！代
python基础练习题：超市收银系统不爱说话的分院帽 python 开发语言
这个超市收银系统包含以下功能：商品管理：支持添加和显示商品信息（ID、名称、价格、库存）购物车功能：可以添加、移除商品，查看购物车和计算总价结算功能：生成收据、处理支付、计算找零并更新库存数据模型：使用面向对象设计，包含商品、购物车和超市类系统运行后会显示菜单，用户可以通过数字选择不同操作，整个流程不需要图形界面，通过命令行交互完成购物和结算过程。importdatetimeclassProduc
Python零基础入门：魔法方法详解
一、什么是魔法方法？魔法方法（MagicMethods）是Python中一种特殊的方法，它们以双下划线(__)开头和结尾（如__init__、__str__等）。魔法方法允许你定义类在特定情况下的行为，例如初始化、字符串表示、运算符重载等。二、常见的魔法方法分类1.构造和初始化__new__(cls,[...]):创建实例时调用的第一个方法__init__(self,[...]):实例初始化方法_
Python文件与流处理：高效读写数据的艺术不爱说话的分院帽 python快速入门 python 数据库开发语言
引言作为一名程序员，我们每天都需要与文件打交道——无论是读取配置文件、处理日志文件，还是存储程序生成的数据。Python提供了强大而灵活的文件处理能力，让这些操作变得简单高效。本文将深入探讨Python中的文件与流处理，帮助你掌握这一核心技能。、一、文件操作基础1.打开文件Python使用内置的open()函数来打开文件：#基本语法file=open('example.txt','r')#打开文件
Python 计算月头月尾一本正经胡说八道的猫
一本正经胡说八道的猫#!/usr/bin/envpython#-*-coding:utf-8-*-importdatetimeimportcalendartime=datetime.date(2022,1,20)#年，月，日#求该月第一天first_day=datetime.date(time.year,time.month,1)print('该月第一天:%s'%(first_day))#求前一个
python学生成绩管理系统【完整版】，Python开发基础面试题
name=self.username.get()password=self.password.get()ifname==‘hacker707’andpassword==‘admin’:self.page.destroy()MenuPage(self.root)else:showinfo(title=‘错误’,message=‘账号或密码错误！’)db.pyimportjsonclassStuden
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
【Pandas超实用经验汇总-数据建模分析】 Mr.小海 Python 数据挖掘数据分析 python
Pandas超实用经验汇总-数据分析前言基本方法1.读取文件2.查看数据3.修改、删除、替换数据等总结前言看见了很多教程虽然很全，但是很多技巧容易忘记且几乎用不上，读起来晦涩难懂，今天我给大家总结了Pandas的一些学习经验技巧，包含常见日常使用的pandas知识，以及一些技巧,这些技巧常见于数学建模，数据分析，数据挖掘比赛等。基本方法1.读取文件方法如下：importpandasaspd#正常写
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Redis-py 实战指南：从安装到向量索引，Python 操作 Redis 全解析佑瞻数据库与知识图谱 redis python 数据库人工智能
在Python开发中，操作Redis数据库是很多场景下的刚需，而redis-py作为Redis官方推荐的Python客户端，更是我们绕不开的工具。但你是否在安装时踩过版本兼容的坑？是否在连接集群或配置TLS时犯过难？甚至想尝试向量索引却不知从何下手？今天我们就从基础到进阶，手把手带你玩转redis-py，让Python操作Redis变得简单又高效。一、redis-py安装：避坑指南首先，我们需要安
Python返回函数完全指南：从基础到高级应用 Python_trys python 数据库开发语言 Python教程 Python技巧 Python入门 Python基础
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取】前言在Python编程中，函数不仅可以执行操作，还可以作为返回值，这种特性为编程带来了极大的灵活性和强大的表达能力。本文将全面介绍Python中的返回函数，从基础概念到高级应用场景，帮助开发者掌握这一重要特性。一、返回函数的基本概念1.1什么是返回函数？返回函数指的是一个函数可以返回另一个函数作为其结果。在Python中，函数是一等对象，可
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
AutoGen C#三步变强：比Python还野的多AI协作实战！墨瑾轩一起学学C#【四】c#python 人工智能
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣一、第一步：环境搭建——给AutoGen装上"AI乐高积木"目标：用C#搭建AutoGen基础环境，像组装乐高一样准备工具。步骤：克隆AutoGen项目：访问AutoGenGitHub仓库，克隆到本地：gitclonehttps://github.com/mi
C#进行串口应用开发如何处理串口的异常情况 openwin_top c#串口应用开发问题系列 c#开发语言串口通讯上位机
python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位C#视觉应用开发问题系列c#串口应用开发问题系列microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析在C#中进行串口应用开发时，处理串口的异常情况是非常重要的。常见的串口异常包括端口不可用、数据传输错误、超时等
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
python包管理神器【uv】详解若叶. python uv 开发语言 pip virtualenv
目录1uv简介与安装1.1uv作用1.2安装方式一：github/release页下载。方式二：命令行安装(win)方式三：pypi安装确认安装成功1.3卸载2命令帮助3uv管理python版本3.1`uvpython--参数`3.2`uvpythonlist`3.3`uvpythoninstall`4uv运行单个脚本4.1`uvrun.py文件`4.2`uvinit--script`4.3`uv
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

2022华为推荐赛事——广告-信息流跨域ctr预估——0.79方案分享

本文目录如下：

一、赛事背景

二、解决方案

2.1 导入必要的库

2.2 数据读取

2.3 特征工程

自然数编码

目标域（广告域）穿越特征提取

内存压缩

源域特征构建

内存压缩

2.4 划分训练集和测试集

2.5 训练模型

2.5 输出特征重要性结果

2.6 结果保存

三、总结

参考资料

你可能感兴趣的:(比赛,python,机器学习,人工智能,推荐算法)