容光@October

特征工程--理解

构造特征的思路是这样，我们知道每个用户的点击文章是与其历史点击的文章信息是有很大关联的，比如同一个主题，相似等等。所以特征构造这块很重要的一系列特征是要结合用户的历史点击文章信息。我们已经得到了每个用户及点击候选文章的两列的一个数据集，而我们的目的是要预测最后一次点击的文章，比较自然的一个思路就是和其最后几次点击的文章产生关系，这样既考虑了其历史点击文章信息，又得离最后一次点击较近，因为新闻很大的一个特点就是注重时效性。往往用户的最后一次点击会和其最后几次点击有很大的关联。所以我们就可以对于每个候选文章，做出与最后几次点击相关的特征如下：

候选item与最后几次点击的相似性特征(embedding内积） — 这个直接关联用户历史行为
候选item与最后几次点击的相似性特征的统计特征 — 统计特征可以减少一些波动和异常
候选item与最后几次点击文章的字数差的特征 — 可以通过字数看用户偏好
候选item与最后几次点击的文章建立的时间差特征 — 时间差特征可以看出该用户对于文章的实时性的偏好
还需要考虑一下
如果使用了youtube召回的话，我们还可以制作用户与候选item的相似特征
我们首先获得用户的最后一次点击操作和用户的历史点击，这个基于我们的日志数据集做
基于用户的历史行为制作特征，这个会用到用户的历史点击表，最后的召回列表，文章的信息表和embedding向量
制作标签，形成最后的监督学习数据集

导包
import numpy as np
import pandas as pd
import pickle
from tqdm import tqdm
import gc, os
import logging
import time
import lightgbm as lgb
from gensim.models import Word2Vec
from sklearn.preprocessing import MinMaxScaler
import warnings
warnings.filterwarnings(‘ignore’)
df节省内存函数

节省内存的一个函数

减少内存

def reduce_mem(df):
starttime = time.time()
numerics = [‘int16’, ‘int32’, ‘int64’, ‘float16’, ‘float32’, ‘float64’]
start_mem = df.memory_usage().sum() / 10242
for col in df.columns:
col_type = df[col].dtypes
if col_type in numerics:
c_min = df[col].min()
c_max = df[col].max()
if pd.isnull(c_min) or pd.isnull(c_max):
continue
if str(col_type)[:3] == ‘int’:
if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
df[col] = df[col].astype(np.int8)
elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
df[col] = df[col].astype(np.int16)
elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
df[col] = df[col].astype(np.int32)
elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
df[col] = df[col].astype(np.int64)
else:
if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
df[col] = df[col].astype(np.float16)
elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
df[col] = df[col].astype(np.float32)
else:
df[col] = df[col].astype(np.float64)
end_mem = df.memory_usage().sum() / 10242
print(’-- Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction),time spend:{:2.2f} min’.format(end_mem,
100*(start_mem-end_mem)/start_mem,
(time.time()-starttime)/60))
return df
定义数据路径
data_path = ‘./data_raw/’
save_path = ‘./temp_results/’
数据读取

训练和验证集的划分
划分训练和验证集的原因是为了在线下验证模型参数的好坏，为了完全模拟测试集，我们这里就在训练集中抽取部分用户的所有信息来作为验证集。提前做训练验证集划分的好处就是可以分解制作排序特征时的压力，一次性做整个数据集的排序特征可能时间会比较长。

all_click_df指的是训练集

sample_user_nums 采样作为验证集的用户数量

def trn_val_split(all_click_df, sample_user_nums):
all_click = all_click_df
all_user_ids = all_click.user_id.unique()

# replace=True表示可以重复抽样，反之不可以
sample_user_ids = np.random.choice(all_user_ids, size=sample_user_nums, replace=False) 

click_val = all_click[all_click['user_id'].isin(sample_user_ids)]
click_trn = all_click[~all_click['user_id'].isin(sample_user_ids)]

# 将验证集中的最后一次点击给抽取出来作为答案
click_val = click_val.sort_values(['user_id', 'click_timestamp'])
val_ans = click_val.groupby('user_id').tail(1)

click_val = click_val.groupby('user_id').apply(lambda x: x[:-1]).reset_index(drop=True)

# 去除val_ans中某些用户只有一个点击数据的情况，如果该用户只有一个点击数据，又被分到ans中，
# 那么训练集中就没有这个用户的点击数据，出现用户冷启动问题，给自己模型验证带来麻烦
val_ans = val_ans[val_ans.user_id.isin(click_val.user_id.unique())] # 保证答案中出现的用户再验证集中还有
click_val = click_val[click_val.user_id.isin(val_ans.user_id.unique())]

return click_trn, click_val, val_ans

获取历史点击和最后一次点击

获取当前数据的历史点击和最后一次点击

def get_hist_and_last_click(all_click):
all_click = all_click.sort_values(by=[‘user_id’, ‘click_timestamp’])
click_last_df = all_click.groupby(‘user_id’).tail(1)

# 如果用户只有一个点击，hist为空了，会导致训练的时候这个用户不可见，此时默认泄露一下
def hist_func(user_df):
    if len(user_df) == 1:
        return user_df
    else:
        return user_df[:-1]

click_hist_df = all_click.groupby('user_id').apply(hist_func).reset_index(drop=True)

return click_hist_df, click_last_df

读取训练、验证及测试集
def get_trn_val_tst_data(data_path, offline=True):
if offline:
click_trn_data = pd.read_csv(data_path+‘train_click_log.csv’) # 训练集用户点击日志
click_trn_data = reduce_mem(click_trn_data)
click_trn, click_val, val_ans = trn_val_split(all_click_df, sample_user_nums)
else:
click_trn = pd.read_csv(data_path+‘train_click_log.csv’)
click_trn = reduce_mem(click_trn)
click_val = None
val_ans = None

click_tst = pd.read_csv(data_path+'testA_click_log.csv')

return click_trn, click_val, click_tst, val_ans

读取召回列表

返回多路召回列表或者单路召回

def get_recall_list(save_path, single_recall_model=None, multi_recall=False):
if multi_recall:
return pickle.load(open(save_path + ‘final_recall_items_dict.pkl’, ‘rb’))

if single_recall_model == 'i2i_itemcf':
    return pickle.load(open(save_path + 'itemcf_recall_dict.pkl', 'rb'))
elif single_recall_model == 'i2i_emb_itemcf':
    return pickle.load(open(save_path + 'itemcf_emb_dict.pkl', 'rb'))
elif single_recall_model == 'user_cf':
    return pickle.load(open(save_path + 'youtubednn_usercf_dict.pkl', 'rb'))
elif single_recall_model == 'youtubednn':
    return pickle.load(open(save_path + 'youtube_u2i_dict.pkl', 'rb'))

读取各种Embedding
Word2Vec训练及gensim的使用
Word2Vec主要思想是：一个词的上下文可以很好的表达出词的语义。通过无监督学习产生词向量的方式。word2vec中有两个非常经典的模型：skip-gram和cbow。
• skip-gram：已知中心词预测周围词。
• cbow：已知周围词预测中心词。

在使用gensim训练word2vec的时候，有几个比较重要的参数
• size: 表示词向量的维度。
• window：决定了目标词会与多远距离的上下文产生关系。
• sg: 如果是0，则是CBOW模型，是1则是Skip-Gram模型。
• workers: 表示训练时候的线程数量
• min_count: 设置最小的
• iter: 训练时遍历整个数据集的次数

注意

训练的时候输入的语料库一定要是字符组成的二维数组，如：[[‘北’, ‘京’, ‘你’, ‘好’], [‘上’, ‘海’, ‘你’, ‘好’]]
使用模型的时候有一些默认值，可以通过在Jupyter里面通过Word2Vec??查看

对训练数据做负采样
通过召回我们将数据转换成三元组的形式（user1, item1, label）的形式，观察发现正负样本差距极度不平衡，我们可以先对负样本进行下采样，下采样的目的一方面缓解了正负样本比例的问题，另一方面也减小了我们做排序特征的压力，我们在做负采样的时候又有哪些东西是需要注意的呢？

只对负样本进行下采样(如果有比较好的正样本扩充的方法其实也是可以考虑的)
负采样之后，保证所有的用户和文章仍然出现在采样之后的数据中
下采样的比例可以根据实际情况人为的控制
做完负采样之后，更新此时新的用户召回文章列表，因为后续做特征的时候可能用到相对位置的信息。
其实负采样也可以留在后面做完特征在进行，这里由于做排序特征太慢了，所以把负采样的环节提到前面了。

将召回列表转换成df的形式

def recall_dict_2_df(recall_list_dict):
df_row_list = [] # [user, item, score]
for user, recall_list in tqdm(recall_list_dict.items()):
for item, score in recall_list:
df_row_list.append([user, item, score])

col_names = ['user_id', 'sim_item', 'score']
recall_list_df = pd.DataFrame(df_row_list, columns=col_names)

return recall_list_df

负采样函数，这里可以控制负采样时的比例, 这里给了一个默认的值

def neg_sample_recall_data(recall_items_df, sample_rate=0.001):
pos_data = recall_items_df[recall_items_df[‘label’] == 1]
neg_data = recall_items_df[recall_items_df[‘label’] == 0]

print('pos_data_num:', len(pos_data), 'neg_data_num:', len(neg_data), 'pos/neg:', len(pos_data)/len(neg_data))

# 分组采样函数
def neg_sample_func(group_df):
    neg_num = len(group_df)
    sample_num = max(int(neg_num * sample_rate), 1) # 保证最少有一个
    sample_num = min(sample_num, 5) # 保证最多不超过5个，这里可以根据实际情况进行选择
    return group_df.sample(n=sample_num, replace=True)

# 对用户进行负采样，保证所有用户都在采样后的数据中
neg_data_user_sample = neg_data.groupby('user_id', group_keys=False).apply(neg_sample_func)
# 对文章进行负采样，保证所有文章都在采样后的数据中
neg_data_item_sample = neg_data.groupby('sim_item', group_keys=False).apply(neg_sample_func)

# 将上述两种情况下的采样数据合并
neg_data_new = neg_data_user_sample.append(neg_data_item_sample)
# 由于上述两个操作是分开的，可能将两个相同的数据给重复选择了，所以需要对合并后的数据进行去重
neg_data_new = neg_data_new.sort_values(['user_id', 'score']).drop_duplicates(['user_id', 'sim_item'], keep='last')

# 将正样本数据合并
data_new = pd.concat([pos_data, neg_data_new], ignore_index=True)

return data_new

召回数据打标签

def get_rank_label_df(recall_list_df, label_df, is_test=False):
# 测试集是没有标签了，为了后面代码同一一些，这里直接给一个负数替代
if is_test:
recall_list_df[‘label’] = -1
return recall_list_df

label_df = label_df.rename(columns={'click_article_id': 'sim_item'})
recall_list_df_ = recall_list_df.merge(label_df[['user_id', 'sim_item', 'click_timestamp']], \
                                           how='left', on=['user_id', 'sim_item'])
recall_list_df_['label'] = recall_list_df_['click_timestamp'].apply(lambda x: 0.0 if np.isnan(x) else 1.0)
del recall_list_df_['click_timestamp']

return recall_list_df_

def get_user_recall_item_label_df(click_trn_hist, click_val_hist, click_tst_hist,click_trn_last, click_val_last, recall_list_df):
# 获取训练数据的召回列表
trn_user_items_df = recall_list_df[recall_list_df[‘user_id’].isin(click_trn_hist[‘user_id’].unique())]
# 训练数据打标签
trn_user_item_label_df = get_rank_label_df(trn_user_items_df, click_trn_last, is_test=False)
# 训练数据负采样
trn_user_item_label_df = neg_sample_recall_data(trn_user_item_label_df)

if click_val is not None:
    val_user_items_df = recall_list_df[recall_list_df['user_id'].isin(click_val_hist['user_id'].unique())]
    val_user_item_label_df = get_rank_label_df(val_user_items_df, click_val_last, is_test=False)
    val_user_item_label_df = neg_sample_recall_data(val_user_item_label_df)
else:
    val_user_item_label_df = None
    
# 测试数据不需要进行负采样，直接对所有的召回商品进行打-1标签
tst_user_items_df = recall_list_df[recall_list_df['user_id'].isin(click_tst_hist['user_id'].unique())]
tst_user_item_label_df = get_rank_label_df(tst_user_items_df, None, is_test=True)

return trn_user_item_label_df, val_user_item_label_df, tst_user_item_label_df

读取召回列表

recall_list_dict = get_recall_list(save_path, single_recall_model=‘i2i_itemcf’) # 这里只选择了单路召回的结果，也可以选择多路召回结果

将召回数据转换成df

recall_list_df = recall_dict_2_df(recall_list_dict)
100%|██████████| 250000/250000 [00:12<00:00, 20689.39it/s]

给训练验证数据打标签，并负采样（这一部分时间比较久）

trn_user_item_label_df, val_user_item_label_df, tst_user_item_label_df = get_user_recall_item_label_df(click_trn_hist,
click_val_hist,
click_tst_hist,
click_trn_last,
click_val_last,
recall_list_df)
pos_data_num: 64190 neg_data_num: 1935810 pos/neg: 0.03315924600038227
trn_user_item_label_df.label
将召回数据转换成字典

将最终的召回的df数据转换成字典的形式做排序特征

def make_tuple_func(group_df):
row_data = []
for name, row_df in group_df.iterrows():
row_data.append((row_df[‘sim_item’], row_df[‘score’], row_df[‘label’]))

return row_data

trn_user_item_label_tuples = trn_user_item_label_df.groupby(‘user_id’).apply(make_tuple_func).reset_index()
trn_user_item_label_tuples_dict = dict(zip(trn_user_item_label_tuples[‘user_id’], trn_user_item_label_tuples[0]))

if val_user_item_label_df is not None:
val_user_item_label_tuples = val_user_item_label_df.groupby(‘user_id’).apply(make_tuple_func).reset_index()
val_user_item_label_tuples_dict = dict(zip(val_user_item_label_tuples[‘user_id’], val_user_item_label_tuples[0]))
else:
val_user_item_label_tuples_dict = None

tst_user_item_label_tuples = tst_user_item_label_df.groupby(‘user_id’).apply(make_tuple_func).reset_index()
tst_user_item_label_tuples_dict = dict(zip(tst_user_item_label_tuples[‘user_id’], tst_user_item_label_tuples[0]))
用户历史行为相关特征
对于每个用户召回的每个商品，做特征。具体步骤如下：
• 对于每个用户，获取最后点击的N个商品的item_id，
o 对于该用户的每个召回商品，计算与上面最后N次点击商品的相似度的和(最大，最小，均值)，时间差特征，相似性特征，字数差特征，与该用户的相似性特征

下面基于data做历史相关的特征

def create_feature(users_id, recall_list, click_hist_df, articles_info, articles_emb, user_emb=None, N=1):
“”"
基于用户的历史行为做相关特征
:param users_id: 用户id
:param recall_list: 对于每个用户召回的候选文章列表
:param click_hist_df: 用户的历史点击信息
:param articles_info: 文章信息
:param articles_emb: 文章的embedding向量, 这个可以用item_content_emb, item_w2v_emb, item_youtube_emb
:param user_emb: 用户的embedding向量，这个是user_youtube_emb, 如果没有也可以不用，但要注意如果要用的话， articles_emb就要用item_youtube_emb的形式，这样维度才一样
:param N: 最近的N次点击由于testA日志里面很多用户只存在一次历史点击，所以为了不产生空值，默认是1
“”"

# 建立一个二维列表保存结果， 后面要转成DataFrame
all_user_feas = []
i = 0
for user_id in tqdm(users_id):
    # 该用户的最后N次点击
    hist_user_items = click_hist_df[click_hist_df['user_id']==user_id]['click_article_id'][-N:]
    
    # 遍历该用户的召回列表
    for rank, (article_id, score, label) in enumerate(recall_list[user_id]):
        # 该文章建立时间, 字数
        a_create_time = articles_info[articles_info['article_id']==article_id]['created_at_ts'].values[0]
        a_words_count = articles_info[articles_info['article_id']==article_id]['words_count'].values[0]
        single_user_fea = [user_id, article_id]
        # 计算与最后点击的商品的相似度的和， 最大值和最小值， 均值
        sim_fea = []
        time_fea = []
        word_fea = []
        # 遍历用户的最后N次点击文章
        for hist_item in hist_user_items:
            b_create_time = articles_info[articles_info['article_id']==hist_item]['created_at_ts'].values[0]
            b_words_count = articles_info[articles_info['article_id']==hist_item]['words_count'].values[0]
            
            sim_fea.append(np.dot(articles_emb[hist_item], articles_emb[article_id]))
            time_fea.append(abs(a_create_time-b_create_time))
            word_fea.append(abs(a_words_count-b_words_count))
            
        single_user_fea.extend(sim_fea)      # 相似性特征
        single_user_fea.extend(time_fea)    # 时间差特征
        single_user_fea.extend(word_fea)    # 字数差特征
        single_user_fea.extend([max(sim_fea), min(sim_fea), sum(sim_fea), sum(sim_fea) / len(sim_fea)])  # 相似性的统计特征
        
        if user_emb:  # 如果用户向量有的话， 这里计算该召回文章与用户的相似性特征 
            single_user_fea.append(np.dot(user_emb[user_id], articles_emb[article_id]))
            
        single_user_fea.extend([score, rank, label])    
        # 加入到总的表中
        all_user_feas.append(single_user_fea)

# 定义列名
id_cols = ['user_id', 'click_article_id']
sim_cols = ['sim' + str(i) for i in range(N)]
time_cols = ['time_diff' + str(i) for i in range(N)]
word_cols = ['word_diff' + str(i) for i in range(N)]
sat_cols = ['sim_max', 'sim_min', 'sim_sum', 'sim_mean']
user_item_sim_cols = ['user_item_sim'] if user_emb else []
user_score_rank_label = ['score', 'rank', 'label']
cols = id_cols + sim_cols + time_cols + word_cols + sat_cols + user_item_sim_cols + user_score_rank_label
        
# 转成DataFrame
df = pd.DataFrame( all_user_feas, columns=cols)

return df

article_info_df = get_article_info_df()
all_click = click_trn.append(click_tst)
item_content_emb_dict, item_w2v_emb_dict, item_youtube_emb_dict, user_youtube_emb_dict = get_embedding(save_path, all_click)
– Mem. usage decreased to 5.56 Mb (50.0% reduction),time spend:0.00 min

获取训练验证及测试数据中召回列文章相关特征

trn_user_item_feats_df = create_feature(trn_user_item_label_tuples_dict.keys(), trn_user_item_label_tuples_dict,
click_trn_hist, article_info_df, item_content_emb_dict)

if val_user_item_label_tuples_dict is not None:
val_user_item_feats_df = create_feature(val_user_item_label_tuples_dict.keys(), val_user_item_label_tuples_dict,
click_val_hist, article_info_df, item_content_emb_dict)
else:
val_user_item_feats_df = None

tst_user_item_feats_df = create_feature(tst_user_item_label_tuples_dict.keys(), tst_user_item_label_tuples_dict,
click_tst_hist, article_info_df, item_content_emb_dict)
100%|██████████| 200000/200000 [50:16<00:00, 66.31it/s]
100%|██████████| 50000/50000 [1:07:21<00:00, 12.37it/s]

保存一份省的每次都要重新跑，每次跑的时间都比较长

trn_user_item_feats_df.to_csv(save_path + ‘trn_user_item_feats_df.csv’, index=False)

if val_user_item_feats_df is not None:
val_user_item_feats_df.to_csv(save_path + ‘val_user_item_feats_df.csv’, index=False)

tst_user_item_feats_df.to_csv(save_path + ‘tst_user_item_feats_df.csv’, index=False)

click_tst.head()

读取文章特征

articles = pd.read_csv(data_path+‘articles.csv’)
articles = reduce_mem(articles)

日志数据，就是前面的所有数据

if click_val is not None:
all_data = click_trn.append(click_val)
all_data = click_trn.append(click_tst)
all_data = reduce_mem(all_data)

拼上文章信息

all_data = all_data.merge(articles, left_on=‘click_article_id’, right_on=‘article_id’)
all_data.shape
分析一下点击时间和点击文章的次数，区分用户活跃度
如果某个用户点击文章之间的时间间隔比较小，同时点击的文章次数很多的话，那么我们认为这种用户一般就是活跃用户, 当然衡量用户活跃度的方式可能多种多样，这里我们只提供其中一种，我们写一个函数，得到可以衡量用户活跃度的特征，逻辑如下：

首先根据用户user_id分组，对于每个用户，计算点击文章的次数，两两点击文章时间间隔的均值
把点击次数取倒数和时间间隔的均值统一归一化，然后两者相加合并，该值越小，说明用户越活跃
注意，上面两两点击文章的时间间隔均值，会出现如果用户只点击了一次的情况，这时候时间间隔均值那里会出现空值，对于这种情况最后特征那里给个大数进行区分
这个的衡量标准就是先把点击的次数取到数然后归一化，然后点击的时间差归一化，然后两者相加进行合并，该值越小，说明被点击的次数越多，且间隔时间短。
def active_level(all_data, cols):
“”"
制作区分用户活跃度的特征
:param all_data: 数据集
:param cols: 用到的特征列
“”"
data = all_data[cols]
data.sort_values([‘user_id’, ‘click_timestamp’], inplace=True)
user_act = pd.DataFrame(data.groupby(‘user_id’, as_index=False)[[‘click_article_id’, ‘click_timestamp’]].
agg({‘click_article_id’:np.size, ‘click_timestamp’: {list}}).values, columns=[‘user_id’, ‘click_size’, ‘click_timestamp’])

计算时间间隔的均值

def time_diff_mean(l):
if len(l) == 1:
return 1
else:
return np.mean([j-i for i, j in list(zip(l[:-1], l[1:]))])

user_act[‘time_diff_mean’] = user_act[‘click_timestamp’].apply(lambda x: time_diff_mean(x))

点击次数取倒数

user_act[‘click_size’] = 1 / user_act[‘click_size’]

两者归一化

user_act[‘click_size’] = (user_act[‘click_size’] - user_act[‘click_size’].min()) / (user_act[‘click_size’].max() - user_act[‘click_size’].min())
user_act[‘time_diff_mean’] = (user_act[‘time_diff_mean’] - user_act[‘time_diff_mean’].min()) / (user_act[‘time_diff_mean’].max() - user_act[‘time_diff_mean’].min())
user_act[‘active_level’] = user_act[‘click_size’] + user_act[‘time_diff_mean’]

user_act[‘user_id’] = user_act[‘user_id’].astype(‘int’)
del user_act[‘click_timestamp’]

return user_act
user_act_fea = active_level(all_data, [‘user_id’, ‘click_article_id’, ‘click_timestamp’])
user_act_fea.head()
分析一下点击时间和被点击文章的次数，衡量文章热度特征

def hot_level(all_data, cols):
“”"
制作衡量文章热度的特征
:param all_data: 数据集
:param cols: 用到的特征列
“”"
data = all_data[cols]
data.sort_values([‘click_article_id’, ‘click_timestamp’], inplace=True)
article_hot = pd.DataFrame(data.groupby(‘click_article_id’, as_index=False)[[‘user_id’, ‘click_timestamp’]].
agg({‘user_id’:np.size, ‘click_timestamp’: {list}}).values, columns=[‘click_article_id’, ‘user_num’, ‘click_timestamp’])

# 计算被点击时间间隔的均值
def time_diff_mean(l):
    if len(l) == 1:
        return 1
    else:
        return np.mean([j-i for i, j in list(zip(l[:-1], l[1:]))])
    
article_hot['time_diff_mean'] = article_hot['click_timestamp'].apply(lambda x: time_diff_mean(x))

# 点击次数取倒数
article_hot['user_num'] = 1 / article_hot['user_num']

# 两者归一化
article_hot['user_num'] = (article_hot['user_num'] - article_hot['user_num'].min()) / (article_hot['user_num'].max() - article_hot['user_num'].min())
article_hot['time_diff_mean'] = (article_hot['time_diff_mean'] - article_hot['time_diff_mean'].min()) / (article_hot['time_diff_mean'].max() - article_hot['time_diff_mean'].min())     
article_hot['hot_level'] = article_hot['user_num'] + article_hot['time_diff_mean']

article_hot['click_article_id'] = article_hot['click_article_id'].astype('int')

del article_hot['click_timestamp']

return article_hot

article_hot_fea = hot_level(all_data, [‘user_id’, ‘click_article_id’, ‘click_timestamp’])
article_hot_fea.head()

用户的设备习惯
def device_fea(all_data, cols):
“”"
制作用户的设备特征
:param all_data: 数据集
:param cols: 用到的特征列
“”"
user_device_info = all_data[cols]

# 用众数来表示每个用户的设备信息
user_device_info = user_device_info.groupby('user_id').agg(lambda x: x.value_counts().index[0]).reset_index()

return user_device_info

设备特征(这里时间会比较长)

device_cols = [‘user_id’, ‘click_environment’, ‘click_deviceGroup’, ‘click_os’, ‘click_country’, ‘click_region’, ‘click_referrer_type’]
user_device_info = device_fea(all_data, device_cols)
user_device_info.head()
用户的时间习惯
def user_time_hob_fea(all_data, cols):
“”"
制作用户的时间习惯特征
:param all_data: 数据集
:param cols: 用到的特征列
“”"
user_time_hob_info = all_data[cols]

# 先把时间戳进行归一化
mm = MinMaxScaler()
user_time_hob_info['click_timestamp'] = mm.fit_transform(user_time_hob_info[['click_timestamp']])
user_time_hob_info['created_at_ts'] = mm.fit_transform(user_time_hob_info[['created_at_ts']])

user_time_hob_info = user_time_hob_info.groupby('user_id').agg('mean').reset_index()

user_time_hob_info.rename(columns={'click_timestamp': 'user_time_hob1', 'created_at_ts': 'user_time_hob2'}, inplace=True)
return user_time_hob_info

user_time_hob_cols = [‘user_id’, ‘click_timestamp’, ‘created_at_ts’]
user_time_hob_info = user_time_hob_fea(all_data, user_time_hob_cols)
用户的主题爱好
这里先把用户点击的文章属于的主题转成一个列表，后面再总的汇总的时候单独制作一个特征，就是文章的主题如果属于这里面，就是1，否则就是0。
def user_cat_hob_fea(all_data, cols):
“”"
用户的主题爱好
:param all_data: 数据集
:param cols: 用到的特征列
“”"
user_category_hob_info = all_data[cols]
user_category_hob_info = user_category_hob_info.groupby(‘user_id’).agg({list}).reset_index()

user_cat_hob_info = pd.DataFrame()
user_cat_hob_info['user_id'] = user_category_hob_info['user_id']
user_cat_hob_info['cate_list'] = user_category_hob_info['category_id']

return user_cat_hob_info

user_category_hob_cols = [‘user_id’, ‘category_id’]
user_cat_hob_info = user_cat_hob_fea(all_data, user_category_hob_cols)
用户的字数偏好特征
user_wcou_info = all_data.groupby(‘user_id’)[‘words_count’].agg(‘mean’).reset_index()
user_wcou_info.rename(columns={‘words_count’: ‘words_hbo’}, inplace=True)
用户的信息特征合并保存

所有表进行合并

user_info = pd.merge(user_act_fea, user_device_info, on=‘user_id’)
user_info = user_info.merge(user_time_hob_info, on=‘user_id’)
user_info = user_info.merge(user_cat_hob_info, on=‘user_id’)
user_info = user_info.merge(user_wcou_info, on=‘user_id’)

这样用户特征以后就可以直接读取了

user_info.to_csv(save_path + ‘user_info.csv’, index=False)
用户特征直接读入
如果前面关于用户的特征工程已经给做完了，后面可以直接读取

把用户信息直接读入进来

user_info = pd.read_csv(save_path + ‘user_info.csv’)
if os.path.exists(save_path + ‘trn_user_item_feats_df.csv’):
trn_user_item_feats_df = pd.read_csv(save_path + ‘trn_user_item_feats_df.csv’)

if os.path.exists(save_path + ‘tst_user_item_feats_df.csv’):
tst_user_item_feats_df = pd.read_csv(save_path + ‘tst_user_item_feats_df.csv’)

if os.path.exists(save_path + ‘val_user_item_feats_df.csv’):
val_user_item_feats_df = pd.read_csv(save_path + ‘val_user_item_feats_df.csv’)
else:
val_user_item_feats_df = None

拼上用户特征

下面是线下验证的

trn_user_item_feats_df = trn_user_item_feats_df.merge(user_info, on=‘user_id’, how=‘left’)

if val_user_item_feats_df is not None:
val_user_item_feats_df = val_user_item_feats_df.merge(user_info, on=‘user_id’, how=‘left’)
else:
val_user_item_feats_df = None

tst_user_item_feats_df = tst_user_item_feats_df.merge(user_info, on=‘user_id’,how=‘left’)
trn_user_item_feats_df.columns
Index([‘user_id’, ‘click_article_id’, ‘sim0’, ‘time_diff0’, ‘word_diff0’,
‘sim_max’, ‘sim_min’, ‘sim_sum’, ‘sim_mean’, ‘score’, ‘rank’, ‘label’,
‘click_size’, ‘time_diff_mean’, ‘active_level’, ‘click_environment’,
‘click_deviceGroup’, ‘click_os’, ‘click_country’, ‘click_region’,
‘click_referrer_type’, ‘user_time_hob1’, ‘user_time_hob2’, ‘cate_list’,
‘words_hbo’],
dtype=‘object’)
文章的特征直接读入
articles = pd.read_csv(data_path+‘articles.csv’)
articles = reduce_mem(articles)
– Mem. usage decreased to 5.56 Mb (50.0% reduction),time spend:0.00 min

拼上文章特征

trn_user_item_feats_df = trn_user_item_feats_df.merge(articles, left_on=‘click_article_id’, right_on=‘article_id’)

if val_user_item_feats_df is not None:
val_user_item_feats_df = val_user_item_feats_df.merge(articles, left_on=‘click_article_id’, right_on=‘article_id’)
else:
val_user_item_feats_df = None

tst_user_item_feats_df = tst_user_item_feats_df.merge(articles, left_on=‘click_article_id’, right_on=‘article_id’)
召回文章的主题是否在用户的爱好里面
trn_user_item_feats_df[‘is_cat_hab’] = trn_user_item_feats_df.apply(lambda x: 1 if x.category_id in set(x.cate_list) else 0, axis=1)
if val_user_item_feats_df is not None:
val_user_item_feats_df[‘is_cat_hab’] = val_user_item_feats_df.apply(lambda x: 1 if x.category_id in set(x.cate_list) else 0, axis=1)
else:
val_user_item_feats_df = None
tst_user_item_feats_df[‘is_cat_hab’] = tst_user_item_feats_df.apply(lambda x: 1 if x.category_id in set(x.cate_list) else 0, axis=1)

线下验证

del trn_user_item_feats_df[‘cate_list’]

if val_user_item_feats_df is not None:
del val_user_item_feats_df[‘cate_list’]
else:
val_user_item_feats_df = None

del tst_user_item_feats_df[‘cate_list’]

del trn_user_item_feats_df[‘article_id’]

if val_user_item_feats_df is not None:
del val_user_item_feats_df[‘article_id’]
else:
val_user_item_feats_df = None

del tst_user_item_feats_df[‘article_id’]
保存特征

训练验证特征

trn_user_item_feats_df.to_csv(save_path + ‘trn_user_item_feats_df.csv’, index=False)
if val_user_item_feats_df is not None:
val_user_item_feats_df.to_csv(save_path + ‘val_user_item_feats_df.csv’, index=False)
tst_user_item_feats_df.to_csv(save_path + ‘tst_user_item_feats_df.csv’, index=False)

特征工程和数据清洗转换是比赛中至关重要的一块，因为数据和特征决定了机器学习的上限，而算法和模型只是逼近这个上限而已，所以特征工程的好坏往往决定着最后的结果，特征工程可以一步增强数据的表达能力，通过构造新特征，我们可以挖掘出数据的更多信息，使得数据的表达能力进一步放大。在本节内容中，我们主要是先通过制作特征和标签把预测问题转成了监督学习问题，然后围绕着用户画像和文章画像进行一系列特征的制作，此外，为了保证正负样本的数据均衡，我们还学习了负采样技术等。

你可能感兴趣的:(推荐系统)

深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
如何利用AI技术来提升用户的个性化体验和社区参与度？ Itfuture03 AI前沿技术人工智能
要利用AI技术提升用户的个性化体验和社区参与度，可以采取以下几种策略：个性化推荐系统：通过AI算法分析用户的行为和偏好，提供定制化的服务和内容推荐，如智能推荐活动、健康管理等，让居民感受到社区的温暖和关怀。智能助手与聊天机器人：引入AI驱动的虚拟助手，提供实时帮助、个性化建议和交互式对话，改善客户体验。自然语言处理（NLP）：实现具有AI能力的NLP，创建对用户友好的应用程序，简化用户体验，如客服
什么是监督学习（Supervised Learning）救救孩子把 AI AI 学习
一、监督学习概述监督学习（SupervisedLearning）是一种极具威力的机器学习方法，能够训练算法以识别数据中的模式，并据此进行精准的预测或分类。借助已有的标记数据，监督学习模型学会了从输入到输出的映射关系，进而在各类实际问题中实现自动化决策。无论是医疗诊断、金融市场分析、客户行为预测，还是提升生产效率以及个性化推荐系统等领域，监督学习都彰显出巨大的潜力与价值。随着技术的持续进步，监督学习
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
DL参考资源（二） antkillerfarm 深度学习
DL参考资源推荐系统https://zhuanlan.zhihu.com/p/26237106深度学习在推荐算法上的应用进展http://i.dataguru.cn/mportal.php?mod=view&aid=11463深度学习在推荐领域的应用https://mp.weixin.qq.com/s/hGvQvddD3i858XSK4z08Ug主要推荐系统算法总结及Youtube深度学习推荐算法
Springboot+vue.js+协同过滤推荐+余弦相似度算法实现新闻推荐系统计算机程序优异哥
针对海量的新闻资讯数据，如何快速的根据用户的检索需要，完成符合用户阅读需求的新闻资讯推荐？本篇文章主要采用余弦相似度及基于用户协同过滤算法实现新闻推荐，通过余弦相似度算法完成针对不同新闻数据之间的相似性计算，实现分类标签。通过协同过滤算法发现具备相似阅读习惯的用户，展开个性化推荐。本次新闻推荐系统：主要包含技术：springboot，mybatis，mysql，javascript，vue.js，
基于实时深度学习的推荐系统架构设计和技术演进阿里云云栖号云栖号技术分享架构阿里巴巴
简介：整理自5月29日阿里云开发者大会，秦江杰和刘童璇的分享，内容包括实时推荐系统的原理以及什么是实时推荐系统、整体系统的架构及如何在阿里云上面实现，以及关于深度学习的细节介绍本文整理自5月29日阿里云开发者大会，大数据与AI一体化平台分论坛，秦江杰和刘童璇带来的《基于实时深度学习的推荐系统架构设计和技术演进》。分享内容如下：实时推荐系统的原理以及什么是实时推荐系统整体系统的架构及如何在阿里云上面
Make It a Chorus: Knowledge- and Time-aware Item Modeling for Sequential Recommendation sigir 20 农场主机器学习
介绍的博客作者讲解摘要传统的推荐系统主要针对固有的、长期的用户偏好进行建模，而动态的用户需求也是非常重要的。通常，历史消费会影响用户对其关系项的需求。例如，用户倾向于一起购买互补产品(iPhone和AirPods)，而不是替代产品(Powerbeats和AirPods)，尽管替代购买的产品仍然迎合了他/她的偏好。为了更好地模拟历史序列的影响，以前的研究引入了项目关系的语义来捕捉用户的推荐需求。然而
【计算机毕设文章】美食信息推荐系统 xn19950718 计算机毕设文章参考案例课程设计美食数据库前端开发语言需求分析
毕业设计（论文）题目：美食信息推荐系统摘要使用旧方法对美食信息推荐系统的信息进行系统化管理已经不再让人们信赖了，把现在的网络信息技术运用在美食信息推荐系统的管理上面可以解决许多信息管理上面的难题，比如处理数据时间很长，数据存在错误不能及时纠正等问题。这次开发的美食信息推荐系统对菜谱管理、字典管理、论坛管理、论坛收藏管理、饮食资讯管理、用户管理、管理员管理等进行集中化处理。经过前面自己查阅的网络知识
菜谱推荐系统(前台android原生,后台java,SSH,mysql) weixingliang_123 菜谱食谱 android 数据库 java 编程语言 mysql
Android菜谱推荐系统(前台android原生,后台java,SSH,mysql)(程序代码,MySQL数据库)【运行环境】MyEclipse(后台)Eclipse(前台)JDK1.7tomcat7【技术栈】JAVA,JSP,mvc,SSH,MYSQL,HTML,CSS,JAVASCRIPT,JQUERY,android原生【项目包含内容】【下载全套源码】【项目功能介绍】
【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法 Lossya 机器学习概率论人工智能朴素贝叶斯共轭先验
引言朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型，它假设特征之间相互独立。文章目录引言一、朴素贝叶斯方法的概率图表示1.1节点表示1.2边表示1.3无其他连接1.4总结二、朴素贝叶斯的应用场景2.1文本分类2.2推荐系统2.3医疗诊断2.4欺诈检测2.5情感分析2.6邮件过滤2.7信息检索2.8生物信息学三、朴素贝叶斯的优点四、朴素贝叶斯的局限性4.1特征独立性假设4.2敏感于输入数据的表示4
推荐系统统计库——systemstat 荣正青
推荐系统统计库——systemstatsystemstatRustlibraryforgettingsysteminformation|alsoonhttps://codeberg.org/valpackett/systemstat项目地址:https://gitcode.com/gh_mirrors/sy/systemstat简介systemstat是一个用Rust语言编写的强大库，它可以获取操
ssm+vue计科毕业论文(毕设)最全开题怎么选 Ankhiu java web 毕设
文章目录1前言2选题汇总3详细介绍题目1:基于SSM的毕业设计管理系统题目2:基于SSM的病人跟踪治疗信息管理系统题目3:基于SSM的大学生兼职跟踪系统题目4:基于SSM的大学生企业推荐系统题目5:基于SSM的电影院在线售票系统题目6:基于SSM的房屋出租出售系统题目7:基于SSM的房屋租赁系统题目8:基于SSM的个人健康信息管理系统题目9:基于SSM的共享充电宝管理系统题目10:基于SSM的即动
Spark MLlib模型训练—聚类算法 K-means 不二人生 Spark ML 实战算法 spark-ml 聚类
SparkMLlib模型训练—聚类算法K-meansK-means是一种经典的聚类算法，广泛应用于数据挖掘、图像处理、推荐系统等领域。它通过将数据划分为(k)个簇（clusters），使得同一簇内的数据点尽可能相似，而不同簇之间的数据点差异尽可能大。ApacheSpark提供了K-means聚类算法的高效实现，支持大规模数据的分布式计算。本文将详细介绍K-means聚类算法的原理，并结合Spark
Django+Vue协同过滤算法图书推荐系统的设计与实现赵广陆 project django vue.js 算法
目录1项目介绍2项目截图3核心代码3.1需要的环境3.2Django接口层3.3实体类3.4config.ini3.5启动类3.5Vue4数据库表设计5文档参考6计算机毕设选题推荐7源码获取1项目介绍博主个人介绍：CSDN认证博客专家，CSDN平台Java领域优质创作者，全网30w+粉丝，超300w访问量，专注于大学生项目实战开发、讲解和答疑辅导，对于专业性数据证明一切！主要项目：javaweb、
偏见的亮点：认知偏见如何增强推荐系统量子位AI 人工智能机器学习
认知偏见，曾被视为人类决策过程中的缺陷，现在被认为对学习和决策有潜在的积极影响。然而，在机器学习中，尤其是在搜索和排序系统中，认知偏见的研究仍需改进。尽管有大量研究集中在探讨这些偏见如何影响模型训练和机器行为的道德性，但信息检索领域大多关注于检测偏见及其对搜索行为的影响。这在利用这些认知偏见来增强检索算法方面带来了挑战，这一领域尚未广泛探讨，对研究者而言提供了机遇和挑战。现有的一些方法，如推荐系统
大数据：实时大数据和离线大数据爱写代码的July 大数据与云计算大数据
一实时大数据的介绍及应用场景实时大数据主要是对实时数据流进行处理和分析，数据在生成后几乎立即被处理，以支持快速决策。核心特性低延迟：数据在毫秒或秒级别内处理，几乎实时返回结果。连续流式处理：数据像流一样不断到达并被处理，而不是分批次处理。实时反馈：能够及时响应业务需求，如实时告警、推荐、监控等。应用场景实时推荐系统：如电商、社交媒体等，根据用户行为进行个性化推荐。实时监控：网络安全系统实时监控流量
计算机毕业设计hadoop+spark知识图谱房源推荐系统房价预测系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集链家数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartssparkmys
个性化推荐系统-离线召回模型验证山水阳泉曲 python 功能测试线性代数矩阵推荐算法 vue
文章目录背景前端核心组件模拟操作用户历史行为后端导入依赖启动服务根据uid获取推荐列表相关推荐用户历史记录用户行为数据上报背景计划构建并优化一个覆盖前端与后端的个性化推荐系统中的离线召回模块。此模块旨在通过高效的数据处理与分析，预先筛选出用户可能感兴趣的内容或商品，为后续的实时推荐流程提供丰富且精准的候选集。为了确保实施效果与性能，我们将设计最简前端界面以直观展示召回结果，同时构建后端服务来处理大
基于SpringBoot+Vue协同过滤视频推荐系统 f168bc2b3926
1.技术介绍java+springboot+mysql+mybatis+Vue开发工具：eclipse或idea2.主要功能说明：1）用户注册、登录、首页、个人中心、我的收藏、视频新增、后台管理、2）管理员个人中心、用户管理、视频标签管理、视频信息管理、轮播图管理3）协同过滤算法根据用户的收藏喜好行为计算相似度，给有相近的用户行为推荐视频比如：用户1收藏了视频1、2、3用户2收藏了视频1、3、6用
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
大数据毕业设计天hadoop+spark+hive游戏推荐系统游戏数据分析可视化大屏 steam游戏爬虫游戏大数据机器学习知识图谱计算机毕业设计机器学习深度学习人工智能知识图谱 2401_84159688 程序员大数据 hadoop 人工智能
|—||一、选题的目的和意义用户往往因为不能及时查看游戏信息而造成许多烦恼。另一方面，游戏商城平台没能进行系统的管理与维护使游戏信息没能及时的更新。而传统的游戏信息管理，采用的还是手工备案、人工查询的方式。但是随之游戏信息的增多这种管理方式的工作量不断加大，这种做法就存在费时费力、缺乏时效性、不利于调动人员的积极性等缺点。一旦网站建立好之后，一方面，用户可以在第一时间在系统里查询所需的信息，另一方
推荐召回中ALS(交替最小二乘法)算法验证山水阳泉曲算法最小二乘法机器学习推荐算法 python
文章目录需求流程设计步骤1:数据准备步骤2:模型训练步骤3:评估指标选择步骤4:性能评估代码实现导入依赖Mysql获取数据分批加载到矩阵目标coo_matrixvstackbm25_weight模型训练测试评估完整代码需求为了验证推荐系统中ALS（交替最小二乘）算法的召回效果以及离线数据推荐的效果，我们需要进行一系列的实验步骤。这些步骤包括数据准备、模型训练、评估指标的选择以及最终的性能评估流程设
推荐系统中稀疏特征Embedding的优化表示方法少喝冰美式 embedding 算法机器学习人工智能 ai 大模型大语言模型
本文将介绍两个与稀疏特征Embedding相关的工作。推荐或者CTR预估任务有一个很突出的特点：存在海量稀疏特征。海量意味着数量巨大，稀疏意味着即使在很大的训练数据里，大量特征出现频次也非常低，这往往是由于引入了大量ID类特征带来的。对于DNN排序系统，是否能够找到好的特征Embedding表达方式，对于系统效果是至关重要的。虽然说，如何更好地表征稀疏特征对于模型的泛化能力至关重要，但是，关于这块
小琳AI课堂：推荐系统小琳ai 小琳AI课堂人工智能
大家好，这里是小琳AI课堂！今天我们一起来探索一个让生活变得更加个性化的神奇技术——推荐系统！首先，让我们深入了解一下推荐系统的两大核心技术：协同过滤和内容基础过滤。协同过滤：这种方法通过分析用户之间的行为相似性或项目之间的相似性来进行推荐。用户基础协同过滤：找到和你相似的其他用户，然后推荐他们喜欢的东西给你。项目基础协同过滤：分析项目之间的相似度，推荐和你过去喜欢的项目相似的其他项目。内容基础过
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

特征工程--理解

节省内存的一个函数

减少内存

all_click_df指的是训练集

sample_user_nums 采样作为验证集的用户数量

获取当前数据的历史点击和最后一次点击

返回多路召回列表或者单路召回

将召回列表转换成df的形式

负采样函数，这里可以控制负采样时的比例, 这里给了一个默认的值

召回数据打标签

读取召回列表

将召回数据转换成df

给训练验证数据打标签，并负采样（这一部分时间比较久）

将最终的召回的df数据转换成字典的形式做排序特征

下面基于data做历史相关的特征

获取训练验证及测试数据中召回列文章相关特征

保存一份省的每次都要重新跑，每次跑的时间都比较长

读取文章特征

日志数据，就是前面的所有数据

拼上文章信息

计算时间间隔的均值

点击次数取倒数

两者归一化

设备特征(这里时间会比较长)

所有表进行合并

这样用户特征以后就可以直接读取了

把用户信息直接读入进来

拼上用户特征

下面是线下验证的

拼上文章特征

线下验证

训练验证特征

你可能感兴趣的:(推荐系统)