初沏的茶

在MovieLens 1M数据集上使用深度学习进行评分预测

本文中的代码只是部分代码，完整项目代码下载地址：https://github.com/chuqidecha/movie_recommender

MovieLen 1M数据及简介

MovieLens 1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：
http://files.grouplens.org/datasets/movielens/ml-1m.zip
数据集分为三个文件：电影元数据信息（movie.data）、用户属性信息（users.data)和用户评分数据（ratings.dat)。

电影元数据

电影元数据的格式为：MovieID::Title::Genres。

Title：电影名IMDB提供的电影名相同（包括发布年份）
Genres：多种电影题材由是“|”分隔，题材种类有以下18种：
- Action
- Adventure
- Animation
- Children’s
- Comedy
- Crime
- Documentary
- Drama
- Fantasy
- Film-Noir
- Horror
- Musical
- Mystery
- Romance
- Sci-Fi
- Thriller
- War
- Western
MovieID：模型MovieID没有对应的电影（MovieID不是连续递增的）

用户属性信息

用户属性信息的格式为：UserID::Gender::Age::Occupation::Zip-code，用户属性信息是用户自愿填写的，真实性没有做过校验。

Gender：“M”表示男，“F”表示女
Age:年龄值有以下几种：
- 1: “小于18岁”
- 18: “18-24”
- 25: “25-34”
- 35: “35-44”
- 45: “45-49”
- 50: “50-55”
- 56: “56+”
Occupation：职业有以下几种：
- 0: “other” or not specified
- 1: “academic/educator”
- 2: “artist”
- 3: “clerical/admin”
- 4: “college/grad student”
- 5: “customer service”
- 6: “doctor/health care”
- 7: “executive/managerial”
- 8: “farmer”
- 9: “homemaker”
- 10: “K-12 student”
- 11: “lawyer”
- 12: “programmer”
- 13: “retired”
- 14: “sales/marketing”
- 15: “scientist”
- 16: “self-employed”
- 17: “technician/engineer”
- 18: “tradesman/craftsman”
- 19: “unemployed”
- 20: “writer”

电影评分

电影评分的格式为：UserID::MovieID::Rating::Timestamp

UserID: [1-6040]
MovieIDs:[1,3952]
Ratings:1-5的整数
Timestamp：时间戳
每个用户至少有20个评分

数据预处理与网络模型设计

MovieLens数据集中，用户特征中UserID、Gender、Age、Job以及电影特征中MovieID都可以认为是类别型数据，通常使用One-Hot编码。
但是MovieID和UserID值得类型比较多，如果使用One-Hot编码，每个值都会被编码成一个维数很高的稀疏向量，作为神经网络输入是计算量很大。
除此之外，采用One-Hot编码，不同属性值的距离都是相等的，比如“小于18岁”和“50+”与“45-49”与“50+”的距离平方都是2。
所以在数据预处理阶段，我们不使用One-Hot编码，而仅仅将这些数据编码成数字，用这些数据当作嵌入矩阵的索引。
神经网络的第一层使用嵌入层，嵌入矩阵通过学习得到。

电影题材和电影名比较特殊，他们可以视作多值属性，且长度不行等。对于电影题材，因为类型不多，可以直接使用Multi-Hot编码，在神经网络中通过编码后的向量与嵌入矩阵相乘实现不同长度的输入。对于电影名的处理稍微复杂一点，首先创建word->int的映射字典，然后使用数字列表编码，并填充为相同的长度，经过一个LSTM网络，并对网络的所有输出求均值得到电影名特征。

数据预处理

UserID、Occupation、MovieID不变
Gender字段：需要将‘F’和‘M’转换成0和1
Age字段：转成7个连续数字0-6
Genres字段：多值属性，使用Multi-Hot编码，维数为18
Title字段：创建word->int的映射字典，然后使用数字列表编码，并填充为相同的长度，维数为15

电影题材的multi-hot编码函数

def genres_multi_hot(genre_int_map):
    """
    电影类型使用multi-hot编码
    :param genre_int_map:genre到数字的映射字典
    :return:
    """

    def helper(genres):
        genre_int_list = [genre_int_map[genre] for genre in genres.split(b'|')]
        multi_hot = np.zeros(len(genre_int_map))
        multi_hot[genre_int_list] = 1
        return multi_hot

    return helper

电影数字列表编码函数

def title_encode(word_int_map):
    """
    将电影Title转成长度为15的数字列表，如果长度小于15则用0填充，大于15则截断
    :param word_int_map:word到数字的映射字段
    :return:
    """

    def helper(title):
        title_words = [word_int_map[word] for word in title.split()]
        if len(title_words) > 15:
            return np.array(title[:15])
        else:
            title_vector = np.zeros(15)
            title_vector[:len(title_words)] = title_words
            return title_vector

    return helper

数据预处理函数

def load_data(dataset_zip):
    """
    Load Dataset from Zip File
    """
    with zipfile.ZipFile(dataset_zip) as zf:
        # 读取User数据
        with zf.open('ml-1m/users.dat') as users_raw_data:
            users_title = ['UserID', 'Gender', 'Age', 'JobID', 'Zip-code']
            users = pd.read_table(users_raw_data, sep=b'::', header=None, names=users_title, engine='python')
            users = users.filter(regex='UserID|Gender|Age|JobID')

            # 改变User数据中性别和年龄
            gender_map = {b'F': 0, b'M': 1}
            users['GenderIndex'] = users['Gender'].map(gender_map)

            age_map = {val: ii for ii, val in enumerate(set(users['Age']))}
            users['AgeIndex'] = users['Age'].map(age_map)

        # 读取Movie数据集
        with zf.open('ml-1m/movies.dat') as movies_raw_data:
            movies_title = ['MovieID', 'Title', 'Genres']
            movies = pd.read_table(movies_raw_data, sep=b'::', header=None, names=movies_title, engine='python')
            # 将Title中的年份去掉
            pattern = re.compile(b'^(.*)\((\d+)\)$')

            movies['TitleWithoutYear'] = movies['Title'].map(lambda x: pattern.match(x).group(1))
            # 电影题材Multi-Hot编码
            genre_set = set()
            for val in movies['Genres'].str.split(b'|'):
                genre_set.update(val)

            genre_int_map = {val: ii for ii, val in enumerate(genre_set)}

            movies['GenresMultiHot'] = movies['Genres'].map(genres_multi_hot(genre_int_map))

            # 电影Title转数字列表,word的下标从1开始，0作为填充值
            word_set = set()
            for val in movies['TitleWithoutYear'].str.split():
                word_set.update(val)

            word_int_map = {val: ii for ii, val in enumerate(word_set, start=1)}

            movies['TitleIndex'] = movies['TitleWithoutYear'].map(title_encode(word_int_map))

        # 读取评分数据集
        with zf.open('ml-1m/ratings.dat') as ratings_raw_data:
            ratings_title = ['UserID', 'MovieID', 'ratings', 'timestamps']
            ratings = pd.read_table(ratings_raw_data, sep=b'::', header=None, names=ratings_title, engine='python')
            ratings = ratings.filter(regex='UserID|MovieID|ratings')

    # 合并三个表
    data = pd.merge(pd.merge(ratings, users), movies)

    # 将数据分成X和y两张表
    features, targets = data.drop(['ratings'], axis=1), data[['ratings']]

    return features, targets, age_map, gender_map, genre_int_map, word_int_map, users, movies

模型设计

本文使用的网络模型如上图所示。网络可以分成两大部分，分别是用户特征网络和电影特征网络，这两个子网络最终通过全连接层输出一个200维的向量，作为用户特征和电影特征。
有了用户特征向量和电影特征向量之后，就可以通过各种方式拟合评分，本文中将两个输入通过只有一个神经元的全连接层，将输出作为评分,将MSE作为损失函数去优化网络。

用户特征网络

UserID和Age、Gender、Job的处理方式相同，首先将输入作为索引从嵌入矩阵中取出对应的特征向量，其中UserID编码为32维向量，其他特征编码为16维向量。
然后分别在其后添加一个全连接层和一个dropout层，全连接层的神经元个数为32。最后将得到的四个32维的向量拼接到一起形成一个128维的向量，作为全连接层的输入，最后输出一个200维的用户特征向量。

用户特征网络核心代码

def user_feature_network(user_id, user_gender, user_age, user_job, dropout_keep_prob):
    with tf.variable_scope('user_id_embed'):
        user_id_embed_matrix = tf.get_variable('id_embed_matrix', [USER_ID_COUNT, EMBED_DIM],
                                               initializer=tf.truncated_normal_initializer(stddev=0.1))
        user_embed_layer = tf.nn.embedding_lookup(user_id_embed_matrix, user_id, name='id_lookup')

    with tf.variable_scope('user_gender_embed'):
        gender_embed_matrix = tf.get_variable('gender_embed_matrix', [GENDER_COUNT, EMBED_DIM // 2],
                                              initializer=tf.truncated_normal_initializer(stddev=0.1))
        gender_embed_layer = tf.nn.embedding_lookup(gender_embed_matrix, user_gender, name='gender_lookup')

    with tf.variable_scope('user_age_embed'):
        age_embed_matrix = tf.get_variable('age_embed_matrix', [AGE_COUNT, EMBED_DIM // 2],
                                           initializer=tf.truncated_normal_initializer(stddev=0.1))
        age_embed_layer = tf.nn.embedding_lookup(age_embed_matrix, user_age, name='age_lookup')

    with tf.variable_scope('user_job_embed'):
        job_embed_matrix = tf.get_variable('job_embed_matrix', [JOB_COUNT, EMBED_DIM // 2],
                                           initializer=tf.truncated_normal_initializer(stddev=0.1))
        job_embed_layer = tf.nn.embedding_lookup(job_embed_matrix, user_job, name='job_lookup')

    user_id_fc_layer = tf.layers.dense(user_embed_layer, EMBED_DIM,
                                       activation=tf.nn.relu,
                                       kernel_regularizer=tf.nn.l2_loss,
                                       kernel_initializer=tf.truncated_normal_initializer(stddev=0.1),
                                       name='user_id_fc')
    user_id_fc_dropout_layer = tf.layers.dropout(user_id_fc_layer, dropout_keep_prob, name='user_id_dropout')

    gender_fc_layer = tf.layers.dense(gender_embed_layer, EMBED_DIM,
                                      activation=tf.nn.relu,
                                      kernel_regularizer=tf.nn.l2_loss,
                                      kernel_initializer=tf.truncated_normal_initializer(stddev=0.1),
                                      name='user_gender_fc')
    gender_fc_dropout_layer = tf.layers.dropout(gender_fc_layer, dropout_keep_prob, name='user_gender_dropout')

    age_fc_layer = tf.layers.dense(age_embed_layer, EMBED_DIM,
                                   activation=tf.nn.relu,
                                   kernel_regularizer=tf.nn.l2_loss,
                                   kernel_initializer=tf.truncated_normal_initializer(stddev=0.1),
                                   name='user_age_fc')
    age_fc_dropout_layer = tf.layers.dropout(age_fc_layer, dropout_keep_prob, name='user_age_dropout')

    job_fc_layer = tf.layers.dense(job_embed_layer, EMBED_DIM,
                                   activation=tf.nn.relu,
                                   kernel_regularizer=tf.nn.l2_loss,
                                   kernel_initializer=tf.truncated_normal_initializer(stddev=0.1),
                                   name='user_job_fc')
    job_fc_dropout_layer = tf.layers.dropout(job_fc_layer, dropout_keep_prob, name='user_job_dropout')

    with tf.name_scope('user_fc'):
        user_combine_feature = tf.concat(
            [user_id_fc_dropout_layer, gender_fc_dropout_layer, age_fc_dropout_layer, job_fc_dropout_layer], 2)
        user_combine_fc_layer = tf.layers.dense(user_combine_feature, 200,
                                                activation=tf.nn.relu,
                                                kernel_regularizer=tf.nn.l2_loss,
                                                kernel_initializer=tf.truncated_normal_initializer(stddev=0.1),
                                                name='user_fc')
        user_combine_layer_flat = tf.reshape(user_combine_fc_layer, [-1, 200])

    return user_combine_layer_flat

电影特征网络

MovieID和Genres的处理方式与用户特征方式一样，唯一不同的是Genres第一层使用的是矩阵乘法不是lookup。每个Title中通过嵌入层之后编码为[15，32]维的特征，然后通过一层隐层为128个神经元的LSTM，然后对这15个LSTM单元的输出求平均值（注意填充值不参与计算），最终得到一个128维特征向量。
将其与MovieID和Genres输出向量拼接到一起作为全连接层输入，最后得到一个200维向量，作为电影特征向量。

需要注意的是，虽然预处理阶段填充之后的标题长度都是15，但在实际计算时使用dynamic_rnn实现对不同长度输入的处理，并使用mask的方式计算均值。

电影特征网络核心代码

def movie_feature_embed_network(movie_id, movie_genres):
    with tf.variable_scope('movie_id_embed'):
        movie_id_embed_matrix = tf.get_variable('id_embed_matrix', [MOVIE_ID_COUNT, EMBED_DIM],
                                                initializer=tf.truncated_normal_initializer(stddev=0.1))
        movie_id_embed_layer = tf.nn.embedding_lookup(movie_id_embed_matrix, movie_id, name='id_lookup')

    with tf.name_scope('genres_embed'):
        movie_genres_embed_matrix = tf.Variable(tf.random_uniform([MOVIE_GENRES_COUNT, EMBED_DIM], -1, 1),
                                                name='genres_embed_matrix')

        movie_genres_embed_layer = tf.matmul(movie_genres, movie_genres_embed_matrix)

    return movie_id_embed_layer, movie_genres_embed_layer


def movie_title_lstm_layer(movie_titles, movie_title_length, dropout_keep_prob):
    with tf.variable_scope('movie_title_embed'):
        movie_title_embed_matrix = tf.get_variable('title_embed_matrix', [MOVIE_TITLE_WORDS_COUNT, EMBED_DIM],
                                                   initializer=tf.truncated_normal_initializer(stddev=0.1))
        movie_title_embed_layer = tf.nn.embedding_lookup(movie_title_embed_matrix, movie_titles,
                                                         name='title_lookup')

    lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(LSTM_UNIT_NUM, forget_bias=0.0)

    with tf.name_scope("movie_title_dropout"):
        lstm_cell_dropout = tf.nn.rnn_cell.DropoutWrapper(lstm_cell, output_keep_prob=dropout_keep_prob)
        
        # 根据输入动态决定对应的batch_size大小
        batch_size_ = tf.shape(movie_titles)[0]
        init_state = lstm_cell_dropout.zero_state(batch_size_, dtype=tf.float32)

    # 步长根据标题长度动态变化，dynamic_rnn会将填充长度输出置为0
    lstm_output, final_state = tf.nn.dynamic_rnn(lstm_cell_dropout,
                                                 movie_title_embed_layer,
                                                 sequence_length=movie_title_length,
                                                 initial_state=init_state,
                                                 scope='movie_title_rnn')
    # 根据标题长度计算平均值，除数是标题的真实长度
    with tf.name_scope('movie_title_avg_pool'):
        lstm_output = tf.reduce_sum(lstm_output, 1) / movie_title_length[:, None]

    return lstm_output


def movie_feature_network(movie_id, movie_genres, movie_titles, movie_title_length, dropout_keep_prob):
    movie_id_embed_layer, movie_genres_embed_layer = movie_feature_embed_network(movie_id, movie_genres)
    movie_id_fc_layer = tf.layers.dense(movie_id_embed_layer, EMBED_DIM,
                                        activation=tf.nn.relu,
                                        kernel_regularizer=tf.nn.l2_loss,
                                        kernel_initializer=tf.truncated_normal_initializer(stddev=0.1),
                                        name='movie_id_fc')
    movie_id_dropout_layer = tf.layers.dropout(movie_id_fc_layer, dropout_keep_prob, name='movie_id_dropout')

    movie_genres_fc_layer = tf.layers.dense(movie_genres_embed_layer, EMBED_DIM,
                                            activation=tf.nn.relu,
                                            kernel_regularizer=tf.nn.l2_loss,
                                            kernel_initializer=tf.truncated_normal_initializer(stddev=0.1),
                                            name='movie_genres_fc')
    movie_genres_dropout_layer = tf.layers.dropout(movie_genres_fc_layer, dropout_keep_prob,
                                                   name='movie_genres_dropout')

    # 获取电影名的特征向量
    movie_title_output_layer = movie_title_lstm_layer(movie_titles, movie_title_length, dropout_keep_prob)

    with tf.name_scope('movie_fc_layer'):
        movie_id_dropout_layer = tf.reduce_sum(movie_id_dropout_layer, 1)
        movie_combine_feature = tf.concat(
            [movie_id_dropout_layer, movie_genres_dropout_layer, movie_title_output_layer], 1)
        movie_combine_layer = tf.layers.dense(movie_combine_feature, 200,
                                              activation=tf.nn.relu,
                                              kernel_regularizer=tf.nn.l2_loss,
                                              kernel_initializer=tf.truncated_normal_initializer(stddev=0.1),
                                              name='movie_fc_layer')

    return movie_combine_layer

损失层核心代码

def full_network(uid, user_gender, user_age, user_job, movie_id, movie_genres, movie_titles, movie_title_length,
                 dropout_keep_prob):
    # 得到用户特征
    user_combine_layer_flat = user_feature_network(uid, user_gender, user_age, user_job, dropout_keep_prob)
    # 获取电影特征
    movie_combine_layer = movie_feature_network(movie_id, movie_genres, movie_titles, movie_title_length,
                                                dropout_keep_prob)
    # 将用户特征和电影特征作为输入，经过全连接，输出一个值
    with tf.name_scope('user_movie_fc'):
        input_layer = tf.concat([user_combine_layer_flat, movie_combine_layer], 1)  # (?, 200)
        predicted = tf.layers.dense(input_layer, 1,
                                    kernel_initializer=tf.truncated_normal_initializer(stddev=0.01),
                                    kernel_regularizer=tf.nn.l2_loss,
                                    name='user_movie_fc')
    return user_combine_layer_flat, movie_combine_layer, predicted

实验结果

将数据集按照0.8和0.2的比例随机分成了训练集和测试集，经过5个epoch的训练之后得到最终模型，在测试集上测试结果,MSE在0.84左右。
下面是某次运行的结果

2018-12-02 17:50:03,892 - INFO - Batch  773/782   test_loss = 0.878
2018-12-02 17:50:03,954 - INFO - Batch  774/782   test_loss = 0.856
2018-12-02 17:50:04,021 - INFO - Batch  775/782   test_loss = 0.792
2018-12-02 17:50:04,069 - INFO - Batch  776/782   test_loss = 0.794
2018-12-02 17:50:04,150 - INFO - Batch  777/782   test_loss = 0.756
2018-12-02 17:50:04,201 - INFO - Batch  778/782   test_loss = 0.861
2018-12-02 17:50:04,239 - INFO - Batch  779/782   test_loss = 0.753
2018-12-02 17:50:04,282 - INFO - Batch  780/782   test_loss = 0.970
2018-12-02 17:50:04,304 - INFO - Batch  781/782   test_loss = 1.117
2018-12-02 17:50:04,304 - INFO - Loss on test is 0.843

特征提取与评分预测

由于用户属性信息和电影元数据信息都是静态数据，模型训练好之后可以离线计算用户特征、电影特征，然后存储起来供评分预测和推荐使用。

特征提取核心代码

def main(model_path):
    user_id = tf.placeholder(tf.int32, [None, 1], name='user_id')
    user_gender = tf.placeholder(tf.int32, [None, 1], name='user_gender')
    user_age = tf.placeholder(tf.int32, [None, 1], name='user_age')
    user_job = tf.placeholder(tf.int32, [None, 1], name='user_job')

    movie_id = tf.placeholder(tf.int32, [None, 1], name='movie_id')
    movie_genres = tf.placeholder(tf.float32, [None, 18], name='movie_categories')
    movie_titles = tf.placeholder(tf.int32, [None, 15], name='movie_titles')
    movie_title_length = tf.placeholder(tf.float32, [None], name='movie_title_length')
    dropout_keep_prob = tf.constant(DROPOUT_PROB, dtype=tf.float32, name='dropout_keep_prob')

    # 网络定义
    user_feature, movie_feature, _ = full_network(user_id, user_gender, user_age, user_job, movie_id,
                                                  movie_genres, movie_titles, movie_title_length,
                                                  dropout_keep_prob)
    # 获取损失层的kernal和bias
    with tf.variable_scope('user_movie_fc', reuse=True):
        user_movie_fc_kernel = tf.get_variable('kernel')
        user_movie_fc_bias = tf.get_variable('bias')

    with open('./data/users.p', 'rb') as users:
        user_Xs = pickle.load(users)
    with open('./data/movies.p', 'rb') as movies:
        movie_Xs = pickle.load(movies)

    user_dataset = Dataset(user_Xs.values, shuffle=False)
    movie_dataset = Dataset(movie_Xs.values, shuffle=False)

    saver = tf.train.Saver()
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        cpkt = tf.train.get_checkpoint_state(model_path)
        saver.restore(sess, cpkt.model_checkpoint_path)

        # 提取用户特征
        user_features = {}
        for batch in range((user_dataset.size + BATCH_SIZE - 1) // BATCH_SIZE):
            data = user_dataset.next_batch(BATCH_SIZE)
            feed = {
                user_id: np.reshape(data.take(0, 1), [len(data), 1]),
                user_gender: np.reshape(data.take(4, 1), [len(data), 1]),
                user_age: np.reshape(data.take(5, 1), [len(data), 1]),
                user_job: np.reshape(data.take(3, 1), [len(data), 1]),
            }
            feature = sess.run(user_feature, feed_dict=feed)
            user_features.update({key: value for (key, value) in zip(data.take(0, 1), feature)})
        with open('./data/user-features.p', 'wb') as uf:
            pickle.dump(user_features, uf)

        # 提取电影特征
        movie_features = {}
        for batch in range((movie_dataset.size + BATCH_SIZE - 1) // BATCH_SIZE):
            data = movie_dataset.next_batch(BATCH_SIZE)
            feed = {
                movie_id: np.reshape(data.take(0, 1), [len(data), 1]),
                movie_genres: np.array(list(data.take(4, 1))),
                movie_titles: np.array(list(data.take(5, 1))),
                movie_title_length: (np.array(list(data.take(5, 1))) != 0).sum(axis=1)
            }
            feature = sess.run(movie_feature, feed_dict=feed)
            movie_features.update({key: value for (key, value) in zip(data.take(0, 1), feature)})
        with open('./data/movie-features.p', 'wb') as mf:
            pickle.dump(movie_features, mf)

        # 保存损失层的kenel和biase
        kernel, bais = sess.run([user_movie_fc_kernel, user_movie_fc_bias])
        with open('./data/user-movie-fc-param.p', 'wb') as params:
            pickle.dump((kernel, bais), params)

评分以及用户、电影相似度计算

离线存储特征和参数之后，可以直接计算评分而不需要使用Tensorflow去定义网络。除了预测评分之后，也可以通过特征计算最相似的用户和电影。

import pickle

import numpy as np


def relu(x):
    s = np.where(x < 0, 0, x)
    return s


def predict_rating(user_feature, movie_feature, kernel, bais, activate):
    """
    评分函数
    :param user_feature:
    :param movie_feature:
    :param kernel:
    :param bais:
    :param activate:
    :return:
    """
    feature = np.concatenate((user_feature, movie_feature))
    xw_b = np.dot(feature, kernel) + bais
    output = activate(xw_b)
    return output


def cosine_similiarity(vec_left, vec_right):
    """
    余弦相似度
    :param vec_left:
    :param vec_right:
    :return:
    """
    num = np.dot(vec_left, vec_right)
    denom = np.linalg.norm(vec_left) * np.linalg.norm(vec_right)
    cos = -1 if denom == 0 else num / denom
    return cos


def similar_movie(movie_id, top_k, movie_features):
    """
    相似电影
    :param movie_id:
    :param top_k:
    :param movie_features:
    :return:
    """
    cosine_similiarities = {}
    movie_feature = movie_features[movie_id]
    for (movie_id_, movie_feature_) in movie_features.items():
        cosine_similiarities[movie_id_] = cosine_similiarity(movie_feature, movie_feature_)
    return sorted(cosine_similiarities.items(), key=lambda item: item[1])[-top_k:]


def similar_user(user_id, top_k, user_features):
    """
    相似用户
    :param user_id:
    :param top_k:
    :param user_features:
    :return:
    """
    cosine_similiarities = {}
    user_feature = user_features[user_id]
    for (user_id_, user_feature_) in user_features.items():
        cosine_similiarities[user_id_] = cosine_similiarity(user_feature, user_feature_)
    return sorted(cosine_similiarities.items(), key=lambda item: item[1])[-top_k:]

if __name__ == '__main__':
    with open('./data/user-features.p', 'rb') as uf:
        user_features = pickle.load(uf, encoding='utf-8')

    with open('./data/movie-features.p', 'rb') as mf:
        movie_features = pickle.load(mf)

    with open('./data/user-movie-fc-param.p', 'rb') as params:
        kernel, bais = pickle.load(params, encoding='utf-8')

    with open('./data/movies.p', 'rb') as mv:
        movies = pickle.load(mv, encoding='utf-8')
    with open('./data/users.p', 'rb') as usr:
        users = pickle.load(usr, encoding='utf-8')

    rating1 = predict_rating(user_features[1], movie_features[1193], kernel, bais, relu)
    print('UserID={:>4},MovieID={:>4},Rating={:.3f}'.format(1, 1193, rating1[0]))
    rating2 = predict_rating(user_features[5900], movie_features[3100], kernel, bais, relu)
    print('UserID={:>4},MovieID={:>4},Rating={:.3f}'.format(234, 1401, rating2[0]))

    similar_users = similar_user(5900, 5, user_features)
    print('These Users are similar to {}'.format(str(users[users['UserID'] == 1642].to_dict('records'))))
    for user in similar_users:
        print(users[users['UserID'] == user[0]].to_dict('records')[0])

    similar_movies = similar_movie(1401, 5, movie_features)
    print('These Movie are similar to {}'.format(
        str(movies[movies['MovieID'] == 1401][['MovieID', 'Title', 'Genres']].to_dict('records'))))
    for movie in similar_movies:
        print(movies[movies['MovieID'] == movie[0]][['MovieID', 'Title', 'Genres']].to_dict('records')[0])

输出结果：

UserID=   1,MovieID=1193,Rating=4.658
UserID= 234,MovieID=1401,Rating=3.602
These Users are similar to [{'UserID': 1642, 'Gender': b'M', 'Age': 50, 'JobID': 13, 'GenderIndex': 1, 'AgeIndex': 3}]
{'UserID': 4404, 'Gender': b'M', 'Age': 25, 'JobID': 1, 'GenderIndex': 1, 'AgeIndex': 6}
{'UserID': 2092, 'Gender': b'M', 'Age': 56, 'JobID': 1, 'GenderIndex': 1, 'AgeIndex': 5}
{'UserID': 3014, 'Gender': b'M', 'Age': 35, 'JobID': 7, 'GenderIndex': 1, 'AgeIndex': 1}
{'UserID': 5038, 'Gender': b'M', 'Age': 25, 'JobID': 20, 'GenderIndex': 1, 'AgeIndex': 6}
{'UserID': 2672, 'Gender': b'M', 'Age': 35, 'JobID': 7, 'GenderIndex': 1, 'AgeIndex': 1}
These Movie are similar to [{'MovieID': 1401, 'Title': b'Ghosts of Mississippi (1996)', 'Genres': b'Drama'}]
{'MovieID': 3159, 'Title': b'Fantasia 2000 (1999)', 'Genres': b"Animation|Children's|Musical"}
{'MovieID': 1809, 'Title': b'Hana-bi (1997)', 'Genres': b'Comedy|Crime|Drama'}
{'MovieID': 2071, 'Title': b'And the Band Played On (1993)', 'Genres': b'Drama'}
{'MovieID': 3075, 'Title': b'Repulsion (1965)', 'Genres': b'Thriller'}
{'MovieID': 365, 'Title': b'Little Buddha (1993)', 'Genres': b'Drama'}

下一步工作

使用更多的特征，进一步降低MSE
- 用户属性数据中的Zip-code可以标识用户所处地区，不同地域的人可能有不同的喜好，应该是一个有用处的特征。
- 时间特征：电影名中的上映时间，不同时代的电影，评分可能略有差异；用户评分时间距电影上映时间可能也会影响评分。
使用得到的特征做电影推荐

c#函数式编程 A_nanda c#函数式编程
函数式编程模式常常给人一种学术性和抽象的感觉，其实隐藏着一些能让代码更安全、更易维护的实用模式。C#多年来已经采纳了许多函数式编程特性：Records用于实现不可变性LINQ用于函数式转换Lambda表达式实现一等函数这些特性不仅仅是语法糖—它们能帮助预防bug，使代码更容易理解。让我们来看看今天就能在C#项目中使用的五种实用模式。高阶函数高阶函数可以接收其他函数作为参数或将函数作为结果返回。它们
Redis 简介天蓝空色 redis 数据库缓存
Redis（RemoteDictionaryServer）是一个开源的内存数据库，遵守BSD协议，它提供了一个高性能的键值（key-value）存储系统，常用于缓存、消息队列、会话存储等应用场景。性能极高：Redis以其极高的性能而著称，能够支持每秒数十万次的读写操作24。这使得Redis成为处理高并发请求的理想选择，尤其是在需要快速响应的场景中，如缓存、会话管理、排行榜等。丰富的数据类型：Red
什么是稀土抗紫外屏蔽剂金士镧新材料有限公司全文检索人工智能安全生活科技
稀土抗紫外屏蔽剂是一种使用稀土元素的材料，具有高效的紫外线吸收能力、稳定性强，用于阻挡或减轻紫外线（UV）对物体的伤害。稀土抗紫外屏蔽剂的特点：高效屏蔽：稀土抗紫外屏蔽剂对紫外线具有很强的吸收和散射能力,可高效吸收/有效屏蔽280-400mm范围内的紫外线，保护材料及人体免受紫外线的伤害。稳定性好：稀土抗紫外屏蔽剂具有良好的化学稳定性和热稳定性，无二次氧化过程的缺点，解决产品因紫外线原因造成的变质
spring-kafka中ContainerProperties.AckMode详解
Spring-Kafka:Kafka消费者确认模式详解在使用Spring-Kafka时，如何控制Kafka消费者对消息的确认是影响性能和数据安全的一个重要因素。ContainerProperties.AckMode枚举类型提供了几种不同的确认模式，开发者可以根据应用场景选择合适的确认策略，以在数据安全和处理性能之间取得平衡。下面我们对这些确认模式进行详细的讲解和对比分析。1.容器确认模式（AckM
黑客发现新漏洞：Windows容器隔离框架可助其绕过端点安全真想骂* windows 安全
近期，网络安全领域再次传来令人担忧的消息。DeepInstinct的安全研究员DanielAvinoam在DEFCON安全大会上揭示了一项惊人的发现：黑客可以利用Windows容器隔离框架的漏洞，绕过端点安全系统，从而执行恶意操作。这一发现无疑为全球的网络安全防护提出了新的挑战。Windows容器隔离框架，作为Microsoft容器架构的重要组成部分，其设计初衷是通过动态生成的映像将文件系统从每个
Oracle 23ai新特性:使用列别名的 GROUP BY 和 HAVING 子句安呀智数据 Oracle oracle 数据库 Oracle 23ai 新特性 having 列别名 group by
摘要随着数据库技术的不断发展，SQL语言也在不断进化，以更好地满足数据查询和分析的需求。本文将探讨如何在SQL查询中使用列别名（columnalias）或列位置（columnposition）来简化GROUPBY和HAVING子句，并提高查询的可读性和维护性。一、引言在SQL查询中，GROUPBY子句用于将具有相同值的行分组到汇总行中，而HAVING子句则用于过滤这些分组的结果。传统上，GROUP
跟鲁迅重学 TypeScript | (五)异步处理、axios与封装axios
“不在沉默中爆发，就在沉默中灭亡”，面对日益严峻的国际环境，我们祖国母亲没有继续沉默，9月25日8时44分，洲际弹道导弹精准发射。，看到这个新闻，腰也不酸了，腿也不疼了，一口上上五楼，TS学起来更带劲了~异步处理在TypeScript中，异步编程如同现代社会中的种种现象，纷繁复杂，令人眼花缭乱。而async/await正如那一柄利剑，能将这混沌的世界理清，使得程序员不至于深陷于回调的泥潭。asyn
ArgoWorkflow教程(五)---Workflow 的多种触发模式：手动、定时任务与事件触发 devopscicd云原生容器
上一篇我们分析了argo-workflow中的archive，包括流水线GC、流水线归档、日志归档等功能。本篇主要分析Workflow中的几种触发方式，包括手动触发、定时触发、Event事件触发等。1.概述ArgoWorkflows的流水线有多种触发方式：手动触发：手动提交一个Workflow，就会触发一次构建，那么我们创建的流水线，理论上是WorkflowTemplate对象。定时触发：Cron
淘宝API关键词搜索商品列表API接口对接详细步骤
一、需求分析与接口理解（支持免费测试）在进行商品列表API接口对接之前，首先需要明确需求和了解API接口的功能。这包括了解API接口的输入参数（如关键词、分类、排序方式等）、输出内容（如商品信息列表、价格、库存等）以及可能的返回值类型等。同时，需要对API的使用方式进行充分理解，例如是采用HTTPGET还是POST请求方式等。二、注册与登录访问API提供商的网站或API管理平台，完成注册或登录操作
【运维自动化-作业平台】如何使用全局变量之命名空间类型？
命名空间类型的全局变量主要适用场景是同一批主机在多个步骤间需要传递独立的变量值，比如内网ip、hostame，每台主机都是不同的变量值。而字符串变量是全局针对所有主机所有步骤都是一样的变量值。实操演示例：定义一个local_ip的命名空间变量，目标两台机器，然后添加两个执行脚本的步骤，看下变量是如何渲染的。1、添加命名空间变量local_ip2、添加两个执行脚本步骤（步骤一）（步骤二）3、调试执行
苹果公司限制员工使用ChatGPT ｜ Swift 周报 issue 29
前言本期是Swift编辑组自主整理周报的第二十期，每个模块已初步成型。各位读者如果有好的提议，欢迎在文末留言。Swift周报在GitHub开源，欢迎提交issue，投稿或推荐内容。目前计划每两周周一发布，欢迎志同道合的朋友一起加入周报整理。最无情的永远不是环境，而是缺乏勇气的内心。Swift社区与你一起，赤胆平乱世，长枪定江山！周报精选新闻和社区：担心泄密！外媒：苹果公司限制员工使用ChatGPT
jQuery国内大厂CDN加速链接
摘要jQuery的CDN有很多，但都很不稳定，例如国内的bootcdn经常抽风，还有其他的常见的例如jQuery官方的code.jquery.com、jsDeliver、unpkg.com、staticfile，这些都是经常抽风的。导致使用了线上的CDN的页面打开受到影响，那么就没有国内好用的CDN吗？下面是我汇总的一些大厂的！大厂jQuery静态资源CDN百度https://libs.baidu
unplugin-dist-zip-pack：前端构建产物打包神器，开发者的得力助手
作为一名前端开发者，在项目开发过程中，我们常常需要对构建产物进行高效的打包管理。最近，我发现了一个超级好用的插件——unplugin-dist-zip-pack，它简直是我们开发者的福音。一、强大的功能特性unplugin-dist-zip-pack能够将构建产物完美打包，并且支持众多主流的构建工具，包括Webpack、Vue-CLI、Vite、Rollup、esbuild、Astro、Nuxt和
Swift Core Data 分阶段迁移
前言在这之前，我发布了一篇文章，在其中解释了如何使用映射模型和自定义迁移策略执行复杂的CoreData迁移。虽然这种方法性能良好且运行良好，但很难维护，不适用于应用程序扩展，并且存在高度的错误风险。例如，对于每个需要自定义迁移的新模型，你需要定义一个映射模型，以定义如何将每个模型的现有版本迁移到新版本。与你可能认为的相反（以及我所认为的），CoreData在跨多个版本进行迁移时并不会按顺序迭代映射
超详细搭建PhpStorm+PhpStudy开发环境网络安全成叔 phpstorm android 网络安全 php PhpStorm PhpStudy
刚开始接触PHP开发，搭建开发环境是第一步，网上下载PhpStorm和PhpStudy软件，怎样安装和激活就不详细说了，我们重点来看一看怎样搭配这两个开发环境。前提：现在假设你已经安装完PhpStorm和PhpStudy软件。我的PhpStorm使用的是默认安装目录，这个没什么疑问的，PhpStudy软件我选择解压的目录是G:\ProgramFiles\。在PhpStudy软件的解压目录下的www
在Python中，文本查找和替换的常用操作 python正则表达式
1.使用字符串方法进行查找和替换Python的字符串类(str)提供了简单的查找和替换方法，如find()、replace()等。示例：text="Hello,world!"#查找子字符串的位置position=text.find("world")print(position)#输出:7#替换子字符串new_text=text.replace("world","Python")print(new_
ArgoWorkflow教程(三)---使用 Artifacts 实现步骤间文件共享
上一篇我们分析了Workflow、WorkflowTemplate、template之间的关系。本篇主要分析如何在argo-workflow中使用S3存储artifact实现步骤之间的文件共享。本文主要解决两个问题：1）artifact-repository如何配置2）Workflow中如何使用1.artifact-repository配置ArgoWorkflow对接S3实现持久化，依赖于arti
AJAX是如何凭一己之力提高前端程序员的工资水平的？前端程序员ajax
作者：阿达西链接：juejin.cn/post/7395396352183009290emmm，今天无意间听到一个比较奇怪的信息，就是在很早之前，前端工程师只是一个切图崽，而且工资也不是很高。说白了，就是没含金量的工作。因为那时候的Web应用相对简单，主要关注于页面的静态内容和基本的交互。所以前端开发的工作主要集中在HTML、CSS和基础的JavaScript上。但是自从AJAX出现后，前端程序员
ArgoWorkflow 教程(一)--DevOps 另一选择？云原生 CICD 初体验
本文主要记录了如何在k8s上快速部署云原生的工作流引擎ArgoWorkflow。ArgoWorkflow是什么ArgoWorkflows是一个开源的云原生工作流引擎，用于在Kubernetes上编排并行作业。Argo工作流作为KubernetesCRD实现。定义工作流，其中工作流中的每个步骤都是一个容器。将多步骤工作流建模为一系列任务，或使用DAG来捕获任务之间的依赖关系图。使用Argo可以在很短
2024年合肥市科普日小学组市赛第一题题解 GXLZGBCDS 算法 c++
9304：数字加密（encrypt）(1)【问题描述】在信息科技课堂上，小肥正在思考“数字加密”实验项目。项目需要加密n个正整数，对每一个正整数x加密的规则是，将x的每一位数字都替换为x的最大数字。例如，x=2024，最大数字是4，加密后为4444；x=168，最大数字是8，加密后为888。小肥需要计算出n个正整数加密后的总和。【输入】输入的第一行包含一个正整数n，表示需要加密的正整数个数。接下来
Linux Shell 比较数字 + 字符串 + 文件 shell
本文中我们将学习使用if语句在shell脚本中比较数字、字符串和文件。shell脚本中比较的语法如下：if[conditions/comparisons]thencommandsfi例如：if[2-gt3]thenprint"2isgreater"elseprint"2isnotgreater"fiCompareNumbers这是一种最常见的评估方法，即比较两个或多个数字。现在，我们将创建一个用于
jupyter notebook练手项目：线性回归——学习时间与成绩的关系橙意满满的西瓜大侠机器学习 jupyter 线性回归机器学习
线性回归——学习时间与学习成绩的关系第1步：导入工具库pandas——数据分析库，提供了数据结构（如DataFrame和Series）和数据操作方法，方便对数据集进行读取、清洗、转换等操作。matplotlib——绘图库，pyplot提供了一系列简单易用的绘图函数，用于创建各种类型的图表，如折线图、散点图、柱状图等。%matplotlibinline——使matplotlib绘制的图像嵌入在Jup
批量修改pom.xml中的groupId maven3shell
1、需求使用shell脚本批量修改pom.xml文件中的groupId可以通过sed命令来实现。下面是一个示例shell脚本，它会递归地查找当前目录及其子目录中的所有pom.xml文件，并将groupId从org.apache.dolphinscheduler修改为com.datashark2、脚本#!/bin/bash#定义旧的和新的groupIdOLD_GROUP_ID="org.apache
我不是网管 - Shell 脚本中函数的使用 shell
函数是一个可重用的代码块。我们经常把重复的代码放入一个函数中，并从不同的地方调用该函数，库是函数的集合。我们可以在库中定义常用的函数，其他脚本可以使用它们而无需复制代码。Callingfunction在Shell中，调用函数和调用其他命令完全相同。例如，如果你的函数名是my_func，那么它可以像下面这样执行。$my_func如果函数接受参数，则可以从命令行提供这些参数，如下所示：$my_func
Linux-Cgroup V2 初体验
本文主要记录LinuxCgroupV2版本基本使用操作，包括cpu、memory子系统演示。1.开启CgroupV2版本检查通过下面这条命令来查看当前系统使用的CgroupsV1还是V2stat-fc%T/sys/fs/cgroup/如果输出是cgroup2fs那就是V2，就像这样root@tezn:~#stat-fc%T/sys/fs/cgroup/cgroup2fs如果输出是tmpfs那就是V
感觉自己开发或者写代码效率总是不高？哪些有用的小细节总是被你忽略？快来看看你和大佬的差距吧（快捷键篇）猫咪-9527 算法快捷键
️专栏：算法专栏主页：猫咪-9527-CSDN博客“欲穷千里目，更上一层楼。会当凌绝顶，一览众山小。”目录一、VisualStudio调试程序的快捷键二、VisualStudio编辑程序的快捷键三、Windows系统常用快捷键四、提升效率的小技巧在日常的编程与系统操作中，熟悉并灵活运用快捷键是一项极具性价比的提升效率方式。今天，我们整理了一份VisualStudio调试与编辑快捷键以及Window
Shell 重定向：控制数据流向的艺术 shell
在Unix或Linux系统中，我们通常会使用Shell来与操作系统交互。在这个过程中，数据的输入和输出是两个非常基础且重要的操作。理解和掌握输入输出重定向是提高Shell使用效率的关键。本文旨在用简单易懂的语言，为你揭开Shell重定向的神秘面纱。标准的输入与输出在Shell中，默认情况下，程序的输入来源于键盘，输出则显示在屏幕上。这种默认的行为对我们日常的使用来说是非常方便的。但有时候，我们需要
CSS盒子模型的外边距详解平常心cyk css 前端
CSS盒子模型的外边距（margin）是控制元素之间间距的重要属性。以下是与CSS盒子模型外边距相关的所有重要知识点：一、外边距的概念外边距是指盒子边框与其他元素边框之间的空白区域。它用于控制元素之间的距离，从而调整页面布局。二、外边距的设置在CSS中，可以使用margin属性或margin-top、margin-right、margin-bottom和margin-left属性来设置外边距。属性
CSS浮动：概念、特性与应用平常心cyk css 前端
CSS浮动是网页设计和开发中常见的布局技术之一，以下是CSS浮动相关的所有重要知识点：一、浮动的定义与语法浮动（float）属性可以指定一个元素应沿其容器的左侧或右侧放置，允许文本和内联元素环绕它。浮动属性最初只用于在一段文本内浮动图像，实现文字环绕的效果。作用让多个盒子(div)水平排列成一行，使得浮动成为布局的重要手段。可以实现盒子的左右对齐等等。浮动最早是用来控制图片，实现文字环绕图片的效果
认识正则表达式正则表达式
如果初次看正则表达式，一定会被它奇怪的样子吓坏的。比如下面这个表达式(]+>\s*)?]+>(?(1)\s*)其实这个正则表达式不算复杂，基本上使用简单匹配加上嵌入条件。其实很多看起来比较复杂表达式无非式一些方式的组合而已，等你掌握正则表达式这个强大的工具之后，你就会发现，看上去很抽象的表达式变得亲切容易起来。这个文章系列文章主要会设计到以下一些知识点，一般网上查到到无非一些现成的例子，而这些例子
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

在MovieLens 1M数据集上使用深度学习进行评分预测

在MovieLens 1M数据集上使用深度学习进行评分预测

MovieLen 1M数据及简介

电影元数据

用户属性信息

电影评分

数据预处理与网络模型设计

数据预处理

电影题材的multi-hot编码函数

电影数字列表编码函数

数据预处理函数

模型设计

用户特征网络

用户特征网络核心代码

电影特征网络

电影特征网络核心代码

损失层核心代码

实验结果

特征提取与评分预测

特征提取核心代码

评分以及用户、电影相似度计算

下一步工作

你可能感兴趣的:(在MovieLens 1M数据集上使用深度学习进行评分预测)