小胡说人工智能

基于LDA主题+协同过滤+矩阵分解算法的智能电影推荐系统——机器学习算法应用(含python、JavaScript工程源码)+MovieLens数据集（三）

前言
总体设计
- 系统整体结构图
- 系统流程图
运行环境
模块实现
- 1. 数据爬取及处理
- 2. 模型训练及保存
- - 1）协同过滤
  - 2）矩阵分解
  - 3）LDA主题模型
- 3. 接口实现
- - 1）流行电影推荐
  - 2）相邻用户推荐
  - 3）相似内容推荐
相关其它博客
工程源代码下载
其它资料下载

前言

前段时间，博主分享过关于一篇使用协同过滤算法进行智能电影推荐系统的博文《基于TensorFlow+CNN+协同过滤算法的智能电影推荐系统——深度学习算法应用(含微信小程序、ipynb工程源码)+MovieLens数据集》，有读者反映该项目有点复杂，于是我决定再给大家分享个使用机器学习算法简单实现电影推荐的项目。

本项目基于Movielens数据集，采用协同过滤、矩阵分解以及建立LDA主题模型等机器学习算法，旨在设计和训练一个合适的智能电影推荐模型。最终的目标是根据电影的相似性以及用户的历史行为，生成一个个性化的电影推荐列表，从而实现网站为用户提供精准电影推荐的功能。

首先，项目收集了Movielens数据集，其中包含了大量用户对电影的评分和评论。这个数据集提供了有关用户和电影之间互动的信息，是推荐系统的核心数据。

然后，项目使用协同过滤算法，这可以是基于用户的协同过滤（User-Based Collaborative Filtering）或基于item的协同过滤（Item-Based Collaborative Filtering）。这些算法分析用户之间的相似性或电影之间的相似性，以提供个性化推荐。

此外，矩阵分解技术也被应用，用于分解用户-电影交互矩阵，以发现潜在的用户和电影特征。这些特征可以用于更准确地进行推荐。

另外，项目还使用了LDA主题模型，以理解电影的主题和用户的兴趣。这有助于更深入地理解电影和用户之间的关联。

最终，根据电影的相似性和用户的历史行为，系统生成了一个个性化的电影推荐列表。这个列表可以根据用户的兴趣和偏好提供电影推荐，从而提高用户体验。

总结来说，这个项目结合了协同过滤、矩阵分解和主题建模等技术，以实现一个个性化电影推荐系统。这种系统有助于提高用户在网站上的互动和满意度，同时也有助于电影网站提供更精准的内容推荐。

总体设计

本部分包括系统整体结构图和系统流程图。

系统整体结构图

系统整体结构如图所示。

系统流程图

系统流程如图所示。

运行环境

本部分包括 Python 环境、Pycharm 环境及数据库环境。

详见博客。

模块实现

本项目包括5个模块：数据爬取及处理、模型训练及保存、接口实现、收集数据、界面设计。下面分别介绍各模块的功能及相关代码。

1. 数据爬取及处理

详见博客。

2. 模型训练及保存

输入命令构建模型并训练：

python -m Builder.item_similarity_calculator
python -m Builder.matrix_factorization_calculator
python -m Builder.lda_model_calculator

以上三行命令分别代表基于协同过滤、矩阵分解、LDA主题模型。

1）协同过滤

相关代码如下：

import os
from tqdm import tqdm
from datetime import datetime
import pandas as pd
import psycopg2
from scipy.sparse import coo_matrix, csr_matrix
import numpy as np

os.environ.setdefault("DJANGO_SETTINGS_MODULE", "Recs.settings")
import django
django.setup()

from Analytics.models import Rating
from Recs import settings

class ItemSimilarityMatrixBuilder(object):
    def __init__(self, min_overlap=15, min_sim=0.2):
        # 同时对 item1 和 item2 有过评分的最小用户数
        self.min_overlap = min_overlap
        # 最小相似度
        self.min_sim = min_sim
        self.db = settings.DATABASES['default']['ENGINE']

    # ratings 评分数据，save 是否保存到数据库，默认保存
    def build(self, ratings, save=True):
        print("Calculating similarities ... using {} ratings".format(len(ratings))
        start_time = datetime.now()
        print("Creating ratings matrix")
        ratings['rating'] = ratings['rating'].astype(float)
        # 计算每个 user_id 的平均评分，并做归一化处理
        ratings['avg'] = ratings.groupby('user_id')['rating'].transform(lambda x: normalize(x))
        # 把 user_id，movie_id 转为 pandas 的类别，以便去重
        ratings['avg'] = ratings['avg'].astype(float)
        ratings['user_id'] = ratings['user_id'].astype('category')
        ratings['movie_id'] = ratings['movie_id'].astype('category')
        # 构建稀疏评分矩阵，没有评分的数据全部用 0 填充
        coo = coo_matrix((ratings['avg'].astype(float),
            (ratings['movie_id'].cat.codes.copy(),
            ratings['user_id'].cat.codes.copy()))
        # 计算两个 item 间的重叠个数，同时对 item1 和 item2 有过评分的用户数
        print("Calculating overlaps between the items")
        overlap_matrix = coo.astype(bool).astype(int).dot(coo.transpose().astype(bool).astype(int))
        # 重叠部分大于 min_overlap 的 item 数量
        number_of_overlaps = (overlap_matrix > self.min_overlap).count_nonzero()
        print("Overlap matrix leaves {} out of {} with {}".format(number_of_overlaps, overlap_matrix.count_nonzero(), self.min_overlap))
        print("Rating matrix (size {}x{}) finished, in {} seconds".format
            (coo.shape[0], coo.shape[1], datetime.now() - start_time))
        sparsity_level = 1 - (ratings.shape[0] / (coo.shape[0] * coo.shape[1]))
        print("Sparsity level is {}".format(sparsity_level))
        start_time = datetime.now()
        # 初始化一个为 0 的相似度矩阵
        print("Calculating similarity between the items")
        cor = self.calculating_similarity(coo)
        # cor = cosine_similarity(coo, dense_output=False)
        # print(type(cor))
        # print(cor)
        # 相似度大于最小相似度的元素，进行对应位置相乘
        cor = cor.multiply(cor > self.min_sim)
        # 相似度大于最小重叠度的元素，进行对应位置相乘
        cor = cor.multiply(overlap_matrix > self.min_overlap)
        print(cor)
        movies = dict(enumerate(ratings['movie_id'].cat.categories))
        print('Correlation is finished, done in {} seconds'.format(datetime.now() - start_time))
        if save:
            start_time = datetime.now()
            print('save starting')
            if self.db == 'django.db.backends.postgresql':
                self.save_similarity(cor, movies)
            print('save finished, done in {} seconds'.format(datetime.now() - start_time))
        return cor, movies

    # 计算相似度优化算法，从 SKlearn 得到启发
    def calculating_similarity(self, coo):
        # 稀疏矩阵转 Numpy 数组
        data_array = coo.toarray()
        data_array = check_array(data_array)
        # 爱因斯坦求和约定，即对两个矩阵按元素位置对应相乘，按行求和
        norms = np.einsum('ij,ij->i', data_array, data_array)
        np.sqrt(norms, norms)
        norms[norms == 0.0] = 1.0
        data_array /= norms[:, np.newaxis]
        # 运算之后把 numpy 的多维数组或矩阵转为 scipy 的稀疏矩阵进行计算，否则汇报内存溢出
        array_sparse = csr_matrix(data_array)
        sim_matrix = array_sparse @ array_sparse.transpose()
        return sim_matrix

    def save_similarity(self, sim_matrix, index, created=datetime.now()):
        # 设置开始时间
        start_time = datetime.now(
        print('truncating table in {} seconds'.format(datetime.now() - start_time))
        sims = []
        no_saved = 0
        start_time = datetime.now()
        print('instantiation of coo_matrix in {} seconds'.format(datetime.now() - start_time))
        # 计算相似度矩阵
        coo = coo_matrix(sim_matrix)
        csr = coo.tocsr()
        query="insert into similarity (created,source,target,similarity) values %s;"
        conn = self.get_connect()
        cur = conn.cursor()
        cur.execute('truncate table similarity')
        print('{} similarities to save'.format(coo.count_nonzero()))
        # 初始化相似度矩阵
        xs, ys = coo.nonzero()
        for x, y in tqdm(zip(xs, ys), leave=True):
            if x == y:
                continue
            sim = csr[x, y]
            # 寻找相似度最高的用户
            if sim < self.min_sim:
                continue
            if (len(sims)) == 500000:
                psycopg2.extras.execute_values(cur, query, sims)
                sims = []
                print("{} saved in {}".format(no_saved, datetime.now() - start_time))
            # 创建相似度矩阵
            new_similarity = (str(created), index[x], index[y], sim)
            no_saved += 1
            sims.append(new_similarity)
        psycopg2.extras.execute_values(cur, query, sims, template=None, page_size=1000)
        conn.commit()
        print('{} Similarity items saved, done in {} seconds'.format(no_saved, datetime.now() - start_time))

    @staticmethod
    # 获取用户名和密码
    def get_connect():
        if settings.DATABASES['default']['ENGINE'] == 'django.db.backends.postgresql':
            dbUsername = settings.DATABASES['default']['USER']
            dbPassword = settings.DATABASES['default']['PASSWORD']
            dbName = settings.DATABASES['default']['NAME']
            # 用户名和密码校验
            conn_str = "dbname={} user={} password={}".format(dbName, dbUsername, dbPassword)
            conn = psycopg2.connect(conn_str)
            return conn

    # 检查数据类型
    def check_array(array, dtype="numeric", order=None):
        array_orig = array
        dtype_numeric = isinstance(dtype, str) and dtype == "numeric"
        dtype_orig = getattr(array, "dtype", None)
        if dtype_numeric:
            if dtype_orig is not None and dtype_orig.kind == "O":
                # 如果输入为一个对象，转换为浮点型
                dtype = np.float64
            else:
                dtype = None
            if np.may_share_memory(array, array_orig):
                array = np.array(array, dtype=dtype, order=order)
        return array

    # 归一化
    def normalize(x):
        x = x.astype(float)
        x_sum = x.sum()  # 计算 value 的和
        x_num = x.astype(bool).sum()  # 计算大于 0 的元素
        x_mean = 0
        if x_num > 0:
            x_mean = x_sum / x_num  # 计算均值
        if x_num == 1 or x.std() == 0:
            return 0.0
        return (x - x_mean) / (x.max() - x.min())

    # 加载评分数据
    def load_all_ratings(min_ratings=1):
        # 提取相关列的数据
        columns = ['user_id', 'movie_id', 'rating', 'type']
        ratings_data = Rating.objects.filter(user_id__range=(0, 30000)).values(*columns)
        ratings = pd.DataFrame.from_records(ratings_data, columns=columns)
        # 通过 user_id 分类，统计每个 user_id 评分过的 item 数量
        user_count = ratings[['user_id', 'movie_id']].groupby('user_id').count()
        user_count = user_count.reset_index()
        # 取出评分 item 数量超过 min_ratings 的所有 user_id
        user_ids = user_count[user_count['movie_id'] > min_ratings]['user_id']
        # 取出 user_ids 的评分数据记录
        ratings = ratings[ratings['user_id'].isin(user_ids)]
        # 将评分数据转换成 float 类型
        ratings['rating'] = ratings['rating'].astype(float)
        return ratings

def main():
    print("Calculation of item similarity")
    all_ratings = load_all_ratings()
    ItemSimilarityMatrixBuilder().build(all_ratings)

if __name__ == '__main__':
    main()

2）矩阵分解

相关代码如下：

#导入需要的包
import numpy as np
import pandas as pd
import os
import psycopg2
from tqdm import tqdm
from datetime import datetime
from scipy.sparse import coo_matrix
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "Recs.settings")
import django
django.setup()
#导入评分数据
from Analytics.models import Rating
from Recs import settings
class MatrixFactorization(object):
#创建评分矩阵
	def __init__(self, min_sim=0.1):
		self.min_sim = min_sim
		self.db = settings.DATABASES['default']['ENGINE']
	def train(self, c_ui, factors = 50, regularization = 0.01, iterations=15):
		print("calculating Matrix ... using {} ratings".format(len(c_ui)))
		start_time = datetime.now()
		print("Creating ratings matrix")
		c_ui['rating'] = (c_ui['rating'] - c_ui['rating'].min()) / (c_ui['rating'].max() - c_ui['rating'].min())
		c_ui['rating'] = c_ui['rating'].astype(float)
		#计算每个user_id的平均评分，并做归一化处理
		#c_ui['avg'] = c_ui.groupby('user_id')['rating'].transform(lambda x: normalize(x))
		#把user_id， movie_id转为pandas的类别，以便去重
		#c_ui['avg'] = c_ui['avg'].astype(float)
		c_ui['user_id'] = c_ui['user_id'].astype('category')
		c_ui['movie_id'] = c_ui['movie_id'].astype('category')
     #构建稀疏评分矩阵，没有评分的数据全部用0填充
		coo = coo_matrix((c_ui['rating'].astype(float),
		                           (c_ui['movie_id'].cat.codes.copy(),
		                            c_ui['user_id'].cat.codes.copy())))
		users, items = coo.shape
		print("Ratings matrix finished,in{} seconds".format(datetime.now() - start_time))
		start_time = datetime.now()
		print("Calculating ALS....")
		#随机初始化两个隐语义矩阵X,Y
		X = np.random.rand(users, factors) * 0.01
		Y = np.random.rand(items, factors) * 0.01
		cui, ciu = coo.tocsr(), coo.T.tocsr()
		for iteration in range(iterations):
			self.least_squares_cg(cui=cui,X=X,Y=Y, regularization=regularization,)
			self.least_squares_cg(cui=ciu,X=Y,Y=X, regularization=regularization,)
			print("Rating matrix (size {}x{}) finished, in {} seconds".format(coo.shape[0],                                                                          coo.shape[1], datetime.now() - start_time))
			#用户的相似度计算
			sim = np.dot(X, Y.T)
			movies_ = dict(enumerate(c_ui['movie_id'].cat.categories))
			users_ = dict(enumerate(c_ui['user_id'].cat.categories))
			self.save_similarity(sim_matrix=sim, movies=movies_, users=users_)
			#print(sim)
			#self.rmse(coo, sim)
		return X, Y
	#ALS算法/共轭梯度法
	#创建三元组   
	def least_squares_cg(self, cui, X, Y, regularization, cg_steps=3):
	   #用户因子
	   users, factors = X.shape
	   YtY = Y.T.dot(Y) + regularization * np.eye(factors)
	   for u in range(users):
		   #基于用户历史
		   x = X[u]
		   #计算残差r = (YtCuPu - (YtCuY.dot(Xu),并不计算 YtCuY
		   r = -YtY.dot(x)
	   for i, confidence in self.nonzeros(cui, u):
		   r += (confidence - (confidence - 1) * Y[i].dot(x)) * Y[i]
		   p = r.copy()
		   rsold = r.dot(r)
		for it in range(cg_steps): 
		#计算 Ap = YtCuYp -并非实际计算YtCuY
		   Ap = YtY.dot(p)
		   for i, confidence in self.nonzeros(cui, u):
				Ap += (confidence - 1) * Y[i].dot(p) * Y[i]
				#更新CG标准
	            alpha = rsold / p.dot(Ap)
	            x += alpha * p
	            r -= alpha * Ap
	            rsnew = r.dot(r)
	            p = r + (rsnew / rsold) * p
	            rsold = rsnew
	            X[u] = x
    #返回CSR矩阵非零元素的索引和值
    def nonzeros(self, m, row):
        """ returns the non zeroes of a row in csr_matrix """
        for index in range(m.indptr[row], m.indptr[row + 1]):
            yield m.indices[index], m.data[index]
    def rmse(self, coo, sim):
        #取出评分大于0的数据
        start_time = datetime.now()
        print('instantiation of coo_matrix in {} seconds'.format(datetime.now() - start_time))
        csr = coo.tocsr()
        print('Calculating rmse....')
       #计算最小均方误差
        mse = 0.0
        xs, ys = coo.nonzero()
        number = len(coo.data)
        for x, y in tqdm(zip(xs, ys), leave=True):
            y_r = csr[x, y]
            if y_r > 0:
                y_hat = sim[x][y]
                square_error = (y_r - y_hat) ** 2
                mse += square_error
        print('RMSE {}'.format((mse / number) ** 0.5))
	@staticmethod
	#用户连接登录
    def get_connect():
 		if settings.DATABASES['default']['ENGINE']=='django.db.backends.postgresql':
     #获取用户名和密码
            dbUsername = settings.DATABASES['default']['USER']
            dbPassword = settings.DATABASES['default']['PASSWORD']
            dbName = settings.DATABASES['default']['NAME']
     #用户名和密码校验
            conn_str = "dbname={} user={} password={}".format(dbName,
                                                              dbUsername,
                                                              dbPassword)
            conn = psycopg2.connect(conn_str)
        return conn
     #用户相似度的计算和保存
  def save_similarity(self, sim_matrix, movies, users, created=datetime.now()):
        start_time = datetime.now()
  		print('truncating table in {} seconds'.format(datetime.now() - start_time))
        sims = []
        no_saved = 0
        start_time = datetime.now()
        print('instantiation of coo_matrix in {} seconds'.format(datetime.now() - start_time))
        query = "insert into similarity_mf (created, user_id, movie_id, similarity) values %s;"
        conn = self.get_connect()
        cur = conn.cursor()
        cur.execute('truncate table similarity_mf')
        print('{} similarities to save'.format(len(sim_matrix)))
        #用户相似度匹配
        row, column = sim_matrix.shape
        for i in tqdm(range(row)):
            for j in range(column):
                sim = sim_matrix[i][j]
                if sim < self.min_sim:
					continue
				if (len(sims)) == 500000:
					psycopg2.extras.execute_values(cur, query, sims)
					sims = []
					print("{} saved in {}".format(no_saved,datetime.now() - start_time)) 
					#用户评分相似度矩阵创建
					new_similarity = (str(created), users[j], movies[i], sim)
					no_saved += 1
					sims.append(new_similarity)
					psycopg2.extras.execute_values(cur, query, sims, template=None, page_size=1000)
					conn.commit()
					print('{} Similarity items saved, done in {} seconds'.format(no_saved, datetime.now() - start_time))
#获取评分数据
def load_all_ratings(min_ratings=1):
	columns=['user_id','movie_id','rating', 'type', 'rating_timestamp']
	ratings_data = Rating.objects.all().values(*columns)
	ratings = pd.DataFrame.from_records(ratings_data, columns=columns)
	user_count=ratings[['user_id', 'movie_id']].groupby('user_id').count()
	user_count = user_count.reset_index()
	user_ids=user_count[user_count['movie_id']>min_ratings]
	['user_id']
	#获取评分高的相应用户名
	ratings = ratings[ratings['user_id'].isin(user_ids)]
	ratings['rating'] = ratings['rating'].astype(float)
	return ratings
	
if __name__ == '__main__':
	all_ratings = load_all_ratings()
	model = MatrixFactorization(min_sim=0.1)
	X, Y = model.train(c_ui=all_ratings, factors=50, regularization=0.01, iterations=1)

3）LDA主题模型

相关代码如下：

#导入需要的包
import os
from tqdm import tqdm
import psycopg2
from datetime import datetime
from scipy.sparse import coo_matrix
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "Recs.settings")
import django
from Recs import settings
import numpy as np
django.setup()
from nltk.tokenize import RegexpTokenizer
from stop_words import get_stop_words
from gensim import corpora, models, similarities
from  Recommender.models import MovieDecriptions, LdaSimilarity
#建立主题模型
class LdaModel(object):
    def __init__(self, min_sim=0.1):
        self.min_sim = min_sim;
        self.db = settings.DATABASES['default']['ENGINE']
   def train(self, data=None, docs=None):
#数据准备
        if data is None:
            data, docs = load_data()
        NUM_TOPICS = 10
        self.build_lda_model(data, docs, NUM_TOPICS)
    def build_lda_model(self, data, docs, n_topics=5):
	    texts = []
	    # 英文分词
	    tokenizer = RegexpTokenizer(r'\w+')
	    for d in tqdm(data):
	        raw = d.lower()
	        tokens = tokenizer.tokenize(raw)
	        # 去除停用词
	        stop_tokens = self.remove_stopwords(tokens)
	        stemmed_tokens = stop_tokens
	        texts.append(stemmed_tokens)
	    # 构建词典
	    dictionary = corpora.Dictionary(texts)
	    # 生成语料库
	    corpus = [dictionary.doc2bow(text) for text in texts]
	    lda_model = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=n_topics)
	    index = similarities.MatrixSimilarity(corpus)
	    self.save_similarities_with_postgresql(index, docs)
	    return dictionary, texts, lda_model

    @staticmethod
    def remove_stopwords(tokenized_data):
     #去除停用词
        en_stop = get_stop_words('en')
        stop_tokens = [token for token in tokenized_data if token not in en_stop]
        return stop_tokens
#保留相似度
def save_similarities_with_postgresql(self, index, docs, created=datetime.now()):
        start_time = datetime.now()
        print(f'truncating table in {datetime.now() - start_time} seconds')
        sims = []
        no_saved = 0
        start_time = datetime.now()
        #创建稀疏矩阵
        coo = coo_matrix(index)
        csr = coo.tocsr()
        print(f'instantiation of coo_matrix in {datetime.now() - start_time} seconds')
        query = "insert into lda_similarity (created, source, target, similarity) values %s;"
        conn = self.get_conn()
        cur = conn.cursor()
        #cur.execute('drop table lda_similarity')
        #cur.execute('ALTER TABLE lda_similarity ADD COLUMN similarity decimal(8, 7) NOT NULL')
        cur.execute('truncate table lda_similarity')
        print(f'{coo.count_nonzero()} similarities to save')
#相似度对比
        xs, ys = coo.nonzero()
        for x, y in zip(xs, ys):
            if x == y:
                continue
            sim = float(csr[x, y])
            x_id = str(docs[x].movie_id)
            y_id = str(docs[y].movie_id)
                 #取出评分sim数量超过min_sim的所有sim
            if sim < self.min_sim:
                continue
            if len(sims) == 100000:
                psycopg2.extras.execute_values(cur, query, sims)
                sims = []
                print(f"{no_saved} saved in {datetime.now() - start_time}")
            new_similarity = (str(created), x_id, y_id, sim)
            no_saved += 1
            sims.append(new_similarity)
        psycopg2.extras.execute_values(cur, query, sims, template=None, page_size=1000)
        conn.commit()
        print('{} Similarity items saved, done in {} seconds'.format(no_saved, datetime.now() - start_time))
	#获取用户名和密码
    @staticmethod
    def get_conn():
        dbUsername = settings.DATABASES['default']['USER']
        dbPassword = settings.DATABASES['default']['PASSWORD']
        dbName = settings.DATABASES['default']['NAME']
#用户名和密码校验
        conn_str = "dbname={} user={} password={}".format(dbName,
                                                          dbUsername,
                                                          dbPassword)
        conn = psycopg2.connect(conn_str)
        return conn
#获取电影数据
def load_data():
     docs = list(MovieDecriptions.objects.all())
     data = ["{}, {}, {}".format(d.title, d.genres, d.description) for d in docs]
     if len(data) == 0:
         print("No descriptions were found, run populate_sample_of_descriptions")
     return data, docs
if __name__ == '__main__':
    print("Calculating lda model...")
    data, docs = load_data()
    lda = LdaModel()
    lda.train(data, docs)

3. 接口实现

在定义模型架构和训练保存后,电影推荐系统接口实现如下。

1）流行电影推荐

相关代码如下：

#导入需要的包
from decimal import Decimal
from Collector.models import Log
from django.db.models import Count
from django.db.models import Q
from django.db.models import Avg
from Recsmodel.baseModel import baseModel
#流行度推荐
class Popularity(baseModel):
    def predict_score(self, user_id, item_id):
        return None
    def recommend_items(self, user_id, num=6):
        return None
    @staticmethod
#推荐六部流行度最高的电影
    def recommend_items_from_log(num=6):
        items = Log.objects.values('content_id')
        items = items.filter(event='like').annotate(Count("user_id"))
        sorted_items = sorted(items, key=lambda item: -float(item['user_id__count']))
        return sorted_items[:num]

2）相邻用户推荐

相关代码如下：

#导入需要的包
from Recsmodel.baseModel import baseModel
from Analytics.models import Rating
from django.db.models import Q
import time
from decimal import Decimal
from Recommender.models import Similarity
class NeighborhoodRecs(baseModel):
    def __init__(self, neighborhood_size=10, min_sim=0.1):
        #最近邻个数，最小相似度，最大候选集个数
        self.neighborhood_size = neighborhood_size
        self.min_sim = min_sim
        self.max_candidates = 100
    def recommend_items(self, user_id, num=6):
        #取出用户有过的评分信息
        active_user_items = Rating.objects.filter(user_id=user_id).order_by('-rating')[0: self.max_candidates]
        #print(user_id, active_user_items.values())
        return self.recommend_item_by_ratings(active_user_items.values(), num)
     #推荐
    def recommend_item_by_ratings(self, active_user_items, num=6):
        #如果没有评过分的则返回空
        if len(active_user_items) == 0:
            return {}
        #标记时间
        start = time.time()
        movie_ids = {movie['movie_id']: movie['rating'] for movie in active_user_items}
        #用户平均评分
        user_mean = sum(movie_ids.values()) / len(movie_ids)
        candidate_items = Similarity.objects.filter(Q(source__in=movie_ids.keys())& ~Q(target__in=movie_ids.keys())& Q(similarity__gt=self.min_sim))
        #print(candidate_items)
        candidate_items = candidate_items.order_by('-similarity')[:self.max_candidates]
        recs = dict()
        for candidate in candidate_items:
            target = candidate.target
            pre = 0
            sim_sum = 0
            rated_items = [i for i in candidate_items if i.target == target][:self.neighborhood_size]
            #print(rated_items)
            if len(rated_items) > 0:
                for sim_item in rated_items:
                    r = Decimal(movie_ids[sim_item.source] - user_mean)
                    pre += sim_item.similarity * r
                    sim_sum += sim_item.similarity
#取出相似度最高的所有item
      if sim_sum > 0:
     recs[target] = {'prediction': Decimal(user_mean) + pre / sim_sum,
                     'sim_items': [r.source for r in rated_items]}
     #对筛选出来的item进行分类
     sorted_items = sorted(recs.items(), key=lambda item: -float(item[1]['prediction']))[:num]
        return sorted_items
    #评分预测
def predict_score(self, user_id, item_id):
  user_items = Rating.objects.filter(user_id=user_id)
user_items = user_items.exclude(movie_id=item_id).order_by('-rating')[:100]
        movie_ids = {movie.movie_id: movie.rating for movie in user_items}
        return self.predict_score_by_ratings(item_id, movie_ids)
    def predict_score_by_ratings(self, item_id, movie_ids):
        top = Decimal(0.0)
        bottom = Decimal(0.0)
        ids = movie_ids.keys()
        mc = self.max_candidates
#候选电影名单
candidate_items = (Similarity.objects.filter(source__in= ids)
                                             .exclude(source=item_id)
                                             .filter(target=item_id))
candidate_items = candidate_items.distinct().order_by('-similarity')[:mc]
        if len(candidate_items) == 0:
            return 0
        for sim_item in candidate_items:
            r = movie_ids[sim_item.source]
            top += sim_item.similarity * r
            bottom += sim_item.similarity
        return Decimal(top/bottom)

3）相似内容推荐

相关代码如下：

#导入需要的包
from decimal import Decimal
from django.db.models import Q
from Analytics.models import Rating
from Recommender.models import MovieDecriptions,LdaSimilarity
from Recsmodel.baseModel import baseModel
#建立基本推荐模型
class ContentBasedRecs(baseModel):
    def __init__(self, min_sim= 0.1):
        self.min_sim = min_sim
        self.max_candidates = 100
#基于用户内容的协同过滤
    def recommend_items(self, user_id, num=6):
active_user_items = Rating.objects.filter(user_id=user_id).order_by('-rating')[:100]
return self.recommend_items_by_ratings(user_id, active_user_items.values(), num)
    def recommend_items_by_ratings(self,user_id,active_user_items,num=6):
        if len(active_user_items) == 0:
            return {}
        movie_ids = {movie['movie_id']: movie['rating'] for movie in active_user_items}
        user_mean = sum(movie_ids.values()) / len(movie_ids)
#计算用户内容的相似度
        sims =LdaSimilarity.objects.filter(Q(source__in=movie_ids.keys())
                                        &~Q(target__in=movie_ids.keys())
                                        &Q(similarity__gt=self.min_sim))
        print(active_user_items)
        sims = sims.order_by('-similarity')[:self.max_candidates]
        recs = dict()
        targets = set(s.target for s in sims if not s.target == '')
        for target in targets:
            pre = 0
            sim_sum = 0
            rated_items = [i for i in sims if i.target == target]
            if len(rated_items) > 0:
                for sim_item in rated_items:
                    r = Decimal(movie_ids[sim_item.source] - user_mean)
                    pre += sim_item.similarity * r
                    sim_sum += sim_item.similarity
                    if sim_sum > 0:
        recs[target] = {'prediction': Decimal(user_mean) + pre / sim_sum,
                                'sim_items': [r.source for r in rated_items]}
        return sorted(recs.items(), key=lambda item: -float(item[1]['prediction']))[:num]
    def predict_score(self, user_id, item_id):
        return None

工程源代码下载

详见本人博客资源下载页

其它资料下载

如果大家想继续了解人工智能相关学习路线和知识体系，欢迎大家翻阅我的另外一篇博客《重磅 | 完备的人工智能AI 学习——基础知识学习路线，所有资料免关注免套路直接网盘下载》
这篇博客参考了Github知名开源平台，AI技术平台以及相关领域专家：Datawhale，ApacheCN，AI有道和黄海广博士等约有近100G相关资料，希望能帮助到所有小伙伴们。

你可能感兴趣的:(机器学习,推荐系统,学习路线,机器学习,python,javascript,html,django,人工智能,协同过滤)

对象的本质：OOP编程核心揭秘止观止计算机科学 OOP 面对对象编程
引言面向对象编程（OOP）革命性地重塑了软件开发，其核心在于“对象”——一种模拟现实实体的计算模型。对象不仅是数据容器，更是封装了状态和行为的自治单元，使程序从指令序列转变为交互网络。通过本解析，我们将层层递进，揭示对象在OOP中的根本角色：从定义延伸到设计实践，帮助读者跨越语言差异（如Java、Python或C++），掌握这一范式的精髓。章节构建遵循技术演进：先解剖对象本质，再关联OOP支柱，最
《前端基础核心知识笔记：HTML、CSS、JavaScript 及 BOM/DOM》萌新小白的逆袭前端笔记 html javascript
html前端三剑客的介绍：HTML:页面内容的载体Css：用来美化和指定页面的显示效果JavaScript：页面显示的过程中，可以动态改变页面的内容重点属性type="text"文本输入type="password"密码输入SerlvertC超链接type="radio"value="值"单选框type="checkbox"value="值"多选框在作用设置编码格式 action是跳转的界面met
一文讲透HTML语义化标签
文章目录语义化标签概述HTML标签及其含义常见HTML5语义化标签语义化标签对搜索引擎（SEO）的影响提升搜索引擎排名增强可访问性改善用户体验语义化标签案例各标签作用说明语义化标签概述HTML语义化是指使用恰当的标签来准确表达内容的结构和含义，使网页不仅对人类开发者可读，也能被搜索引擎、辅助技术等更好地理解和处理。例如，用表示页眉，表示独立内容区块，提升页面可访问性和SEO效果。HTML标签及其含
Prompt：开启与AI高效对话的钥匙
解密Prompt：开启与AI高效对话的钥匙一、什么是Prompt？——AI的“使用说明书”想象一下，你正在指挥一位无所不知但毫无主动性的“实习生”——人工智能（AI）。你不能指望它“心领神会”，你必须给出清晰、具体的指令，它才能准确地完成你想要的任务。这个指令，就是Prompt（提示或提示词）。简单来说，Prompt是你向AI（如大型语言模型LLM）发出的文本或问题，用以引导它生成特定的、高质量的
python怎么打印 _python大神_ python python
python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？py
CSS面试题及详细答案140道之（101-120）还是大剑师兰特前后端面试题 css 大剑师 CSS面试题
《前后端面试题》专栏集合了前后端各个知识模块的面试题，包括html，javascript，css，vue，react，java，Openlayers，leaflet，cesium，mapboxGL，threejs，nodejs，mangoDB，MySQL，Linux…。前后端面试题-专栏总目录文章目录一、本文面试题目录101.解释`text-indent`属性的作用。102.如何在CSS中实现响应
报错解决：/usr/bin/python^M: bad interpreter: No such file or directory KimmyDs linux 运维服务器
报错问题分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh.py文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。一般是因为windows行结尾和linux行结尾标识不同造成的。问题解决：1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具先将脚本编码转换，再放到Linux中执行。转换方式如下（UltraEdit）：File-->
web前端入门到实战：CSS实现8种炫酷按钮大前端世界
今天给大家分享8种炫酷按钮的CSS实现。1.3D按钮1现在的主流是扁平化的设计，拟物化的设计比较少见了，所以我们仅从技术角度去分析如何实现这个3D按钮该按钮的立体效果主要由按钮多出的左、下两个侧面衬托出来，我们可以使用box-shadow模拟出这两个侧面：HTML：3DButton1CSS:.button-3d-1{position:relative;background:orangered;bo
Python 高手编程系列三千三百五十四：你自己的包索引或索引镜像杨琴1 python java 网络
你可能会想要运行你自己的Python包索引，主要有以下3个原因。●官方的Python包索引没有任何可用性保证。它由Python软件基金会运行，这要感谢大量的捐款。因此，它往往意味着网站可能会倒闭。你不希望由于PyPI的故障而中途停止部署或打包过程。●即使是不会公开发布的闭源代码，将Python编写的可复用组件正确打包也很有用。它简化了代码库，因为公司内用于不同项目的包不需要供应（vendored）
DAY3——PYTHON——复合类型之序列类型、映射类型和集合类型总结 .venn PYTHON学习 python 复合类型可变序列
序列类型序列类型是元素有序排列的数据结构，可通过索引访问元素。有三种基本序列类型：list,tuple和range对象；列表是可变的，支持增删改操作；元组是不可变的，创建后不能修改；列表（List）概念List（列表）是Python中一种有序、可变的数据结构，可以存储不同类型的元素。列表用方括号[]表示，元素之间用逗号分隔。my_list=[1,"apple",3.14,True]创建List列表
如何区别HTML和HTML5？代码的余温 html html5 前端
要区分HTML（通常指HTML4及更早版本）和HTML5，主要可以从以下关键方面进行比较：一、文档声明区别二、语义化标签对比用途HTML4标签HTML5新标签头部区域导航栏内容区块独立文章侧边栏页脚主要内容区✅HTML5通过语义化标签取代了泛滥的，提升可读性和SEO三、多媒体支持差异四、图形技术演进constctx=document.getElementById('myCanvas').getCo
Python 高手编程系列三千三百五十三：十二要素应用
无痛部署的主要要求是确保构建应用的过程尽可能简单和流畅。这主要是清除障碍并鼓励成熟的做法。在有些组织中，只有特定的人负责开发（开发团队，Dev），而不同的人负责部署和维护执行环境（运营团队，Ops），那么遵守这些常见做法就特别重要。与服务器维护、监控、部署、配置等相关的所有任务都统称为运营（operations）。即使在某些组织中没有单独的运营团队，通常也只有一部分开发人员被授权执行部署任务并维护
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
AI人工智能中Actor - Critic算法的深入解析与应用场景 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
AI人工智能领域多模态大模型的发展历程回顾 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
AI人工智能领域多模态大模型的发展历程回顾关键词：AI人工智能、多模态大模型、发展历程、技术演变、应用场景摘要：本文旨在全面回顾AI人工智能领域多模态大模型的发展历程。通过对不同阶段核心概念、算法原理、数学模型等方面的深入剖析，结合实际项目案例，探讨其在各个领域的应用场景。同时，推荐相关的学习资源、开发工具和重要论文著作，最后总结多模态大模型的未来发展趋势与挑战，并对常见问题进行解答。1.背景介绍
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
如何用深度学习实现图像风格迁移
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
python安装火山引擎volcengine-python-sdk环境遇到的问题
安装环境的时候遇到安装volcengine-python-sdk(setup.py)报错Buildingwheelforvolcengine-python-sdk(setup.py)...errorerror:subprocess-exited-with-error×pythonsetup.pybdist_wheeldidnotrunsuccessfully.│exitcode:1╰─>[3791
ROS2 视频采集节点实现 ZPC8210 ROS 音视频
一个完整的ROS2视频采集节点的实现，使用OpenCV进行视频捕获并通过ROS2发布图像消息。1.创建功能包首先创建一个新的ROS2功能包（如果还没有）：bashros2pkgcreatevideo_capture--build-typeament_python--dependenciesrclpysensor_msgscv_bridgeopencv-python2.实现视频采集节点在video_
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
Actor - Critic：AI人工智能领域的新宠儿
Actor-Critic：AI人工智能领域的新宠儿关键词：强化学习、Actor-Critic、策略梯度、价值函数、深度强化学习、A2C、A3C摘要：Actor-Critic是强化学习领域的一种重要算法框架，它结合了策略梯度方法和价值函数方法的优点，成为近年来人工智能领域的热门研究方向。本文将用通俗易懂的方式介绍Actor-Critic的核心概念、工作原理、实现方法以及实际应用，帮助读者理解这一强大
知识表示与推理：AI智能的核心技术 AIGC应用创新大全人工智能 easyui 前端 ai
知识表示与推理：AI智能的核心技术1.引入与连接：AI如何"思考"世界？想象一下，当你询问智能助手："我明天需要带伞吗？"它如何得出答案？它需要理解"带伞"与"天气"的关系，需要获取天气预报信息，需要推断明天的天气状况，最终综合这些"知识"给出建议。这一看似简单的过程，背后正是AI的核心能力：知识表示（如何"记住"信息）和推理（如何"思考"问题）。从Siri到AlphaGo，从推荐系统到自动驾驶，
深度优先搜索(DFS) vs 广度优先搜索(BFS)：核心区别与应用场景
#深度优先搜索(DFS)vs广度优先搜索(BFS)：核心区别与应用场景>关键词：深度优先搜索、广度优先搜索、图遍历、算法比较、应用场景>摘要：本文通过迷宫探险和消防灭火的生动比喻，揭示DFS与BFS的核心原理。结合Python代码示例和图解说明，深入解析两种算法的实现差异，并通过社交网络分析等实际案例展示它们的应用场景选择依据。##背景介绍###目的和范围本指南旨在帮助读者理解两种基础图遍历算法的
数据结构与算法里散列表的算法优化技巧数据结构与算法学习散列表算法数据结构 ai
数据结构与算法里散列表的算法优化技巧关键词：散列表、哈希冲突、负载因子、开放寻址法、链地址法、动态扩容、哈希函数优化摘要：本文将深入探讨散列表的核心原理与优化技巧，通过图书馆管理员的比喻揭示哈希冲突的本质，结合Python代码演示动态扩容策略与哈希函数优化方法，最后通过实际案例展示如何将查询速度提升300%。文章包含5个可视化流程图和3个完整代码实现。背景介绍目的和范围本文面向已掌握基础数据结构知
探索AI人工智能中遗传算法的进化奥秘 AI学长带你学AI 人工智能 ai
探索AI人工智能中遗传算法的进化奥秘关键词：遗传算法、自然选择、基因编码、适应度函数、群体进化、交叉变异、优化问题摘要：本文将用生物进化视角解读人工智能中的遗传算法原理。通过达尔文进化论的生活化比喻，结合Python代码实例演示如何模拟基因遗传、自然选择等过程，揭示遗传算法在路径规划、参数优化等场景的应用奥秘。最后探讨遗传算法的局限性与未来发展方向。背景介绍目的和范围本文旨在用通俗易懂的方式解析遗
深度剖析AI人工智能领域多模态大模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
深度剖析AI人工智能领域多模态大模型关键词：AI人工智能、多模态大模型、模型架构、算法原理、应用场景摘要：本文旨在对AI人工智能领域的多模态大模型进行深度剖析。首先介绍多模态大模型的背景知识，包括目的、预期读者等。接着阐述核心概念，分析其架构和原理，并给出相应的流程图。通过Python代码详细讲解核心算法原理和具体操作步骤，同时用数学模型和公式进一步阐释。在项目实战部分，给出实际案例及详细代码解读
Open AI在AI人工智能领域的创新之路 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
OpenAI在AI人工智能领域的创新之路关键词：OpenAI、人工智能、创新之路、技术突破、应用场景摘要：本文深入探讨了OpenAI在AI人工智能领域的创新之路。首先介绍了OpenAI的背景信息，包括其成立目的、发展历程等。接着详细阐述了OpenAI的核心概念，如强化学习、生成式对抗网络等，并通过示意图和流程图展示其原理和架构。然后讲解了相关核心算法原理，结合Python代码进行具体说明。同时，给
探索AI人工智能领域Actor - Critic的无限潜力
探索AI人工智能领域Actor-Critic的无限潜力关键词：AI人工智能、Actor-Critic、强化学习、策略网络、价值网络摘要：本文将深入探索AI人工智能领域中Actor-Critic方法的无限潜力。我们会先介绍其背景知识，接着用通俗易懂的方式解释核心概念，包括Actor和Critic的含义及它们之间的关系，然后阐述其核心算法原理和具体操作步骤，还会给出数学模型和公式并举例说明。通过项目实
AI人工智能领域多模态大模型的技术瓶颈与解决方案 AI学长带你学AI 人工智能 ai
AI人工智能领域多模态大模型的技术瓶颈与解决方案关键词：多模态大模型、技术瓶颈、跨模态对齐、计算效率、数据稀缺、模型泛化、解决方案摘要：本文深入探讨了AI人工智能领域多模态大模型发展过程中面临的主要技术瓶颈，包括跨模态对齐困难、计算资源消耗巨大、高质量多模态数据稀缺、模型泛化能力不足等问题。针对这些挑战，我们提出了系统性的解决方案，涵盖算法优化、架构创新、数据增强等多个维度。文章通过理论分析、数学
Python爬虫实战：研究psd-tools库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 psd-tools
一、引言1.1研究背景AdobePhotoshop是目前最流行的图像处理软件之一，其原生文件格式PSD（PhotoshopDocument）包含了丰富的图像信息和编辑历史。PSD文件不仅在设计领域广泛使用，还在数字营销、版权保护和安全分析等领域具有重要价值。然而，手动分析大量PSD文件是一项繁琐且耗时的工作，因此开发自动化的PSD文件分析工具具有重要的现实意义。1.2研究目的本文旨在开发一个基于P
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

基于LDA主题+协同过滤+矩阵分解算法的智能电影推荐系统——机器学习算法应用(含python、JavaScript工程源码)+MovieLens数据集（三）

目录

前言

总体设计

系统整体结构图

系统流程图

运行环境

模块实现

1. 数据爬取及处理

2. 模型训练及保存

1）协同过滤

2）矩阵分解

3）LDA主题模型

3. 接口实现

1）流行电影推荐

2）相邻用户推荐

3）相似内容推荐

相关其它博客

工程源代码下载

其它资料下载

你可能感兴趣的:(机器学习,推荐系统,学习路线,机器学习,python,javascript,html,django,人工智能,协同过滤)