bllddee

推荐系统初学者系列（7）-- Surprise库做Top-K推荐

七月在线视频推荐：
七月在线

上一篇：推荐系统初学者系列（6）-- TSNE
下一篇：推荐系统初学者系列（8）-- Graph Embedding（网络嵌入表示）做Top-K推荐

引言：

为什么工业界不用优化评分预测而转为优化排序列表啦？

推荐主要做的一件事情是主动帮助用户找到他最需要的信息，如何来做这个事情，一般就转化为一个优化问题。对于Netflix类似的电影推荐，由于许多用户看完一个电影以后都会对电影评分来表达自己对电影的满意程度。推荐这个优化问题一般都会选择一个损失函数，在这里损失函数就选择预测评分与实际评分的平均平方差的根（RMSE），来预测如果给用户推荐这部电影，用户的满意程度如何。但是这里边其实存在一个gap，用户其实希望看到的是从最满意到最不满意的一个排序（最满意的N个就是著名的topN了）。在很多情况下，RMSE下降了，但是topN排序并没有变好，甚至变差，这就是推荐的目标和损失函数不一致。
评分预测关注的主要是分数，既预测的分数和真实分数的误差尽可能小；而TopN推荐侧重于推荐N个和用户喜好相似的物品列。亚马逊科学家的观点在于：TopN推荐更符合实际的需求。例如：将一部你喜欢的电影（真实打分为 4.5 分）预测为一般般（预测打分为 3.5 分）和将一部你觉得一般般的电影（真实打分为 3.5 分）预测为非常一般（预测打分为 2.5 分），对于用户来说，前者显得更糟糕。擅长对所有电影进行预测评分的推荐引擎并不一定能很好的预测排名靠前的 N 部电影。
2017年3月份的一则新闻：Goodbye Stars, Hello Thumbs Up: Netflix Unveils New Rating System NETFLIX公司宣布不再使用五个星星的评分制度，改用点赞模式。喜欢/不喜欢二分类，并宣布从四月份开始实施生效。

关于非负矩阵分解更多内容看这里–非负矩阵分解NMF

利用surprise库中的SVD、NMF、ItemKNN等算法训练模型预测


def main():
    rec = 'SVD'
    threshold = 4
    topK = 10
    test_data_path = 'E:/Workspace/PyCharm/BiNE-master/data/1m/ratings_test.dat'
    # First train an SVD algorithm on the movielens dataset.
    print("load data...")
    # data = Dataset.load_builtin('ml-1m')
    # test set is made of 40% of the ratings.
    test_size = 0.4
    # trainset, testset = train_test_split(data, test_size=test_size)

    # path to dataset file
    file_path = os.path.expanduser('E:/Workspace/PyCharm/BiNE-master/data/1m/ratings_train.dat')
    reader = Reader(line_format='user item rating', sep='\t')
    data = Dataset.load_from_file(file_path, reader=reader)
    trainset = data.build_full_trainset()

    test_user, test_item, test_rate = read_data(test_data_path)
    print("test size %.1f..." % test_size)
    print("training...")

    sim_options = {'name': 'cosine',

                   'user_based': False  # compute  similarities between items
                   }
    if rec == 'NMF':
        algo = NMF()
    elif rec == 'SVD':
        algo = SVD()
        name = ['SVD']
    else:
        algo = KNNBaseline(sim_options=sim_options)
        name = ['ItemKNN']

    train_start = time.time()
    algo.fit(trainset)
    train_end = time.time()
    print('train time:%.1f s' % (train_end - train_start))

    # Than predict ratings for all pairs (u, i) that are NOT in the training set.
    # testset = trainset.build_anti_testset()
    # predictions = algo.test(testset)
    test_end = time.time()
    print('test time:%.1f s' % (test_end - train_end))

    # top_n_est, true_ratings = get_top_n(predictions, n=10, threshold = threshold)

    f1, map, mrr, mndcg = evaluate_model_new(algo, test_user, test_item, test_rate, topK)
    eval_end = time.time()
    print('evaluate time:%.1f s' % (eval_end - test_end))
    print("algorithm : %s" % rec)
    print('recommendation metrics: F1 : %0.4f, NDCG : %0.4f, MAP : %0.4f, MRR : %0.4f' % (f1, mndcg, map, mrr))

    '''
    # Print the recommended items for each user
    for uid, user_ratings in top_n_est.items():
        print(uid, [iid for (iid, _) in user_ratings])
    print("#" * 150)
    for uid, user_ratings in top_n_true.items():
        print(uid, [iid for (iid, _) in user_ratings])
    '''

根据获得的top-K，对四个指标进行评价

def evaluate_model_new(model, test_user, test_item, test_rate, top_n):
    recommend_dict = {}
    for u in test_user:
        recommend_dict[u] = {}
        for i in test_item:
            pred = model.predict(str(u), str(i), r_ui=4)
            est_str = '{est:1.4f}'.format(est=pred.est)
            recommend_dict[u][i] = float(est_str)

    precision_list = []
    recall_list = []
    ap_list = []
    ndcg_list = []
    rr_list = []

    for u in test_user:
        tmp_r = sorted(recommend_dict[u].items(), key = lambda x:x[1], reverse=True)[
                0:min(len(recommend_dict[u]), top_n)]
        tmp_t = sorted(test_rate[u].items(), key = lambda x:x[1], reverse=True)[
                0:min(len(test_rate[u]), len(test_rate[u]))]
        tmp_r_list = []
        tmp_t_list = []
        for (item, rate) in tmp_r:
            tmp_r_list.append(item)

        for (item, rate) in tmp_t:
            tmp_t_list.append(item)
        print(tmp_r_list, "-->", tmp_t_list)

        pre, rec = precision_and_racall(tmp_r_list, tmp_t_list)
        ap = AP(tmp_r_list, tmp_t_list)
        rr = RR(tmp_r_list, tmp_t_list)
        ndcg = nDCG(tmp_r_list, tmp_t_list)
        precision_list.append(pre)
        recall_list.append(rec)
        ap_list.append(ap)
        rr_list.append(rr)
        ndcg_list.append(ndcg)
    precison = sum(precision_list) / len(precision_list)
    recall = sum(recall_list) / len(recall_list)
    # print(precison, recall)
    f1 = 2 * precison * recall / (precison + recall)
    map = sum(ap_list) / len(ap_list)
    mrr = sum(rr_list) / len(rr_list)
    mndcg = sum(ndcg_list) / len(ndcg_list)
    return f1, map, mrr, mndcg

度量指标–F1，NDCG， MAP， MRR


def nDCG(ranked_list, ground_truth):
    dcg = 0
    idcg = IDCG(len(ground_truth))
    for i in range(len(ranked_list)):
        id = ranked_list[i]
        if id not in ground_truth:
            continue
        rank = i + 1
        dcg += 1 / math.log(rank + 1, 2)
    return dcg / idcg


def IDCG(n):
    idcg = 0
    for i in range(n):
        idcg += 1 / math.log(i + 2, 2)
    return idcg


def AP(ranked_list, ground_truth):
    hits, sum_precs = 0, 0.0
    for i in range(len(ranked_list)):
        id = ranked_list[i]
        if id in ground_truth:
            hits += 1
            sum_precs += hits / (i + 1.0)
    if hits > 0:
        return sum_precs / len(ground_truth)
    else:
        return 0.0


def RR(ranked_list, ground_list):
    for i in range(len(ranked_list)):
        id = ranked_list[i]
        if id in ground_list:
            return 1 / (i + 1.0)
    return 0


def precision_and_racall(ranked_list, ground_list):
    hits = 0
    for i in range(len(ranked_list)):
        id = ranked_list[i]
        if id in ground_list:
            hits += 1
    pre = hits / (1.0 * len(ranked_list))
    rec = hits / (1.0 * len(ground_list))
    return pre, rec

整体代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
__author__ = 'LDD'

import sys
import numpy as np
import time
import random
import math
import os
from surprise.model_selection import KFold
from surprise import accuracy, KNNBasic, Reader
from collections import defaultdict
from surprise import SVD
from surprise import Dataset
from surprise.model_selection import cross_validate
from surprise.model_selection import train_test_split
from surprise import NMF, KNNBaseline


def get_top_n(predictions, n=10, threshold = 3.5):
    '''Return the top-N recommendation for each user from a set of predictions.

    Args:
        predictions(list of Prediction objects): The list of predictions, as
            returned by the test method of an algorithm.
        n(int): The number of recommendation to output for each user. Default
            is 10.

    Returns:
    A dict where keys are user (raw) ids and values are lists of tuples:
        [(raw item id, rating estimation), ...] of size n.
    '''

    # First map the predictions to each user.
    top_n_est = defaultdict(list)
    true_ratings = defaultdict(list)
    for uid, iid, true_r, est, _ in predictions:
        top_n_est[uid].append((iid, est))
        true_ratings[uid].append((iid, true_r))

    # Then sort the predictions for each user and retrieve the k highest ones.
    for uid, user_ratings in top_n_est.items():
        user_ratings.sort(key=lambda x: x[1], reverse=True)
        user_ratings = [x for x in user_ratings if x[1] > threshold]
        top_n_est[uid] = user_ratings[:n]       # top n
        # add 0 if less than n
        est_len = len(top_n_est[uid])
        if est_len < n:
            for i in range(est_len, n):
                top_n_est[uid].append(('0', 0)) # append 0 if not enough
    # Then sort the true ratings for each user and retrieve the k highest ones.
    for uid, user_ratings in true_ratings.items():
        user_ratings.sort(key=lambda x: x[1], reverse=True)
        true_ratings[uid] = [x for x in user_ratings if x[1] > threshold]          # len

    return top_n_est, true_ratings


def nDCG(ranked_list, ground_truth):
    dcg = 0
    idcg = IDCG(len(ground_truth))
    for i in range(len(ranked_list)):
        id = ranked_list[i]
        if id not in ground_truth:
            continue
        rank = i + 1
        dcg += 1 / math.log(rank + 1, 2)
    return dcg / idcg if idcg != 0 else 0


def IDCG(n):
    idcg = 0
    for i in range(n):
        idcg += 1 / math.log(i + 2, 2)
    return idcg


def AP(ranked_list, ground_truth):
    hits, sum_precs = 0, 0.0
    for i in range(len(ranked_list)):
        id = ranked_list[i]
        if id in ground_truth:
            hits += 1
            sum_precs += hits / (i + 1.0)
    if hits > 0:
        return sum_precs / len(ground_truth)
    else:
        return 0.0


def RR(ranked_list, ground_list):
    for i in range(len(ranked_list)):
        id = ranked_list[i]
        if id in ground_list:
            return 1 / (i + 1.0)
    return 0


def precision_and_racall(ranked_list, ground_list):
    hits = 0
    for i in range(len(ranked_list)):
        id = ranked_list[i]
        if id in ground_list:
            hits += 1
    pre = hits / (1.0 * len(ranked_list) if len(ground_list) != 0 else 1)
    rec = hits / (1.0 * len(ground_list) if len(ground_list) != 0 else 1)
    return pre, rec


def evaluate(top_n_est, true_ratings):
    precision_list = []
    recall_list = []
    ap_list = []
    ndcg_list = []
    rr_list = []

    for u, user_ratings in top_n_est.items():
        tmp_r = top_n_est.get(u)  # [('302', 4.2889227920390836), ('258', 3.9492992642799027)]
        tmp_t = true_ratings.get(u)
        tmp_r_list = []
        tmp_t_list = []
        for (item, rate) in tmp_r:
            tmp_r_list.append(item)

        for (item, rate) in tmp_t:
            tmp_t_list.append(item)
        print(tmp_r_list, "-->", tmp_t_list)

        pre, rec = precision_and_racall(tmp_r_list, tmp_t_list)
        ap = AP(tmp_r_list, tmp_t_list)
        rr = RR(tmp_r_list, tmp_t_list)
        ndcg = nDCG(tmp_r_list, tmp_t_list)
        precision_list.append(pre)
        recall_list.append(rec)
        ap_list.append(ap)
        rr_list.append(rr)
        ndcg_list.append(ndcg)
    precison = sum(precision_list) / len(precision_list)
    recall = sum(recall_list) / len(recall_list)
    f1 = 2 * precison * recall / (precison + recall)
    map = sum(ap_list) / len(ap_list)
    mrr = sum(rr_list) / len(rr_list)
    mndcg = sum(ndcg_list) / len(ndcg_list)
    return f1, map, mrr, mndcg


def evaluate_model_new(model, test_user, test_item, test_rate, top_n):
    recommend_dict = {}
    for u in test_user:
        recommend_dict[u] = {}
        for i in test_item:
            pred = model.predict(str(u), str(i), r_ui=4)
            est_str = '{est:1.4f}'.format(est=pred.est)
            recommend_dict[u][i] = float(est_str)

    precision_list = []
    recall_list = []
    ap_list = []
    ndcg_list = []
    rr_list = []

    for u in test_user:
        tmp_r = sorted(recommend_dict[u].items(), key = lambda x:x[1], reverse=True)[
                0:min(len(recommend_dict[u]), top_n)]
        tmp_t = sorted(test_rate[u].items(), key = lambda x:x[1], reverse=True)[
                0:min(len(test_rate[u]), len(test_rate[u]))]
        tmp_r_list = []
        tmp_t_list = []
        for (item, rate) in tmp_r:
            tmp_r_list.append(item)

        for (item, rate) in tmp_t:
            tmp_t_list.append(item)
        print(tmp_r_list, "-->", tmp_t_list)

        pre, rec = precision_and_racall(tmp_r_list, tmp_t_list)
        ap = AP(tmp_r_list, tmp_t_list)
        rr = RR(tmp_r_list, tmp_t_list)
        ndcg = nDCG(tmp_r_list, tmp_t_list)
        precision_list.append(pre)
        recall_list.append(rec)
        ap_list.append(ap)
        rr_list.append(rr)
        ndcg_list.append(ndcg)
    precison = sum(precision_list) / len(precision_list)
    recall = sum(recall_list) / len(recall_list)
    # print(precison, recall)
    f1 = 2 * precison * recall / (precison + recall)
    map = sum(ap_list) / len(ap_list)
    mrr = sum(rr_list) / len(rr_list)
    mndcg = sum(ndcg_list) / len(ndcg_list)
    return f1, map, mrr, mndcg


def read_data(filename):
    users, items, rates = set(), set(), {}
    with open(filename, "r") as fin:
        line = fin.readline()
        while line:
            user, item, rate = line.strip().split()
            if rates.get(user) is None:
                rates[user] = {}
            rates[user][item] = float(rate)
            users.add(user)
            items.add(item)
            line = fin.readline()
    return users, items, rates


def main():
    rec = 'SVD'
    threshold = 4
    topK = 10
    test_data_path = 'E:/Workspace/PyCharm/BiNE-master/data/1m/ratings_test.dat'
    # First train an SVD algorithm on the movielens dataset.
    print("load data...")
    # data = Dataset.load_builtin('ml-1m')
    # test set is made of 40% of the ratings.
    test_size = 0.4
    # trainset, testset = train_test_split(data, test_size=test_size)

    # path to dataset file
    file_path = os.path.expanduser('E:/Workspace/PyCharm/BiNE-master/data/1m/ratings_train.dat')
    reader = Reader(line_format='user item rating', sep='\t')
    data = Dataset.load_from_file(file_path, reader=reader)
    trainset = data.build_full_trainset()

    test_user, test_item, test_rate = read_data(test_data_path)
    print("test size %.1f..." % test_size)
    print("training...")

    sim_options = {'name': 'cosine',

                   'user_based': False  # compute  similarities between items
                   }
    if rec == 'NMF':
        algo = NMF()
    elif rec == 'SVD':
        algo = SVD()
        name = ['SVD']
    else:
        algo = KNNBaseline(sim_options=sim_options)
        name = ['ItemKNN']

    train_start = time.time()
    algo.fit(trainset)
    train_end = time.time()
    print('train time:%.1f s' % (train_end - train_start))

    # Than predict ratings for all pairs (u, i) that are NOT in the training set.
    # testset = trainset.build_anti_testset()
    # predictions = algo.test(testset)
    test_end = time.time()
    print('test time:%.1f s' % (test_end - train_end))

    # top_n_est, true_ratings = get_top_n(predictions, n=10, threshold = threshold)

    f1, map, mrr, mndcg = evaluate_model_new(algo, test_user, test_item, test_rate, topK)
    eval_end = time.time()
    print('evaluate time:%.1f s' % (eval_end - test_end))
    print("algorithm : %s" % rec)
    print('recommendation metrics: F1 : %0.4f, NDCG : %0.4f, MAP : %0.4f, MRR : %0.4f' % (f1, mndcg, map, mrr))

    '''
    # Print the recommended items for each user
    for uid, user_ratings in top_n_est.items():
        print(uid, [iid for (iid, _) in user_ratings])
    print("#" * 150)
    for uid, user_ratings in top_n_true.items():
        print(uid, [iid for (iid, _) in user_ratings])
    '''


if __name__ == "__main__":
    sys.exit(main())

Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
Neo4j 的向量搜索（Neo4jVector）和常见的向量数据库（比如 Milvus、Qdrant）之间的区别与联系
先说联系（共同点）点内容✅都支持向量检索都可以基于embedding（向量）做相似度搜索，比如给一段文本、找出最相似的若干条记录。✅都用于语义检索你可以把它们用在RAG（检索增强生成）、ChatwithDocs、智能问答、推荐系统等应用里。✅都支持批量插入、查询都可以批量向数据库中插入文本+向量，然后用向量做top-k检索（如search(k=8)）。✅都和LangChain集成它们都可以通过la
推荐算法（推广搜）——广告和推荐有什么不同？
导语近几年新兴起一个行业：推广搜。即推荐、广告、搜索算法的简称。各大厂都隐隐将其作为公司核心技术来发展。此文将带领大家探秘广告和推荐有什么区别以及其相似处。再此强调一下，广告算法里面的推荐广告和自然推荐结果里的推荐系统进行对比，但因为广告算法里面还有“搜索广告”，搜索广告和推荐系统差异性就太大了，这里不做讨论。一、不同点1.1本质不同推荐广告和自然推荐本质中要处理的群体和衡量的利益完全不一样。（图
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
Linux下Redis安装配置全攻略（2024最新版）「已注销」 linux redis 运维
手残党也能搞定的Redis安装指南还在为Linux安装Redis发愁？（别问我怎么知道的）今天这个保姆级教程绝对能让你爽到飞起！从零开始到完全可用只要10分钟，连小白都能轻松上手！（信我，真的）环境准备（超级重要）先确认你的Linux发行版（敲黑板！）：#查看系统信息cat/etc/os-release推荐系统：Ubuntu20.04/22.04LTSCentOS7/8RockyLinux8/9安
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
DeepFM算法原理及应用场景
DeepFM（DeepFactorizationMachine）是一种结合了因子分解机（FactorizationMachines,FM）和深度神经网络（DNN）的混合模型，主要用于处理高维稀疏数据（如推荐系统中的点击率预测）。其核心思想是同时捕捉低阶（线性）和高阶（非线性）特征交互。1.算法原理模型结构如下：FM部分：负责捕捉低阶特征交互（如一阶和二阶特征组合）。一阶项：线性特征权重。二阶项：通
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
基于Elasticsearch的短视频平台个性化推荐系统设计与实现亲爱的非洲野猪 elasticsearch 音视频推荐算法
在当今内容爆炸的时代，个性化推荐系统已成为短视频平台的核心竞争力之一。本文将详细介绍如何利用Elasticsearch（ES）构建一个高效、可扩展的短视频个性化推荐系统。一、系统架构概述我们的推荐系统将采用混合推荐策略，结合协同过滤、内容相似度和热度推荐等多种方法。Elasticsearch作为核心搜索引擎和数据存储，将承担以下职责：用户画像存储与查询视频内容索引与检索实时行为日志分析推荐结果计算
协同过滤算法：挖掘用户偏好，精准推荐商品 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
1.背景介绍协同过滤（CollaborativeFiltering，CF）作为推荐系统中的重要技术，其核心思想是利用用户和物品间的行为数据，挖掘用户隐性偏好，从而实现精准推荐。自20世纪90年代提出以来，协同过滤算法已经在电子商务、社交媒体、音乐视频等多个领域中广泛应用，取得了显著的推荐效果。协同过滤算法主要分为基于用户的协同过滤和基于物品的协同过滤两种。基于用户的协同过滤通过比较用户间的相似性，
协同过滤推荐算法禺垣机器学习笔记算法机器学习推荐算法算法机器学习
协同过滤（CollaborativeFiltering）是推荐系统中最经典的算法之一，其核心思想是“物以类聚，人以群分”，即通过分析用户的历史行为数据，找到与目标用户相似的用户群体或相似的物品，从而为目标用户推荐他们可能感兴趣的物品。一、基于用户的协同过滤（User-BasedCF）核心思想：找到与目标用户兴趣相似的其他用户（“邻居”），将这些邻居喜欢的物品推荐给目标用户。步骤：s1.计算用户
深度探索 Py2neo：用 Python 玩转图数据库 Neo4j 萧鼎 python基础到进阶教程 python 数据库 neo4j
随着社交网络、推荐系统、知识图谱等应用的普及，图数据库越来越成为解决关系复杂数据问题的重要武器。作为图数据库中的佼佼者，Neo4j凭借其强大的性能和灵活的数据模型，被广泛应用于各种关联密集型场景。而在Python生态中，py2neo是使用最广泛的Neo4j客户端库之一，它简洁直观，封装度高，能够让你在Python中像操作对象一样操作图数据。本文将全面介绍py2neo的使用方法与设计理念，帮助你快速
Vue2 视频推荐页面：完整布局与动态数据实现用 Vue2 开发视频推荐页面：简洁优雅的实现方式 Vue2 项目实战：多分类动态内容展示的实现用 Vue2 打造视频推荐系统：从零开始完整教程 Vu 南北极之间 web前端特效源码 css javascript 网页设计 html 前端网站首页视频网站
效果图【定制化开发服务，让您的项目领先一步】如有需求，直接私信留下您的联系方式。谢谢。我的邮箱：[email protected]完整代码以下包括导航栏、分类切换、推荐内容展示等。使用虚拟假数据模拟真实场景，图片用占位符代替。代码实现<html
ElasticCTR：一键部署的分布式CTR预估解决方案萧桔格Wilbur
ElasticCTR：一键部署的分布式CTR预估解决方案ElasticCTRElasticCTR，即飞桨弹性计算推荐系统，是基于Kubernetes的企业级推荐系统开源解决方案。该方案融合了百度业务场景下持续打磨的高精度CTR模型、飞桨开源框架的大规模分布式训练能力、工业级稀疏参数弹性调度服务，帮助用户在Kubernetes环境中一键完成推荐系统部署，具备高性能、工业级部署、端到端体验的特点，并且
圈子系统公众号app小程序系统源码公众号+圈子小程序：如何用“内容+社交”打造用户闭环生态？前端
圈子系统：构建"交流→共鸣→成长"的进阶生态一、系统设计理念演进1.0基础交流层话题发布/回复功能基础点赞评论互动简单分类标签系统2.0情感共鸣层情绪标签识别（AI分析内容情感倾向）共鸣指数算法（根据互动深度计算）志同道合推荐系统3.0成长体系层多维能力评估模型个性化成长路径成就勋章系统二、核心技术实现方案1.共鸣引擎#共鸣度计算算法示例defcalculate_resonance(topic):
FAISS 简介及其与 GPT 的对接（RAG）言之。 AI faiss gpt easyui
什么是FAISS？FAISS(FacebookAISimilaritySearch)是FacebookAI团队开发的一个高效的相似性搜索和密集向量聚类的库。它主要用于：大规模向量相似性搜索高维向量最近邻检索向量聚类https://github.com/facebookresearch/faissFAISS特别适合处理高维向量数据，能够快速找到与查询向量最相似的向量，广泛应用于推荐系统、图像检索、自
产品背景知识——在线推理和离线推理爱吃芝麻汤圆 #产品背景知识推理
产品背景知识——在线推理和离线推理一、核心区别：从4个维度对比1.数据处理方式与时效性在线推理（实时推理）数据特点：处理实时流入的单条或小批量数据（如用户点击、交易请求）。时效性要求：需在毫秒级到秒级内返回结果，延迟直接影响用户体验或业务决策。典型场景：电商推荐系统（用户浏览商品时实时推荐）、金融风控（交易时实时欺诈检测）。离线推理（批量推理）数据特点：处理历史累积的大规模数据集（如TB级日志、数
长尾形分布论文速览三十篇【60-89】木木阳 Long-tailed 人工智能
长尾形分布速览（60-89）这些研究展示了LLMs在长尾数据分布、持续学习、异常检测、联邦学习、对比学习、知识图谱、推荐系统、多目标跟踪、标签修复、对象检测、医疗生物医学以及其他应用中的广泛应用。通过优化和创新，LLMs在这些领域展现了卓越的性能，并为解决长尾问题提供了有效的工具和方法。1.长尾持续学习与对抗学习长尾持续学习(Paper60):通过优化器状态重用来减少遗忘，提高在长尾任务中的持续学
小红书笔记详情API接口概述及JSON数据返回参考 Json_18179014480 API json 大数据数据库大数据 json
前言一、接口概述小红书笔记详情API接口是小红书开放平台提供的一项服务，允许开发者通过编程方式获取小红书上特定笔记的详细信息。该接口的核心功能包括：获取笔记内容：标题、正文、图片、视频等多媒体信息。用户互动数据：点赞数、评论数、收藏数、分享数等。作者信息：作者昵称、头像、粉丝数等。发布信息：发布时间、标签列表等。通过该接口，开发者可以构建内容分析工具、笔记推荐系统、数据爬虫等应用，帮助企业或个人进
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
推荐系统的视频特征-视频关键帧特征提取与向量生成
总体流程概览视频文件(.mp4)↓关键帧抽取（FFmpeg/SceneDetect）↓帧图像（.jpg）↓图像模型提取特征（CLIP/CNN/ViT）↓多帧聚合成视频向量（均值池化等）↓向量库/推荐系统模型特征提取推荐：使用OpenAI的CLIP模型CLIP（ContrastiveLanguage-ImagePretraining）适合推荐系统做跨模态建模，对视频封面帧或场景帧提取效果非常好。✅1
Neo4j 图数据库安装教程（2024最新版）—— Windows / Linux / macOS 全平台指南 2501_91537435 图数据库 neo4j 数据库 windows
Neo4j图数据库安装教程（2024最新版）——Windows/Linux/macOS全平台指南Neo4j是目前最流行的图数据库（GraphDatabase），广泛应用于社交网络、推荐系统、知识图谱等领域。本文将详细介绍Windows、Linux和macOS三大平台的Neo4j安装方法，并包含配置优化、基础使用示例和常见问题解决。一、Neo4j简介1.什么是Neo4j？Neo4j是一个高性能的No
Python隐式反馈数据集库之implicit使用详解 Rocky006 python 开发语言
概要Implicit是一个专注于隐式反馈数据集的协同过滤推荐系统Python库，由BenFrederickson开发。与显式反馈（如用户明确给予的评分）不同，隐式反馈是指用户通过行为间接表达偏好的数据，如点击次数、浏览时长或购买历史。这类数据在实际应用中更为普遍，但也更难以处理。传统推荐系统如Surprise或LightFM虽然功能全面，但在处理大规模稀疏矩阵时性能不佳。Implicit库通过优化
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
基于Python的京东商品信息采集实战：用Playwright+Pandas打造高效数据抓取工具 Python爬虫项目 2025年爬虫实战项目 python pandas 开发语言爬虫游戏笔记
一、项目背景与目标在当今电商生态中，价格、销量、评论等商品信息对用户和商家来说至关重要。无论是做数据分析、电商监控，还是构建商品推荐系统，第一步都是：获取真实的商品数据。本项目以京东商城搜索结果页为目标，通过构建一个高效、可复用的商品信息采集爬虫系统，实现对商品名称、价格、店铺、评论数、链接等核心信息的提取。二、技术路线概述我们采用如下技术架构：模块技术选型浏览器自动化Playwright（现代、
重排利器：行列式点过程（DPP）在推荐系统中的应用 Jay Kay 推荐算法数学建模推荐算法
在推荐系统的重排阶段，我们常面临结果同质化问题——精排结果相似物料扎堆，导致用户体验单调。行列式点过程（DeterminantalPointProcesses,DPP）通过数学建模相关性与多样性的平衡，成为解决该问题的经典方案。一、DPP的核心思想DPP将推荐列表视为一个点过程，其核心是计算子集出现的概率。给定候选集(Z)（精排输出的Top-N物料），DPP定义子集(Y\subseteqZ)出现的
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

推荐系统初学者系列（7）-- Surprise库做Top-K推荐

引言：

你可能感兴趣的:(推荐系统)