星石传说

机器学习——协同过滤算法（CF）

机器学习——协同过滤算法（CF）

文章目录

前言
一、基于用户的协同过滤
- 1.1. 原理
- 1.2. 算法步骤
- 1.3. 代码实现
二、基于物品的协同过滤
- 2.1. 原理
- 2.2. 算法步骤
- 2.3. 代码实现
三、比较与总结
四、实例解析
总结

前言

协同过滤算法是一种常用的推荐系统算法，它基于用户的历史行为和其他用户的行为进行推荐（即物以类聚，人以群分的意思）
其原理主要分为两种类型：基于用户的协同过滤和基于物品的协同过滤。
本文将简单介绍一下协同过滤算法

一、基于用户的协同过滤

1.1. 原理

该算法基于用户之间的相似性来进行推荐。首先，计算用户之间的相似度，常用的相似度度量方法有余弦相似度、Pearson相关系数等。然后，根据相似度高的用户的行为（包括用户对物品的评分、点击、购买等行为），为目标用户推荐未曾接触过的物品。

1.2. 算法步骤

首先创建一个用户-物品评分矩阵，将用户的评分数据表示为一个矩阵，行表示用户，列表示物品
对数据进行去中心化处理。可以通过减去每个用户的平均评分来实现去中心化。
计算用户之间的相似度，可以使用余弦相似度公式计算两个用户之间的相似度：
$cos(\theta ) = \frac{\sum_{i=1}^{n}(x_{i} * y_{i})}{\sqrt{\sum_{i=1}^{n}(x_{i})^{2}}*\sqrt{\sum_{i=1}^{n}(y_{i})^{2}}}$
选择与目标用户最相似的k个用户
根据这k个用户的行为，为目标用户推荐未曾接触过的物品。可以通过加权平均计算得到目标用户对未曾接触过的物品的评分，然后按照评分进行排序，推荐评分较高的物品

1.3. 代码实现

import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 假设得到了一个有缺失值的用户-物品评分矩阵（评分越高，表示此用户对该物品的喜好程度越高）
data = pd.DataFrame({
    "one": [4, np.nan, 2, np.nan],
    "two": [np.nan, 4, np.nan, 5],
    "three": [5, np.nan, 2, np.nan],
    "four": [3, 4, np.nan, 3],
    "five": [5, np.nan, 1, np.nan],
    "six": [np.nan, 5, np.nan, 5],
    "seven": [np.nan, np.nan, np.nan, 4]
}, index=list('ABCD'))
print(data)
   one  two  three  four  five  six  seven
A  4.0  NaN    5.0   3.0   5.0  NaN    NaN
B  NaN  4.0    NaN   4.0   NaN  5.0    NaN
C  2.0  NaN    2.0   NaN   1.0  NaN    NaN
D  NaN  5.0    NaN   3.0   NaN  5.0    4.0

# first: 寻找与A最相似的其它用户  ； second: 预测A对未接触的物品（即原来评分为NaN的物品，如two）的评分，从而做出是否推荐的判断


# ！！！对缺失值的处理要适当（想象一下，如果直接将缺失值填充为0，则会引入负面评价，因为此时0并不是一个中性值，甚至可以说是一个最小的值，直接拉低了评分），所以我们要先对这个矩阵进行去中心化，再将缺失值填充为0
# 去中心化（每一个用户的每一个项目的评分减去均值） ， 这样每一个用户的项目的均值就为0了，那么0就是一个中性值，不会引入负面评价
new_data = data.apply(lambda x: x - x.mean(), axis=1)
print(new_data)
        one       two     three      four      five       six  seven
A -0.250000       NaN  0.750000 -1.250000  0.750000       NaN    NaN
B       NaN -0.333333       NaN -0.333333       NaN  0.666667    NaN
C  0.333333       NaN  0.333333       NaN -0.666667       NaN    NaN
D       NaN  0.750000       NaN -1.250000       NaN  0.750000  -0.25


#计算余弦相似度
"""
from sklearn.metrics.pairwise import cosine_similarity
sim_AB = cosine_similarity(new_data.loc["A", :].fillna(0).values.reshape(1, -1), new_data.loc["B",].fillna(0).values.reshape(1, -1))  
print(sim_AB)
sim_AC = cosine_similarity(new_data.loc["A", :].fillna(0).values.reshape(1, -1), new_data.loc["C",].fillna(0).values.reshape(1, -1))
print(sim_AC)
sim_AD = cosine_similarity(new_data.loc["A", :].fillna(0).values.reshape(1, -1), new_data.loc["D",].fillna(0).values.reshape(1, -1))
print(sim_AD)
"""
#这样一个一个计算太麻烦了，可定义一个函数来循环遍历
Result = {}
def yonhu_similar(mubiao,data):
    for i in range(data.shape[0]):
        bijiao = data.index[i]
        sim = cosine_similarity(new_data.loc[mubiao, :].fillna(0).values.reshape(1, -1), new_data.loc[bijiao,].fillna(0).values.reshape(1, -1))
        result = f"sim_{mubiao}{bijiao}"
        Result[result] = sim

yonhu_similar("A",data= data)

#print(Result)

#根据相似度大小排序（降序排）
sorted_Result = sorted(Result.items(),key= lambda x : x[1],reverse=True)
yonhu_sorted_Result = [i[0] for i in sorted_Result ]
print(sorted_Result)
print(yonhu_sorted_Result)
[('sim_AA', array([[1.]])), ('sim_AD', array([[0.56818182]])), ('sim_AB', array([[0.30772873]])), ('sim_AC', array([[-0.24618298]]))]
['sim_AA', 'sim_AD', 'sim_AB', 'sim_AC']
#可见用户A与用户D最相似（除自身外）



#预测A对two商品的评分，从而做出是否推荐的判断
A_two =(sim_AD*data.loc["D","two"] + sim_AB * data.loc["B",'two']) /(sim_AD + sim_AB)
print(A_two)
[[4.64867562]]

#预测A对six商品的评分，从而做出是否推荐的判断
A_six =(sim_AD*data.loc["D","six"] + sim_AB * data.loc["B",'six']) /(sim_AD + sim_AB)
print(A_six)
[[5.]]
#同理这里也可以写一个循环来遍历，然后将结果存于一个列表中

从结果可看出A用户关于未曾接触的物品two和six的评分都挺高的，也就说明可能适合向用户A推送这两件物品的信息。
（因为评分矩阵太小的缘故，结果得到评分的差异不是非常明显，但是基础的原理是差不多的，可以想象一下当物品与用户数都极多时，在这样大的数据运算下，系统基于相似用户推送给你的物品是从"千军万马“中筛选出来的评分较高的，这过滤掉了绝大多数物品）

二、基于物品的协同过滤

2.1. 原理

该算法基于物品之间的相似性来进行推荐。首先，计算物品之间的相似度，然后，根据用户历史行为中评价高的物品，为用户推荐与这些物品相似的物品。

2.2. 算法步骤

准备用户的历史行为数据，包括用户对物品的评分、点击、购买等行为。通常使用评分矩阵，然后去中心化
根据用户的历史行为数据，计算物品之间的相似度（可以根据实际，选择合适的相似度计算方法，如余弦相似度）
计算得到目标用户对未曾接触过的物品的预测评分
根据与用户历史行为中评价高的物品相似的物品，为用户推荐未曾接触过的物品。

2.3. 代码实现

import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
data = pd.DataFrame({
    "u1":[2,None,1,None,3],
    "u2": [None,3,None,4,None],
    "u3": [4,None,5,4,None],
    "u4": [None,3,None,4,None],
    "u5": [5,None,4,None,5]
},index= ["S1","S2","S3","S4","S5"])
print(data)
     u1   u2   u3   u4   u5
S1  2.0  NaN  4.0  NaN  5.0
S2  NaN  3.0  NaN  3.0  NaN
S3  1.0  NaN  5.0  NaN  4.0
S4  NaN  4.0  4.0  4.0  NaN
S5  3.0  NaN  NaN  NaN  5.0
#index 为物品，columns 为用户

#目标： 预测u3 对 S5的评分：

#数据去中心化，消除用户之间的评分偏差，从而提高预测评分的准确性。
data_center = data.apply(lambda x : x- x.mean(),axis= 1)
#print(data_center)

## 计算物品S5与其它物品的相似度
sim = []
for i in range(len(data_center)):
    sim_li = cosine_similarity(np.nan_to_num(data_center.iloc[-1].values).reshape(1,-1),
                               np.nan_to_num(data_center.iloc[i].values).reshape(1,-1)
                               )
    sim.append(sim_li)

print(sim)
[array([[0.98198051]]), array([[0.]]), array([[0.72057669]]), array([[0.]]), array([[1.]])]


# 计算u3 对 S5的预测评分
u3_s5 = (sim[0]*data_center.loc["S1","u3"] + sim[2] * data_center.loc["S3","u3"]) / (sim[0]+sim[2])
print(u3_s5)
[[0.89764267]]

补充：
在协同过滤算法中，使用去中心化后的评分矩阵进行预测时，可以得到更准确的相似度和预测评分，从而提高推荐的准确性。
然而，去中心化操作也可能会导致一些评分变为负值，这可能需要在实际应用中进行处理。

三、比较与总结

目标不同：顾名思义，基于用户的协同过滤算法的目标是找到与目标用户兴趣相似的其他用户，并根据这些用户的行为来推荐物品。而基于物品的协同过滤算法的目标是找到与目标物品相似的其他物品，并根据这些物品的评分来推荐给用户。
在相似度计算时，基于物品的协同过滤算法要对用户-物品评分矩阵进行转置
推荐效果不同：前者在用户数较多时能为新用户提供更好的推荐效果，或者在物品数较多时能提供更好的效果。

四、实例解析

这是一个电影推荐实例

import pandas as pd
import numpy as np

# 读取用户数据
users = pd.read_csv(r"D:\movielens\users.dat", sep="::", header=None,
                    names=["user_id", "gender", "age", "occupation", "zip"], engine="python")
# 读取评分数据
ratings = pd.read_csv(r"D:\movielens\ratings.dat", sep="::", header=None,
                      names=["user_id", "movie_id", "rating", "timestamp"], engine="python")
# 读取电影数据
movies = pd.read_csv(r"D:\BaiduNetdiskDownload\movielens\movies.dat", sep="::", header=None,
                     names=["movie_id", "title", "genres"], engine="python", encoding="ISO-8859-1")

# 数据透视,得到一个评分矩阵
data = pd.pivot_table(ratings, index="user_id", columns="movie_id", values="rating")

print(data.info())
<class 'pandas.core.frame.DataFrame'>
Int64Index: 6040 entries, 1 to 6040
Columns: 3706 entries, 1 to 3952
dtypes: float64(3706)
memory usage: 170.8 MB
None


"""
# 假如为user_id 为 1 的用户推荐电影
"""

# 去中心化
new_data = data.apply(lambda x: x - x.mean(), axis=1)
# print(new_data.head())

# 计算每一个用户与user_id 为1的相似度
from sklearn.metrics.pairwise import cosine_similarity
sim_cos = []
for i in range(len(new_data)):
    sim = cosine_similarity(new_data.iloc[0].fillna(0).values.reshape(1, -1),
                            new_data.iloc[i].fillna(0).values.reshape(1, -1))
    sim_cos.append(sim)

# print(sim_cos)
sim_cos = [x[0][0] for x in sim_cos]
# print(sim_cos)
data = data.assign(sim = sim_cos)
# print(data)
data = data.sort_values(by= "sim",ascending=False)
# print(data)
data_top5 = data.iloc[1:6].copy()
print(data_top5)
movie_id    1   2   3   4   5   6  ...  3948  3949  3950  3951  3952       sim
user_id                            ...                                        
1337      NaN NaN NaN NaN NaN NaN  ...   NaN   NaN   NaN   NaN   NaN  0.189242
379       NaN NaN NaN NaN NaN NaN  ...   NaN   NaN   NaN   NaN   NaN  0.159893
5404      5.0 NaN NaN NaN NaN NaN  ...   NaN   NaN   NaN   NaN   NaN  0.155154
49        5.0 NaN NaN NaN NaN NaN  ...   NaN   NaN   NaN   NaN   NaN  0.148455
2607      NaN NaN NaN NaN NaN NaN  ...   NaN   NaN   NaN   NaN   NaN  0.148105

[5 rows x 3707 columns]


print("=========================")

#将这五位用户都没看过的电影删除
data_top5.dropna(how ="all",axis = 1,inplace = True )  
print(((~data_top5.iloc[:,0].isnull()).astype("int")) * data_top5.sim)    #将nan值设置为0，非nan值设置为1

#预测评分
have_pre = data_top5[data_top5.columns[:-1]].apply(lambda x: ((x*data_top5.sim).sum())/(((~x.isnull()).astype("int"))*(data_top5.sim)).sum())
#print(have_pre)
haven_seen = data.columns[~data.iloc[0,:].isnull()][:-1]  #得到用户1已经看过电影的ID
#print(haven_seen)

#得到用户一未看过的电影
pre_movie_id = set(have_pre.index) - set(haven_seen)
pre_movie = have_pre[have_pre.index.isin(pre_movie_id)]

#推荐前十个电影
recommend= pre_movie.sort_values(ascending= False)[:10] 
#print(recommend.index)
movies_top10 = movies[movies.movie_id.isin(recommend.index)]
print(movies_top10)
      movie_id                                title                  genres
911        923                  Citizen Kane (1941)                   Drama
920        932        Affair to Remember, An (1957)                 Romance
1040      1054                Get on the Bus (1996)                   Drama
1052      1066               Shall We Dance? (1937)  Comedy|Musical|Romance
1063      1079          Fish Called Wanda, A (1988)                  Comedy
1064      1080  Monty Python's Life of Brian (1979)                  Comedy
1068      1084              Bonnie and Clyde (1967)             Crime|Drama
1108      1124                On Golden Pond (1981)                   Drama
1899      1968           Breakfast Club, The (1985)            Comedy|Drama
1928      1997                 Exorcist, The (1973)                  Horror





#看一下该用户已经看过的电影的排名前十
have_see_love = data.sort_values(by= 1,axis= 1,ascending= False).columns[:10]
have_see_love_top10 = movies[movies.movie_id.isin(have_see_love)]
print(have_see_love_top10)
      movie_id  ...                                genres
0            1  ...           Animation|Children's|Comedy
47          48  ...  Animation|Children's|Musical|Romance
1009      1022  ...          Animation|Children's|Musical
1250      1270  ...                         Comedy|Sci-Fi
1768      1836  ...                                 Drama
1892      1961  ...                                 Drama
1959      2028  ...                      Action|Drama|War
2286      2355  ...           Animation|Children's|Comedy
2735      2804  ...                          Comedy|Drama
3036      3105  ...                                 Drama

[10 rows x 3 columns]



#可以发现推荐给用户的电影大多数是一些Drama和Comedy,这与该用户已看过的电影类型较为相似，（这个推荐系统应该是较为合理的）

总结

本文简单介绍了一下协同过滤算法：基于用户和基于物品的协同过滤算法，然后比较了一下这两个的区别，最后介绍了一个电影推荐实例解析。

故常无欲，以观其妙；常有欲，以观其徼

–2023-9-11 筑基篇

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
想明白这个问题，你才能写下去文自拾
春节放假的时候，又有一天梦见她，第二天她冒着漫天大雪，傻傻地跑来见我。她说，见见傻傻的我，天很冷，心很暖。她回去后，我写了一篇文章，题目叫——从此梦中只有你。我们没在一起的很长一段时间里，她都在我的心底，一次次出现在我的梦里。我对她说，在一起之前，是胆小且闷骚，在一起之后，我变得不要脸了。不要脸的——去爱你。那文章没写完，火车上，给她看了。我有点小失望，花了好几个小时写，她分分钟就看完，很希望她逐
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

机器学习——协同过滤算法（CF）

文章目录

前言

一、基于用户的协同过滤

1.1. 原理

1.2. 算法步骤

1.3. 代码实现

二、基于物品的协同过滤

2.1. 原理

2.2. 算法步骤

2.3. 代码实现

三、比较与总结

四、实例解析

总结

你可能感兴趣的:(python篇,机器学习,算法,人工智能)