lechuan_dafo

【推荐算法】从零开始做推荐（四）——python Keras框架利用Embedding实现矩阵分解TopK推荐

前言

推荐系统的评价指标在不同类型的推荐场景下，选用的不同。有些推荐的评价指标并非完全出自推荐系统，而是从搜索算法，信息检索，机器学习等相关领域沿用过来，因此网上有些对评价指标的解释并非完全以推荐系统的角度进行，这让我会在学习的时候产生困惑，特此做出一些整理，力求完全用推荐系统的角度解释，并给出计算的具体流程。

如果你对本系列(未写完，持续更新中)感兴趣，可接以下传送门：
本系列的数据集：【推荐算法】从零开始做推荐（一）——认识数据
本系列的评价指标：【推荐算法】从零开始做推荐（二）——推荐系统的评价指标，计算原理与实现样例
【推荐算法】从零开始做推荐（三）——传统矩阵分解的TopK推荐实战
【推荐算法】从零开始做推荐（四）——python Keras框架利用Embedding实现矩阵分解TopK推荐
【推荐算法】从零开始做推荐（五）——贝叶斯个性化排序矩阵分解 (BPRMF) 推荐实战
【推荐算法】从零开始做推荐（六）——贝叶斯性化排序矩阵分解 (BPRMF) 的Tensorflow版

矩阵分解与Embedding的关系

自词向量(Word2Vec)推出以来，各种嵌入(Embedding)方法层出不穷，推荐系统也有部分文章借用Embedding思想进行推荐，Embedding是一种思想，可以理解为提特征的手段，万物皆可Embedding，下面我们来引入这种思想到推荐算法里。
在NLP领域里，我们将词转化为K维度的词向量，再用词向量去做更为复杂的NLP任务，如简单的寻找相关词里，就可以直接用词向量进行相似度计算直观得到。而在推荐系统的场景里，我们有用户和项目两个主体，假如能将用户和项目嵌入到同一空间中，再计算相似性，不就直接完成了推荐目的了吗？
在矩阵分解中，我们同样也是将User和Item分开，User的每一行，代表用户的嵌入向量，Item的每一列代表项目的嵌入向量，两者都在K维空间中，而矩阵乘法的本质就是向量的点积，即User的每一行点乘Item的每一列，而点积a·b = |a||b|cosθ，不就是在计算相似度吗？
到现在你就会发现，原来矩阵分解就是Embedding的一种，二者殊途同归。那么利用神经网络的框架来实现矩阵分解也就带来了可能，整体框架如下图所示。

Keras框架介绍

Keras是一种搭建神经网络的框架，它封装得很好，简便易用，对于新手来讲还是十分友好的。它主要包括两种模型，其一为序列式模型，即一步步往后走，一条路走到黑；另一种为函数式模型，适合多输入；我们的输入包括User和Item，因此，使用的是函数式模型。

核心算法

本文最初的实现参照了这篇文章，但文中方法有人提出未加正则，且分解出来是负数。针对这两个问题，进行改进从而得到如下代码：

def Recmand_model(num_user,num_item,d):
    K.clear_session()
    input_uer = Input(shape=[None,],dtype="int32")
    model_uer = Embedding(num_user,d,input_length = 1,
                          embeddings_constraint=non_neg() #非负，下同
                          )(input_uer)
    Dropout(0.2)
    model_uer = BatchNormalization()(model_uer)
    model_uer = Reshape((d,))(model_uer)
    
    input_item = Input(shape=[None,],dtype="int32")
    model_item  = Embedding(num_item,d,input_length = 1,
                            embeddings_constraint=non_neg()
                            )(input_item)
    Dropout(0.2)
    model_item = BatchNormalization()(model_item)
    model_item = Reshape((d,))(model_item)
    
    out = Dot(1)([model_uer,model_item]) #点积运算
    model = Model(inputs=[input_uer,input_item], outputs=out)
    model.compile(loss= 'mse', optimizer='sgd')
    model.summary()
    return model

关于非负，指的是分解后的两个矩阵每个值都要非负，实现起来比较简单，Embedding层刚好有进行约束的参数，但思想上还存在一定模糊，电影评分是处于[1-5]的，预测评分为什么一定要非负？负数是否可以代表该用户不喜欢该项目？由于推荐结果实际上只与分值的大小排序有关，非负还是否一定更好？
除此以外，还尝试了神经网络的一些trick，加了dropout防止过拟合，加了BatchNormalization更易靠近最优解。下面是Keras的结构图，一目了然。

有效性验证

同样我们先看核心算法是不是真的能完成矩阵分解，结果如下，非零值与原矩阵接近，完成验证。下附验证代码。

'''
Created on Fri Oct 18 15:08:00 2019

@author: YLC
'''
import os
import numpy as np
import pandas as pd
import time
import math
from keras import Model
import keras.backend as K
from keras.layers import Embedding,Reshape,Input,Dot,Dense,Dropout,concatenate
from keras.models import load_model
from keras.utils import to_categorical
from keras import regularizers
from keras.constraints import non_neg

def Recmand_model(num_user,num_item,d):
    K.clear_session()
    input_uer = Input(shape=[None,],dtype="int32")
    model_uer = Embedding(num_user,d,input_length = 1,
                          embeddings_constraint=non_neg() #非负，下同
                          )(input_uer)
    Dropout(0.2)
    model_uer = BatchNormalization()(model_uer)
    model_uer = Reshape((d,))(model_uer)
    
    input_item = Input(shape=[None,],dtype="int32")
    model_item  = Embedding(num_item,d,input_length = 1,
                            embeddings_constraint=non_neg()
                            )(input_item)
    Dropout(0.2)
    model_item = BatchNormalization()(model_item)
    model_item = Reshape((d,))(model_item)
    
    out = Dot(1)([model_uer,model_item]) #点积运算
    model = Model(inputs=[input_uer,input_item], outputs=out)
    model.compile(loss= 'mse', optimizer='sgd')
    model.summary()
    return model

def train(num_user,num_item,train_data,d,step):
    model = Recmand_model(num_user,num_item,d)
    train_user = train_data[:,0]
    train_item = train_data[:,1]
    train_x = [train_user,train_item]
    train_y = train_data[:,2]
    model.fit(train_x,train_y,batch_size = 4,epochs = step)
    model.save("./MFmodel.h5")

def test(num_user,num_item,R):
    model = load_model('./MFmodel.h5')
    nR = np.zeros([num_user,num_item])
    for i in range(num_user):
        for j in range(num_item):
            nR[i][j] = model.predict([[i],[j]])
    return nR
            
def cal_e(R,nR):
    e = 0
    cnt = 0
    for i in range(len(R)):
        for j in range(len(R[0])):
            if(R[i][j]!=0):
                cnt = cnt + 1
                e = e + math.pow(R[i][j]-nR[i][j],2)
    e = 1.0 * e/cnt
    return e

def RtransT(R):
    user = [u for u in range(len(R))]
    item = [i for i in range(len(R[0]))]
    Table = []
    for i in user:
        for j in item:
            if R[i][j]!= 0:
                Table.append([i,j,R[i][j]])
    Table = np.array(Table)
    return Table

def NMF(R,d,step):
    T = RtransT(R)
    M=len(R)
    N=len(R[0])
    train(M,N,T,d,step)
    nR = test(M,N,R)
    e = cal_e(R,nR)
    return e,nR

if __name__ == '__main__':
    R=[
       [5,2,0,3,1],
       [0,2,1,4,5],
       [1,1,0,2,4],
       [2,2,0,5,0]
       ]
    R=np.array(R)
    dimension = 3
    step = 2000
    e,nR = NMF(R,dimension,step)
    print('-----原矩阵R：------')
    print(R)
    print('-----近似矩阵nR：------')
    print(nR)
    print('e is:',e)

训练

模型的构建有三个参数，用户数、项目数和嵌入向量的维度，而模型的输入为训练集的用户记录数据、项目记录数据和真实评分。batch_size是批处理参数，epochs是模型的迭代次数，h5为HDF5文件格式。

def train(all_user,all_item,train_data,d):
    num_user = max(all_user) + 1
    num_item = max(all_item) + 1
    model = Recmand_model(num_user,num_item,d)
    train_user = train_data['user'].values
    train_item = train_data['item'].values
    train_x = [train_user,train_item]
#    train_data['rating'] = 1 #不用评分
    train_y = train_data['rating'].values
    model.fit(train_x,train_y,batch_size = 128,epochs = 8)
    plot_model(model, to_file='./NN MF/NNMF.png',show_shapes=True) #输出框架图

    model.save("./NN MF/MFmodel.h5")

测试

同(三)一样，加入推荐新项目的限制。

def test(train_data,test_data,all_item,k):
    model = load_model('./NN MF/MFmodel.h5')
    PRE = 0
    REC = 0
    MAP = 0
    MRR = 0
    AP = 0
    HITS = 0
    sum_R = 0
    sum_T = 0
    valid_cnt = 0
    stime = time.time()
    test_user = np.unique(test_data['user'])
    for user in test_user:
#        user = 0

        visited_item = list(train_data[train_data['user']==user]['item'])
#        print('访问过的item:',visited_item)
        if len(visited_item)==0: #没有训练数据，跳过
            continue
        per_st = time.time()
        testlist = list(test_data[test_data['user']==user]['item'].drop_duplicates()) #去重保留第一个
        testlist = list(set(testlist)-set(testlist).intersection(set(visited_item))) #去掉访问过的item

        if len(testlist)==0: #过滤后为空，跳过
            continue
        valid_cnt = valid_cnt + 1 #有效测试数
        
        poss = {}        
        for item in all_item:
            if item in visited_item:
                continue
            else:
                poss[item] = float(model.predict([[user],[item]]))
#        print(poss)
#        print("对用户",user)
        rankedlist,test_score = topk(poss,k) 
#        print("Topk推荐:",rankedlist)
#        print("实际访问:",testlist)
#        print("单条推荐耗时:",time.time() - per_st)
        AP_i,len_R,len_T,MRR_i,HITS_i= cal_indicators(rankedlist, testlist)
        AP += AP_i
        sum_R += len_R
        sum_T += len_T
        MRR += MRR_i
        HITS += HITS_i
#        print(test_score)
#        print('--------')
#        break
    etime = time.time()
    PRE = HITS/(sum_R*1.0)
    REC = HITS/(sum_T*1.0)
    MAP = AP/(valid_cnt*1.0)
    MRR = MRR/(valid_cnt*1.0)
    p_time = (etime-stime)/valid_cnt
    print('评价指标如下:')
    print('PRE@',k,':',PRE)
    print('REC@',k,':',REC)
    print('MAP@',k,':',MAP)
    print('MRR@',k,':',MRR)
    print('平均每条推荐耗时:',p_time)
    with open('./Basic MF/result_'+dsname+'.txt','w') as f:
        f.write('评价指标如下:\n')
        f.write('PRE@'+str(k)+':'+str(PRE)+'\n')
        f.write('REC@'+str(k)+':'+str(REC)+'\n')
        f.write('MAP@'+str(k)+':'+str(MAP)+'\n')
        f.write('MRR@'+str(k)+':'+str(MRR)+'\n') 
        f.write('平均每条推荐耗时@:'+str(k)+':'+str(p_time)+'\n')

Main函数

与(三）不同，这里取 $d = 60$ 。

if __name__ == '__main__':
    dsname = 'ML100K'
    dformat = ['user','item','rating','time']
    all_user,all_item,train_data,test_data = getUI(dsname,dformat) #第一次使用需取消注释
    d = 60 #隐因子维度
    steps = 10
    k = 10
    train(all_user,all_item,train_data,d)
    test(train_data,test_data,all_item,k)

实验结果

先看ML100K的结果。

再看ML1M的结果。

进阶！灵魂拷问

拷问1. 利用神经网络做矩阵分解(下称NNMF(Neural Network Matrix Factorization))与传统矩阵分解相比，哪种更好？
从实验结果上来看，Basic MF会更好。以下为传统矩阵分解的实验结果。但从个人观点，NNMF的潜力更大。相比于传统矩阵分解的过程，利用神经网络做矩阵分解有以下好处：
1).NNMF训练的时耗远低于Basic MF。因为NNMF是直接嵌入，不需要构建矩阵，且神经网络的优化器什么的都是现成的。
2).NNMF吃神经网络的红利。理论上任何有利于神经网络的技术都可以用过来，比如本文用到的Dropout、BN等。
那为什么效果会差呢？个人认为一方面是参数没有调到最优，另一方面是数据量不够，众所周知，神经网络是数据驱动的。不过在本次试验中，两者的差距并非很大。

拷问2. 评分矩阵和0-1矩阵在此实验中效果如何？
以下为0-1矩阵的。明显基本没有效果，不过如果数据量够大的话还是有机会。

完整代码

# -*- coding: utf-8 -*-
"""
Created on Fri Oct 18 15:08:00 2019

@author: YLC
"""

import os
import numpy as np
import pandas as pd
import time
import math
from keras import Model
import keras.backend as K
from keras.layers import Embedding,Reshape,Input,Dot,Dense,Dropout,concatenate,BatchNormalization
from keras.models import load_model
from keras.utils import plot_model,to_categorical
from keras import regularizers
from keras.constraints import non_neg
from keras import optimizers



def getUI(dsname,dformat): #获取全部用户和项目
    st = time.time()
    train = pd.read_csv(dsname+'_train.txt',header = None,names = dformat)
    test = pd.read_csv(dsname+'_test.txt',header = None,names = dformat)
    data = pd.concat([train,test])
    all_user = np.unique(data['user'])
    all_item = np.unique(data['item'])
    train.sort_values(by=['user','item'],axis=0,inplace=True) #先按时间、再按用户排序
    if os.path.exists('./NN MF'):
        pass
    else:
        os.mkdir('./NN MF')
    train.to_csv('./NN MF/train.txt',index = False,header=0)
    test.to_csv('./NN MF/test.txt',index = False,header=0)
    et = time.time()
    print("get UI complete! cost time:",et-st)
    return all_user,all_item,train,test

def topk(dic,k):
    keys = []
    values = []
    for i in range(0,k):
        key,value = max(dic.items(),key=lambda x: x[1])
        keys.append(key)
        values.append(value)
        dic.pop(key)
    return keys,values

def cal_indicators(rankedlist, testlist):
    HITS_i = 0
    sum_precs = 0
    AP_i = 0 
    len_R = 0 
    len_T = 0
    MRR_i = 0 

    ranked_score = []
    for n in range(len(rankedlist)):
        if rankedlist[n] in testlist:
            HITS_i += 1
            sum_precs += HITS_i / (n + 1.0)
            if MRR_i == 0:
                MRR_i = 1.0/(rankedlist.index(rankedlist[n])+1)
                
        else:
            ranked_score.append(0)
    if HITS_i > 0:
        AP_i = sum_precs/len(testlist)
    len_R = len(rankedlist)
    len_T = len(testlist)
    return AP_i,len_R,len_T,MRR_i,HITS_i

def Recmand_model(num_user,num_item,d):
    K.clear_session()
    input_uer = Input(shape=[None,],dtype="int32")
    model_uer = Embedding(num_user,d,input_length = 1,
                          embeddings_constraint=non_neg() #非负，下同
                          )(input_uer)
    Dropout(0.2)
    model_uer = BatchNormalization()(model_uer)
    model_uer = Reshape((d,))(model_uer)
    
    input_item = Input(shape=[None,],dtype="int32")
    model_item  = Embedding(num_item,d,input_length = 1,
                            embeddings_constraint=non_neg()
                            )(input_item)
    Dropout(0.2)
    model_item = BatchNormalization()(model_item)
    model_item = Reshape((d,))(model_item)
    
    out = Dot(1)([model_uer,model_item]) #点积运算
    model = Model(inputs=[input_uer,input_item], outputs=out)
    model.compile(loss= 'mse', optimizer='sgd')
    model.summary()
    return model

def train(all_user,all_item,train_data,d):
    num_user = max(all_user) + 1
    num_item = max(all_item) + 1
    model = Recmand_model(num_user,num_item,d)
    train_user = train_data['user'].values
    train_item = train_data['item'].values
    train_x = [train_user,train_item]
#    train_data['rating'] = 1 #不用评分
    train_y = train_data['rating'].values
    model.fit(train_x,train_y,batch_size = 128,epochs = 8)
    plot_model(model, to_file='./NN MF/NNMF.png',show_shapes=True) #输出框架图

    model.save("./NN MF/MFmodel.h5")

def test(train_data,test_data,all_item,k):
    model = load_model('./NN MF/MFmodel.h5')
    PRE = 0
    REC = 0
    MAP = 0
    MRR = 0
    AP = 0
    HITS = 0
    sum_R = 0
    sum_T = 0
    valid_cnt = 0
    stime = time.time()
    test_user = np.unique(test_data['user'])
    for user in test_user:
#        user = 0

        visited_item = list(train_data[train_data['user']==user]['item'])
#        print('访问过的item:',visited_item)
        if len(visited_item)==0: #没有训练数据，跳过
            continue
        per_st = time.time()
        testlist = list(test_data[test_data['user']==user]['item'].drop_duplicates()) #去重保留第一个
        testlist = list(set(testlist)-set(testlist).intersection(set(visited_item))) #去掉访问过的item

        if len(testlist)==0: #过滤后为空，跳过
            continue
        valid_cnt = valid_cnt + 1 #有效测试数
        
        poss = {}        
        for item in all_item:
            if item in visited_item:
                continue
            else:
                poss[item] = float(model.predict([[user],[item]]))
#        print(poss)
#        print("对用户",user)
        rankedlist,test_score = topk(poss,k) 
#        print("Topk推荐:",rankedlist)
#        print("实际访问:",testlist)
#        print("单条推荐耗时:",time.time() - per_st)
        AP_i,len_R,len_T,MRR_i,HITS_i= cal_indicators(rankedlist, testlist)
        AP += AP_i
        sum_R += len_R
        sum_T += len_T
        MRR += MRR_i
        HITS += HITS_i
#        print(test_score)
#        print('--------')
#        break
    etime = time.time()
    PRE = HITS/(sum_R*1.0)
    REC = HITS/(sum_T*1.0)
    MAP = AP/(valid_cnt*1.0)
    MRR = MRR/(valid_cnt*1.0)
    p_time = (etime-stime)/valid_cnt
    print('评价指标如下:')
    print('PRE@',k,':',PRE)
    print('REC@',k,':',REC)
    print('MAP@',k,':',MAP)
    print('MRR@',k,':',MRR)
    print('平均每条推荐耗时:',p_time)
    with open('./Basic MF/result_'+dsname+'.txt','w') as f:
        f.write('评价指标如下:\n')
        f.write('PRE@'+str(k)+':'+str(PRE)+'\n')
        f.write('REC@'+str(k)+':'+str(REC)+'\n')
        f.write('MAP@'+str(k)+':'+str(MAP)+'\n')
        f.write('MRR@'+str(k)+':'+str(MRR)+'\n') 
        f.write('平均每条推荐耗时@:'+str(k)+':'+str(p_time)+'\n')
        
if __name__ == '__main__':
    dsname = 'ML100K'
    dformat = ['user','item','rating','time']
    all_user,all_item,train_data,test_data = getUI(dsname,dformat) #第一次使用需取消注释
    d = 60 #隐因子维度
    steps = 10
    k = 10
    train(all_user,all_item,train_data,d)
    test(train_data,test_data,all_item,k)

推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
QT与Python混合编程经验记录 weixin_30237281 python 人工智能 c/c++
1、如何embeddingpython,Python文档中有专门一章阐述https://docs.python.org/3.5/extending/embedding.htm；1、库文件：在vs--c/c++--附加包含文件中添加目；链接中也要添加，：将python中的include,libs二个目录添加进来2、对于Python，没有调试库，可直接将运行库复制一份，名称后面加上_d，就可用，可不能
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
使用Fleet AI Context和LangChain构建高效的文档检索系统 afTFODguAKBF 人工智能 langchain python
使用FleetAIContext和LangChain构建高效的文档检索系统引言在当今的AI和机器学习领域，高质量的文档检索系统对于提高开发效率和用户体验至关重要。本文将介绍如何利用FleetAIContext提供的高质量embeddings和LangChain框架来构建一个强大的文档检索系统。我们将深入探讨如何处理嵌入向量、检索相关文档，以及如何将这些功能整合到一个简单但功能强大的代码生成链中。主
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
网易号怎么发文章赚取收益？新手网易号发文章赚取收益的方法好项目高省
网易号作为比较有影响力的自媒体平台，在很多渠道上都会有曝光的机会，是自媒体从业者比较好的选择。在网易号上面可以发布自己的原创文章，然后通过平台的推荐算法，送到各个渠道上面展示，感兴趣的用户就会点击查看文章了，那么网易号发文章有收益吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
TypeError: __init__() got an unexpected keyword argument ‘name‘ PinkAir debug python leetcode
WhenIwroteacustomclassofKeras,Imetthiserror.Solution:changefromthesnippetbelowclasscustconv2d(keras.layers.Layer):def__init__(self):super(custconv2d,self).__init__()self.k=self.add_weight(shape=(1,),i
Transformer模型：WordEmbedding实现 Galaxy.404 Transformer transformer 深度学习人工智能 embedding
前言最近在学Transformer，学了理论的部分之后就开始学代码的实现，这里是跟着b站的up主的视频记的笔记，视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili正文首先导入所需要的包：importtorchimportnumpyasnpimporttorch.nnasnnimporttorch.nn.functionalasF关
如何利用AI技术来提升用户的个性化体验和社区参与度？ Itfuture03 AI前沿技术人工智能
要利用AI技术提升用户的个性化体验和社区参与度，可以采取以下几种策略：个性化推荐系统：通过AI算法分析用户的行为和偏好，提供定制化的服务和内容推荐，如智能推荐活动、健康管理等，让居民感受到社区的温暖和关怀。智能助手与聊天机器人：引入AI驱动的虚拟助手，提供实时帮助、个性化建议和交互式对话，改善客户体验。自然语言处理（NLP）：实现具有AI能力的NLP，创建对用户友好的应用程序，简化用户体验，如客服
ImportError: cannot import name ‘conv_utils‘ from ‘keras.utils‘ CheCacao keras 深度学习 python tensorflow tensorflow2 人工智能
将fromkeras.utilsimportconv_utils改为fromtensorflow.python.keras.utilsimportconv_utilsImportError:nomodulenamed'tensorflow.keras.engine将fromkeras.engine.topologyimportLayer改为fromtensorflow.python.keras.l
jupyter出错ImportError: cannot import name ‘np_utils‘ from ‘keras.utils‘ ，怎么解决？七月初七淮水竹亭～人工智能 python jupyter keras 深度学习
文章前言此篇文章主要是记录一下我遇到的问题以及我是如何解决的，希望下次遇到类似问题可以很快解决。此外，也希望能帮助到大家。遇到的问题出错：ImportError:cannotimportname'np_utils'from'keras.utils'，如图：如何解决首先我根据网上文章的一些提示，将fromkeras.utilsimportnp_utils换成了fromtensorflow.keras
python3.7安装keras教程_python 3.7 安装 sklearn keras(tf.keras) weixin_39641103
#1sklearn一般方法网上有很多教程，不再赘述。注意顺序是numpy+mkl，然后scipy的环境，scipy，然后sklearn#2anocondaanaconda原始的环境已经自带了sklearn，这里说一下新建环境（比如创建了一个tensorflow的环境），activatetensorflow2.0，然后condainstallsklearn即可，会帮你把各种需要的库都安装。#kera
Python高层神经网络 API库之Keras使用详解 Rocky006 python keras 开发语言
概要随着深度学习在各个领域的广泛应用，许多开发者开始使用各种框架来构建和训练神经网络模型。Keras是一个高层神经网络API，使用Python编写，并能够运行在TensorFlow、CNTK和Theano之上。Keras旨在简化深度学习模型的构建过程，使得开发者能够更加专注于实验和研究。本文将详细介绍Keras库，包括其安装方法、主要特性、基本和高级功能，以及实际应用场景，帮助全面了解并掌握该库的
如何将文本转换为向量？(方法二) DashVector python 开发语言人工智能 embedding 数据挖掘
文本转换为向量有多种方式：方法一：通过模型服务灵积DashScope将文本转换为向量（推荐）方法二：通过ModelScope魔搭社区中的文本向量开源模型将文本转换为向量方法三：通过JinaEmbeddingsv2模型将文本转换为向量方法四：通过百川智能向量化模型将文本转换为向量本文介绍方法二：如何通过ModelScope魔搭社区中的文本向量开源模型将文本转换为向量，并入库至向量检索服务DashVe
什么是监督学习（Supervised Learning）救救孩子把 AI AI 学习
一、监督学习概述监督学习（SupervisedLearning）是一种极具威力的机器学习方法，能够训练算法以识别数据中的模式，并据此进行精准的预测或分类。借助已有的标记数据，监督学习模型学会了从输入到输出的映射关系，进而在各类实际问题中实现自动化决策。无论是医疗诊断、金融市场分析、客户行为预测，还是提升生产效率以及个性化推荐系统等领域，监督学习都彰显出巨大的潜力与价值。随着技术的持续进步，监督学习
探索任务的隐秘世界：推荐Task2Vec 邓越浪Henry
探索任务的隐秘世界：推荐Task2Vecaws-cv-task2vecOfficialcodeforthepaper"Task2Vec:TaskEmbeddingforMeta-Learning"(https://arxiv.org/abs/1902.03545,ICCV2019)项目地址:https://gitcode.com/gh_mirrors/aw/aws-cv-task2vec在机器学习
【Python机器学习】循环神经网络（RNN）——传递数据并训练 zhangbin_237 Python机器学习机器学习 python rnn 人工智能开发语言深度学习神经网络
与其他Keras模型一样，我们需要向.fit()方法传递数据，并告诉它我们希望训练多少个训练周期（epoch）：model.fit(X_train,y_train,batch_size=batch_size,epochs=epochs,validation_data=(X_test,y_test))因为个人小电脑内存不足，所以吧maxlen参数改成了100重新运行。保存模型：model_struc
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
DL参考资源（二） antkillerfarm 深度学习
DL参考资源推荐系统https://zhuanlan.zhihu.com/p/26237106深度学习在推荐算法上的应用进展http://i.dataguru.cn/mportal.php?mod=view&aid=11463深度学习在推荐领域的应用https://mp.weixin.qq.com/s/hGvQvddD3i858XSK4z08Ug主要推荐系统算法总结及Youtube深度学习推荐算法
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

【推荐算法】从零开始做推荐（四）——python Keras框架 利用Embedding实现矩阵分解TopK推荐

前言

目录