codes_first

LFM法实现的user item推荐系统

代码环境：windows环境下python3.5，安装numpy和sklearn即可

源码、数据、结果：https://download.csdn.net/download/codes_first/10741150

各个读入文件的格式如下：

一、代码理论模型（参考书本《推荐系统实践》以及《机器学习》中理论内容，可跳过看后文具体思路和实现）

1.LFM

对于一个给定的用户行为数据集（数据集包含的是所有的user, 所有的item，以及每个user有过行为的item列表），使用LFM对其建模后，我们可以得到如下图所示的模型：（假设数据集中有3个user, 4个item, LFM建模的分类数为4）

R矩阵是user-item矩阵，矩阵值Rij表示的是user i 对item j的兴趣度，这正是我们要求的值。对于一个user来说，当计算出他对所有item的兴趣度后，就可以进行排序并作出推荐。LFM算法从数据集中抽取出若干主题，作为user和item之间连接的桥梁，将R矩阵表示为P矩阵和Q矩阵相乘。其中P矩阵是user-class矩阵，矩阵值Pij表示的是user i对class j的兴趣度；Q矩阵式class-item矩阵，矩阵值Qij表示的是item j在class i中的权重，权重越高越能作为该类的代表。所以LFM根据如下公式来计算用户U对物品I的兴趣度

我们发现使用LFM后，

1. 我们不需要关心分类的角度，结果都是基于用户行为统计自动聚类的，全凭数据自己说了算。

2. 不需要关心分类粒度的问题，通过设置LFM的最终分类数就可控制粒度，分类数越大，粒度约细。

3. 对于一个item，并不是明确的划分到某一类，而是计算其属于每一类的概率，是一种标准的软分类。

4. 对于一个user，我们可以得到他对于每一类的兴趣度，而不是只关心可见列表中的那几个类。

5. 对于每一个class，我们可以得到类中每个item的权重，越能代表这个类的item，权重越高。

那么，接下去的问题就是如何计算矩阵P和矩阵Q中参数值。一般做法就是最优化损失函数来求参数。在定义损失函数之前，我们需要准备一下数据集并对兴趣度的取值做一说明。

数据集应该包含所有的user和他们有过行为的（也就是喜欢）的item。所有的这些item构成了一个item全集。对于每个user来说，我们把他有过行为的item称为正样本，规定兴趣度RUI=1，此外我们还需要从item全集中随机抽样，选取与正样本数量相当的样本作为负样本，规定兴趣度为RUI=0。因此，兴趣的取值范围为[0,1]。

采样之后原有的数据集得到扩充，得到一个新的user-item集K={(U,I)}，其中如果(U,I)是正样本，则RUI=1，否则RUI=0。损失函数如下所示：

上式中的是用来防止过拟合的正则化项，λ需要根据具体应用场景反复实验得到。损失函数的优化使用随机梯度下降算法：

1. 通过求参数PUK和QKI的偏导确定最快的下降方向；

2. 迭代计算不断优化参数（迭代次数事先人为设置），直到参数收敛。

其中，α是学习速率，α越大，迭代下降的越快。α和λ一样，也需要根据实际的应用场景反复实验得到。

LFM的伪代码可以表示如下：

2.Kmeans

K-Means算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。

K-Means聚类算法主要分为三个步骤：
(1)第一步是为待聚类的点寻找聚类中心
(2)第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中去
(3)第三步是计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心
(4)反复执行(2)、(3)，直到聚类中心不再进行大范围移动或者聚类次数达到要求为止

二、思路分析和遇到的问题

在开始正式讲代码之前，先来说说对几个细节问题的解决思路：

1.根据数据集初始化P和Q矩阵

这个初始化其实耗费了巨量的写代码时间，我的思路是

（1）对于P矩阵，对每一个用户计算其自己评分的平均值，然后用户对每个class的评分就以平均值为基础进行正态分布的随机值取值。

（2）对于Q的初始化前前后后做了很多工作：一开始就是以所有评分的平均值进行正态随机值（显然这和理论不符合，理论上Q是概率矩阵，也就是某个item所有class加起来要为1，但一开始就先简单赋予初值了）。后来结合itemAtrribute的文件，首先对这个文件里的item进行聚类（使用kmean），对于聚类结果我的利用方式有两种：

（a）一种是根据聚类结果把item分为150个class（为什么是150后文有解释），那么对于Q矩阵的初始化就可以按照我们的理论进行初始化了：某个item根据聚类结果属于某个class（又出现在itemAttribute最好，没有也可以和150个中心点算距离得到类别），将这个class对应的数设为某个参数（需要实验，可以说取决于你的class聚类的可信度，可信度高就概率给的大接近1，低就小），当然还是进行正态处理得到p，对于这个item其他class的值，则是（1-p）/149再分别进行正态处理，为了保证和为1最后那个p得重新赋值1-sum（其他）。

（b）第二种想法其实相当于增加数据集，根据聚类结果可以将一些同class的item在相同user那的评分给个差不多的值（同样正态处理），这样就能减少过拟合的风险，当然效果也要取决于聚类的可信度。

2.确定4个参数：分类数F，迭代次数N，学习速率α，正则化参数λ。

其中α，λ都是实验出来的选择了0.015和0.01，N是一开始20次，之后可以看结果继续决定需不需要继续。对于F，这边结合itemAtrribute的聚类结果，计算其SSE(误差平方和)来定下。因为随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。所以我们如下图所示选择150这个数作为F

正式讲代码之前想说一下过程中碰到的一些问题：

1. 首先第一个关于代码的速度问题，python的方便快捷确实让我在写代码过程中十分愉悦，但是大数据量下的长时间需要我们考虑并行等加速手段，这时候就有点苦恼了，尝试自己写了几个多线程来加速但是发现相对于串行真的没有提升，看到了python官方的一些调用其自己的多线程的东西还没加进去。一些C++中常用的方式比如mpi openmp等我也还没具体查阅python的用法，这点还需要后续补充。

2. 第二个关于迭代中对于参数优化梯度下降也有一些问题，一开始简单初始化就很随意按照公式优化参数，没有问题，准确率也是正常上升。但是后边真正认真初始化后反而有些问题凸显出来了，首先由于和为1的限制导致Q矩阵实际上很多数特别小（相对于P矩阵，我把两者都放在0~1的范围内了，所以简单初始化两者差不多），所以真正按照公式对两者参数优化就会发现，优化个一轮大量出现predict_score几百的现象（predict_score是函数，用来算损失函数时候算预测值的，就是把对应user和item的150个class加起来乘以100就是score），一开始我一直想不明白为啥Q和为1以后会超出100，后来想到了因为优化的尺度问题，一边全是0.1精度的数，一遍大部分0.001，用同样的alpha和lamda就有问题，对于P矩阵很好但是Q矩阵的话，只要一轮和为1的条件就被大大破坏，结果自然而然十分滑稽。

三、具体代码分析

1.kmeans聚类

具体到kmeans的实现，这里数据量太大，所以借用Python的scikit-learn 提供了MiniBatchKMeans算法，大致思想就是对数据进行抽样，每次不使用所有的数据来计算，这就会导致准确率的损失。

Mini Batch K-Means算法是K-Means算法的变种，采用小批量的数据子集减小计算时间，同时仍试图优化目标函数，这里所谓的小批量是指每次训练算法时所随机抽取的数据子集，采用这些随机产生的子集进行训练算法，大大减小了计算时间，与其他算法相比，减少了k-均值的收敛时间，小批量k-均值产生的结果，一般只略差于标准算法。

该算法的迭代步骤有两步：
1：从数据集中随机抽取一些数据形成小批量，把他们分配给最近的质心
2：更新质心

与K均值算法相比，数据的更新是在每一个小的样本集上。对于每一个小批量，通过计算平均值得到更新质心，并把小批量里的数据分配给该质心，随着迭代次数的增加，这些质心的变化是逐渐减小的，直到质心稳定或者达到指定的迭代次数，停止计算Mini Batch K-Means比K-Means有更快的收敛速度，但同时也降低了聚类的效果，但是在实际项目中却表现得不明显

Kmeans.py代码部分不多，调用MiniBatchKMeans通过改变不同的class分类结果的数量来计算SSE，结果也展示过了，得到结果F=250时候聚类效果最好。这个结果为我们的正式的要运行的test.py里的参数F=250提供支持，在test.py里开头也会有Kmeans的相关代码（和这里差不多，定下F=250），为的是把item分好类为后边初始化做准备。

2.test.py里的主代码讲解

一开始定义了需要的参数变量

这里是后边会用到的两个函数，myfind是用来查找一个list里某个值得所有索引的，predict_score是用来预测某个用户对某个item的分数的

这里是对train.txt的读取，制作成[userid，itemid，score]的list方便后面使用。注意的是这里加入了几个特别的操作，首先是对每个user评论过的·item会随机抽取一个作为测试集的东西，其他作为训练集。第二，对于评论数太少的user（小于500），借助itemattribute的聚类结果会加入一些item和分数来减少矩阵的稀疏。

关于kmeans以及上文说过不再赘述，接下来进入核心代码部分：

1.首先对P的初始化，大致思路就是用某个user对某个类的评分高低计算其评分的平均值进行初始化

首先对所有的user计算其自己评过分数的item的平均值

接下来逐行对P矩阵进行初始化，想法也很简单，每一行就是每个user对每个class的评分，初始化就以这个user的平均值为基准用np.random.normal用平均值做均值，（100-均值）/3或者（均值-100）/3做方差（目的是3西格玛原则不要跳出0到100分这个范围），然后规整到0到1赋予P矩阵每个值。

2. 然后就是Q矩阵的初始化，Q矩阵是item属于某个类的概率，所以我们结合聚类的结果来进行初始化

这里也有个需要一直实验再修改的参数，就是聚类正确的概率是多少，我们假设为0.1.所以对于每一个item的250个class，根据kmeans的结果得到的聚类结果把对应的item赋予0.1（当然还是normal一下），然后剩下的249个就分剩余的概率，集体操作不说了保证加起来为1即可。最后记得转置一下。

3.正式进入学习迭代阶段

迭代的外层循环以及一些小操作就不放出来了，核心部分其实很简单，根据理论部分的内容进行梯度下降的参数优化。所以要做的就是在每次迭代过程中对每个训练集的user item计算其预测值和实际分数对比算出损失函数，然后再优化参数即可。

这就是代码中计算准确率的部分，分别统计在train和test集和正确答案相距5、10、15、20的个数除以总数。

最后迭代轮次结束达到一定的精度以后就可以把test.txt的内容意义predict_score输出了。

四、结果展示

本次代码结果所用的评判标准是准确率，具体来说分为八个值。训练集和测试集各四个。

分别为对对应user和item预测值和实际值的差值绝对值大小在5分以内、10分以内、15分以内和20分以内的概率。

每一次迭代在窗口都会给出固定的一些user-item项的预测实际分数差距，以及非常重要的8个准确率供我们查看。到迭代后期我将其设计成每次迭代结束不是继续而是询问是否continue并且手动输入alpha等参数值，这样虽然需要人为输入但是可以更具情况来进行参数选择和迭代。当最后我们发现test集的准确率无法上升的时候我们可以知道再在训练集训练下去将会出现过拟合的情况，所以这时可以选择不再continue，程序将用这时候的矩阵来为我们预测需要的user item分数。

迭代过程的所有记录都在evidence.txt中

最后的结果在result.txt中

最后附上源码：

#coding:utf-8
import numpy as np
from numpy.linalg import cholesky
import math
import random
from sklearn.datasets import make_blobs
from sklearn.cluster import MiniBatchKMeans


#定下四个参数的量
F=150       #分类数
N=200        #迭代次数
Alpha=0.015  #学习速率
Lambda=0.01 #正则化参数
batch_size = 50000

user_number=19835
item_number=624961


#P矩阵
matrix_P = []
#Q矩阵
matrix_Q = []

#查找一个list里某个值的所有索引,在y中找x
def myfind(x,y):
    return [ a for a in range(len(y)) if y[a] == x]

#根据PQ矩阵计算对应user和item的预测score

def predict_score(user,item):
    temp=0
    for i in range(0,F):
        temp=temp+matrix_P[user][i]*matrix_Q[i][item]
    return temp


#利用itemAtrribute做Kmeans聚类
item_ID=[]
item_X=[]
item_Y=[]
f = open('itemAttribute.txt',encoding='UTF-8')
line = f.readline()
while line:
    line=line.replace('None','0')
    item_id,item_x,item_y=line.split('|')
    item_ID.append(int(item_id))
    item_X.append(int(item_x))
    item_Y.append(int(item_y.split('\n')[0]))
    line = f.readline()
f.close()

X=[item_X,item_Y]
X=np.transpose(X)
KM=MiniBatchKMeans(init='k-means++', n_clusters=F, batch_size=batch_size, n_init=10, max_no_improvement=10, verbose=0)
#y_pred和centers分别是聚类得到的每个点的分类label和每个类的中心点坐标
y_pred = KM.fit_predict(X)  


#读入train.txt制作成[userid，itemid，score]的list

user_item_nums=[]
user_item_score=[]
test_user_item_score=[]
f = open('train.txt',encoding='UTF-8')
line = f.readline()
count=0
while line:
    count=count+1
    if count%100==0:
        print(count)
    user=line.split('|')[0]
    user_item_num=int(line.split('|')[1])
    temp=random.randrange(0,user_item_num-1,1)
    for i in range(0,user_item_num):
        line=f.readline()
        if temp==i:
            test_user_item_score.append([int(user),int(line.split('  ')[0]),int(line.split('  ')[1].split('  ')[0])])
        else:
            user_item_score.append([int(user),int(line.split('  ')[0]),int(line.split('  ')[1].split('  ')[0])])
        if user_item_num<500:
            if int(line.split('  ')[0]) in item_ID:
                temp_list=myfind(y_pred[item_ID.index(int(line.split('  ')[0]))],y_pred)
                temp_index=random.randint(0,len(temp_list)-1)
                temp=temp_list[temp_index]
                user_item_score.append([int(user),item_ID[temp],int(line.split('  ')[1].split('  ')[0])])
                user_item_num=user_item_num+1
    user_item_num=user_item_num-1
    user_item_nums.append(user_item_num)
    line = f.readline()
f.close()

#初始化P和Q，方法：计算user和items所有已有评分的平均值，然后以平均值作为正态分布的中心轴以正态分布来随机这个值
print(1)
#P
#计算平均值
user_average=[]
count_1=0
for user_n in range(0,user_number):
    temp=0
    for ui_score in range(0,user_item_nums[user_n]):
        temp=temp+user_item_score[count_1][2]
        count_1=count_1+1
    user_average.append(temp/user_item_nums[user_n])

#赋值P矩阵
for row_number in range(0,user_number):
    np.random.seed(row_number)
    if 100-user_average[row_number]<=user_average[row_number]:
        s = np.random.normal(user_average[row_number],(100-user_average[row_number])/3, F)
    else:
        s = np.random.normal(user_average[row_number],user_average[row_number]/3, F)
    for i in range(0,F):
        if s[i]>100:
            s[i]=100
        if s[i]<0:
            s[i]=0
    matrix_P.append(s/100)
print(2)

#Q
#计算平均值,粗略地用已有记录的所有user_item的score作为平均值
temp=0
for i in range(0,len(user_item_score)):
    temp=temp+user_item_score[i][2]
average_all_item=temp/len(user_item_score)

#初始化所有item平均值为总评均值
item_average=[]
for i in range(0,item_number):
    item_average.append(average_all_item)

print(2.5)
#对于某个item在它有用户评过价的情况下计算平均值
item_occur=[]
for i in range(0,len(user_item_score)):
    item_occur.append(user_item_score[i][1])
print(2.6)


#赋值Q矩阵
for row_number in range(0,item_number):
    np.random.seed(row_number)
    if 100-item_average[row_number]<=item_average[row_number]:
        s = np.random.normal(item_average[row_number],(100-item_average[row_number])/3, F)
    else:
        s = np.random.normal(item_average[row_number],item_average[row_number]/3, F)
    for i in range(0,F):
        if s[i]>100:
            s[i]=100
        if s[i]<0:
            s[i]=0
    if row_number%10000==0:
        print(row_number)
    matrix_Q.append(s/100)
#转置Q矩阵
matrix_Q=np.transpose(matrix_Q)

print(3)



#正式进入学习阶段,开始迭代,迭代N次
with open('evidence_old.txt','w+',encoding='UTF-8') as ff:
    for step in range(0,N):
        #对于每一个已知的用户对某项目的评分我们都可以对我们的参数进行优化
        for ui_score in user_item_score:
            #计算损失函数
            user=ui_score[0]
            item=ui_score[1]
            cost_funtion=ui_score[2]-predict_score(user,item)
            if ui_score[0]%10000==0:
                print(cost_funtion)
                ff.write(str(cost_funtion))
                ff.write('\n')
            #优化参数
            for f in range(0,F):
                matrix_P[user][f]=matrix_P[user][f]+Alpha*(cost_funtion*matrix_Q[f][item]/100-Lambda*matrix_P[user][f])
                matrix_Q[f][item]=matrix_Q[f][item]+Alpha*(cost_funtion*matrix_P[user][f]/100-Lambda*matrix_Q[f][item])       
        #计算在训练集和测试集合上的准确率
        correct_num=0
        correct_num1=0
        correct_num2=0
        correct_num3=0
        correct_num4=0
        correct_num5=0
        correct_num6=0
        correct_num7=0
        for i in range(0,len(user_item_score)):
            if abs(predict_score(user_item_score[i][0],user_item_score[i][1])-user_item_score[i][2])<5:
                correct_num=correct_num+1
            if abs(predict_score(user_item_score[i][0],user_item_score[i][1])-user_item_score[i][2])<10:
                correct_num1=correct_num1+1
            if abs(predict_score(user_item_score[i][0],user_item_score[i][1])-user_item_score[i][2])<15:
                correct_num2=correct_num2+1
            if abs(predict_score(user_item_score[i][0],user_item_score[i][1])-user_item_score[i][2])<20:
                correct_num3=correct_num3+1
        for i in range(0,len(test_user_item_score)):
            if abs(predict_score(test_user_item_score[i][0],test_user_item_score[i][1])-test_user_item_score[i][2])<5:
                correct_num4=correct_num4+1
            if abs(predict_score(test_user_item_score[i][0],test_user_item_score[i][1])-test_user_item_score[i][2])<10:
                correct_num5=correct_num5+1
            if abs(predict_score(test_user_item_score[i][0],test_user_item_score[i][1])-test_user_item_score[i][2])<15:
                correct_num6=correct_num6+1
            if abs(predict_score(test_user_item_score[i][0],test_user_item_score[i][1])-test_user_item_score[i][2])<20:
                correct_num7=correct_num7+1
        print(correct_num/len(user_item_score))
        print(correct_num1/len(user_item_score))
        print(correct_num2/len(user_item_score))
        print(correct_num3/len(user_item_score))
        print(correct_nu4/len(test_user_item_score))
        print(correct_num5/len(test_user_item_score))
        print(correct_num6/len(test_user_item_score))
        print(correct_num7/len(test_user_item_score))
        ff.write(str(correct_num/len(user_item_score)))
        ff.write('\n')
        ff.write(str(correct_num1/len(user_item_score)))
        ff.write('\n')
        ff.write(str(correct_num2/len(user_item_score)))
        ff.write('\n')
        ff.write(str(correct_num3/len(user_item_score)))
        ff.write('\n')
        ff.write(str(correct_num4/len(test_user_item_score)))
        ff.write('\n')
        ff.write(str(correct_num5/len(test_user_item_score)))
        ff.write('\n')
        ff.write(str(correct_num6/len(test_user_item_score)))
        ff.write('\n')
        ff.write(str(correct_num7/len(test_user_item_score)))
        ff.write('\n')
        ff.write('-----------------------开始新一轮迭代---------------------\n')
    while(1):
        a=input("continue?y/n")
        if a=='y':
            Alpha=float(input("input Alpha"))
            #对于每一个已知的用户对某项目的评分我们都可以对我们的参数进行优化
            slice = random.sample(user_item_score, 10000)
            for ui_score in slice:
                #计算损失函数
                user=ui_score[0]
                item=ui_score[1]
                cost_funtion=ui_score[2]-predict_score(user,item)
                if ui_score[0]%10000==0:
                    print(cost_funtion)
                    ff.write(str(cost_funtion))
                    ff.write('\n')
                #优化参数
                for f in range(0,F):
                    matrix_P[user][f]=matrix_P[user][f]+Alpha*(cost_funtion*matrix_Q[f][item]/100-Lambda*matrix_P[user][f])
                    matrix_Q[f][item]=matrix_Q[f][item]+Alpha*(cost_funtion*matrix_P[user][f]/100-Lambda*matrix_Q[f][item])       
            #计算在测试集合上的准确率
            correct_num=0
            correct_num1=0
            correct_num2=0
            correct_num3=0
            correct_num4=0
            correct_num5=0
            correct_num6=0
            correct_num7=0
            for i in range(0,len(user_item_score)):
                if abs(predict_score(user_item_score[i][0],user_item_score[i][1])-user_item_score[i][2])<5:
                    correct_num=correct_num+1
                if abs(predict_score(user_item_score[i][0],user_item_score[i][1])-user_item_score[i][2])<10:
                    correct_num1=correct_num1+1
                if abs(predict_score(user_item_score[i][0],user_item_score[i][1])-user_item_score[i][2])<15:
                    correct_num2=correct_num2+1
                if abs(predict_score(user_item_score[i][0],user_item_score[i][1])-user_item_score[i][2])<20:
                    correct_num3=correct_num3+1
            for i in range(0,len(test_user_item_score)):
                if abs(predict_score(test_user_item_score[i][0],test_user_item_score[i][1])-test_user_item_score[i][2])<5:
                    correct_num4=correct_num4+1
                if abs(predict_score(test_user_item_score[i][0],test_user_item_score[i][1])-test_user_item_score[i][2])<10:
                    correct_num5=correct_num5+1
                if abs(predict_score(test_user_item_score[i][0],test_user_item_score[i][1])-test_user_item_score[i][2])<15:
                    correct_num6=correct_num6+1
                if abs(predict_score(test_user_item_score[i][0],test_user_item_score[i][1])-test_user_item_score[i][2])<20:
                    correct_num7=correct_num7+1
            print(correct_num/len(user_item_score))
            print(correct_num1/len(user_item_score))
            print(correct_num2/len(user_item_score))
            print(correct_num3/len(user_item_score))
            print(correct_nu4/len(test_user_item_score))
            print(correct_num5/len(test_user_item_score))
            print(correct_num6/len(test_user_item_score))
            print(correct_num7/len(test_user_item_score))
            ff.write(str(correct_num/len(user_item_score)))
            ff.write('\n')
            ff.write(str(correct_num1/len(user_item_score)))
            ff.write('\n')
            ff.write(str(correct_num2/len(user_item_score)))
            ff.write('\n')
            ff.write(str(correct_num3/len(user_item_score)))
            ff.write('\n')
            ff.write(str(correct_num4/len(test_user_item_score)))
            ff.write('\n')
            ff.write(str(correct_num5/len(test_user_item_score)))
            ff.write('\n')
            ff.write(str(correct_num6/len(test_user_item_score)))
            ff.write('\n')
            ff.write(str(correct_num7/len(test_user_item_score)))
            ff.write('\n')
            ff.write('-----------------------开始新一轮迭代---------------------\n')
        elif a=='n':
            break



with open('result_old.txt','w+',encoding='UTF-8') as fk:
    f = open('test.txt',encoding='UTF-8')
    line = f.readline()
    while line:
        user=line.split('|')[0]
        user_item_num=int(line.split('|')[1])
        fk.write(line)
        for i in range(0,user_item_num):
            line=f.readline()
            fk.write(line.split('\n')[0])
            fk.write('  ')
            fk.write(str(predict_score(int(user),int(line.split('  ')[0]))))
            fk.write('\n')
        line = f.readline()

你可能感兴趣的:(breadcrumb,Play,Me,——,Algorithm,and,Structure)

Mysql中的mysqlbinlog_MySQL程序只mysqlbinlog详解 Fly蒋
mysqlbinlog命令详解mysqlbinlog用于处理二进制的日志文件，如果想要查看这些日志文件的文本内容，就需要使用mysqlbinlog工具用法：mysqlbinlog[options]log-files参数详解：-?,--help#显示帮助信息并退出--base64-output=name#binlog输出语句的base64解码分为三类：默认是值auto,仅打印base64编码的需要的
leetcode日记（108）验证回文串梭七y leetcode 算法职场和发展
看上去很简单，其实很麻烦。一开始写的递归，但是内存超限……搜了下发现原因是每次递归调用都会创建一个新的字符串副本，这在处理长字符串时会占用大量内存。classSolution{public:boolisPalindrome(strings){if(s.size()==0||s.size()==1)return1;elseif(s[s.size()-1]==s[0]||(s[s.size()-1]-
java工程师常用开发工具 Monika Zhang 开发工具 java
背景：最近换新电脑，记录下本岗位需要安装的软件，也顺便给大家参考，欢迎各位留言补充1JDK（JavaDevelopmentKit）JDK是Java程序员开发Java应用程序所必需的软件包。下载地址：JavaDownloads|Oracle安装配置教程：window下win10jdk8安装与环境变量的配置（超级详细）_jdk8环境变量配置-CSDN博客目前主流的JDK版本还是JAVA8查看版本命令：
毕业论文代码实验（Python\MATLAB）基于K-means聚类的EMD-BiLSTM-Attention光伏功率预测模型清风AI 毕业设计代码实现 python lstm 深度学习神经网络人工智能 matlab pytorch
一、项目背景1.1光伏功率预测意义在能源结构转型背景下（国家能源局2025规划），光伏发电渗透率已超过18%。但受天气突变、云层遮挡等因素影响，光伏出力具有显著波动性，导致：电网调度难度增加（±15%功率波动）电力市场交易风险提升光储协同控制效率降低1.2技术挑战多尺度特征耦合：分钟级辐照度变化与小时级天气模式共存非线性映射关系：气象因素与发电功率呈高阶非线性关系数据模态差异：数值天气预报(NWP
ElasticSearch~查询操作~(简单查询、批量查询、匹配查询、模糊查询、精确查询、范围查询、通配符查询、must查询、should查询、过滤查询）飞Link Elastic elasticsearch lucene 全文检索
一、简单查询一、查询所有结果GET/student_info/_search{"query":{"match_all":{}}}二、根据条件查询GET/student_info/_search{"query":{"match":{"name":"张三"}}}三、排序GET/student_info/_search{"query":{"match":{"name":"张三"}},"sort":[{"
Android 12.0 WiFi连接流程分析之IP地址分配流程安卓兼职framework应用工程师 android 12.0 Rom开发疑难问题分析 android tcp/ip wifi连接 ip地址分配ip
1.前言在12.0的系统rom定制化开发中，对于wifi的定制功能也是比较多的，在关于wifi连接流程模块的分析，了解整个wifi连接流程也是非常重要的，接下来看下wifi的连接流程分析下相关功能实现2.WiFi连接流程分析之IP地址分配流程的核心类frameworks/opt/net/wifi/service/java/com/android/server/wifi/ClientModeImpl
GStreamer —— 3.1、Qt+GStreamer制作多功能播放器，支持本地mp4文件、rtsp流、usb摄像头等（可跨平台，附源码）信必诺 GStreamer Qt GStreamer Qt
运行效果介绍本项目基于Qt和GStreamer开发了一款多功能播放器，
GStreamer —— 3.2、Qt+GStreamer+OpenCV制作图像处理播放器(对每帧图像处理)，支持本地mp4文件、rtsp流、usb摄像头等（可跨平台，附源码）信必诺 GStreamer Qt GStreamer Qt
运行效果介绍本项目是一个结合了Qt、GStreamer和OpenCV的跨平台图像处理播放器项目。该
C语言中的结构体 NaZiMeKiY C/C++c语言算法开发语言
一.结构体1.结构体的概念：结构体可以理解为自定义的数据类型，它是由一批数据组合而成的结构型数据2.结构体格式：struct结构体名字{成员1;成员2;...成员n;};案例：#include#includestructstudent{charname[100];intage;chargender;};intmain(){structstudents1;strcpy(s1.name,"zhangs
CSS实现当鼠标悬停在一个元素上时，另一个元素的样式发生变化的效果 Wiktok css 前端
CSS可以实现当鼠标悬停在一个元素上时，另一个元素的样式发生变化的效果。可以通过以下几种方法来实现：1.使用兄弟选择器（AdjacentSiblingSelector）如果两个元素是兄弟关系（即它们有相同的父元素），可以使用+或~选择器来实现。示例代码：.element1:hover+.element2{background-color:yellow;}悬停在我上面另一个元素在这个例子中，当鼠标悬
如何对关键字段进行脱敏(一）在使用Mybatis-plus执行查询张瀚元782738120 mybatis java
为了在读取用户表中的mobile字段时进行脱敏处理，并实现一个通用的方法以便将来对其他字段例如：邮箱、身份证、姓名等进行脱敏处理，可以采用以下步骤：1.添加依赖首先，在pom.xml文件中添加必要的依赖，包括SpringBoot、MyBatis-Plus和Hutool工具库：org.springframework.bootspring-boot-starter-webcom.baomidoumyb
FastAPI Web框架 [1.9] carefree798 FastAPI python
表单数据fromfastapiimportFastAPI,Form#导入Form#表单数据#接收的不是JSON，而是表单字段时，要使用Formapp=FastAPI()@app.post("/login/")asyncdeflogin(username:str=Form(...),password:str=Form(...)#定义Form参数):return{"username":username
在 Linux 中，lsblk 命令输出内容解释冷冷清清中的风风火火 linux 运维服务器
在Linux中，lsblk命令用于以树状结构列出所有块设备（如磁盘、分区、LVM逻辑卷等）的信息。以下是lsblk输出的详细解释和示例：1.示例输出NAMEMAJ:MINRMSIZEROTYPEMOUNTPOINTSsda8:00238.5G0disk├─sda18:10512M0part/boot/efi├─sda28:201G0part/boot└─sda38:30237G0part└─vg-
在 Linux 系统中，区分**磁盘（物理/虚拟存储设备）和分区（磁盘的逻辑划分）冷冷清清中的风风火火 linux 运维服务器
在Linux系统中，区分**磁盘（物理/虚拟存储设备）和分区（磁盘的逻辑划分）**是管理存储的基础。以下是详细的区分方法和操作示例：一、通过设备命名规则区分Linux中磁盘和分区的命名遵循特定规则：类型命名格式示例说明磁盘/dev/sdX/dev/sdasd表示SCSI/SATA磁盘，X为字母（a,b,c…）。/dev/nvmeXnY/dev/nvme0n1nvme表示NVMe磁盘，X为控制器编号
Python从入门到精通的系统性学习路径 niuTaylor 编程区 python 学习开发语言
Python从入门到精通的系统性学习路径一、基础语法快速突破1.变量与基础操作#动态类型演示a=10#整型a=3.14#浮点型a="Python"#字符串a=[1,2,3]#列表#格式化输出进阶name="Alice"print(f"{name:*^20}")#居中填充输出：******Alice*******2.运算符优先级实战#常见运算符优先级练习result=5+3*2**2//(4%3)p
Spring系列学习之Spring Messaging消息支持 m0_74825488 面试学习路线阿里巴巴 spring linq java
英文原文：https://docs.spring.io/spring-boot/docs/current/reference/html/boot-features-messaging.html目录JMSActiveMQ支持Artemis支持使用JNDIConnectionFactory发送消息接收消息AMQPRabbitMQ支持发送消息接收消息ApacheKafka支持发送消息接收消息Kafka流
算法之魂：深入剖析数据结构中的七大排序算法 GeminiGlory 数据结构数据结构排序算法算法
目录1.冒泡排序（BubbleSort）2.选择排序（SelectionSort）3.插入排序（InsertionSort）4.希尔排序（ShellSort）5.快速排序（QuickSort）6.归并排序（MergeSort）7.堆排序（HeapSort）在计算机科学领域，排序是一项基础但至关重要的操作。无论你是处理数据库查询结果还是优化搜索效率，了解不同的排序算法及其适用场景都至关重要。本文将介
【SpringBoot】MorningBox小程序的完整后端接口文档爱因斯坦乐 spring boot 小程序 java
以下是「晨光宅配」小程序的完整接口文档，涵盖了所有12个表的接口。每个接口包括请求方法、URL、请求参数、响应格式和示例接口文档1.用户模块1.1获取用户信息URL:/user/{userId}方法:GET请求参数:userId(路径参数):用户ID响应格式:{"userId":1,"openid":"openid_123456","phone":"13800138000","nickname":
《java面向对象(5)》＜不含基本语法＞ java小白板 java 开发语言
本笔记基于黑马程序员java教程整理，仅供参考1.异常1.1异常分类1.1.1Error指系统级别的错误，程序员无法解决，不必理会1.1.2Exception（异常）分为两类：RuntimeException：运行时异常，编译时程序不会报错，运行时报错，如数组越界其他异常：编译时异常，编译时就会报错运行时异常：publicclassText{publicstaticvoidmain(String[
C++小游戏——迷宫探险 Duke369rose C++c++算法开发语言小游戏
一个C++小游戏，编译和运行耗时都有点长，麻烦大神提点建议。联系邮箱：[email protected]文件见文章顶部代码#include#include#include#include//定义迷宫单元格类型enumCellType{WALL,PATH,START,END,TREASURE};//迷宫类classMaze{public:Maze(intwidth,intheigh
Oracle数据库与Java全栈开发一篇搞定（指南式教学） Aphelios380 Oracle 数据库 oracle java
一、基础操作篇1.数据定义语言（DDL）核心操作1.1表结构设计技巧--电商用户表设计示例CREATETABLEtb_users(user_idNUMBER(10)PRIMARYKEY,usernameVARCHAR2(30)UNIQUENOTNULL,passwordCHAR(32)DEFAULT'e10adc3949ba59abbe56e057f20f883e',emailVARCHAR2(5
回归任务训练--MNIST全连接神经网络（Mnist_NN）豆芽819 深度学习框架PyTorch pytorch 深度学习人工智能机器学习回归
importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname
Explore Model-Based Feature Importance 后端
Question1.ExploreModel-BasedFeatureImportanceThroughoutthisquestion,youmayonlyusePython.Foreachsub-question,providecommentary(ifneeded)alongwithscreenshotsofthecodeused.Pleasealsoprovideacopyofthecode
OpenSSL 3.0.2 报 dh key too small 的问题 aseity 运维经验 git linux ssl svn
问题复现运行命令curl访问一个https网站，可能会出现"dhkeytoosmall"的问题。>curl-v--insecurehttps://some_web_site*Trying175.21.4.7:443...*Connectedtosome_web_site(175.21.4.7)port443(#0)*ALPN:offersh2,http/1.1*TLSv1.3(OUT),TLSha
spring boot 三步集成rabbitmq PXM的算法星球 Java后端 java-rabbitmq spring boot rabbitmq
引入依赖org.springframework.bootspring-boot-starter-amqp编写config类@ConfigurationpublicclassRabbitmqConfig{publicstaticfinalStringRECORD_QUEUE="teaching-assistant-record_queue";@BeanpublicJackson2JsonMessag
Spring Boot 3.2+ 升级Mybatis-Plus 3.5.x 兼容性问题与解决方案Invalid value type for attribute ‘factoryBeanObjectT z2637305611 spring boot mybatis 后端
一、当升级遭遇滑铁卢当我们将SpringBoot升级到3.2.0+版本时，熟悉的Invalidvaluetypeforattribute'factoryBeanObjectType':java.lang.String错误突然吞噬了控制台。这个看似神秘的错误频繁出现在整合Mybatis-Plus3.5.x时，甚至会附赠Invalidbeandefinitionwithname'xxxMapper'的
dubbo服务META-INF.dubbo文件夹作用 zhglhy dubbo java apache
META-INF.dubbo文件夹是ApacheDubbo框架中的一个重要目录，通常用于存放Dubbo的SPI（ServiceProviderInterface）扩展配置文件。Dubbo是一个高性能的JavaRPC框架，支持分布式服务治理，而SPI机制是Dubbo实现可扩展性的核心设计之一。1.SPI机制简介SPI是Java提供的一种服务发现机制，允许框架在运行时动态加载实现类。Dubbo对其进行
linux执行python脚本conda库_Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解）)... weixin_39992462
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))1.首先在PycharmTools->Deployment->Configurations打开新建SFTP输入host:ip地址username密码然后点击TestConnection出现下图，则测试成功因为已经连接成功，这时候已经可以读取远程服务器的目录了：2.选择项目mapping(可以跳过3.在Set
android Firebase Cloud Messaging (FCM) 接入遥不可及zzz firebase推送
在Android应用中接入FirebaseCloudMessaging(FCM)可实现消息推送功能，以下是详细的接入步骤和示例代码：步骤1：创建Firebase项目访问Firebase控制台并登录你的Google账号。点击“添加项目”，按提示填写项目名称等信息完成项目创建。步骤2：将Android应用添加到Firebase项目在Firebase控制台中，点击项目概览页面的“添加应用”按钮，选择An
前端小食堂 | Day17 - 前端安全の金钟罩喵爪排序前端安全状态模式
️今日盾牌：XSS/CSRF攻防全解析1.XSS防御の三重结界//危险操作：直接渲染未过滤内容document.getElementById('content').innerHTML=userInput;//✅安全姿势一：文本转义constescapeHTML=(str)=>{constmap={'&':'&','':'>','"':'"',"'":'''};ret
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &