卅一

mahout之旅---分布式推荐算法ALS-MR

Mahout分布式推荐系统——基于矩阵分解的协同过滤系统

1.实例环境

Mahout版本：mahout-0.9；

Hadoop版本：hadoop-1.2.1；

Jdk版本：java1.7.0_13

分布式系统：centos；

集群规模：master 、slavex、slavey、slavez

2.实例脚本

目前技术博文对mahout0.9版本的简介的也是不忍直视。这里系列博客对mahout0.9版本自带的基于矩阵分解的协同过滤系统算法的讲解。一个首先不管怎么样，先把程序跑起来，mahout自带了本例运行的脚本（factorize-movielens-1M.sh）核心内容分为五个部分操作。如下：

#1.把原始数据转换成所需格式，注意在此之前还有一步就是上传原始数据到/user/yxb/mhadoop/data文件夹下。

原始数据格式如下，其结构为UserID::MovieID::Rating::Timestamp

1::1193::5::978300760

1::661::3::978302109

1::914::3::978301968

1::3408::4::978300275

1::2355::5::978824291

1::1197::3::978302268

1::1287::5::978302039

1::2804::5::978300719

1::594::4::978302268

1::919::4::978301368

cat /user/yxb/mhadoop/data/ratings.dat |sed -e s/::/,/g| cut -d, -f1,2,3 > /user/yxb/mhadoop/data/ratings.csv

经转换后的数据格式如下。其结构为UserID,MovieID,Rating。

1,1193,5

1,661,3

1,914,3

1,3408,4

1,2355,5

1,1197,3

1,1287,5

1,2804,5

1,594,4

1,919,4

#2.将数据集分成训练数据和测试数据：基本原理就是mapper函数产生合适的key值进行数据分裂。测试集（10%）和训练集（90%）

mahout splitDataset -i /user/yxb/mhadoop/input/ratings.csv -o /user/yxb/mhadoop/dataset –t 0.9 –p 0.1

#3.并行ALS，进行矩阵分解

# run distributed ALS-WR to factorize the rating matrix defined by the training set

mahout parallelALS -i /user/yxb/mhadoop/dataset/trainingSet/ -o /user/yxb/mhadoop/out --numFeatures 20 --numIterations 10 --lambda 0.065

#4.评价算法模型：使用的mahout命令是evaluateFactorization。可以在HDFS的 output/ rmse/rmse.txt文件中查看到均方根误差为：0.8548619405669956

# compute predictions against the probe set, measure the error

mahout evaluateFactorization -i /user/yxb/mhadoop/dataset/probeSet/ -o /user/yxb/mhadoop/out/rmse/ --userFeatures /user/yxb/mhadoop/out/U/ --itemFeatures /user/yxb/mhadoop/out/M/

#5.推荐。为目标用户最多推荐6部电影

# compute recommendations

mahout recommendfactorized -i /user/yxb/mhadoop/out/userRatings/ -o /user/yxb/mhadoop/recommendations/ --userFeatures /user/yxb/mhadoop/out/U/ --itemFeatures /user/yxb/mhadoop/out/M/ --numRecommendations 6 --maxRating 5

最终的推荐结果在/user/yxb/mhadoop/recommendations下：

源码分析

SplitDataset

其中splitDataset对应的mahout中的源java文件是：org.apache.mahout.cf.taste.

hadoop.als.DatasetSplitter.java 文件，打开这个文件，可以看到这个类是继承了AbstractJob的，所以需要覆写其run方法。run方法中含有所有的操作。Run方法里面有3个job。

//数据集随机分裂（90%的训练集，10%的测试集）

Job markPreferences = prepareJob(getInputPath(), markedPrefs, TextInputFormat.class,MarkPreferencesMapper.class,Text.class, Text.class, SequenceFileOutputFormat.class);

//创建训练集

Job createTrainingSet = prepareJob(markedPrefs, trainingSetPath, SequenceFileInputFo

rmat.class,WritePrefsMapper.class, NullWritable.class, Text.class, TextOutputFormat.class);

//创建测试集

Job createProbeSet = prepareJob(markedPrefs, probeSetPath, SequenceFileInputFormat.class,WritePrefsMapper.class, NullWritable.class, Text.class, TextOutputFormat.class);

Ø 第一个job

分裂数据集，job任务没有reducer，只有一个mapper，跟踪mapper就知道随机分裂的过程。其一是setup，其二是map。Setup通过random产生集合分布的[0,1]的随机数，因此通过控制阈值就可以将数据分成9：1，训练集边界trainingBound=0.9，randomValue<0.9时，打上T的标签作为key值，如此产生的90%的数据集就是训练集，剩下的打上P的标签作为测试数据集。

private Random random;

private double trainingBound;

private doubleprobeBound;

protected void setup(Context ctx) throws IOException,

InterruptedException {

random = RandomUtils.getRandom();

trainingBound = Double.parseDouble(ctx.getConfiguration().get(

TRAINING_PERCENTAGE));

probeBound = trainingBound

+ Double.parseDouble(ctx.getConfiguration().get(

PROBE_PERCENTAGE));

}

@Override

protected void map(LongWritable key, Text text, Context ctx)

throws IOException, InterruptedException {

double randomValue = random.nextDouble();

// trainingBound=0.9 probeBound=1.0

if (randomValue <= trainingBound) {

ctx.write(INTO_TRAINING_SET, text); // T

} else {

ctx.write(INTO_PROBE_SET, text); // P

}

Ø 第二个job

第二、三个任务，比较这两个任务，可以看到它们的不同之处只是在输入路径和输出路径，以及一些参数不同而已。而且也只是使用mapper，并没有使用reducer，那么打开WritePrefsMapper来看，这个mapper同样含有setup和map函数，setup函数则主要是获取是对T还是对P来进行处理。（任务2是创建训练集，因此标签是T）。

private String partToUse;

@Override

protected void setup(Context ctx) throws IOException,

InterruptedException {

partToUse = ctx.getConfiguration().get(PART_TO_USE); // partToUse=T

}

@Override

protected void map(Text key, Text text,Context ctx)

throws IOException, InterruptedException {

if (partToUse.equals(key.toString())) {

ctx.write(NullWritable.get(), text);

}

Ø 第三个job（同上）

parallelALS

parallelALS对应的源文件是：org.apache.mahout.cf.taste.hadoop.als.ParallelA

LSFactorizationJob.java文件。Run方法里面的准备工作主要包括三个job，分别是itemRatings Job、userRatings Job和averageRatings Job。

首先来分析itemRatings Job，调用的语句分别是：

Job itemRatings = prepareJob(getInputPath(), pathToItemRatings(), TextInputFormat.class,

ItemRatingVectorsMapper.class, IntWritable.class, VectorWritable.class, VectorSumReducer.class,IntWritable.class, VectorWritable.class, SequenceFileOutputFormat.class);

itemRatings.setCombinerClass(VectorSumCombiner.class);

itemRatings.getConfiguration().set(USES_LONG_IDS, String.valueOf(usesLongIDs));

boolean succeeded = itemRatings.waitForCompletion(true);

if (!succeeded) {

return -1;

}

可以看出该job主要有一个mapper(ItemRatingVectorsMapper.class)和一个reducer(VectorSumReducer.class)构成。先来看看mapper类吧。

Mapper类的里面的map函数：提取用户ID和物品ID以及相应打分。

protected void map(LongWritable offset, Text line, Context ctx) throws IOException, InterruptedException {

String[] tokens = TasteHadoopUtils.splitPrefTokens(line.toString());

int userID = TasteHadoopUtils.readID(tokens[TasteHadoopUtils.USER_ID_POS], usesLongIDs); // userID

int itemID = TasteHadoopUtils.readID(tokens[TasteHadoopUtils.ITEM_ID_POS], usesLongIDs); // itemID

float rating = Float.parseFloat(tokens[2]); // rating

ratings.setQuick(userID, rating);

itemIDWritable.set(itemID);

ratingsWritable.set(ratings);

// String key=String.valueOf(itemID);

// String sum = String.valueOf(ratings);

// sysoutt(logpath+"log.txt", key,sum);

ctx.write(itemIDWritable, ratingsWritable);

// prepare instance for reuse

ratings.setQuick(userID, 0.0d);

}

最后操作输出对应为 itemID, [userID:rating]这样的输出，然后到reducer，即VectorSumReducer，这个reducer中也只有一个reduce函数：

protected void reduce(WritableComparable key, Iterable values, Context ctx)

throws IOException, InterruptedException {

Vector sum = Vectors.sum(values.iterator());

result.set(new SequentialAccessSparseVector(sum));

ctx.write(key, result);

}

以《mahout实战》示例来说，这个job完成的就是如下所示：

接下来就是userRatings Job

Job userRatings = prepareJob(pathToItemRatings(), pathToUserRatings(), TransposeMapper.class,

IntWritable.class, VectorWritable.class, MergeUserVectorsReducer.class, IntWritable.class,

VectorWritable.class);

userRatings.setCombinerClass(MergeVectorsCombiner.class);

succeeded = userRatings.waitForCompletion(true);

if (!succeeded) {

return -1;

}

他和itemRatings job工作方式差不多，经过mapreduce之后得到的示例效果就是：

准备工作的最后一个job,这个很重要，因为要用这个结果去构成一次迭代的M矩阵。这个就是averageItemRatingsjob，他是对itemRatings的每一个key对应的value值求平均值。

Job averageItemRatings = prepareJob(pathToItemRatings(), getTempPath("averageRatings"),

AverageRatingMapper.class, IntWritable.class, VectorWritable.class, MergeVectorsReducer.class,

IntWritable.class, VectorWritable.class);

averageItemRatings.setCombinerClass(MergeVectorsCombiner.class);

succeeded = averageItemRatings.waitForCompletion(true);

if (!succeeded) {

return -1;

}

具体的mapreduce代码自行去查看吧，最后的效果如下：

接下里才是算法的开始。初始化M和for循环的交替迭代。M代表物品特征矩阵，U代表用户特征矩阵。For循环里面包含连个job，其功能就是通过固定的M求逼近的U，然后又通过这个U去求M,如此循环下去。最后满足for条件就退出。

接下来具体谈谈算法的实现过程：

初始化的M的核心代码就下面一点，如果你的java代码阅读功底还好的话应该就能看懂下面一段代码。初次形成的文件是M—1的文件。

Vector row = new DenseVector(numFeatures);

row.setQuick(0, e.get());

for (int m = 1; m < numFeatures; m++) {

row.setQuick(m, random.nextDouble());

}

index.set(e.index());

featureVector.set(row);

writer.append(index, featureVector);

看不懂也没关系，先贴出M—1的内容，估计就明白了。

是的，就是把averageRatings的内容作为第一列，然后用random函数生成（numFeatures-1）列的[0,1]随机数。简单吧！

接下来就是通过初始化的M求出U了，于是就进入了for循环，代码我看的吐了好几天了，再贴代码我又要吐了。这个算法不像网上说的那样什么QR分解。SVD算法是基于奇异值分解的算法。参考文献3里面就指出ASL算法比SVD算法更适合稀疏矩阵。

下面先通过一个示例来领略一下ALS的魅力所在吧。如下图，先随机初始化一个V，然后通过V求U，为了方便理解U也先给了一个初始化的值。这样不靠谱的做法，你会发现与真实的稀疏矩阵之间还是存在很大的差距。

当然会存在很大的差距，如果也能得到很小的rmse的话，那你可以去买彩票了。好了闲话不扯了，所以还是得求出U比较靠谱。算法的核心就是求出UV使得最大限度的逼近R，那么就好说了，就是求最小二乘解（做数据分析，矩阵论一定要学好，不然像我这样的学渣就痛苦了）。不好意思字差了一点，本人喜欢在纸上打草稿的形式推导公式。

通过一些推导就得到如下式：

如果不嫌字丑的话，这个推导式在后面还有。反正不管怎样通过上面一个这样的式子能够使预测矩阵与真实稀疏矩阵更接近，如下图求出V。

如果上图看懂了的话，那么这个算法你也基本上入门了。下面是一些原理性的数学公式。

这样求得的U是不是比随机取的要合理一点，但是追求完美的我们还是对结果不满意。那我们再固定U用同样的方法求M吧。现在问题来了，你会发现求出的M值没变。

接下来是算法升华的地方，ALS-WR算法全称是基于正则化的交替最小二乘法协同过滤算法。是不是一下豁达了，我们还有正则化没有考虑。上面的问题就是拟合不足造成的误差。如下图就是添加正则化后的修正函数。这里不再推导了，因为文献3已经做了这一步工作（字也比这个好看）。

如果你已经头大了的话，那就通过上面的示例来理解这个结论吧。

到这里paralleALS也基本上结束了。For循环里面有两个结构相同的job，那就是通过固定的M求U，然后又通过U来求更逼近的M。如果这里理解了是不是可以自己把代码写出来呢？

说实在的我对这个高大上的算法也是醉了，很好理解。但是很难实现，查看了很多技术博客基本上都是fansy1990的博文转载，并且里面对算法的讲解也是有迷惑性的，不过还是要特别感谢fansy1990，他的总体框架相当好，有大局观，给了我相当大的启发。基于此，痛苦了几天终于把它搞明白了。并且借鉴《互联网大规模数据挖掘与分布式处理》书里的方法写了一个示例来加深对算法的理解。

evaluator

好了，你说你已经得到了一对最逼近的用户特征矩阵U和物品特征矩阵M，那么到底有多接近呢？这个需要对算法进行评价。评估结果当然还是rmse（均方根误差）。在mahout中评价的文件是org.apache.mahout.cf.taste.hadoop.als.FactorizationEvaluator，文件中run方法只有一个predictRatings函数。

Job predictRatings = prepareJob(getInputPath(), errors,TextInputFormat.class, PredictRatingsMapper.class,DoubleWritable.class, NullWritable.class, SequenceFileOutputFormat.class);

Job里面只有一个map类，PredictRatingsMapper.class。PredictRatingsMapper可以看到它有setup和map函数，setup函数主要是把路径U和M中的数据load到一个变量里面，map的核心源码如下（矩阵的乘积）：

if (U.containsKey(userID) && M.containsKey(itemID)) {

double estimate = U.get(userID).dot(M.get(itemID));

error.set(rating - estimate);

ctx.write(error, NullWritable.get());

}

Recommender

最后来到推荐部分，推荐使用的源码是在：org.apache.mahout.cf.taste.hadoop.als.RecommenderJob

run方法下只有一个prepareJob的job，里面包含mapper(MultithreadedSharingMapper.class)类。核心代码如下。

public class PredictionMapper extends SharingMapper

Pair<OpenIntObjectHashMap,OpenIntObjectHashMap>> {

private int recommendationsPerUser;

private float maxRating;

private boolean usesLongIDs;

private OpenIntLongHashMap userIDIndex;

private OpenIntLongHashMap itemIDIndex;

private final LongWritable userIDWritable = new LongWritable();

private final RecommendedItemsWritable recommendations = new RecommendedItemsWritable();

@Override

Pair<OpenIntObjectHashMap,OpenIntObjectHashMap> createSharedInstance(Context ctx) {

Configuration conf = ctx.getConfiguration();

Path pathToU = new Path(conf.get(RecommenderJob.USER_FEATURES_PATH));

Path pathToM = new Path(conf.get(RecommenderJob.ITEM_FEATURES_PATH));

OpenIntObjectHashMap U = ALS.readMatrixByRows(pathToU, conf);

OpenIntObjectHashMap M = ALS.readMatrixByRows(pathToM, conf);

return new Pair<OpenIntObjectHashMap,OpenIntObjectHashMap>(U, M);

}

@Override

protected void setup(Context ctx) throws IOException, InterruptedException {

Configuration conf = ctx.getConfiguration();

recommendationsPerUser = conf.getInt(RecommenderJob.NUM_RECOMMENDATIONS,

RecommenderJob.DEFAULT_NUM_RECOMMENDATIONS);

maxRating = Float.parseFloat(conf.get(RecommenderJob.MAX_RATING));

usesLongIDs = conf.getBoolean(ParallelALSFactorizationJob.USES_LONG_IDS, false);

if (usesLongIDs) {

userIDIndex = TasteHadoopUtils.readIDIndexMap(conf.get(RecommenderJob.USER_INDEX_PATH), conf);

itemIDIndex = TasteHadoopUtils.readIDIndexMap(conf.get(RecommenderJob.ITEM_INDEX_PATH), conf);

}

@Override

protected void map(IntWritable userIndexWritable, VectorWritable ratingsWritable, Context ctx)

throws IOException, InterruptedException {

Pair<OpenIntObjectHashMap,OpenIntObjectHashMap> uAndM = getSharedInstance();

OpenIntObjectHashMap U = uAndM.getFirst();

OpenIntObjectHashMap M = uAndM.getSecond();

Vector ratings = ratingsWritable.get();

int userIndex = userIndexWritable.get();

final OpenIntHashSet alreadyRatedItems = new OpenIntHashSet(ratings.getNumNondefaultElements());

for (Vector.Element e : ratings.nonZeroes()) {

alreadyRatedItems.add(e.index());

}

final TopItemsQueue topItemsQueue = new TopItemsQueue(recommendationsPerUser);

final Vector userFeatures = U.get(userIndex);

M.forEachPair(new IntObjectProcedure() {

@Override

public boolean apply(int itemID, Vector itemFeatures) {

if (!alreadyRatedItems.contains(itemID)) {

double predictedRating = userFeatures.dot(itemFeatures);

MutableRecommendedItem top = topItemsQueue.top();

if (predictedRating > top.getValue()) {

top.set(itemID, (float) predictedRating);

topItemsQueue.updateTop();

}

return true;

}

});

List recommendedItems = topItemsQueue.getTopItems();

if (!recommendedItems.isEmpty()) {

// cap predictions to maxRating

for (RecommendedItem topItem : recommendedItems) {

((MutableRecommendedItem) topItem).capToMaxValue(maxRating);

}

if (usesLongIDs) {

long userID = userIDIndex.get(userIndex);

userIDWritable.set(userID);

for (RecommendedItem topItem : recommendedItems) {

// remap item IDs

long itemID = itemIDIndex.get((int) topItem.getItemID());

((MutableRecommendedItem) topItem).setItemID(itemID);

}

} else {

userIDWritable.set(userIndex);

}

recommendations.set(recommendedItems);

ctx.write(userIDWritable, recommendations);

}

你不是很吝啬的贴代码吗？为什么现在贴这多，对，因为我也不想去分析了，头大了。。

参考文献

1.http://hijiangtao.github.io/2014/04/08/MahoutRecommendationExample/

2.http://jp.51studyit.com/article/details/98864.htm

3.http://m.blog.csdn.net/blog/ddjj131313/12586209

你可能感兴趣的:(数据挖掘,算法,数据挖掘,mapreduce,协同过滤算法,ALS-WR)

YOLOv5改进：在C3块不同位置添加EMA注意力机制，有效提升计算机视觉性能 UksApps YOLO 计算机视觉深度学习
计算机视觉中的目标检测是一个重要的任务，而YOLOv5是目前广泛应用的一种高效目标检测算法。为了进一步提升YOLOv5的性能，我们在C3块的不同位置添加了EMA（ExponentialMovingAverage）注意力机制。EMA注意力机制是一种用于提升模型的感知能力和特征表达能力的技术。在YOLOv5中，我们将EMA注意力机制嵌入到C3块中，以增强这一块的特征表示能力。下面是我们改进的YOLOv
浅谈React的Diff算法，简单易懂！赵小左前端 javascript 开发语言 react.js diff算法
react16之前，主要是通过递归遍历Vdom树来查找不同。对有变化的部分重新生成真实的DOM。在react16之后，则是引入了新的架构Fiber架构，在Reconciler（协调器）中会进行Diff算法。流程如下：第一次渲染的时候，不进行diff，而是直接将vdom转成Fiber，在内存中构workInProgressFiber树，构建完成之后用它来替换currenFiber，再去通知渲染器进行
Java GC的常用算法 yyueshen JVM java jvm
在Java中，垃圾回收（GarbageCollection，GC）是自动内存管理的核心机制，以下是几种常用的JavaGC算法：1.标记-清除算法（Mark-Sweep）原理标记阶段：从根对象（如虚拟机栈中的引用对象、静态变量引用的对象等）开始遍历，标记所有可达对象。清除阶段：遍历整个堆，将未标记的对象（即不可达对象）所占的内存空间回收。优缺点优点：实现简单，不需要额外的空间。缺点：会产生大量的内存
JVM的垃圾回收器都有哪些？ yyueshen jvm 测试工具
在Java虚拟机（JVM）中，不同的垃圾回收器采用不同的算法和策略，以满足不同应用场景的性能需求。以下为你详细介绍常见的JVM垃圾回收器：新生代垃圾回收器1.Serial收集器特点：单线程的垃圾回收器，在进行垃圾回收时，必须暂停其他所有的工作线程（StopTheWorld，简称STW），直到垃圾回收完成。适用场景：适用于客户端模式下的小型应用程序，因为它的实现简单，没有线程交互的开销，在单CPU环
ssl和tsl的区别及如何使用噔噔噔噔@ ssl 网络协议网络
SSL（SecureSocketsLayer）和TLS（TransportLayerSecurity）都是用于加密和保护网络通信安全的协议。TLS实际上是SSL的升级版本，更加安全和强大。下面是它们之间的主要区别以及如何使用它们：区别：SSL是最早用于加密网络通信的协议，随着安全漏洞的暴露，逐渐被TLS所取代。TLS提供了更强大的加密算法和更严格的安全性要求，相比SSL更安全可靠。SSL和TLS之
BFS比DFS更好理解「翻转二叉树」学不会java和算法绝不改名！算法 leetcode 宽度优先深度优先数据结构 java
一周没发博客，算法好难！一直在复习前面的，哈希表、链表、二叉树已经够我喝一壶了，不过我一定要啃下来，哪怕慢一点，也不能盲目的追求速度，勤于复习才能将知识变成自己的，复习比学习重要！！今天复习翻转二叉树的时候吗，发现BFS其实更加适合这道题，因为这道题本身就是以“层”为逻辑去进行的——每层翻转就好了之前用的DFS递归是真的好恶心555给你一棵二叉树的根节点root，翻转这棵二叉树，并返回其根节点。示
算法练习——双指针算法(更新中) *TQK* 算法练习 c++学习算法双指针
一、介绍双指针算法双指针（或称为双索引）算法是一种高效的算法技巧，常用于处理数组或链表等线性数据结构。它通过使用两个指针来遍历数据，从而减少时间复杂度，避免使用嵌套循环。双指针算法在解决诸如查找、排序、去重等问题时非常有效。1.双指针算法的基本思想双指针算法的核心思想是通过两个指针（通常是索引）来遍历数组或链表，而不是使用嵌套循环。这两个指针可以是：快慢指针：一个指针移动速度比另一个快。左右指针：
算法菜鸡备战4月27日蓝桥杯省赛----0311 好好学习O(∩_∩)O 算法
12012.数组美丽值求和-力扣（LeetCode）classSolution{public:intsumOfBeauties(vector&nums){intn=nums.size();intans=0;for(inti=2;itmp1(n),tmp2(n);tmp1[0]=nums[0];tmp2[n-1]=nums[n-1];for(inti=1;i=0;i--){tmp2[i]=min(n
Solidity基础 -- 哈希算法第十六年盛夏. 智能合约区块链应用搭建区块链智能合约
一、引言在当今数字化时代，数据的安全性、完整性和高效处理变得至关重要。哈希算法作为一种强大的数学工具，在计算机科学、密码学、区块链等众多领域发挥着关键作用。它为数据的存储、传输和验证提供了一种可靠的方式，极大地推动了信息技术的发展。二、哈希算法基础介绍（一）定义哈希算法（HashAlgorithm），也称为散列算法，是一种将任意长度的输入数据（也称为消息）通过特定的数学函数转换为固定长度输出的过程
暑假算法刷题日记 Day 6 mjh_yylx 算法刷题打卡算法
今天继续刷完二分查找，还有最后五个题二分查找就结束啦！023、P3743小鸟的设备题目背景小鸟有nnn个可同时使用的设备。题目描述第iii个设备每秒消耗aia_iai个单位能量。能量的使用是连续的，也就是说能量不是某时刻突然消耗的，而是匀速消耗。也就是说，对于任意实数，在kkk秒内消耗的能量均为k×aik\timesa_ik×ai单位。在开始的时候第iii个设备里存储着bib_ibi个单位能量。同
测试自动化初探与常用框架总结笨猪起飞测试开发与CI/CD实践测试工程师业务流程测试
引言现如今，无论是软件测试人员，还是利益相关者，都已经认识到：实现测试自动化框架对于软件项目的成功是至关重要的。它不但能够提高测试的效率，而且可以减少人工干预的工作量。定义自动化通常被解释为通过智能算法，来自动处理各种流程，而且几乎不需要人工的干预。在软件行业中，测试自动化意味着：使用受许可版本或开源版本的自动化工具，对软件应用程序执行各项测试。从技术角度来说，测试自动化框架是一组
29.代码随想录算法训练营第二十九天|134. 加油站，135. 分发糖果，860. 柠檬水找零，406. 根据身高重建队列白鹭鸣鸣！算法 java
29.代码随想录算法训练营第二十九天|134.加油站，135.分发糖果，860.柠檬水找零，406.根据身高重建队列134.加油站-力扣（LeetCode）在一条环路上有n个加油站，其中第i个加油站有汽油gas[i]升。你有一辆油箱容量无限的的汽车，从第i个加油站开往第i+1个加油站需要消耗汽油cost[i]升。你从其中的一个加油站出发，开始时油箱为空。给定两个整数数组gas和cost，如果你可以
基于yolov11的瓶盖缺陷检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO pytorch 人工智能
【算法介绍】基于YOLOv11的瓶盖缺陷检测系统在现代制造业中，瓶盖的质量直接影响到产品的封装效果和消费者的使用体验。因此，对瓶盖进行快速、准确的缺陷检测至关重要。基于YOLOv11（YouOnlyLookOnceversion11）的瓶盖缺陷检测系统应运而生，为瓶盖质量监控提供了一种高效、智能的解决方案。该系统采用YOLOv11作为核心检测算法，这一算法融合了先进的深度学习技术和创新的网络架构，
机器学习专栏博文汇总 python游乐园机器学习机器学习人工智能合集
本篇汇集了Python游乐园中机器学习专栏博文，会持续更新，需要的小伙伴可以收藏一下Python机器学习实战：基于不同机器学习算法的鸢尾花数据集分析机器学习常见问题：过拟合及其处理方式结构化数据和非结构化数据的区别是什么如何选择合适的机器学习算法来处理非结构化数据可用于文本分析的机器学习算法都有哪些Python机器学习实战：遗传算法机器学习基础：什么是启发式算法机器学习中常用的调节参数的方法（附P
论文阅读：Personalized Purchase Prediction of Market with Wasserstein-Based Sequence Matching Narcissus`小暮一步步来学大数据推荐系统
PersonalizedPurchasePredictionofMarketwithWasserstein-BasedSequenceMatching概述问题背景及陈述预测算法步骤一：itemembeddings步骤二：计算wassersteinDistance步骤三：Wasserstein-BasedDynamicTimeWarping预测实验评价标准数据集对比的baseline结论市场篮子的应
并发编程源码解析（八）Semphore源码解析黄小墨(￣∇￣) 并发编程源码解析 java 开发语言
一、前瞻并发编程源码解析（一）ReentrantLock源码解析（超详细）-CSDN博客并发编程源码解析（二）ReentrantReadWriteLock源码解析之一写锁-CSDN博客并发编程源码解析（三）ReentrantReadWriteLock源码解析之一写锁-CSDN博客并发编程源码解析（四）ConcurrentHashMap源码解析之一基础概念介绍以及散列算法讲解-CSDN博客并发编程源
【ISP】ISP的pipeline的几种关键算法白码思算法
ISP的pipeline中涉及各种图像处理中的关键算法，比如涉及降噪、HDR合成、色调映射、去马赛克、锐化、去雾等任务。下面会出几期文章会逐个详细解释它们的原理、用途及其在图像处理流程中的作用。1.RawNR（RawNoiseReduction，RAW降噪）用途：对RAW图像进行噪声抑制，减少感光元件（CMOS/CCD）带来的噪声，提高信噪比（SNR）。原理：RAW图像是图像传感器采集的未处理数据
PCL 点云迭代加权最小二乘法拟合平面（抑制噪声）大鱼BIGFISH 点云进阶最小二乘法平面 C++PCL 迭代加权
文章目录一、简介二、实现代码三、实现效果参考资料一、简介受到之前博客的启发（Matlab点云最小二乘法拟合平面（剔除噪声）），我们不仅可以通过剔除一些异常点来拟合更为合适的平面，而且还可以在这个过程中对每个点进行加权来抑制噪声点，双管齐下也可以使得算法更具鲁棒性，并拟合出合适的平面，具体过程如下所示：1、首先使用加权的最小二乘法拟合一个平面系数的初值。2、计算所有有效点到拟合平面的距离did_i
《Operating System Concepts》阅读笔记：p228-p257 codists 读书笔记操作系统
《OperatingSystemConcepts》学习第25天，p228-p257总结，总计30页。一、技术总结1.algorithmevaluation评估CPU调度算法需要考虑的因素有：CPUutilization,responsetime或者throughput。基于以上几个因素，选择依据为：(1)MaximizingCPUutilizationundertheconstraintthatt
【华为机考E卷】-“第k个排列”题解思路java Coder灬永不止步算法-机考E卷华为 java 算法
算法每一题，成长每一天~C0E33第k个排列真题链接：【持续更新】2024华为OD机试E卷机考真题库清单（全真题库）思路Javapackagecom.ccr.paper_f;importjava.util.ArrayList;importjava.util.List;importjava.util.Scanner;publicclassC0E33{publicstaticvoidmain(Stri
ISP（图像信号处理）算法概述、工作原理、架构、处理流程 2401_87555493 接口隔离原则信号处理算法
ISP处理流程：Bayer、黑电平补偿（blacklevelcompensation）、镜头矫正（lensshadingcorrection）、坏像素矫正（badpixelcorrection）、颜色插值（demosaic）、Bayer噪声去除、白平衡（AWB）矫正、色彩矫正（colorcorrection）、gamma矫正、色彩空间转换（RGB转换为YUV）、在YUV色彩空间上彩噪去除与边缘加强
蓝桥杯备考：堆算法之最小函数值无敌大饺子 1 蓝桥杯算法职场和发展
这道题暴力解法就是把所有函数的前m个值代入算出来，然后把每个前m值的数组都合并起来，前m个就是我们的结果，当然这种做法是会超时的所以我们应该选择优先级队列，我们代入1把所有的值加入优先级队列，每次输出最小值，并且把该序列的第二个数代入进去加进队列，直到输出m个数结束#include#includeusingnamespacestd;constintN=1e5+10;typedeflonglongl
【算法】C++深度优先搜索（DFS）全解析 JhonKI 算法 c++深度优先
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录️‍一、DFS的基础概念️‍二、DFS的实现方式![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/438eeca6ac484931aa08b1acb541
【ISP】对于ISP的关键算法补充白码思算法计算机视觉
本篇是对于ISP的关键算法进行补充说明，后面我们将开始逐渐深入讨论ISP的pipeline1.非局部均值（NLM,Non-LocalMeans）原理非局部均值（NLM）是一种基于块匹配（PatchMatching）的去噪算法，它利用了图像的自相似性（Self-Similarity）来进行降噪。核心思想是：一幅图像中的某个像素，其最佳去噪值可能不是简单地来自邻域均值，而是来自整幅图像中与它相似的区域
YOLOv12改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进 Limiiiing YOLOv12改进专栏 YOLOv12 目标检测深度学习计算机视觉
必读内容船新的YOLOv12改进专栏~1️⃣什么！不知道如何改进模型⁉️本专栏所使用并改进的每一个模块均包含详细的模块分析、原理讲解、个人总结、多种改进方式以及完整的修改流程，所有改进100%可直接运行，性价比极高。2️⃣找不到合适的模块⁉️所有改进点均为近三年顶会，顶刊提出的先进算法，将其融入到YOLOv12中，并进行二次创新，新颖度高，创新度高，能够适应不同的任务场景。3️⃣不确定自己改进的步
并查集(Disjoint Set) 理论知识复习与例题解析 BrainWen1 数据结构算法 c++python java c语言 vscode
并查集理论知识复习与例题解析一、并查集(DisjointSet)概念二、例题解析例题1：P3367【模板】并查集例题2：P1551亲戚例题3：P1955[NOI2015]程序自动分析三、总结一、并查集(DisjointSet)概念1.出现背景并查集(DisjointSet)的出现源于数学中等价关系的高效管理需求和计算机算法对集合操作的性能优化。其核心价值在于通过简洁的结构和高效的操作（接近常数时间
C++中的指针详解 yuxingwu9872 java 数据结构开发语言
C++中的指针详解在C++编程中，指针是一个非常重要且基础的概念。它允许程序员直接访问和操作内存地址，为高级数据结构和算法的实现提供了基础。本文将详细讲解C++中指针的概念、用法和注意事项，帮助读者深入理解并掌握指针的相关知识。一、指针的基本概念指针是一个变量，它存储的是另一个变量的内存地址，而不是值本身。通过使用指针，我们可以间接地访问和操作其他变量。在C++中，指针的定义和使用非常灵活，但也需
LeetCode 第50题：Pow(x, n) Gemini技术窝 leetcode 算法数据结构 java
大家好，今天我们来聊聊一个经典的数学题目——LeetCode第50题：Pow(x,n)。这个题目要求我们实现一个函数pow(x,n)，计算x的n次幂。虽然看似简单，但如何高效地计算幂次却蕴藏着不少巧妙的算法。准备好了吗？让我们一起探索这个有趣的问题吧！文章目录题目描述解题思路快速幂算法代码实现递归实现迭代实现代码逻辑解析递归实现迭代实现使用流程图展示代码实现逻辑递归实现流程图迭代实现流程图举例说明
C++之指针（简单易懂，非常详细） xw_lover C++复习 c++
没看过我之前的文章，可以看看哦1C++数据类型2C++之程序流程结构3C++之数组4C++之排序算法5C++之初识函数6C++之字符串持续更新ing目录5指针5.1指针的基本概念5.2指针变量的定义与使用5.3指针所占内存空间5.4空指针和野指针5.5new运算符5.6const修饰指针5.7指针与数组5.8指针与函数5.8.1值传递5.8.2地址传递5.8.3指针函数5.8.4函数指针5指针5.
算法设计题2--pow（x，n） F.S小码算法设计与分析习题算法 c++开发语言
2.实现pow（x，n），即计算x的整数n次幂函数（既，求x的n次方）示例1：输入：x=2.00000，n=10输出：1024.00000示例2：输入：x=2.10000，n=3输出：9.26100示例3：输入：x=2.00000，n
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p