yueyedeai

Mahout推荐算法之SlopOne

一、算法原理

有别于基于用户的协同过滤和基于item的协同过滤，SlopeOne采用简单的线性模型估计用户对item的评分。如下图，估计UserB对ItemJ的偏好

图（1）

在真实情况下，该方法有如下几个问题：

1. 为什么要选择UserA计算？

2. 对大量稀疏的情况如何处理，而这种情况是最为普遍的。

图（2）

Item1和item2的相似度：（（5-3）+（3-4））/2=0.5

Item1和Item3的相似度：（5-2）/1=3

Lucy对Item1的评估预估计为：（（2+0.5）*2+（3+5）*1）/(2+1)=4.333

Item3和Item1的相似度：（2-3）/1=-1

Item3和Item2的相似度：（5-2）/1=3

Make对item3的评分预估计为：（（4+3）*1+（3-1）*1）/(1+1)=4.5

通过以上例子可以看出:需要计算item对之间的平均差别，以及item对之间的差别次数。

Mahout给出的训练伪代码：

for every item i

for every other item j

for every user u expressing preference for both i and j

add the difference in u’s preference for i and j to an average

推荐伪代码：

for every item i the user u expresses no preference for

  for every item j that user u expresses a preference for

find the average preference difference between j and i

    add this diff to u’s preference value for j

    add this to a running average

return the top items, ranked by these averages

二、单机模型实现

(一) 构建difference

1. 单机模型构建（MemoryDiffStorage）

private void buildAverageDiffs() throws TasteException {

    log.info("Building average diffs...");

    try {

      buildAverageDiffsLock.writeLock().lock();

      averageDiffs.clear();

      long averageCount = 0L;

      LongPrimitiveIterator it = dataModel.getUserIDs();

      while (it.hasNext()) {

        averageCount = processOneUser(averageCount, it.nextLong());

      pruneInconsequentialDiffs();

      updateAllRecommendableItems();

    } finally {

      buildAverageDiffsLock.writeLock().unlock();

  private void pruneInconsequentialDiffs() {

    // Go back and prune inconsequential diffs. "Inconsequential" means, here, only represented by one

    // data point, so possibly unreliable

    Iterator<Map.Entry<Long,FastByIDMap<RunningAverage>>> it1 = averageDiffs.entrySet().iterator();

    while (it1.hasNext()) {

      FastByIDMap<RunningAverage> map = it1.next().getValue();

      Iterator<Map.Entry<Long,RunningAverage>> it2 = map.entrySet().iterator();

      while (it2.hasNext()) {

        RunningAverage average = it2.next().getValue();

        if (average.getCount() <= 1) {

          it2.remove();

      if (map.isEmpty()) {

        it1.remove();

      } else {

        map.rehash();

    averageDiffs.rehash();

  private void updateAllRecommendableItems() throws TasteException {

    FastIDSet ids = new FastIDSet(dataModel.getNumItems());

    for (Map.Entry<Long,FastByIDMap<RunningAverage>> entry : averageDiffs.entrySet()) {

      ids.add(entry.getKey());

      LongPrimitiveIterator it = entry.getValue().keySetIterator();

      while (it.hasNext()) {

        ids.add(it.next());

    allRecommendableItemIDs.clear();

    allRecommendableItemIDs.addAll(ids);

    allRecommendableItemIDs.rehash();

  private long processOneUser(long averageCount, long userID) throws TasteException {

    log.debug("Processing prefs for user {}", userID);

    // Save off prefs for the life of this loop iteration

    PreferenceArray userPreferences = dataModel.getPreferencesFromUser(userID);

    int length = userPreferences.length();

    for (int i = 0; i < length; i++) { // Loop to length-1, not length-2, not for diffs but average item pref

      float prefAValue = userPreferences.getValue(i);

      long itemIDA = userPreferences.getItemID(i);

      FastByIDMap<RunningAverage> aMap = averageDiffs.get(itemIDA);

      if (aMap == null) {

        aMap = new FastByIDMap<RunningAverage>();

        averageDiffs.put(itemIDA, aMap);

      for (int j = i + 1; j < length; j++) {

        // This is a performance-critical block

        long itemIDB = userPreferences.getItemID(j);

        RunningAverage average = aMap.get(itemIDB);

        if (average == null && averageCount < maxEntries) {

          average = buildRunningAverage();

          aMap.put(itemIDB, average);

          averageCount++;

        if (average != null) {

          average.addDatum(userPreferences.getValue(j) - prefAValue);

      RunningAverage itemAverage = averageItemPref.get(itemIDA);

      if (itemAverage == null) {

        itemAverage = buildRunningAverage();

        averageItemPref.put(itemIDA, itemAverage);

      itemAverage.addDatum(prefAValue);

    return averageCount;

  private RunningAverage buildRunningAverage() {

    return stdDevWeighted ? new FullRunningAverageAndStdDev() : new FullRunningAverage();

2. MapReduce模式构建（FileDiffStorage）

用MapReduce模式计算difference的部分参看下文。该方式是离线计算模式，不能实施更新，适合大数据量。由于mapreduce模式计算了所有item之间的全部值，故比单机模式更准确。构建好之后拷贝到本地，使用用FileDiffStorage(newFile("diff"), 500) 即可。FileDiffStorage不支持添加和删除pereference(实际上也是不能这么做的);

private void buildDiffs() {

if (buildAverageDiffsLock.writeLock().tryLock()) {

try {

averageDiffs.clear();

allRecommendableItemIDs.clear();

FileLineIterator iterator = new FileLineIterator(dataFile, false);

String firstLine = iterator.peek();

while (firstLine.isEmpty() || firstLine.charAt(0) == COMMENT_CHAR) {

iterator.next();

firstLine = iterator.peek();

}

long averageCount = 0L;

while (iterator.hasNext()) {

averageCount = processLine(iterator.next(), averageCount);

}

pruneInconsequentialDiffs();

updateAllRecommendableItems();

} catch (IOException ioe) {

log.warn("Exception while reloading", ioe);

} finally {

buildAverageDiffsLock.writeLock().unlock();

}

private long processLine(String line, long averageCount) {

if (line.isEmpty() || line.charAt(0) == COMMENT_CHAR) {

return averageCount;

}

String[] tokens = SEPARATOR.split(line);

Preconditions.checkArgument(tokens.length >= 3 && tokens.length != 5, "Bad line: %s", line);

long itemID1 = Long.parseLong(tokens[0]);

long itemID2 = Long.parseLong(tokens[1]);

double diff = Double.parseDouble(tokens[2]);

int count = tokens.length >= 4 ? Integer.parseInt(tokens[3]) : 1;

boolean hasMkSk = tokens.length >= 5;

if (itemID1 > itemID2) {

long temp = itemID1;

itemID1 = itemID2;

itemID2 = temp;

}

FastByIDMap<RunningAverage> level1Map = averageDiffs.get(itemID1);

if (level1Map == null) {

level1Map = new FastByIDMap<RunningAverage>();

averageDiffs.put(itemID1, level1Map);

}

RunningAverage average = level1Map.get(itemID2);

if (average != null) {

throw new IllegalArgumentException("Duplicated line for item-item pair " + itemID1 + " / " + itemID2);

}

if (averageCount < maxEntries) {

if (hasMkSk) {

double mk = Double.parseDouble(tokens[4]);

double sk = Double.parseDouble(tokens[5]);

average = new FullRunningAverageAndStdDev(count, diff, mk, sk);

} else {

average = new FullRunningAverage(count, diff);

}

level1Map.put(itemID2, average);

averageCount++;

}

allRecommendableItemIDs.add(itemID1);

allRecommendableItemIDs.add(itemID2);

return averageCount;

}

private void pruneInconsequentialDiffs() {

// Go back and prune inconsequential diffs. "Inconsequential" means, here, only represented by one

// data point, so possibly unreliable

Iterator<Map.Entry<Long,FastByIDMap<RunningAverage>>> it1 = averageDiffs.entrySet().iterator();

while (it1.hasNext()) {

FastByIDMap<RunningAverage> map = it1.next().getValue();

Iterator<Map.Entry<Long,RunningAverage>> it2 = map.entrySet().iterator();

while (it2.hasNext()) {

RunningAverage average = it2.next().getValue();

if (average.getCount() <= 1) {

it2.remove();

}

if (map.isEmpty()) {

it1.remove();

} else {

map.rehash();

}

averageDiffs.rehash();

}

private void updateAllRecommendableItems() {

for (Map.Entry<Long,FastByIDMap<RunningAverage>> entry : averageDiffs.entrySet()) {

allRecommendableItemIDs.add(entry.getKey());

LongPrimitiveIterator it = entry.getValue().keySetIterator();

while (it.hasNext()) {

allRecommendableItemIDs.add(it.next());

}

allRecommendableItemIDs.rehash();

}

(二) 估值

private float doEstimatePreference(long userID, long itemID) throws TasteException {

    double count = 0.0;

    double totalPreference = 0.0;

    PreferenceArray prefs = getDataModel().getPreferencesFromUser(userID);

    RunningAverage[] averages = diffStorage.getDiffs(userID, itemID, prefs);

    int size = prefs.length();

    for (int i = 0; i < size; i++) {

      RunningAverage averageDiff = averages[i];

      if (averageDiff != null) {

        double averageDiffValue = averageDiff.getAverage();

        if (weighted) {

          double weight = averageDiff.getCount();

          if (stdDevWeighted) {

            double stdev = ((RunningAverageAndStdDev) averageDiff).getStandardDeviation();

            if (!Double.isNaN(stdev)) {

              weight /= 1.0 + stdev;

            // If stdev is NaN, then it is because count is 1. Because we're weighting by count,

            // the weight is already relatively low. We effectively assume stdev is 0.0 here and

            // that is reasonable enough. Otherwise, dividing by NaN would yield a weight of NaN

            // and disqualify this pref entirely

          totalPreference += weight * (prefs.getValue(i) + averageDiffValue);

          count += weight;

        } else {

          totalPreference += prefs.getValue(i) + averageDiffValue;

          count += 1.0;

    if (count <= 0.0) {

      RunningAverage itemAverage = diffStorage.getAverageItemPref(itemID);

      return itemAverage == null ? Float.NaN : (float) itemAverage.getAverage();

    } else {

      return (float) (totalPreference / count);

(三) 推荐

对于在线推荐系统，允许只有一个SlopeOneRecommender实例。

方法签名	说明	备注
public void setPreference(long userID, long itemID, float value)	添加偏好，线上系统经常需要。	动态添加偏好，添加之后会更新ItemID的和其他Item之间的相似度
public void removePreference(long userID, long itemID)	删除偏好，很少用。	删除偏好后，会更新itemId和其他Item之间的相似度
public List<RecommendedItem> recommend(long userID, int howMany, IDRescorer rescorer)	提供推荐。IDRescorer用于商业规则，调整item的得分	1.获取userId还未评分的item作为候选。2.估计每个Item的得分，选取topk 返回。
public float estimatePreference(long userID,long itemID)	估计userId对ItemId的评分	如userId对itemId有真实的值，则返回，否则估计。

1. 推荐接口

public List<RecommendedItem> recommend(long userID, int howMany, IDRescorer rescorer) throws TasteException {

    Preconditions.checkArgument(howMany >= 1, "howMany must be at least 1");

    log.debug("Recommending items for user ID '{}'", userID);

    FastIDSet possibleItemIDs = diffStorage.getRecommendableItemIDs(userID);

    TopItems.Estimator<Long> estimator = new Estimator(userID);

    List<RecommendedItem> topItems = TopItems.getTopItems(howMany, possibleItemIDs.iterator(), rescorer, estimator);

    log.debug("Recommendations are: {}", topItems);

    return topItems;

2. 获取推荐候选项

public FastIDSet getRecommendableItemIDs(long userID) throws TasteException {

    FastIDSet result;

    try {

      buildAverageDiffsLock.readLock().lock();

      result = allRecommendableItemIDs.clone();

    } finally {

      buildAverageDiffsLock.readLock().unlock();

    Iterator<Long> it = result.iterator();

    while (it.hasNext()) {

      if (dataModel.getPreferenceValue(userID, it.next()) != null) {

        it.remove();

    return result;

3. 估计候选项的得分，返回topK个推荐列表

public static List<RecommendedItem> getTopItems(int howMany,

                                                  LongPrimitiveIterator possibleItemIDs,

                                                  IDRescorer rescorer,

                                                  Estimator<Long> estimator) throws TasteException {

    Preconditions.checkArgument(possibleItemIDs != null, "argument is null");

    Preconditions.checkArgument(estimator != null, "argument is null");

    Queue<RecommendedItem> topItems = new PriorityQueue<RecommendedItem>(howMany + 1,

      Collections.reverseOrder(ByValueRecommendedItemComparator.getInstance()));

    boolean full = false;

    double lowestTopValue = Double.NEGATIVE_INFINITY;

    while (possibleItemIDs.hasNext()) {

      long itemID = possibleItemIDs.next();

      if (rescorer == null || !rescorer.isFiltered(itemID)) {

        double preference;

        try {

          preference = estimator.estimate(itemID);

        } catch (NoSuchItemException nsie) {

          continue;

        double rescoredPref = rescorer == null ? preference : rescorer.rescore(itemID, preference);

        if (!Double.isNaN(rescoredPref) && (!full || rescoredPref > lowestTopValue)) {

          topItems.add(new GenericRecommendedItem(itemID, (float) rescoredPref));

          if (full) {

            topItems.poll();

          } else if (topItems.size() > howMany) {

            full = true;

            topItems.poll();

          lowestTopValue = topItems.peek().getValue();

    int size = topItems.size();

    if (size == 0) {

      return Collections.emptyList();

    List<RecommendedItem> result = Lists.newArrayListWithCapacity(size);

    result.addAll(topItems);

    Collections.sort(result, ByValueRecommendedItemComparator.getInstance());

    return result;

三、 MapReduce实现(计算diff)

1. 计算每个user的item之间的差值

Map: 输入，文本文件，格式为:userId\t itemId\t val

输出：key userId,value itemId\t val

Reduce:

for(user u :users){

        items of u

        for(int I  =0 ;i<items.size;i++){

               itema =items[i];

        for(int j =i+1;j<items.size;j++){

               itemb= items[j];

               itemABdiff =itemb-itema;

        out.write(itemA\t itemb, itemABdiff);

2. 计算itemPair的全局平均

Map:输出数据不做处理,将item相同的数据传递到同一个reduce中。

Reduce: 输入 key itemA\t itemb ,val itemABdiff

计算改组数据的平均值（FullRunningAverageAndStdDev）

输出：

key EntityEntityWritable ,valueFullRunningAverageAndStdDevWritable

四、实例演示

(一) 单机模式

MemoryDiffStorage mds =new MemoryDiffStorage(new FileDataModel(new File("pereference")), Weighting.WEIGHTED, 1000);

               SlopeOneRecommender sr =new SlopeOneRecommender(new FileDataModel(new File("pereference")),Weighting.WEIGHTED,Weighting.WEIGHTED,mds);

        System.out.println(sr.recommend(1, 10,new IDRescorer() {

               @Override

               public double rescore(long id, double originalScore) {

                               int clickCount =10;//id的点击量

                               return originalScore*clickCount;

               @Override

               public boolean isFiltered(long id) {

               //如果id和要推荐的item的id属于同一个类型，return false ,否则return true ;

                       return false;

        }));

(二) MapReduce模式

String  [] arg ={"-i","p","-o","diff"};

SlopeOneAverageDiffsJob.main(arg);

DiffStorage ds  =new FileDiffStorage(new File("diff"), 1000);

SlopeOneRecommender sr =new SlopeOneRecommender(new FileDataModel(new File("pereference")),Weighting.WEIGHTED,Weighting.WEIGHTED,mds);

        System.out.println(sr.recommend(1, 10,new IDRescorer() {

               @Override

               public double rescore(long id, double originalScore) {

                               int clickCount =10;//id的点击量

                               return originalScore*clickCount;

               @Override

               public boolean isFiltered(long id) {

               //如果id和要推荐的item的id属于同一个类型，return false ,否则return true ;

                       return false;

}));

五、参考文献

1. http://en.wikipedia.org/wiki/Slope_One

2. DanielLemire, Anna Maclachlan, SlopeOne Predictors for Online Rating-Based Collaborative Filtering

3. PuWang, HongWu Ye, A Personalized Recommendation Algorithm Combining Slope OneScheme and User Based Collaborative Filtering

4. DeJiaZhang, An Item-based Collaborative Filtering Recommendation AlgorithmUsing Slope One Scheme Smoothing

5. Mi,Zhenzhen and Xu, Congfu, A Recommendation Algorithm Combining Clustering Methodand Slope One Scheme

1. BadrulM. Sarwar, George Karypis, Joseph A. Konstan, John Riedl: Item-basedcollaborative filtering recommendation algorithms

2. GregLinden, Brent Smith, Jeremy York, "Amazon.com Recommendations:Item-to-Item Collaborative Filterin

你可能感兴趣的:(算法,大数据,Mahout,机器学习)

HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
基于NXP+FPGA轨道交通3U机箱结构牵引控制单元深圳信迈主板定制专家轨道交通 NXP+FPGA X86+FPGA fpga开发边缘计算人工智能大数据嵌入式硬件
基于NXP+FPGA轨道交通异步电机牵引控制单元(TCU-IM)异步电机牵引控制单元（TCU-IM）用于牵引逆变器-异步电机构成的牵引电传动系统，可采用车控或架控方式。执行高性能异步电机复矢量控制策略，具有响应迅速、有效可靠的防空转·滑行控制功能以及平稳、无冲击的带速重投技术。无速度传感器控制通过转速观察算法，推算出准确的转速和转子位置，在实际应用中，达到省去速度传感器的目的，降低成本并减少故障点
JVM内存监控及调优分析闲着无聊整些资料 JVM jvm java linux
一、内存监控背景在做JVM内存分析前，需要堆JVM内存及垃圾回收算法和垃圾回收器有一定了解，具体可以参考我之前的一篇文章：常见的垃圾回收器及垃圾回收算法1.1、为什么要做内存监控我们在做开发的时候不可避免的会遇到一些问题，诸如下面这些问题：生产环境发生了内存溢出该如何处理？生产环境应该给服务器分配多少内存合适？如何对垃圾回收器的性能进行调优？生产环境CPU负载飙高该如何处理？生产环境出现死锁该如何
GC 频率和触发条件百里自来卷 jvm
在Java中，垃圾回收（GC）的频率和触发条件取决于GC算法、堆内存分配、对象生命周期以及JVM参数的配置。下面详细介绍这些影响因素：1.GC触发条件GC主要触发的情况如下：(1)年轻代GC（MinorGC/YoungGC）触发条件：Eden区满了：当新对象分配到Eden区，如果Eden区没有足够的空间分配新对象，就会触发MinorGC。Survivor空间不足：当存活对象从Eden复制到Surv
【忍者算法】从找朋友到找变位词：一道趣味字符串问题的深入解析｜LeetCode 438 找到字符串中所有字母异位词忍者算法忍者算法 LeetCode题解秘籍 leetcode 算法职场和发展面试跳槽
LeetCode438找到字符串中所有字母异位词点此看全部题解LeetCode必刷100题：一份来自面试官的算法地图（题解持续更新中）生活中的算法还记得小时候玩的"找朋友"游戏吗？每个人都有一个字母牌，需要找到拥有相同字母组合的伙伴。比如，拿着"ate"的同学要找到拿着"eat"或"tea"的同学。这其实就是在寻找字母异位词！在实际应用中，字母异位词的检测有着广泛的用途。比如在密码学中检测可能的密
非对称加密：SSL/TLS握手的数学基石安全
1.密钥交换的密码学困局在未加密的HTTP通信中，攻击者可通过中间人攻击（MITM）窃听或篡改数据。SSL/TLS协议的核心挑战在于：如何在不安全的信道上建立安全通信？这本质上是一个“密钥分发问题”——若使用对称加密（如AES），双方需要共享同一密钥，但密钥本身如何安全传递？非对称加密的突破性在于公钥与私钥的分离。以RSA算法为例，其数学基础是大质数分解难题：选择两个大质数p和q（通常≥2048位
HarmonyOS NEXT 将ArrayBuffer压缩到指定大小并转化为base64返回架构教育
项目中有需求要对获取的图片进行压缩，并且是要压缩到固定大小，考虑到harmonyos中对图片质量压缩方式packing，压缩后要及时检查大小，就使用while循环一步步的压缩，直至压缩到目标值letbitmap:ArrayBuffer;//需要压缩的数据letcompressSize:number;//目标大小letconsiderBase64:boolean;//是否考虑base64算法把字节数
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发引言在HarmonyNext生态系统中，图像处理是一个重要且具有挑战性的领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的图像处理应用，重点介绍图像卷积、边缘检测等核心算法的实现。我们将从理论基础出发，逐步构建一个完整的图像处理应用，并通过优化技巧提升性能。1.图像处理基础1.1图像表示在数字图像处理中，图像通常被表示为一个
【贪心算法5】 m0_46150269 贪心算法算法
力扣738.单调递增的数字链接:link思路遇到c[i]>c[i+1]则c[i]–,然后就是给c[i+1]赋值‘9’；需要注意的是star初值问题，可见注释部分。classSolution{publicintmonotoneIncreasingDigits(intn){Strings=String.valueOf(n);char[]c=s.toCharArray();intstar=c.lengt
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
第13章贪心算法厨神贪心算法算法
贪心算法局部最优求得总体最优适用于桌上有6张纸币，面额为10010050505010，问怎么能拿走3张纸币，总面额最大？—拿单位价值最高的只关注局部最优----关注拿一张的最大值拆解-----拿三次最大的纸币不适用于桌面三件物品，每个物品都有重量和价值，wv695733承重为8，求不超过背包承重情况下最大价值只能选一件，能不能得到最大值----选69还剩下二，能选第二件吗？不能选所以不适用，因为不
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
贪心算法简介（greed）神里流~霜灭贪心算法精讲贪心算法 c++c语言数据结构顺序表链表动态规划
前言：贪心算法（GreedyAlgorithm）是一种在每个决策阶段都选择当前最优解的算法策略，通过局部最优的累积来寻求全局最优解。其本质是"短视"策略，不回溯已做选择。什么是贪心、如何来理解贪心(个人对贪心的理解)前言对贪心是一种概念的回答。接下来就了解一下自己对贪心的理解，如果学习算法的化建议优先学习动态规划，动态规划相对于其他算法来说很简单。但是，贪心算法跟动态规划不同，非常难，贪心讲究策略
2025-3-14 leetcode刷题情况（贪心算法）肖筱小瀟蓝桥杯 leetcode 贪心算法算法
一、53.最大子序和1.题目描述2.代码3.思路先特殊处理数组只有一个数的情况，再定义两个变量，sum用于记录最大子数组和，count用于记录当前连续子数组的和。使用for循环遍历数组nums中的每个元素。对于每个元素nums[i]，将其累加到count中。每次累加后，使用Math.max函数比较sum和count的大小，将较大值更新到sum中，确保sum始终记录最大子数组和。如果count小于等
手写一些常见算法林tong学算法排序算法 java 数据结构
手写一些常见算法快速排序归并排序Dijkstra自定义排序交替打印0和1冒泡排序插入排序堆排序快速排序publicclassMain{publicstaticvoidmain(String[]args){intnums[]={1,3,2,5,4,6,8,7,9};quickSort(nums,0,nums.length-1);}privatestaticvoidquickSort(int[]num
哨兵2号遥感影像解析全流程：步骤、算法与AI应用详解 zhz5214 AI GIS 人工智能遥感 ai sentinel 智能体
遥感影像解析是农业监测、环境评估等领域的重要技术手段。哨兵2号（Sentinel-2）凭借其高分辨率多光谱数据，成为遥感分析的热门数据源。本文将系统梳理哨兵2号影像解析的核心步骤、适用算法与软件工具，并探讨AI技术在该领域的创新应用。一、哨兵2号影像解析核心步骤1.数据获取与预处理数据下载哨兵2号数据可通过官方平台[CopernicusOpenAccessHub](https://scihub.c
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
大数据技术【7】星绘搜题 big data 数据挖掘大数据
1.目前所获取的总数据量的80%以上都是（）数据。。A.结构化B.非结构化C.文本D.半结构化2.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①②③④c.①④③②d.④③②①A.③①②④B.①②③④C.①④③②D.④③②①3.利用先验原理可以帮助减少频繁项集产生时需要探查的
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
GEE数据集——Harmonized Landsat Sentinel-2 (HLS) 卫星sentinel-2哨兵-2（HLS）此星光明 GEE数据集专栏 sentinel 遥感影像 gee 数据集 nasa HLS-2
简介统一大地遥感卫星哨兵-2（HLS）项目通过虚拟卫星传感器群提供一致的地表反射率（SR）和大气层顶部亮度（TOA）数据。陆地成像仪（OLI）安装在美国宇航局/美国地质调查局的联合陆地卫星8号和陆地卫星9号上，而多光谱仪（MSI）则安装在欧洲的哥白尼哨兵-2A号和哨兵-2B号卫星上。通过综合测量，可以每2到3天以30米的空间分辨率对陆地进行全球观测。HLS项目使用一套算法来获得OLI和MSI的无缝
数学建模之数学模型-3：动态规划 ^ω^宇博数学模型数学建模动态规划算法
文章目录动态规划基本概念阶段状态决策策略状态转移方程指标函数最优指标函数动态规划的求解前向算法后向算法二者比较应用案例一种中文分词的动态规划模型摘要引言动态规划的分词模型问题的数学描述消除状态的后效性选择优化条件算法描述和计算实例算法的效率分析和评价结束语参考文献动态规划基本概念一个多阶段决策过程最优化问题的动态规划模型包括以下666个要素：以下是对动态规划中阶段、状态、决策、策略、状态转移方程、
贪心算法和回溯算法有什么区别？少林码僧数据结构与算法实战算法贪心算法
贪心算法和回溯算法有什么区别？在算法的世界里，贪心算法和回溯算法是两种常见的解决问题的策略。它们在很多场景下都能发挥重要作用，但又有着明显的区别。本文将详细介绍贪心算法和回溯算法的区别，并通过具体案例进行说明。一、贪心算法（一）定义与特点贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前状态下最优决策的算法。它的核心思想是局部最优解能够导致全局最优解。也就是说，贪心算法在每一
深入理解 OTSU 算法（大津法——最大类间方差法） ZHauLee 机器学习算法计算机视觉人工智能
一、算法概述OTSU算法是一种用于图像分割的自动阈值选择算法，广泛应用于图像处理领域，特别是在二值化过程中。它是由日本学者大津展之（NobuyukiOtsu）在1979年提出，因此得名“OTSU算法”。二、算法原理OTSU算法的核心思想是通过遍历所有可能的阈值，将图像分割为前景（目标）和背景两部分，使得这两部分之间的类内方差（intra-classvariance）最小，或者说使得这两部分之间的类
otsu算法_OTSU(大津法最大类间方差法) weixin_39996742 otsu算法
OTSU基本介绍OTSU是一种确定图像二值化分割阈值的算法，由日本学者大津于1979年提出，被誉为是图像分割中全局阈值选择的最佳方法。OTSU按照图像的灰度特性，将图像分成前景和背景两部分。因为方差可以看成是灰度分布均匀的一种度量，故前景和背景之间的类间方差越大，说明构成图像两部分的差别越大，当部分前景错分为背景或者部分背景被错分为前景时，都会导致两部分的差别变小。使用类间方差最大的分割一位置错分
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
【算法学习day10】 m0_46150269 算法学习
力扣202.快乐数链接:link思路这道题可能会遇到无限循环的情况，如何跳出循环是关键，我们可以用哈希表快速查询是否重复出现之前遇到的结果来结束循环。另外对数字的拆解也是解这道题的关键，下面来看题解吧。解：classSolution{publicbooleanisHappy(intn){Setset1=newHashSet0){inttemp=n%10;sum+=temp*temp;n/=10;}
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

Mahout推荐算法之SlopOne

Mahout推荐算法之SlopOne

一、 算法原理

二、 单机模型实现

三、 MapReduce实现(计算diff)

四、 实例演示

五、 参考文献

你可能感兴趣的:(算法,大数据,Mahout,机器学习)

一、算法原理

二、单机模型实现

四、实例演示

五、参考文献