Utopia_1919

mahout之推荐系统源码笔记（1） ---预处理之PreparePreferenceMatrixJob

mahout之推荐系统源码笔记（1） —预处理之PreparePreferenceMatrixJob

hadoop篇：

因为时间原因首先更新分布式hadoop上的推荐系统源码的阅读。

本笔记基于 apache-mahout-distribution-0.12.2-src 。

首先给出mahout中taste推荐系统的代码结构：

taste
- common
- eval
- hadoop
- impl
  - model
  - neighborhood
  - recommender
  - similarity
- model
- neighborhood
- recommender
- similarity

其中重要的有以下几个文件夹

model实现存放数据的各种model，其中model中用到的诸如FastIDbyKey等数据结构存放在common中。
similarity实现相似度计算的不同函数。
neighborhood实现计算相邻用户/物品的计算方法，只有两种，分别是基于距离和基于TopN和最大距离。
recommender实现推荐器的实现。
impl文件夹里面实现的是外部所有接口的具体实现函数。
hadoop存放的是推荐系统真正通过hadoop进行mr编程计算的核心函数。

taste推荐系统基于hadoop的入口类存放在hadoop.item下的RecommenderJob.java中。
RecommenderJob.java的主函数如下


  public static void main(String[] args) throws Exception {

    ToolRunner.run(new Configuration(), new RecommenderJob(), args);
  }

跟踪可以发现run函数回调RecommenderJob类中的run函数。

由此开始执行推荐系统。

RecommenderJob.run() 首先获取用户的Option，然后转化为自己可用的变量。
其中Option的addOption()格式为（OptionName，OptionShortName，OptionDescription，OptionDefaultValue）。根据这个格式，下面的变量添加很容易可以看懂。

/* package org.apache.mahout.cf.taste.hadoop.item.RecommenderJob.run */

    addInputOption();
    addOutputOption();
    addOption("numRecommendations", "n", "Number of recommendations per user",
            String.valueOf(AggregateAndRecommendReducer.DEFAULT_NUM_RECOMMENDATIONS));
    addOption("usersFile", null, "File of users to recommend for", null);
    addOption("itemsFile", null, "File of items to recommend for", null);
    addOption("filterFile", "f", "File containing comma-separated userID,itemID pairs. Used to exclude the item from "
            + "the recommendations for that user (optional)", null);
    addOption("userItemFile", "uif", "File containing comma-separated userID,itemID pairs (optional). "
            + "Used to include only these items into recommendations. "
            + "Cannot be used together with usersFile or itemsFile", null);
    addOption("booleanData", "b", "Treat input as without pref values", Boolean.FALSE.toString());
    addOption("maxPrefsPerUser", "mxp",
            "Maximum number of preferences considered per user in final recommendation phase",
            String.valueOf(UserVectorSplitterMapper.DEFAULT_MAX_PREFS_PER_USER_CONSIDERED));
    addOption("minPrefsPerUser", "mp", "ignore users with less preferences than this in the similarity computation "
            + "(default: " + DEFAULT_MIN_PREFS_PER_USER + ')', String.valueOf(DEFAULT_MIN_PREFS_PER_USER));
    addOption("maxSimilaritiesPerItem", "m", "Maximum number of similarities considered per item ",
            String.valueOf(DEFAULT_MAX_SIMILARITIES_PER_ITEM));
    addOption("maxPrefsInItemSimilarity", "mpiis", "max number of preferences to consider per user or item in the "
            + "item similarity computation phase, users or items with more preferences will be sampled down (default: "
        + DEFAULT_MAX_PREFS + ')', String.valueOf(DEFAULT_MAX_PREFS));
    addOption("similarityClassname", "s", "Name of distributed similarity measures class to instantiate, " 
            + "alternatively use one of the predefined similarities (" + VectorSimilarityMeasures.list() + ')', true);
    addOption("threshold", "tr", "discard item pairs with a similarity value below this", false);
    addOption("outputPathForSimilarityMatrix", "opfsm", "write the item similarity matrix to this path (optional)",
        false);
    addOption("randomSeed", null, "use this seed for sampling", false);
    addFlag("sequencefileOutput", null, "write the output into a SequenceFile instead of a text file");

    //Option初始化结束以后，解析用户自定义传入的String args[]到Option

    Map<String, List<String>> parsedArgs = parseArguments(args);
    if (parsedArgs == null) {
      return -1;
    }

    //将Option中的各个变量取出供本函数使用
    Path outputPath = getOutputPath();
    int numRecommendations = Integer.parseInt(getOption("numRecommendations"));
    String usersFile = getOption("usersFile");
    String itemsFile = getOption("itemsFile");
    String filterFile = getOption("filterFile");
    String userItemFile = getOption("userItemFile");
    boolean booleanData = Boolean.valueOf(getOption("booleanData"));
    int maxPrefsPerUser = Integer.parseInt(getOption("maxPrefsPerUser"));
    int minPrefsPerUser = Integer.parseInt(getOption("minPrefsPerUser"));
    int maxPrefsInItemSimilarity = Integer.parseInt(getOption("maxPrefsInItemSimilarity"));
    int maxSimilaritiesPerItem = Integer.parseInt(getOption("maxSimilaritiesPerItem"));
    String similarityClassname = getOption("similarityClassname");
    double threshold = hasOption("threshold")
        ? Double.parseDouble(getOption("threshold")) : RowSimilarityJob.NO_THRESHOLD;
    long randomSeed = hasOption("randomSeed")
        ? Long.parseLong(getOption("randomSeed")) : RowSimilarityJob.NO_FIXED_RANDOM_SEED;


    Path prepPath = getTempPath(DEFAULT_PREPARE_PATH);
    Path similarityMatrixPath = getTempPath("similarityMatrix");
    Path explicitFilterPath = getTempPath("explicitFilterPath");
    Path partialMultiplyPath = getTempPath("partialMultiply");

    AtomicInteger currentPhase = new AtomicInteger();

    int numberOfUsers = -1;

    /* 之上各个变量的功能可以参考之上Option初始化的时候添加进去的Optiondescription */

得到所有用户设定值以后（没有设定的依照系统的默认值），接下来看到运行第一个job：PreparePreferenceMatrixJob()。

    //shouldRunNextPhase这个函数比较难理解，
    //不过跟踪下来可以看到这个是mahout内部的容错机制，
    //其基本的原理是将每个task按照job分成不同的阶段，
    //每完成一个阶段，currentPhase++，这样如果task在某一个job崩溃以后，
    //mahout可以根据currentPhase的值知道接下来在哪个job运行。 

if (shouldRunNextPhase(parsedArgs, currentPhase)) {
      ToolRunner.run(getConf(), new PreparePreferenceMatrixJob(), new String[]{
      //这里是将当前run函数中的变量传递给接下来要执行的PreparePreferenceMatrixJob。
        "--input", getInputPath().toString(),
        "--output", prepPath.toString(),
        "--minPrefsPerUser", String.valueOf(minPrefsPerUser),
        "--booleanData", String.valueOf(booleanData),
        "--tempDir", getTempPath().toString(),
      });

      numberOfUsers = HadoopUtil.readInt(new Path(prepPath, PreparePreferenceMatrixJob.NUM_USERS), getConf());
    }

接下来，可以看到job调用了PreparePreferenceMatrixJob()，我们跟踪进去，代码如下：

public int run(String[] args) throws Exception {

    addInputOption();
    addOutputOption();
    addOption("minPrefsPerUser", "mp", "ignore users with less preferences than this "
            + "(default: " + DEFAULT_MIN_PREFS_PER_USER + ')', String.valueOf(DEFAULT_MIN_PREFS_PER_USER));
    addOption("booleanData", "b", "Treat input as without pref values", Boolean.FALSE.toString());
    addOption("ratingShift", "rs", "shift ratings by this value", "0.0");

    Map<String, List<String>> parsedArgs = parseArguments(args);
    if (parsedArgs == null) {
      return -1;
    }

    int minPrefsPerUser = Integer.parseInt(getOption("minPrefsPerUser"));
    boolean booleanData = Boolean.valueOf(getOption("booleanData"));
    float ratingShift = Float.parseFloat(getOption("ratingShift"));

    // 之上的依旧是通过我们执行任务之前添加进去的各种String args[]变量初始化Option，
    // 然后初始化本函数使用的各个变量，同RecommenderJob一样，这里不再赘述 

    //执行PreparePreferenceMatrixJob第一个job
    //将商品ID转化为hash的index索引
    Job itemIDIndex = prepareJob(getInputPath(), getOutputPath(ITEMID_INDEX), TextInputFormat.class,
            ItemIDIndexMapper.class, VarIntWritable.class, VarLongWritable.class, ItemIDIndexReducer.class,
            VarIntWritable.class, VarLongWritable.class, SequenceFileOutputFormat.class);
    itemIDIndex.setCombinerClass(ItemIDIndexReducer.class);
    boolean succeeded = itemIDIndex.waitForCompletion(true);
    if (!succeeded) {
      return -1;
    }

    //执行PreparePreferenceMatrixJob第二个job
    //将用户偏好转化为向量
    Job toUserVectors = prepareJob(getInputPath(),
                                   getOutputPath(USER_VECTORS),
                                   TextInputFormat.class,
                                   ToItemPrefsMapper.class,
                                   VarLongWritable.class,
                                   booleanData ? VarLongWritable.class : EntityPrefWritable.class,
                                   ToUserVectorsReducer.class,
                                   VarLongWritable.class,
                                   VectorWritable.class,
                                   SequenceFileOutputFormat.class);
    toUserVectors.getConfiguration().setBoolean(RecommenderJob.BOOLEAN_DATA, booleanData);
    toUserVectors.getConfiguration().setInt(ToUserVectorsReducer.MIN_PREFERENCES_PER_USER, minPrefsPerUser);
    toUserVectors.getConfiguration().set(ToEntityPrefsMapper.RATING_SHIFT, String.valueOf(ratingShift));
    succeeded = toUserVectors.waitForCompletion(true);
    if (!succeeded) {
      return -1;
    }


    //收集并记录用户数量
    //这个getCounters的具体mapreduce中的实现我们等下就会看到
    int numberOfUsers = (int) toUserVectors.getCounters().findCounter(ToUserVectorsReducer.Counters.USERS).getValue();
    HadoopUtil.writeInt(numberOfUsers, getOutputPath(NUM_USERS), getConf());


    //执行PreparePreferenceMatrixJob第三个job
    //构建评价矩阵
    Job toItemVectors = prepareJob(getOutputPath(USER_VECTORS), getOutputPath(RATING_MATRIX),
            ToItemVectorsMapper.class, IntWritable.class, VectorWritable.class, ToItemVectorsReducer.class,
            IntWritable.class, VectorWritable.class);
    toItemVectors.setCombinerClass(ToItemVectorsReducer.class);

    succeeded = toItemVectors.waitForCompletion(true);
    if (!succeeded) {
      return -1;
    }

    return 0;
  }
}

本预备job分别包含了三个小job，分别是1（ItemIDIndexMapper，ItemIDIndexReducer）、2（ToItemPrefsMapper、ToUserVectorsReducer）和3（ToItemVectorsMapper、ToItemVectorsReducer），接下来我们分别跟进三个mapreduce，看看它们具体做了什么。

（ItemIDIndexMapper，ItemIDIndexReducer）构建物品的内部索引。
输入：默认索引key，输入文本value （输入数据）
输出：处理后的item内部索引，itemID
，代码：

public final class ItemIDIndexMapper extends Mapper<LongWritable,Text, VarIntWritable, VarLongWritable> {

  private boolean transpose;

  private final VarIntWritable indexWritable = new VarIntWritable();
  private final VarLongWritable itemIDWritable = new VarLongWritable();

  @Override

  //读取默认设定，transpose设定是否item和user互换。
  protected void setup(Context context) {
    Configuration jobConf = context.getConfiguration();
    transpose = jobConf.getBoolean(ToEntityPrefsMapper.TRANSPOSE_USER_ITEM, false);
  }

  @Override
  protected void map(LongWritable key,
                     Text value,
                     Context context) throws IOException, InterruptedException {

    //将输入数据的行分隔为字符串，String[0]:userid,String[1]:itemID,String[2]:pref
    String[] tokens = TasteHadoopUtils.splitPrefTokens(value.toString());

    //根据是基于物品还是基于用户决定是否转置
    long itemID = Long.parseLong(tokens[transpose ? 0 : 1]);

    //将itemID通过内建函数转化为范围在0~0x7FFFFFFE的内部索引，然后写出
    int index = TasteHadoopUtils.idToIndex(itemID);
    indexWritable.set(index);
    itemIDWritable.set(itemID);
    context.write(indexWritable, itemIDWritable);
  }  
}

public final class ItemIDIndexReducer extends Reducer<VarIntWritable, VarLongWritable, VarIntWritable,VarLongWritable> {

  private final VarLongWritable minimumItemIDWritable = new VarLongWritable();

  @Override
  protected void reduce(VarIntWritable index,
                        Iterable<VarLongWritable> possibleItemIDs,
                        Context context) throws IOException, InterruptedException {
    //这里这个reduce的基本作用是将大于0x7FFFFFFE的itemID抛去，将合并到0~0x7FFFFFFE的映射中
    long minimumItemID = Long.MAX_VALUE;
    for (VarLongWritable varLongWritable : possibleItemIDs) {
      long itemID = varLongWritable.get();
      if (itemID < minimumItemID) {
        minimumItemID = itemID;
      }
    }
    if (minimumItemID != Long.MAX_VALUE) {
      minimumItemIDWritable.set(minimumItemID);
      context.write(index, minimumItemIDWritable);
    }
  }

}

（ItemIDIndexMapper，ItemIDIndexReducer）将输入的text格式的文本进行转化，步骤大概如下：

map:
[Index , <userID , itemID , pref>]  
-> [Index , itemID]

combine&reduce:
整合得到[Index , itemID]

（ToItemPrefsMapper、ToUserVectorsReducer）将用户偏好转化为向量。
输入：默认索引，输入文本（输入数据）
输出：[ userID , Vector< itemID , Pref > ]（这里的value使用的是mahout自定义的vector向量结构）
或[ userID , Vector< itemID > ]
代码：

public abstract class ToEntityPrefsMapper extends Mapper<LongWritable,Text, VarLongWritable,VarLongWritable> {
    ...
    //由于初始化预处理等步骤不重要我们省略直接看mapreduce
  @Override
  public void map(LongWritable key,
                  Text value,
//获取输入文本中的各个字符串，将其变为userID，itemID
    String[] tokens = DELIMITER.split(value.toString());
    long userID = Long.parseLong(tokens[0]);
    long itemID = Long.parseLong(tokens[1]);

    //这里根据设定里面决定是基于用户还是基于物品来决定是否转置
    if (itemKey ^ transpose) {
      // If using items as keys, and not transposing items and users, then users are items!
      // Or if not using items as keys (users are, as usual), but transposing items and users,
      // then users are items! Confused?
      long temp = userID;
      userID = itemID;
      itemID = temp;
    }

    //这个booleanData是说明你的输入数据中是否带有用户的偏好信息
    //具体解释这个偏好信息，就是对商品打1~5分，这个叫做用户有偏好信息，如果点赞，喜欢，则没有用户偏好信息
    //没有用户偏好信息的输出[ userID , itemID ] 结构。
    if (booleanData) {
      context.write(new VarLongWritable(userID), new VarLongWritable(itemID));
    } else {
      float prefValue = tokens.length > 2 ? Float.parseFloat(tokens[2]) + ratingShift : 1.0f;
      context.write(new VarLongWritable(userID), new EntityPrefWritable(itemID, prefValue));
    }
  }

}

public final class ToUserVectorsReducer extends Reducer<VarLongWritable,VarLongWritable,VarLongWritable,VectorWritable> {
  ... 

  @Override
  protected void reduce(VarLongWritable userID,
                        Iterable<VarLongWritable> itemPrefs,
                        Context context) throws IOException, InterruptedException {
    //初始化向量存储itemID，pref的pari对
    Vector userVector = new RandomAccessSparseVector(Integer.MAX_VALUE, 100);
    for (VarLongWritable itemPref : itemPrefs) {
      //内部化itemID索引
      int index = TasteHadoopUtils.idToIndex(itemPref.get());

      //这里判断是否为booleanData，如果是则将其偏好值设定为1.0
      //这里会有一个疑问，< itemID , Pref > 和 itemID 一个是 EntityPrefWritable 一个是VarLongWritable类型，
      //它是如何传参的，跟进EntityPrefWritable 我们发先其实它是VarLongWritable的子类，
      //继承了VarLongWritable的值，这里它作为itemID，然后添加了一个新变量prefvalue存放pref.
      //instanceof 是用来判断左边的变量是否是右边类型
      float value = itemPref instanceof EntityPrefWritable ? ((EntityPrefWritable) itemPref).getPrefValue() : 1.0f;
      userVector.set(index, value);
    }

    if (userVector.getNumNondefaultElements() >= minPreferences) {
      userVectorWritable.set(userVector);
      userVectorWritable.setWritesLaxPrecision(true);
      //这里这个在reduce中实现的getCounter用来计算user的数量，每reduce一个userIDJ就自增1。
      context.getCounter(Counters.USERS).increment(1);
      context.write(userID, userVectorWritable);
    }
  }

}

步骤：

map：
[index , (userID,itemID,pref)] 
-> string[](token[0]:userID,token[1]:itemID,token[2]:pref)
-> if(booleanData)（判断是否存在用户偏好值） [userID , itemID] 
   else [userID , (itemID,pref)]

reduce：
[userID , vector(itemID , pref)] 或 [userID , vector(itemID)] 
-> [userID , vectorWritable(itemID , pref)] 或 [userID , vectorWritable(itemID , 1.0)]

并且获取number of user。

接下来，我们看（ToItemVectorsMapper、ToItemVectorsReducer）构造评价矩阵。
输入：[ userID , Vector < itemID , Pref > ] （（ToItemPrefsMapper、ToUserVectorsReducer）job的输出。）
输出：[ itemID , Vector < userID , Pref > ]
这个mr比较简单，就是将userID和itemID转换了一下，就不再赘述。
代码：


public class ToItemVectorsMapper extends Mapper<VarLongWritable,VectorWritable,IntWritable,VectorWritable> {

  private final IntWritable itemID = new IntWritable();
  private final VectorWritable itemVectorWritable = new VectorWritable();

  @Override
  protected void map(VarLongWritable rowIndex, VectorWritable vectorWritable, Context ctx)
    throws IOException, InterruptedException {
    Vector userRatings = vectorWritable.get();

    int column = TasteHadoopUtils.idToIndex(rowIndex.get());

    itemVectorWritable.setWritesLaxPrecision(true);

    Vector itemVector = new RandomAccessSparseVector(Integer.MAX_VALUE, 1);
    for (Vector.Element elem : userRatings.nonZeroes()) {
      itemID.set(elem.index());
      itemVector.setQuick(column, elem.get());
      itemVectorWritable.set(itemVector);
      ctx.write(itemID, itemVectorWritable);
      // reset vector for reuse
      itemVector.setQuick(elem.index(), 0.0);
    }
  }

}

public class ToItemVectorsReducer extends Reducer<IntWritable,VectorWritable,IntWritable,VectorWritable> {

  private final VectorWritable merged = new VectorWritable();

  @Override
  protected void reduce(IntWritable row, Iterable<VectorWritable> vectors, Context ctx)
    throws IOException, InterruptedException {

    merged.setWritesLaxPrecision(true);
    merged.set(VectorWritable.mergeToVector(vectors.iterator()));
    ctx.write(row, merged);
  }
}

步骤：

map:
[userID , vectorWritable(itemID , pref)]
-> [itemID , vector(userID , pref)]

reducer:
[itemID , vector(userID , pref)]
-> [itemID , vectorWritable(userID , pref)]

构造出的评价矩阵看起来像是userID和itemID转换了一下位置，其实这个和推荐系统原理有关，可以假象一个用户-商品的评价矩阵，矩阵的行代表商品，列代表用户，则[itemID , vectorWritable(userID , pref)] 可以很方便通过行列定位遍历矩阵。

以上就是PreparePreferenceMatrixJob()的具体操作结构，总的来说就是对输入数据进行了一些预处理以供后面的接下来相似度计算的操作。

转载请注明出处：http://blog.csdn.net/Utopia_1919/article/details/51832471

SpringBoot实战：整合Redis、mybatis，封装RedisUtils工具类等（附源码） 2401_84003839 程序员 spring boot redis mybatis
result=true;}catch(Exceptione){e.printStackTrace();}returnresult;}/***写入缓存设置时效时间*@paramkey*@paramvalue*@return*/publicbooleanset(finalStringkey,Objectvalue,LongexpireTime){booleanresult=false;try{Valu
React Next项目中导入Echart世界航线图一朵好运莲 react.js javascript ecmascript
公司业务要求做世界航线图，跑了三个ai未果，主要是引入world.json失败，echart包中并不携带该文件，源码的world.json文件页面404找不到。需要自己寻找。这是整个问题卡壳的关键点，特此贴出资源网址。一、安装npminstallecharts二、下载world.jsonworld.json在最下面，点开直接粘贴到自己项目中引入Indexof/examples/data/asset
【面试题系列】Redis 常见面试题&答案颜淡慕潇面试题系列 redis 数据库缓存
一、基础概念1.Redis有哪些数据结构？各自的应用场景是什么？答案：Redis支持以下数据结构：String：最基础类型，存储字符串、数字、二进制数据。场景：缓存用户信息、计数器、分布式锁。Hash：键值对集合，类似Java的HashMap。场景：存储对象（如用户属性）。List：双向链表，支持左右插入和弹出。场景：消息队列（LPUSH+RPOP）、微博时间线。Set：无序唯一集合，支持交集、并
11B模型拿下开源视频生成新SOTA！仅用224张GPU训练，训练成本省10倍量子位
关注前沿科技量子位224张GPU，训出开源视频生成新SOTA！Open-Sora2.0正式发布。11B参数规模，性能可直追HunyuanVideo和Step-Video（30B）。要知道，市面上诸多效果相近的闭源视频生成模型，动辄花费数百万美元训练成本。而Open-Sora2.0，将这一数字压缩到了20万美元。同时，此次发布全面开源模型权重、推理代码及分布式训练全流程，开发者们可以看过来！GitH
【懒人精灵】免费网络验证源码分享九黎AJ 懒人精灵懒人精灵
个人简介‍个人主页：九黎aj‍♂️幸福源自奋斗,平凡造就不凡如果文章对你有用，麻烦关注点赞收藏走一波，感谢支持！欢迎订阅我的专栏：autojspythonQQ群：698307198文章目录前言总结加入交流群前言为什么使用百宝云神烦云免费网络验证做教学因为它免费并且功能多注册地址http://useryz.91shenfan.com/index.php?user/login&refurl=http:
uinapp前端技术带动陪玩软件市场，语音陪玩系统源码开发打造你自己的市场前端后端小程序数据库服务器
游戏陪玩app是一种为游戏玩家提供专业陪玩服务的软件。这个软件汇聚了大量游戏玩家，特别是大神级别的玩家，为玩家提供贴心、专业的游戏陪玩服务。用户可以通过软件轻松查找和选择满意的陪玩。此外，陪玩软件还提供了如语音互动、礼物打赏，在线接单，社交直播等功能，方便玩家畅玩游戏。跨平台开发：uniapp支持一次开发，多端发布，包括iOS、Android、Web以及各种小程序等平台。这意味着开发者可以编写一套
MetaGPT零基础极速入门：手把手教你打造AI虚拟公司 Julian.zhou MetaGPT 人工智能人工智能
MetaGPT是什么？为什么突然爆火？MetaGPT是由中国团队开发的多智能体协作框架，仅需1个需求，自动生成完整软件项目！它能模拟真实IT公司流程，自动分解任务、编写代码、生成文档，GitHub狂揽18k+星！官网：https://www.deepwisdom.ai/源码地址：https://github.com/geekan/MetaGPTMetaGPT能做什么？一句需求，可以让模拟的一个团队
智能车辆控制技术：MPC与轨迹规划实战项目柚木i
本文还有配套的精品资源，点击获取简介：本压缩包集合了车辆转向控制与轨迹规划的MATLAB代码，包含模型预测控制（MPC）策略、MPT工具箱应用、车辆动力学模型构建、轨迹规划实现、mp-QP算法应用及MATLAB编程实践。旨在通过源码分析，提供智能车辆控制技术的深入学习与研究平台，涉及横向和纵向运动控制、系统模型的定义、控制策略的制定及仿真流程。1.模型预测控制（MPC）基础与应用模型预测控制（MP
分布式架构的 CAP 定理、BASE 理论及其应用教程宋发元分布式架构
分布式架构的CAP定理、BASE理论及其应用教程在构建分布式系统时，数据一致性、系统可用性和网络分区容忍性是三个核心关注点。CAP定理和BASE理论为我们提供了指导原则，帮助在系统设计中进行合理权衡。本文将深入解析CAP定理和BASE理论，并结合实际应用案例，帮助你掌握在分布式架构中的应用策略。1.CAP定理：分布式系统的权衡法则1.1CAP定理概述CAP定理由EricBrewer提出，指出在一个
【SpringBoot】实现登录功能一只爱打拳的程序猿 Spring MyBatis HTML5+CSS spring boot mybatis javascript html5 css
在上一篇博客中，我们讲解了注册页面的实现。在此基础上会跳转到登录页面，今天给大家带来的是使用SpringBoot，MyBatis，Html，CSS，JavaScript，前后端交互实现一个登录功能。目录一、效果二、源码2.1前端2.2后端一、效果用户名和密码栏输入空或没有值时，提示错误。在数据库中有以下信息，任意挑选一条信息进行登录操作。输入用户lisi，123后登陆成功跳转到个人列表。二、源码2
实现书籍类应用框架鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例提供了一个书籍类应用的基本框架，包含“书城”、“分类”、“福利”、“书架”、“我的”五个模块。应用只展示了基本的页面，其中具体功能的实现，开发者可根据需求自行开发。实现书籍类应用框架源码链接效果预览使用说明进入应用，点击下方的tabBar可浏览不同的模块，其中一些功能未开发，只是作为页面布局展示。实现思路根据行业应用的功能，按照高内聚，低耦合的原则，常见应用
Zookeeper性能优化与调优技巧精讲 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Zookeeper性能优化与调优技巧精讲1.背景介绍1.1什么是Zookeeper?ApacheZooKeeper是一个开源的分布式协调服务,为分布式应用程序提供高可用性和强一致性的协调服务。它主要用于解决分布式环境中的数据管理问题,如统一命名服务、配置管理、分布式锁、集群管理等。ZooKeeper的设计目标是构建一个简单且高效的核心,以确保最大程度的可靠性和可扩展性。1.2Zookeeper的应
深度掌握 ReactJS 高级概念：前端开发者必备前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读这篇文章汇总了ReactJS中值得深入研究的高级概念。读完后，不仅在前端面试中能更胸有成竹，还能自行开发一个类似ReactJS的UI库。目录Rendering的含义与过程Re-rendering发生的机制及原因VirtualDOM的原理Reconciliation算法的运行方式ReactJS的性能优化方案1
【视频】ffmpeg、Nginx搭建RTMP、HLS服务器郭老二视频音视频 ffmpeg nginx
1、源码安装Nginx1）源码下载因为要使用Nginx的模块nginx-rtmp-module，所以要下载nginx和nginx-rtmp-module的源码。下载地址：http://nginx.org/en/download.htmlhttps://github.com/arut/nginx-rtmp-module/tags2）解压、配置在同一个目录中解压nginx和nginx-rtmp-mod
Linux安装graphite(nginx+uwsgi)过程 caihuan 运维 graphite
由于需要测量程序的各种指标，使用dropwizardmetrics，数据直接输出到graphite.看了很多别人安装graphite的文章，回馈下，写下自己的安装过程。1、查看系统版本cat/proc/versionLinuxversion4.4.10-1-pve(root@elsa)(gccversion4.9.2(Debian4.9.2-10))2、git下载源码Graphite-web:gi
分布式数据库OceanBase HBryce24 数据库分布式 oceanbase
三地五中心部署同步示例三地：城市A、城市B、城市C（3个不同的地理位置）。五中心：总共有5个数据中心（Zone），分布如下：城市A：Zone1（R/W）、Zone2（R/W）城市B：Zone3（R/W）、Zone4（R/W）城市C：Zone5（RO）一、读写副本（R/WZone）与只读副本（ROZone）的数量Zone类型数量角色说明R/WZone4参与写入投票，可成为主副本ROZone1仅支持异
什么是vue的keep-alive?它是如何实现的？具体缓存了什么内容？北辰alk vue 前端 vue.js 缓存 spring
文章目录一、`keep-alive`的核心作用二、实现原理1.缓存管理策略2.核心源码解析（Vue2.x简化版）3.缓存生命周期三、缓存的具体内容1.缓存对象结构2.具体缓存内容四、使用示例1.基础用法2.配置缓存策略五、注意事项六、实现流程图解Vue的keep-alive是一个内置组件，用于缓存不活动的组件实例，避免重复渲染，从而优化应用性能。它常用于需要保留组件状态或避免重复加载的场景（如标签
重磅推出！Highlight.io：开源全栈监控平台，让开发者轻松掌控应用性能！开源项目精选全栈
Highlight.io是一个开源的全栈监控平台，提供用于错误监控、会话重放、日志记录、分布式跟踪等的综合工具。它旨在为开发人员提供用于监控应用程序的现代、有凝聚力的解决方案。Stars数8,029Forks数398主要特点错误跟踪：借助详细的堆栈跟踪、错误上下文和受影响用户信息，即时捕获并诊断错误。会话回放：通过像素级精确重现会话，可视化用户交互，帮助你快速理解和复现问题。性能监控：通过加载时间
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
Qt Creator插件系统详解及插件开发实战丰年稻香 QT qt 插件
一、前言QtCreator作为Qt官方IDE，其插件系统允许开发者深度扩展IDE功能。本文以QtCreator4.11（基于Qt5.12.12构建）为例，结合其独特的依赖解析机制，详解插件开发全流程。通过本文，您不仅能掌握基础开发方法，还能深入理解插件系统的底层逻辑。二、环境配置与源码编译1.基础环境搭建•Qt版本选择必须使用Qt5.12.12，与QtCreator4.11保持二进制兼容（官方推荐
python爬虫遇到IP被封的情况，怎么办？(2) 2301_82242251 程序员 python 爬虫开发语言
代理的设置：①urllib的代理设置fromurllib.errorimportURLErrorfromurllib.requestimportProxyHandler,build_opener‘’’更多Python学习资料以及源码教程资料，可以在群1136201545免费获取‘’’proxy=‘127.0.0.1:8888’#需要认证的代理#proxy=‘username:password@12
CDN防御如何保护我们的网络安全？ cdncdn缓存网络安全
在当今数字化时代，网络安全成为了一个至关重要的议题。随着网络攻击的日益频繁和复杂化，企业和个人都面临着前所未有的安全威胁。内容分发网络（CDN）作为一种分布式网络架构，不仅能够提高网站的访问速度和用户体验，还能够在很大程度上增强网络安全防护能力。本文将探讨CDN防御如何保护我们的网络安全。1、CDN防御的首要本领是分布式抗DDoS攻击DDoS攻击，即分布式拒绝服务攻击，犹如网络中的“洪水猛兽”，攻
三天斩获10万用户。零基础用ChatGPT+Flutter开发AI算命小程序，流量变现全流程众口烁金 chatgpt flutter 人工智能小程序 plotly
---##三天斩获10万用户！零基础用ChatGPT+Flutter开发AI算命小程序，流量变现全流程大揭秘！（附完整源码）**导语**：大学生靠“AI面相分析”小程序日入5万？2023最野路子曝光！无需算法基础，手把手教你用ChatGPT生成风水命理模型，Flutter快速开发上线，抓住玄学经济红利！（文末送开光版源码+裂变增长脚本）**关键词**：AI算命、ChatGPT变现、Flutter开
2025毕设springboot大学目标规划与落地平台的设计与实现后台源码+论文皓宇学长-毕设课程设计 spring boot 后端
系统程序文件列表开题报告内容研究背景在当今社会，随着高等教育的普及和竞争的日益激烈，大学生对于个人成长与职业规划的需求愈发迫切。然而，许多学生在追求学业进步、技能提升及未来职业发展等方面缺乏有效的目标规划与跟踪工具。传统的目标管理方式往往依赖于纸质日记或简单的电子记录，难以提供系统化、个性化的目标设定与进度监控服务。因此，开发一款集目标规划、执行跟踪、反馈激励于一体的大学目标规划与落地平台显得尤为
HBase学习二：HBase的表结构 hucs420109 HBase HBase
HBase的表结构初次接触HBase，可能看到以下描述会懵：“基于列存储”，“稀疏MAP”，“RowKey”,“ColumnFamily”。其实没那么高深，我们需要分两步来理解HBase,就能够理解为什么HBase能够“快速地”“分布式地”处理“大量数据”了。内存结构文件存储结构先介绍几个名称概念行键RowKey：行键，类似mysql中的主键，Table中的记录按照RowKey排序，行键是表结构的
分布式存储—— HBase数据模型详解 Future_yzx 分布式 hbase 数据库
目录1.3HBase数据模型1.3.1两类数据模型1.3.2数据模型的重要概念1.3.3数据模型的操作1.3.4数据模型的特殊属性1.3.5CAP原理与最终一致性1.3.6小结本文章参考、总结于学校教材课本《HBase开发与应用》1.3HBase数据模型在开始学习HBase之前非常有必要先学习HBase的特性，因此本节将介绍HBase的逻辑模型、物理模型和访问HBase的方法等。和传统的关系型数据
分布式存储学习——HBase表结构设计 Future_yzx oracle 数据库
目录1.4.1模式创建1.4.2Rowkey设计1.4.3列族定义1.4.3.1可配置的数据块大小1.4.3.2数据块缓存1.4.3.3布隆过滤器1.4.3.4数据压缩1.4.3.5单元时间版本1.4.3.6生存时间1.4.4模式设计实例1.4.4.1实例1：动物分类1.4.4.2实例2：店铺与商品1.4.4.3实例3：网上商城用户消费记录1.4.4.4实例4：微博用户与粉丝1.4.4.5小结本文
【bluedroid】A2dp Source播放流程源码分析(1) byte轻骑兵解读 Android 通信协议蓝牙 Bluedroid C++
在蓝牙音频传输领域，A2DP（AdvancedAudioDistributionProfile，高级音频分发协议）扮演着关键角色，它能够实现高质量音频（如立体声音乐）通过蓝牙在不同设备间的传输。在Android系统所采用的Bluedroid蓝牙协议栈里，A2DPSource承担着音频流发送的重任，将音频数据传输至A2DPSink（像车载音响、蓝牙耳机等接收设备）。一、概述Bluedroid作为An
【Bluedroid】A2dp Sink初始化源码分析 byte轻骑兵解读 Android c++通信协议蓝牙 Bluedroid
在Bluedroid蓝牙协议栈中，A2DP（AdvancedAudioDistributionProfile）Sink负责接收来自A2DPSource（如手机、音乐播放器等）的音频流，并将其播放到本地设备（如车载音响、蓝牙耳机等）上。A2DPSink的初始化是确保A2DPSink服务能够正确运行的关键步骤。一、A2DPSink初始化流程系统启动或用户请求：当系统启动或用户请求启动A2DPSink服
nginx 使用与编译云满笔记 #ops nginx build modules conf compile
目录1.nginx使用与编译1.1.nginx版本1.2.常用命令1.3.常用脚本1.3.1.清空日志1.3.2.显示进程1.3.3.启动1.4.Nginx模块1.4.1.动态加载模块1.4.2.模块编译1.4.3.http_gzip_module和http_gzip_static_module1.5.源码编译nginx1.5.1.nginx的一些编译参数1.5.2.Debian自带的nginx1
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

mahout之推荐系统源码笔记（1） ---预处理之PreparePreferenceMatrixJob

mahout之推荐系统源码笔记（1） —预处理之PreparePreferenceMatrixJob

你可能感兴趣的:(源码,hadoop,分布式,Mahout,Taste)