pavel

Lucene-2.2.0 源代码阅读学习(42)

关于Hits类。
这个Hits类可是非常的重要，因为Lucene使用了缓存机制，关于缓存的实现就是在这个Hits类中。Hits工作过程中，使用了LRU算法，即通过一个HitDoc结构来实现一个双向链表，使用LRU置换算法，记录用户最近访问过的Document。
开门见山，直接拿出Hits类的实现代码来说话。
package org.apache.lucene.search;
import java.io.IOException;
import java.util.Vector;
import java.util.Iterator;

import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;

public final class Hits {
private Weight weight;
private Searcher searcher;
private Filter filter = null;
private Sort sort = null;

private int length;                // Hits的长度，即满足查询的结果数量
private Vector hitDocs = new Vector();    // 用作缓存检索结果的(Hit)

private HitDoc first;         // head of LRU cache
private HitDoc last;          // tail of LRU cache
private int numDocs = 0;      // number cached
private int maxDocs = 200;    // max to cache

Hits(Searcher s, Query q, Filter f) throws IOException {
    weight = q.weight(s);
    searcher = s;
    filter = f;
    getMoreDocs(50); // retrieve 100 initially | 从缓存中取出检索结果，如果缓存为null，则需要查询，查询后将结果加入缓存中
}

Hits(Searcher s, Query q, Filter f, Sort o) throws IOException {
    weight = q.weight(s);
    searcher = s;
    filter = f;
    sort = o;
    getMoreDocs(50); // retrieve 100 initially | 从缓存中取出检索结果，如果缓存为null，则需要查询，查询后将结果加入缓存中

}

/**
   * 将满足检索结果的Document加入到缓存hitDocs中
   */
private final void getMoreDocs(int min) throws IOException {
    /////////////////////////////////////////////////////////////////////////////////////////////
    System.out.println("■■■■■■■■■■■■■■■■■■■■■■■■进入getMoreDocs()方法中时，hitDocs.size="+hitDocs.size());
    ///////////////////////////////////////////////////////////////////////////////////////////
    if (hitDocs.size() > min) {
      min = hitDocs.size();
    }

    int n = min * 2;    // 扩充缓存容量为默认的2倍(默认最小情况下，也要扩充缓存。即使检索结果为1条记录，缓存的长度也扩充为100)
    TopDocs topDocs = (sort == null) ? searcher.search(weight, filter, n) : searcher.search(weight, filter, n, sort);
    length = topDocs.totalHits;
    ScoreDoc[] scoreDocs = topDocs.scoreDocs;

    float scoreNorm = 1.0f;

    if (length > 0 && topDocs.getMaxScore() > 1.0f) {
      scoreNorm = 1.0f / topDocs.getMaxScore();
    }

    int end = scoreDocs.length < length ? scoreDocs.length : length;
    for (int i = hitDocs.size(); i < end; i++) {
      hitDocs.addElement(new HitDoc(scoreDocs[i].score * scoreNorm,
                                    scoreDocs[i].doc));
    }
    /////////////////////////////////////////////////////////////////////////////////////////////
    System.out.println("■■■■■■■■■■■■■■■■■■■■■■■■离开getMoreDocs()方法中时，hitDocs.size="+hitDocs.size());
    ///////////////////////////////////////////////////////////////////////////////////////////
}

// 返回Hits的长度，即满足查询的Document的数量，并非是缓存Vector hitDocs的长度
public final int length() {
    return length;
}

// 根据Document的编号获取到Document
public final Document doc(int n) throws CorruptIndexException, IOException {
    /////////////////////////////////////////////////////////////////////////////////////////////
    System.out.println("hitDocs.size()="+hitDocs.size());
    /////////////////////////////////////////////////////////////////////////////////////////////
    HitDoc hitDoc = hitDoc(n);

    // Update LRU cache of documents
    remove(hitDoc);               // remove from list, if there
    addToFront(hitDoc);           // add to front of list
    if (numDocs > maxDocs) {      // if cache is full
      HitDoc oldLast = last;
      remove(last);             // flush last
      oldLast.doc = null;       // let doc get gc'd
    }

    if (hitDoc.doc == null) {
      hitDoc.doc = searcher.doc(hitDoc.id); // cache miss: read document
    }

    return hitDoc.doc;
}

// 得到第n个Document的得分
public final float score(int n) throws IOException {
    return hitDoc(n).score;
}

// 得到第n个Document的编号
public final int id(int n) throws IOException {
    return hitDoc(n).id;
}

public Iterator iterator() {
    return new HitIterator(this);
}

private final HitDoc hitDoc(int n) throws IOException {
    if (n >= length) {
      throw new IndexOutOfBoundsException("Not a valid hit number: " + n);
    }

    if (n >= hitDocs.size()) {
      getMoreDocs(n);
    }

    return (HitDoc) hitDocs.elementAt(n);
}

private final void addToFront(HitDoc hitDoc) { // insert at front of cache
    if (first == null) {
      last = hitDoc;
    } else {
      first.prev = hitDoc;
    }

    hitDoc.next = first;
    first = hitDoc;
    hitDoc.prev = null;

    numDocs++;
}

private final void remove(HitDoc hitDoc) {    // remove from cache
    if (hitDoc.doc == null) {     // it's not in the list
      return;                    // abort
    }

    if (hitDoc.next == null) {
      last = hitDoc.prev;
    } else {
      hitDoc.next.prev = hitDoc.prev;
    }

    if (hitDoc.prev == null) {
      first = hitDoc.next;
    } else {
      hitDoc.prev.next = hitDoc.next;
    }

    numDocs--;
}
}

final class HitDoc {
float score;
int id;
Document doc = null;

HitDoc next; // in doubly-linked cache
HitDoc prev; // in doubly-linked cache

HitDoc(float s, int i) {
    score = s;
    id = i;
}
}
上面代码中，红色标注的部分为后面测试之用。
一次查询时，需要构造一个Query实例。从Hits类的成员变量来看，在检索的过程中，一个Query实例并不是只使用一次，那么多次使用进行查询就需要记录这个Query实例的状态。

为了更加直观，写了一个测试类，来观察缓存长度的分配情况：
package org.shirdrn.lucene.learn.test;

import java.io.IOException;
import java.util.Date;
import java.util.Iterator;

import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.document.DateTools;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.search.Hit;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.store.LockObtainFailedException;

public class MyHitsTest {

    public void create() throws CorruptIndexException, LockObtainFailedException, IOException{
        String indexPath = "H:\\index";
        IndexWriter writer = new IndexWriter(indexPath,new CJKAnalyzer(),true);
        for(int i=0;i<500;i++){
            Document doc = new Document();
            doc.add(new Field("title","搜索引擎收录新页面与文章原创性问题",Field.Store.YES,Field.Index.TOKENIZED));
            doc.add(new Field("date",
                    DateTools.timeToString((new Date().getTime()), DateTools.Resolution.MINUTE),
                    Field.Store.YES, Field.Index.UN_TOKENIZED));
            doc.add(new Field("author","Shirdrn",Field.Store.YES,Field.Index.UN_TOKENIZED));
            String contents = "如果分词后的多个关键字，在关键文章分词中，某一关键片段中出现的关键频率最高，这个关键片段当然是Google检索结果呈现的那两行关键摘要。";
            doc.add(new Field("contents",contents,Field.Store.NO,Field.Index.TOKENIZED));
            writer.addDocument(doc);
        }
        writer.optimize();
        writer.close();
    }

    public void search() throws CorruptIndexException, IOException{
        Query query = new TermQuery(new Term("contents","关键"));
        String indexPath = "H:\\index";
        IndexSearcher searcher = new IndexSearcher(indexPath);
        Hits hits = searcher.search(query);
        System.out.println("★★★共检索出满足的结果 "+hits.length()+" 条。");
        Iterator it = hits.iterator();
        while(it.hasNext()){
            System.out.print("★调用Hits的doc()方法，(Vector): ");
            hits.doc(0); //执行这一行代码是为了观察：当获取一个Document的时候缓存的长度，因为第一次查看缓存的时候其长度是为0的，如果检索结果数量不为0则之后缓存长度是不为0的，至少为100
            Hit hit = (Hit)it.next();
            System.out.println("★检索到的Hit的ID为： "+hit.getId());
        }
    }
}

class MyTest{
    public static void main(String[] args) throws CorruptIndexException, LockObtainFailedException, IOException, ParseException {
        MyHitsTest hitsTest = new MyHitsTest();
        //hitsTest.create();
        hitsTest.search();
    }
}

首先要构造500个Document，建立索引，之后，执行检索的操作，结果如下所示：

■■■■■■■■■■■■■■■■■■■■■■■■进入getMoreDocs()方法中时，hitDocs.size=0
■■■■■■■■■■■■■■■■■■■■■■■■离开getMoreDocs()方法中时，hitDocs.size=100
★★★共检索出满足的结果 500 条。
★调用Hits的doc()方法，(Vector): hitDocs.size()=100★检索到的Hit的ID为： 0
★调用Hits的doc()方法，(Vector): hitDocs.size()=100★检索到的Hit的ID为： 1
★调用Hits的doc()方法，(Vector): hitDocs.size()=100★检索到的Hit的ID为： 2
……

★调用Hits的doc()方法，(Vector): hitDocs.size()=100★检索到的Hit的ID为： 98
★调用Hits的doc()方法，(Vector): hitDocs.size()=100★检索到的Hit的ID为： 99
★调用Hits的doc()方法，(Vector): hitDocs.size()=100■■■■■■■■■■■■■■■■■■■■■■■■进入getMoreDocs()方法中时，hitDocs.size=100
■■■■■■■■■■■■■■■■■■■■■■■■离开getMoreDocs()方法中时，hitDocs.size=200
★检索到的Hit的ID为： 100
★调用Hits的doc()方法，(Vector): hitDocs.size()=200★检索到的Hit的ID为： 101
★调用Hits的doc()方法，(Vector): hitDocs.size()=200★检索到的Hit的ID为： 102
……

★调用Hits的doc()方法，(Vector): hitDocs.size()=200★检索到的Hit的ID为： 198
★调用Hits的doc()方法，(Vector): hitDocs.size()=200★检索到的Hit的ID为： 199
★调用Hits的doc()方法，(Vector): hitDocs.size()=200■■■■■■■■■■■■■■■■■■■■■■■■进入getMoreDocs()方法中时，hitDocs.size=200
■■■■■■■■■■■■■■■■■■■■■■■■离开getMoreDocs()方法中时，hitDocs.size=400
★检索到的Hit的ID为： 200
★调用Hits的doc()方法，(Vector): hitDocs.size()=400★检索到的Hit的ID为： 201
★调用Hits的doc()方法，(Vector): hitDocs.size()=400★检索到的Hit的ID为： 202
……

★调用Hits的doc()方法，(Vector): hitDocs.size()=400★检索到的Hit的ID为： 398
★调用Hits的doc()方法，(Vector): hitDocs.size()=400★检索到的Hit的ID为： 399
★调用Hits的doc()方法，(Vector): hitDocs.size()=400■■■■■■■■■■■■■■■■■■■■■■■■进入getMoreDocs()方法中时，hitDocs.size=400
■■■■■■■■■■■■■■■■■■■■■■■■离开getMoreDocs()方法中时，hitDocs.size=500
★检索到的Hit的ID为： 400
★调用Hits的doc()方法，(Vector): hitDocs.size()=500★检索到的Hit的ID为： 401
★调用Hits的doc()方法，(Vector): hitDocs.size()=500★检索到的Hit的ID为： 402
……

由结果可见看到，构造一个Hits的实例的时候，调用getMoreDocs()方法。
第一次进入getMoreDocs()方法时，hitDocs.size() = 0 > min = 50不成立，接着n = min*2 = 50*2 = 100，因此离开getMoreDocs()方法时hitDocs.size() = 100；
第二次进入getMoreDocs()方法时，hitDocs.size() = 100 > min = 50成立，从而设置min = hitDocs.size() = 100，接着n = min*2 = 100*2 = 200，因此离开getMoreDocs()方法时hitDocs.size() = 200；
第三次进入getMoreDocs()方法时，hitDocs.size() = 200 > min = 100成立，从而设置min = hitDocs.size() = 200，接着n = min*2 = 200*2 = 400，因此离开getMoreDocs()方法时hitDocs.size() = 400；

如果满足查询的检索结果的Document数量足够大的话，应该继续是：

第四次进入getMoreDocs()方法时，hitDocs.size() = 400，离开getMoreDocs()方法时hitDocs.size() = 800；
第五次进入getMoreDocs()方法时，hitDocs.size() = 800，离开getMoreDocs()方法时hitDocs.size() = 1600；
……

根据上面，最后一次(第四次)进入getMoreDocs()方法的时候，hitDocs.size() = 400 > min = 400不成立，接着n = min*2 = 400*2 = 800，此时虽然缓存扩充了，但是执行searcher.search(weight, filter, n) 的时候取到了100条满足条件的Document，故而缓存的实际大小为hitDocs.size() = 500，因此离开getMoreDocs()方法时hitDocs.size() = 500，其实此次如果满足查询的Document数量足够，可以达到hitDocs.size() = 800。

Atlas安装详解 g511266804 大数据大数据 hadoop hive zookeeper
一、Atlas简介1.Atlas概述ApacheAtlas为组织提供开放式元数据管理和治理功能，用以构建其数据资产目录，对这些资产进行分类和管理，并为数据分析师和数据治理团队，提供围绕这些数据资产的协作功能，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。2.Atlas框架原理2.1Core层Atlas核心包含以下组件：2.1.1类型系统
【图论】最小生成树——prim算法 fftx_00 图论数据结构算法
一、什么是最小生成树最小生成树（MinimumSpanningTree,MST）：在一个给定的无向图G中求一棵树T，树T拥有图G的所有顶点，所有边都来自图G，使得整棵树的边权最小贪心策略：prim算法：让小树长大kruskal算法：将森林合并成树二、prim算法与Dijkstra算法区别：思想几乎完全相同，Dijkstra算法的最短距离指到源点s的最短距离；prim算法的最短距离指到集合s的最短距
【大数据安全】大数据安全的挑战与对策&；基础设施安全_数据安全面临的挑战图解 2401_84170391 程序员安全 wpf
一、大数据安全的挑战与对策（一）数据加密技术1、对称密码对称密码的特征是加密密钥和解密密钥相同。对称密码不仅可用于数据加密，也可用于消息的认证，最有影响的对称密码是美国国家标准局颁布的DES/AES算法。对称密码系统的保密性主要取决于密钥的安全性，因此必须通过安全可靠的途径（如信使递送）将密钥送至接收端。2、密钥管理如何将密钥安全、可靠地分配给通信对方，包括密钥产生、分配、存储和销毁等多方面的问题
c语言数据结构与算法参考文献,数据结构论文参考文献 Compass宁 c语言数据结构与算法参考文献
数据结构论文参考文献[1]严蔚敏.数据结构C语言版[M].清华大学出版社，2007.[2]舞动的排序算法.http：//v.youku.com/v_show/id_XMjU4MTg3MTU2.html.[3]丽水学院在线联系和考试系统.http：//acm.lsu.edu.cn.[4]范德宝，于晓聪，丁伟祥.提高数据结构课程教学效果的探讨[J].黑龙江科技信息，2007.[5]董丽薇.“数据结构”
算法之二维装水问题岳轩子左神算法算法
目录1.题目2.解释3.思路4.代码5.总结1.题目给定一个数组arr，已知其中所有的值都是非负的，将这个数组看作一个容器，请返回容器能装多少水比如，arr={3，1，2，5，2，4}根据值画出的直方图就是容器形状，该容器能装下5格水。2.解释无需解释很简单。3.思路很简单，我们只考虑第i位置能盛的水，这个位置的水怎么求呢？我们取其左侧最大和右侧最大中较小的值，减去这个位置高度就是这个位置的能盛水
探索自然语言处理：技术、应用及代码示例十四与诗自然语言处理人工智能
自然语言处理（NLP）是人工智能的一个重要分支，它使计算机能够理解、解释和生成人类语言。随着大数据和机器学习技术的发展，NLP在许多领域都有广泛的应用，从搜索引擎和翻译服务到聊天机器人和情感分析。一、自然语言处理的基本概念1.1什么是自然语言处理自然语言处理（NLP）是计算机科学、人工智能和语言学交叉的领域，旨在使计算机能够理解和处理人类语言。NLP涉及多个任务，包括但不限于：语言模型（Langu
正余弦函数的matlab仿真,实现正余弦信号的算法比较破局三板斧正余弦函数的matlab仿真
实现正余弦函数的几种算法记录1、几种算法的理论推导与matlab仿真(1)Taylor级数逼近正余弦函数的推导精度要求为20bit，其对应误差为9.536e-7,所以泰勒函数逼近的误差值要小于9.536e-7。FPGA数据处理时用24bit，数据用Q22格式，计算精度2.38e-7，数据输出20bit。sin(x)与cos(x)的Taylor级数展开为：(1)(2)如果直接使用公式(1)和(2)实
2025怀旧美学密码！AI生成“90年代胶片感女作家”人像，老台灯光晕竟带柏林噪声算法算法人工智能人脸识别深度学习
最近备受关注的“顶作AI”是由国内团队自主研发的AI生成平台，其核心优势在于对中文语境的高度适配性。该平台通过自研的“Lens模型”实现跨模态内容生成，这一近百亿级参数规模的模型基于概念融合范式，能够深度理解用户意图，即使提示词描述不够专业，也能精准捕捉需求并生成高质量作品。该平台操作流程极为简便：用户注册登录后，每日可获得100点免费“云朵值”，每生成一张图片仅消耗2点，相当于每日可免费创作50
44 | 最短路径：地图软件是如何计算出最优出行路径的？写文章的大米数据结构&算法算法数据结构
↑↑↑欢迎关注，分享更多IT技术注：本笔记为公司内部技术小组持续学习2年多时间+个人整理不下5次的结果产出。目录44|最短路径：地图软件是如何计算出最优出行路径的？算法解析44|最短路径：地图软件是如何计算出最优出行路径的？开篇题地图软件的最优路线是如何计算出来的吗？底层依赖了什么算法呢？算法解析建模把地图抽象成图&#x
31 | 深度和广度优先搜索：如何找出社交网络中的三度好友关系？写文章的大米数据结构&算法算法数据结构
↑↑↑欢迎关注，分享更多IT技术注：本笔记为公司内部技术小组持续学习2年多时间+个人整理不下5次的结果产出。目录31|深度和广度优先搜索：如何找出社交网络中的三度好友关系？“搜索”算法广度优先搜索（BFS）深度优先搜索（DFS）解答开篇31|深度和广度优先搜索：如何找出社交网络中的三度好友关系？开篇题找出用户的三度（其中包含一度、二度、三度）好友关系？“搜索”算法算法作用于具体的数据结构之上深度优
策略模式（Strategy Pattern）深度解析教程 java设计模式策略模式
一、模式定义策略模式属于行为型设计模式，通过定义算法族并将其封装为独立的策略类，使得算法可以动态切换且与使用它的客户端解耦。该模式通过组合替代继承，符合开闭原则（对扩展开放，对修改关闭）。二、核心角色Strategy（策略接口）定义所有支持的算法的公共接口ConcreteStrategy（具体策略）实现策略接口的具体算法Context（上下文）持有策略引用，提供修改策略的方法将客户端请求委托给当前
【SSL证书】提升搜索引擎排名策略
SSL证书：搜索引擎排名提升的隐形推手在竞争激烈的互联网世界中，企业总在寻找提升网站曝光率的有效方法。除了优化内容和外链建设，一个常被忽视却至关重要的工具——SSL证书，正在悄然成为搜索引擎排名优化的“隐形推手”。⚠️为什么SSL证书影响搜索排名？2014年，谷歌公开将“HTTPS（SSL加密协议）”列为搜索引擎排名因素之一，并逐年提高其权重。数据显示，全球90%以上的谷歌搜索结果首页网站已启用S
EasyDSS视频推拉流技术的应用与安防摄像机视频采集参数 EasyDSS 解决方案 EasyDSS相关问题音视频开发语言服务器运维无人机
安防摄像机的视频采集参数对于确保监控系统的有效性和图像质量至关重要。这些参数不仅影响视频的清晰度和流畅度，还直接影响存储和网络传输的需求。安防摄像机图像效果的好坏，由DSP处理器和图像传感器sensor决定，如何利用好已有的硬件资源，调教出一款图像质量上佳的摄像机，和各个厂家自己的视频，图像算法，技术积累息息相关。在操作使用摄像机时，准确理解摄像机里的视频图像采集相关概念参数，将摄像机调整到最好最
ROS & ROS2 机器人深度相机激光雷达多传感器标定工具箱强化学习与机器人控制仿真机器人数码相机人工智能深度学习计算机视觉视觉检测自动驾驶
系列文章目录目录系列文章目录前言三、标定目标3.1使用自定义标定目标四、数据处理4.1相机数据中的标定目标检测4.2激光雷达数据中的标定目标检测输入过滤器：正常估算：区域增长：尺寸过滤器：RANSAC：4.3用于2D-3D姿态估计的透视点算法4.4用于3D-3D配准的GICP4.5误差计算和标定确定性估计五、工作区5.1机器人工作区5.1.1初始化新机器人工作区六、节点、可组合节点和小节点6.1节
交通类 AI 项目预演阶段，本地化部署的一些新思路 segmentfault
交通行业的AI应用场景目前主要涵盖交通公共服务体验优化、汽车等交通工具的智能化升级和物流的智能化转型。大部分应用场景仍在项目实验阶段。此阶段需要有效地平衡项目需求、成本和开发效率。在项目预演阶段中，通常小规模算力就可以满足需求。此阶段主要是对模型的可行性、架构设计的合理性以及算法的有效性进行初步验证，此时模型规模相对较小，参数数量和复杂度都处于较低水平。例如，在构建一个简单的文本分类预演模型时，可
DSP、MCU、FPGA 的详细总结子墨城西硬件深入学习单片机 fpga开发嵌入式硬件
一、核心定义与特点类型定义核心特点DSP（数字信号处理器）专为高速数字信号处理设计的处理器-哈佛架构，单周期乘加（MAC）-实时性强，低延迟处理流式数据-专用指令集优化算法（如FFT、滤波）MCU（微控制器）集成CPU、内存、外设的单芯片控制器-低功耗、低成本-丰富外设接口（UART、SPI等）-顺序执行，适合嵌入式控制FPGA（现场可编程门阵列）硬件可编程的逻辑器件-并行处理，硬件可重构-低延迟
Python字符串匹配算法详解闲人编程进阶算法案例 python 算法开发语言字符串匹配朴素算法 Rabin-Karp Boyer-Moore
目录Python字符串匹配算法详解引言一、字符串匹配的基本概念1.1字符串匹配的定义1.2字符串匹配的应用二、常见的字符串匹配算法2.1朴素匹配算法2.1.1算法原理2.1.2Python实现2.1.3使用案例2.2KMP算法2.2.1算法原理2.2.2Python实现2.2.3使用案例2.3Boyer-Moore算法2.3.1算法原理2.3.2Python实现2.3.3使用案例2.4Rabin-
数据结构（5）别来无恙202 数据结构算法 c++
实验步骤：任务一：设头指针为head，并设带头结点单链表中的元素递增有序，编写算法，将元素x插入带头结点单链表的适当位置上。要求:插入后保持单链表元素的递增有序。[算法思想]从单链表的第一个元素结点开始，将元素x与每个结点的data域逐个进行比较。当data域的值小于等于元素x的值时，进行下一个结点的比较;否则就找到了插入结点的合适位置，此时申请新结点把元素存入data域，然后把新结点插入;如果比
矩阵平衡（Matrix Balancing）东北豆子哥数值计算/数值优化 HPC/MPI 矩阵线性代数
矩阵平衡（MatrixBalancing）是一种通过相似变换改善矩阵条件数的技术，旨在加速迭代求解的收敛并提高数值稳定性。以下是关键算法实现及步骤详解：1.对角缩放法（DiagonalScaling）核心思想：通过左乘和右乘对角矩阵(D)和(D^{-1})对矩阵(A)进行平衡，使得变换后矩阵(B=DAD^{-1})的行和列范数接近。算法步骤：计算缩放因子：对每行(i)，计算(d_i=\sqrt{|
机器学习：利用Spark MLlib实现分布式机器学习算法训练与预测。 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍近年来，随着云计算、大数据、人工智能等技术的不断发展，基于大规模数据处理的机器学习算法也在迅速发展壮大。机器学习（MachineLearning）是一门融合了统计、模式识别、计算机科学、数据挖掘等多领域知识而成的交叉学科，其目的是利用已知的数据，对未知的数据进行预测、分类、聚类、降维等任务，从而提高计算机程序的学习能力，改善自身的决策能力，解决实际问题。随着
【LeetCode基础算法】滑动窗口与双指针 huanjin_w 算法 leetcode python
定长滑动窗口总结：入-更新-出。入：下标为i的元素进入窗口，更新相关统计量。如果iint:ans=0num_vowels=0forright,cinenumerate(s):ifcin'aeiou':num_vowels+=1#第一步：入ifright
(持续更新中!!~)26、原来可以这样理解C语言_顺序表的应⽤ do_you_want_ c语言算法图论
目录1.顺序表的应⽤2.顺序表经典算法3.顺序表的问题及思考1.顺序表的应⽤1.基于动态顺序表实现通讯录C语⾔基础要求：结构体、动态内存管理、顺序表、⽂件操作1、功能要求1）⾄少能够存储100个⼈的通讯信息2）能够保存⽤⼾信息：名字、性别、年龄、电话、地址等3）增加联系⼈信息4）删除指定联系⼈5）查找制定联系⼈6）修改指定联系⼈7）显⽰联系⼈信息2、代码实现【思考1】⽤静态顺序表和动态顺序表分别如
你的AI助手正在泄密！运维人必防的4大智能陷阱 xmweisi 数据库管理--ORACLE MySQL 人工智能 IT培训华为认证红帽认证
原创：厦门微思网络在数字化浪潮中，AI凭借强大的运算能力与智能算法，已然成为提升工作效率的得力助手。从办公软件自动生成文档大纲，到智能客服快速响应客户咨询，它让繁琐流程得以简化，工作推进更为高效流畅。然而，在享受这份便捷的同时，我们必须对AI潜藏的信息泄露风险保持高度警惕。你的AI助手正在泄密！运维人必须规避的4大"智能"杀机引言：AI正在成为运维的"双面间谍""帮我分析这段报错日志！""生成一个
国密算法面试题解析及应用曼岛_ 密码学实战算法密码学面试
以下是密码学领域常见的面试题及其详细解析，涵盖基础理论、算法实现与应用场景，帮助系统化备战技术面试一、基础概念类1.密码学的主要目标是什么？答案：确保数据的机密性（加密防止窃听）、完整性（哈希校验防篡改）、认证性（数字签名验证身份）和不可否认性（签名防抵赖）。2.对称加密与非对称加密的区别？答案：对称加密（如AES、SM4）：加密解密使用同一密钥，速度快，适合大数据量加密，但密钥分发困难。非对称加
51、Spring Boot 详细讲义（八） Spring Boot 与 NoSQL 跟着汪老师学编程 spring boot nosql 后端
3、Elasticsearch集成3.1Elasticsearch概述3.1.1Elasticsearch的核心概念Elasticsearch是一个开源的分布式搜索引擎，主要用于实时数据检索和分析。它的核心功能包括全文检索、结构化查询和分析大规模数据。分布式搜索引擎：Elasticsearch将数据分布存储在多个节点上，支持水平扩展和高可用性。支持实时数据获取和高性能的复杂查询。倒排索引：倒排索引
后端领域中间件的云原生应用探索后端开发笔记 CSDN 中间件云原生 ai
后端领域中间件的云原生应用探索关键词：后端领域、中间件、云原生、应用探索、容器化、微服务摘要：本文聚焦于后端领域中间件的云原生应用探索。首先介绍了云原生环境下后端中间件应用的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了核心概念与联系，涵盖云原生和中间件的原理及架构，并通过Mermaid流程图进行直观展示。详细讲解了核心算法原理和具体操作步骤，使用Python代码进行说明。给出了相关的数
3.28学习总结 2402_88131930 学习算法数据结构
完成分割回文串的算法题，难点主要在如何去分割，靠什么去分割字符串inta(chararr[]){inti,j;intlen=strlen(arr);for(i=0,j=len-1;i=size){copy();return;}for(inti=startindex;i
【软考系统架构设计师】案例分析⑥ Web应用系统架构设计万猫学社软考系统架构设计师简明教程软考系统架构设计师架构师系统架构
>>回到总目录2)2^n(n>2)2n(n>2)时，订阅价格将会上涨10元。所以，当下即是最便宜的价格。文章目录Web应用系统的发展历程负载均衡应用层负载均衡HTTP重定向反向代理服务器传输层负载均衡DNS负载均衡NAT的负载均衡负载均衡算法静态算法动态算法常见负载均衡工具Session共享机制无状态服务有状态服务练习题ORM数据库读写分离化缓存技术MemCacheRedisMemCache和Re
商密SSL证书和国产SSL证书的区别安全
加密算法体系商密SSL证书：采用我国自主研发的SM2公钥算法体系，全面支持SM2/SM3/SM4等商用密码算法及商密SSL安全协议。其中SM2作为基于椭圆曲线密码的公钥算法标准，其单位安全强度显著优于传统RSA算法，能以更短的密钥长度实现更高等级的安全保障。国产SSL证书：虽遵循国内技术标准，但存在两类形态：严格意义的国产证书完全采用SM系列算法体系；另一类则使用RSA/ECC等国际算法，仅由国内
算法差分详解 + 总结英雄不问出处～算法
文章目录差分一维差分题解代码二维差分差分区间修改时使用差分1.先预处理一个差分数组，cre[i]=a[i]-a[i-1]，对差分数组求前缀和可以还原为原数组2.如果要让区间内的数+d，比如[l,r]内+d，那么r+1区间-d可以达到这样的效果，原数组[l,r]区间就+d了，只需要让差分数组第一个数加d，前缀和后后面的数都加上了d，所以让r+1以及后面的数-d，恢复原来的情况举个例子原数组:1221
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

Lucene-2.2.0 源代码阅读学习(42)

你可能感兴趣的:(apache,算法,cache,搜索引擎,Lucene)