White-Camellia

Lucene

目录

1. Lucene概述

1.1 什么是Lucene

1.2 Lucene的原理

2. Lucene的使用

2.1 准备

2.2 生成索引

2.3 全文检索

2.4 多Field检索

2.5 中文分词器

2.6 停用词

2.7 是否索引,是否储存

1. Lucene概述

1.1 什么是Lucene

Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者google那样拿来就能用，它只是提供了一些工具让你能实现这些产品。

Lucene的发明者Doug Cutting也同样是Hadoop的创造者。

Lucene能做什么？

要回答这个问题，先要了解Lucene的本质。

实际上Lucene的功能很单一，说到底，就是你给它若干个字符串，然后它为你提供一个全文搜索服务，告诉你你要搜索的关键词出现在哪里。

知道了这个本质，你就可以发挥想象做任何符合这个条件的事情了。

你可以把站内新闻都索引了，做个资料库；

你可以把一个数据库表的若干个字段索引起来，那就不用再担心因为"%like%"而锁表了；

你也可以写个自己的搜索引擎。

Lucene效率如何？

下面给出一些N年前的测试数据，如果你觉得可以接受，那么可以选择。
- 测试一：250万记录，300M左右文本，生成索引380M左右，800线程下平均处理时间300ms。
- 测试二：37000记录，索引数据库中的两个varchar字段，索引文件2.6M，800线程下平均处理时间1.5ms。

1.2 Lucene的原理

Lucene为什么这么快？
- 倒排索引
- 压缩算法
- 二元搜索

倒排索引

先要了解一下数据库的like搜索为什么那么慢：

执行like搜索时，数据库要遍历每条数据，并在每次遍历的过程中匹配关键词。

也就是说，慢的原因是在记录中搜索关键词，所以可以把这个过程反过来，以关键词搜索记录。

倒排索引是将每个文档（数据库中的记录）中的词汇提前取出，建立“词汇-文档索引”。

以上表中数据为例，将其中所有词汇取出，并建立索引：
Lucene的工作方式

Lucene提供的服务实际包含两部分：一入一出。

所谓入是写入，即将你提供的源（本质是字符串）写入索引或者将其从索引中删除；

所谓出是读出，即向用户提供全文搜索服务，让用户可以通过关键词定位源。
- 写入流程：
  
  源字符串首先经过analyzer处理，包括：分词（分成一个个单词）、去除停用词（stopword，可选）。
  
  将源中需要的信息加入Document的各个Field中，并把需要索引的Field索引起来，把需要存储的Field存储起来。
  
  将索引写入存储器，存储器可以是内存或磁盘。
- 读出流程：
  
  用户提供搜索关键词，经过analyzer处理。
  
  对处理后的关键词搜索索引找出对应的Document。
  
  用户根据需要从找到的Document中提取需要的Field。

2. Lucene的使用

2.1 准备

引入依赖

        
        
            org.apache.lucene
            lucene-highlighter
            9.5.0
        

        
        
            org.apache.lucene
            lucene-queryparser
            9.5.0
        


        
        
            org.apache.lucene
            lucene-analyzers-common
            8.11.2
        

              
             
            commons-io
            commons-io
            2.11.0

准备基础数据

知乎热榜 - 知乎

创建两个目录，例如 D:/data 和 D:/index 在data目录中添加一些数据，可以保存几个网页

2.2 生成索引

private static final String INDEX_DIR = "/Users/whitecamellia/Desktop/lucene/index";
private static final String DATA_DIR = "/Users/whitecamellia/Desktop/lucene/data";

@Test
public void createIndex() throws Exception {

    // 获取存放索引的目录
    Directory directory = FSDirectory.open(Paths.get(INDEX_DIR));
    // 创建IndexWriter的默认配置
    IndexWriterConfig indexWriterConfig = new IndexWriterConfig();
    // 创建IndexWriter
    IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);

    // 获取存放原始数据的目录
    File dataDir = new File(DATA_DIR);
    // 遍历目录中的文件
    for (File data : dataDir.listFiles()) {
        if (data.isFile()) {
            // 创建文档
            Document document = new Document();

            String title = data.getName();
            // 向title Field域中加入文件名
            document.add(new TextField("title", title, Field.Store.YES));

            String content = FileUtils.readFileToString(data, "utf-8");
            // 向content Field域中加入文件内容
            document.add(new TextField("content", content, Field.Store.YES));

            indexWriter.addDocument(document);
        }
    }
    indexWriter.close();
}

2.3 全文检索

@Test
public void search() throws Exception {
    String keyword = "何平";

    // 获取索引目录
    Directory directory = FSDirectory.open(Paths.get(INDEX_DIR));
    // 创建标准分词器
    Analyzer analyzer = new StandardAnalyzer();
    // 通过索引创建出IndexSearcher
    DirectoryReader reader = DirectoryReader.open(directory);
    IndexSearcher indexSearcher = new IndexSearcher(reader);

    // 指定搜索域
    QueryParser queryParser = new QueryParser("title", analyzer);
    // QueryParser queryParser = new QueryParser("content", analyzer);
    // 处理搜索关键词
    Query query = queryParser.parse(keyword);

    // 搜索整个索引，并获取前5条
    TopDocs topDocs = indexSearcher.search(query, 5);
    System.out.println("共搜索出 " + topDocs.totalHits + " 条数据");

    System.out.println("#################################################################");
    // 遍历搜索结果
    for (ScoreDoc doc : topDocs.scoreDocs) {
        // 通过文档的索引获取文档
        Document document = indexSearcher.doc(doc.doc);
        // 获取文档指定域的内容
        // System.out.println(document.get("title"));
        System.out.println(document.getField("title").stringValue());
        // 获取该文档的score，决定了结果顺序，代表与关键词的相关性（相关性计算所占百分比）
        System.out.println("搜索评分：" + doc.score);
    }
}

2.4 多Field检索

以上只是在单个Field（title）中搜索，也可以在多个Field中搜索。

只需将

QueryParser queryParser = new QueryParser("title", analyzer);

替换为

QueryParser queryParser = new MultiFieldQueryParser(new String[]{"title", "content"}, analyzer);

2.5 中文分词器

Lucene默认使用StandardAnalyzer进行分词，该分词器逻辑较为简单，尤其是对于中文，只是单纯对每个字进行拆分，没办法使用。

Lucene也提供了中文分词器，需引入依赖：org.apache.lucene:lucene-analyzers-smartcn，然后将上面程序中的分词器修改成SmartChineseAnalyzer，注意，在生成索引时也要指定分词器，不然还是默认的StandardAnalyzer：

// search 创建中文分词器
Analyzer analyzer = new SmartChineseAnalyzer();
// createIndex 
IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);



    org.apache.lucene
    lucene-analyzers-smartcn
    8.11.2

2.6 停用词

文档中有很多词对于检索来说是没有实际意义的，比如“我”、“是”、“的”、“了”……

这就需要在生成索引和检索时排除掉这些，Lucene默认有一个停用词库，不过里面只包含了几十个标点符号。

我们也可以在创建分词器时自己指定停用词：

List STOP_WORD_LIST = Arrays.asList(new String[]{"，", "。", ",", ".", "?", "我", "的", "了"});
CharArraySet set = new CharArraySet(STOP_WORD_LIST, true);
Analyzer analyzer = new SmartChineseAnalyzer(set);

也可以去网上找一个通用的停用词库。

中文停用词表

2.7 是否索引,是否储存

// 创建文档
Document document = new Document();
String title = data.getName();
//  是否索引==》是否要对title的数据进行分词，生成索引表
//  TextField("title") 是索引
//  new StringField("author")
//  是否储存  生成索引表的时候要不要在我们的索引库中保存原数据
//  保存就可以获取到对应的内容 document.getField("content").stringValue()
//  Field.Store.No
//  通常，对于标题，我们是存储的，但是对于内容，我们并不需要，因为内容的数据太了，
//  内容的数据，我们可以去查表获取
document.add(new TextField("title", title, Field.Store.YES));

String content = FileUtils.readFileToString(data, "utf-8");
// 向content Field域中加入文件内容
document.add(new TextField("content", content, Field.Store.NO));

indexWriter.addDocument(document);

你可能感兴趣的:(全文检索,搜索引擎)

400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
百度搜索下拉框,下拉菜单怎么做?如何刷? mt_187 日常记录技术收藏 html5
搜索下拉菜单反馈性关键词是用户在搜索时与搜索引擎的第一步互动，在互动过程中，搜索引擎的反馈关键词不断调整来满足用户的个性需求。搜索下拉框存在的下拉词，每天的点击浏览量都很高，这意味着很多企业都在抢这个位置，在网民搜索自己的行业主关键词时，下拉中的词条是行业关键词和自己品牌词或其他营销类词的整体呈现。搜索下拉框菜单怎么做?如何刷?在本篇文章中您将会了解到以下信息。第一部分搜索下拉框菜单原理第二部分怎
恒创科技：香港站群服务器做seo站群优化效果如何海外空间恒创科技科技服务器运维
香港站群服务器做SEO站群优化效果如何?在当前搜索引擎优化竞争日益激烈的环境下，越来越多的企业开始关注站群策略这一高效的SEO手段。作为亚洲重要的网络枢纽，香港站群服务器因其独特优势，正成为实施SEO站群优化的热门选择。本文将客观分析香港服务器在SEO站群优化中的实际效果，帮助您做出明智的技术选型决策。香港站群服务器的先天优势：地理位置和网络基建香港站群服务器就像个“黄金地段”的商铺——背靠中国大
哪家香港站群服务器比较好用？海外空间恒创科技站群服务器服务器香港站群服务器
面对鱼龙混杂的服务商市场，哪家的香港站群服务器真正稳定？毕竟搞站群最怕的就是服务器抽风，轻则掉排名，重则客户跑光光。今天咱就重点聊聊哪家香港站群服务器比较好用？一般来说，在选择香港站群服务器提供商时，稳定性、IP资源、网络质量以及售后服务是关键考量因素。1.服务器的稳定性服务器频繁宕机或网络波动会导致站群网站无法访问，不仅影响用户体验，还会导致搜索引擎排名下滑，甚至被降权。稳定的服务器环境利于搜索
知识图谱系列（2）：知识图谱的技术架构与组成要素程序员查理 #知识图谱知识图谱架构人工智能 AI Agent RAG
1.引言知识图谱作为一种强大的知识表示和组织方式，已经在搜索引擎、推荐系统、智能问答等多个领域展现出巨大的价值。在之前的上一篇文章中，我们介绍了知识图谱的基础概念与发展历程，了解了知识图谱的定义、核心特征、发展历史以及在AI发展中的地位与作用。要深入理解和应用知识图谱，我们需要进一步探索其内部的技术架构和组成要素。知识图谱不仅仅是一个简单的数据结构，而是一个复杂的技术体系，涉及知识的表示、存储、查
Spring AI：Tool Calling 虾条_花吹雪 Spring AI ai java
工具调用（也称为函数调用）是人工智能应用程序中的一种常见模式，允许模型与一组API或工具交互，以增强其功能。工具主要用于：信息检索。此类工具可用于从外部源（如数据库、web服务、文件系统或web搜索引擎）检索信息。目标是增强模型的知识，使其能够回答否则无法回答的问题。因此，它们可用于检索增强生成（RAG）场景。例如，一个工具可用于检索给定位置的当前天气，检索最新的新闻文章，或查询数据库中的特定记录
！LangChain自定义代理开发深度解析(44) Android 小码蜂测试专栏 langchain microsoft .net
LangChain自定义代理开发深度解析一、LangChain代理基础架构1.1代理核心概念LangChain中的代理（Agent）是一种能够根据工具调用和对话历史自主决策的智能体。它通过以下核心机制实现智能交互：工具调用：代理可调用外部工具（如搜索引擎、计算器等）获取实时信息对话历史管理：维护多轮对话上下文，支持状态追踪决策逻辑：基于LLM生成决策，判断是否需要调用工具或直接回答1.2代理核心组
！LangChain工具选择与调用策略深入解析(42)
LangChain工具选择与调用策略深入解析一、LangChain工具概述1.1工具的定义与作用LangChain中的工具（Tool）是用于扩展语言模型能力的核心组件，它允许开发者将外部功能或资源集成到基于语言模型的应用中。工具的本质是封装了特定功能的可调用单元，例如调用搜索引擎获取实时信息、操作数据库执行查询、调用文件系统读取数据等。通过工具，LangChain能够弥补语言模型自身能力的局限，使
！ LangChain工具选择与调用策略深入解析(41) Android 小码蜂测试专栏 langchain 数据库服务器
LangChain工具选择与调用策略深入解析一、LangChain工具概述1.1工具的定义与作用LangChain中的工具（Tool）是用于扩展语言模型能力的核心组件，它允许开发者将外部功能或资源集成到基于语言模型的应用中。工具的本质是封装了特定功能的可调用单元，例如调用搜索引擎获取实时信息、操作数据库执行查询、调用文件系统读取数据等。通过工具，LangChain能够弥补语言模型自身能力的局限，使
怎么用快鲸AISEO实战全攻略提升百度排名？
智能SEO实战策略智能搜索引擎优化的核心在于利用先进技术手段实现策略的动态调整与优化。快鲸AISEO正是这类工具的代表，它能够深度分析搜索引擎的规则变化与用户搜索意图的演变。通过该平台，网站运营者可以高效地执行百度搜索排名优化任务，其智能算法能实时识别并推荐高潜力关键词，同时指导内容结构的优化方向，确保内容既符合搜索算法偏好，又能精准匹配用户需求。这种动态调整能力显著提升了优化的效率与精准度。实践
Elasticsearch：什么是搜索相关性？ Elastic 中国社区官方博客 Elasticsearch Elastic elasticsearch 大数据搜索引擎人工智能全文检索
搜索相关性定义搜索相关性衡量的是搜索引擎返回的搜索结果与用户查询和意图之间的匹配程度。搜索结果的质量取决于显示的信息与用户预期之间的契合度。提升搜索相关性和性能需要进行语言分析、排序算法优化以及考虑上下文因素。这些因素可能包括用户行为分析、位置信息、热门程度和搜索历史等。搜索相关性是客户体验中的关键因素，通过合理平衡，搜索体验可以同时满足企业和用户的需求。了解为什么相关性对搜索引擎至关重要，以及如
Elasticsearch MacJerry elasticsearch 大数据搜索引擎
学习目标[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BGW4RqWM-1635414988340)(es.assets/Snipaste_2020-07-06_13-03-45.png)]Elasticsearch简介与安装什么是Elasticsearch？ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基
Git安装避坑指南：新手村通关秘籍
Git安装避坑指南：新手村通关秘籍刚学编程那会儿，Git安装差点让我砸键盘。满心欢喜打开官网下载，结果卡在配置上，命令行死活不认识git命令。看着教程里别人行云流水的操作，自己对着报错信息干瞪眼——这感觉，经历过的人都懂。今天这份避坑指南，就是帮你跳过这些“新手坑”，稳稳装好Git！第一坑：官网迷路，下载错版本坑点描述：直接在搜索引擎搜“Git下载”，排在前面的广告链接可能是“高速下载器”或第三方
Apache Nutch介绍与部署编译
一、Nutch概述ApacheNutch是一个开放源代码的Java搜索引擎框架，它提供了运行自己的搜索引擎所需要的全部工具，包括全文搜索和Web爬虫，使用Nutch不仅可以建立自己内部网的搜索引擎，同时也可以针对整个网络建立搜索引擎。【软件特色】1、Nutch致力于让每个人能很容易，同时花费很少就可以配置世界一流的Web搜索引擎2、每个月取几十亿网页3、为这些网页维护一个索引4、对索引文件进行每秒
Apache Tika入门野生开发者 #Java
文章目录1、基本介绍2、Tika使用2.1、解析器接口（TheParserinterface）2.1.1、自定义Parser类2.2、检测器接口2.3、Tika配置1、基本介绍ApacheTika（文本分析工具包）能够检测并提取来自上千种不同文件类型(如PPT、XLS和PDF)的元数据和文本；所有这些文件类型都可以通过一个接口进行解析，这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。2
Apache Tika:通用的内容分析工具
项目介绍Tika是一个内容分析工具，自带全面的parser工具类，能解析基本所有常见格式的文件，得到文件的metadata，content等内容，返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。Tika是一个目的明确，使用简单的apache的开源项目。下图是Tika诞生的一个历史过程。Tika项目之初来源于Nutch项目(大家应该都不陌生)，现在
SEO优化技巧深度解析：从算法逻辑到实战策略的全链路突破 boyedu 网站建设网站建设网站运营网站架构
第一章搜索引擎算法逻辑：SEO优化的底层密码1.1算法进化史：从关键词匹配到意图理解搜索引擎算法经历了从简单关键词匹配到复杂语义理解的跨越式发展。早期算法以PageRank为核心，通过分析网页间链接关系评估权威性。随着Hummingbird算法的推出，搜索引擎开始解析自然语言，BERT算法进一步实现上下文语义理解。当前算法已形成多维度评估体系，涵盖内容质量、用户体验、权威性建设等层面。以Googl
多模态融合：现代搜索引擎底层图像、视频检索的技术架构设计何雅琪¥ 搜索引擎
在多媒体内容爆炸式增长的当下，用户对搜索引擎的需求已从单纯的文本检索拓展到图像、视频等多元模态。多模态融合技术打破了信息载体的界限，使搜索引擎能够理解图像的视觉语义、视频的动态内容，并实现跨模态的精准检索。从特征提取到检索匹配，现代搜索引擎底层围绕图像、视频检索构建起复杂而精妙的技术架构，重塑了用户获取信息的方式。一、多模态数据的特征提取：解码视觉信息图像与视频包含丰富的视觉信息，其特征提取是实现
Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
搜索领域SEO进阶：内容优化与用户体验提升搜索引擎技术 ux ai
搜索领域SEO进阶：从关键词堆砌到用户价值——内容优化与体验升级的实战指南关键词SEO进阶、内容质量、用户体验、E-E-A-T、用户行为信号、结构化数据、页面速度优化摘要当“SEO=关键词堆砌”的时代成为历史，当搜索引擎算法从“识别文字”进化到“理解意图”，SEO从业者正面临一场从“技术投机”到“用户价值”的范式转移。本文将深度拆解搜索领域的进阶策略：从内容优化的核心逻辑（E-E-A-T框架、主题
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
LRU缓存算法在搜索引擎中的应用数据结构与算法学习缓存算法搜索引擎 ai
LRU缓存算法在搜索引擎中的应用关键词：LRU算法、缓存淘汰、搜索引擎、哈希表、双向链表、性能优化、访问频率摘要：本文深入探讨了LRU(最近最少使用)缓存算法在搜索引擎中的关键应用。我们将从基本概念出发，通过生活化的比喻解释LRU的工作原理，分析其在搜索引擎架构中的具体实现方式，并通过Python代码示例展示如何构建一个高效的LRU缓存系统。文章还将讨论LRU算法的数学建模、实际应用场景以及未来发
基于Elasticsearch的短视频平台个性化推荐系统设计与实现亲爱的非洲野猪 elasticsearch 音视频推荐算法
在当今内容爆炸的时代，个性化推荐系统已成为短视频平台的核心竞争力之一。本文将详细介绍如何利用Elasticsearch（ES）构建一个高效、可扩展的短视频个性化推荐系统。一、系统架构概述我们的推荐系统将采用混合推荐策略，结合协同过滤、内容相似度和热度推荐等多种方法。Elasticsearch作为核心搜索引擎和数据存储，将承担以下职责：用户画像存储与查询视频内容索引与检索实时行为日志分析推荐结果计算
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
Docker三分钟部署ElasticSearch平替MeiliSearch轻量级搜索引擎
‍个人主页：阿木木AEcru(更多精彩内容可进入主页观看)系列专栏：《Docker容器化部署系列》《Java每日面筋》每一次技术突破，都是对自我能力的挑战和超越。目录一、什么是MeiliSearch？二、对比ElasticSearch有什么好处？三、使用场景有哪些？四、docker部署MeiliSearch4.1创建数据持久化文件夹4.2拉取镜像4.3运行容器五、访问测试5.1访问5.2下载测试文
搜索文档的好助手：AnyTXT Searcher
一、什么是AnyTXTSearcher在办公和学习的过程中，我们常常有过这种经历，就是当我们想找一篇以前保存的文档时，只记得某个关键词，却不记得这个关键词存在了哪个文件夹哪个文档中，用系统文件夹搜索也总是找不到想要的结果。现在，有一款非常方便的全文检索工具AnyTXTSearcher，可以根据关键词对整个系统的文件进行搜索，不仅可以检索文件名，还可以检索文档中的内容，检索速度也非常快，可以极大提高
文档全文搜索引擎：AnyTXT Searcher xixi_666 搜索引擎
“超强桌面文档全文搜索引擎”：AnyTXTSearcherAnyTXTSearcher国内下载：Anytxt文档内容搜索官方下载链接，支持国产信创系统https://anytxt.net.cn/download.html
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他