cusi77914

apache lucene_使用Apache Lucene搜索文本

Lucene是可从Apache Software Foundation获得的开源，高度可扩展的文本搜索引擎库。您可以在商业和开源应用程序中使用Lucene。 Lucene强大的API主要集中在文本索引和搜索上。它可用于为诸如电子邮件客户端，邮件列表，Web搜索，数据库搜索等应用程序构建搜索功能。Wikipedia，TheServerSide，jGuru和LinkedIn等网站已由Lucene提供支持。

Lucene还为Eclipse IDE，Nutch（著名的开源Web搜索引擎）以及IBM®，AOL和Hewlett-Packard等公司提供搜索功能。 Lucene已被移植到许多其他编程语言，包括Perl，Python，C ++和.NET。截至2009年7月30日，采用Java™编程语言的Lucene的最新版本为V2.4.1。

Lucene具有许多功能。它：

具有强大，准确，高效的搜索算法。
计算与给定查询匹配的每个文档的分数，并返回按分数排名最相关的文档。
支持许多强大的查询类型，例如PhraseQuery，WildcardQuery，RangeQuery，FuzzyQuery，BooleanQuery等。
支持解析人类输入的丰富查询表达式。
允许用户使用自定义排序，过滤和查询表达式解析来扩展搜索行为。
使用基于文件的锁定机制来防止并发索引修改。
允许同时搜索和索引。

使用Lucene构建应用程序

如图1所示，使用Lucene构建功能齐全的搜索应用程序主要涉及索引数据，搜索数据和显示搜索结果。

图1.使用Lucene构建应用程序的步骤

本文使用来自使用Lucene V2.4.1的Java技术开发的示例应用程序的代码片段。该示例应用程序对存储在属性文件中的一组电子邮件文档建立索引，并显示了如何使用Lucene的查询API搜索索引。该示例还将使您熟悉基本索引操作。

索引数据

Lucene使您可以索引文本格式的任何可用数据。 Lucene可以用于几乎所有数据源，只要可以从中提取文本信息即可。您可以使用Lucene索引和搜索存储在HTML文档，Microsoft®Word文档，PDF文件等中的数据。索引数据的第一步是使其以简单文本格式可用。您可以使用自定义解析器和数据转换器来执行此操作。

索引过程

索引编制是将文本数据转换为便于快速搜索的格式的过程。一个简单的类比是您在书末找到的索引：该索引将您指向书中出现的主题的位置。

Lucene将输入数据存储在称为反向索引的数据结构中，该结构作为一组索引文件存储在文件系统或内存中。大多数Web搜索引擎使用反向索引。它使用户可以执行快速的关键字查找，并找到与给定查询匹配的文档。在将文本数据添加到索引之前，它需要由分析器处理（使用分析过程）。

分析

分析将文本数据转换为基本搜索单位，这称为term 。在分析过程中，文本数据将经历多个操作：提取单词，删除常用单词，忽略标点符号，将单词简化为根形式，将单词更改为小写字母等。分析仅在建立索引和查询解析之前进行。分析将文本数据转换为标记，并将这些标记作为术语添加到Lucene索引中。

Lucene带有各种内置分析器，例如SimpleAnalyzer，StandardAnalyzer，StopAnalyzer，SnowballAnalyzer等。这些不同之处在于它们标记文本和应用过滤器的方式。由于分析会在索引编制之前删除单词，因此会减小索引大小，但会对精度查询处理产生负面影响。您可以使用Lucene提供的基本构建块来创建自定义分析器，从而对分析过程进行更多控制。表1显示了一些内置分析仪及其处理数据的方式。

表1. Lucene的内置分析仪

分析仪	对文本数据进行的操作
空白分析仪	在空白处分割标记
简单分析器	用非字母字符分隔文本，并将文本小写
停止分析器	删除停用词（对搜索无用）并将文本小写
标准分析仪	根据复杂的语法对文本进行标记，该语法可以识别：电子邮件地址；首字母缩写词中文，日文和韩文字符；字母数字和更多将文字小写删除停用词

核心索引类

Directory

表示索引文件存储位置的抽象类。通常主要使用两个子类：

FSDirectory — Directory的实现，在实际的文件系统中存储索引。这对于大索引很有用。
RAMDirectory —将所有索引存储在内存中的实现。这适用于较小的索引，这些索引可以完全加载到内存中，并在应用程序终止时销毁。由于索引保存在内存中，因此速度相对较快。

Analyzer

如上所述，分析器负责预处理文本数据并将其转换为存储在索引中的令牌。 IndexWriter接受用于对数据建立索引之前对其进行标记化的分析器。要正确索引文本，您应该使用适合需要索引的文本语言的分析器。

默认分析器适用于英语。 Lucene沙箱中还有其他几种分析器，包括中文，日文和韩文的分析器。

IndexDeletionPolicy

用于实现自定义从索引目录中删除过时提交的策略的接口。默认的删除策略是KeepOnlyLastCommitDeletionPolicy ，该策略仅保留最新的提交，并在完成新提交后立即删除所有先前的提交。

IndexWriter

创建或维护索引的类。它的构造函数接受一个布尔值，该布尔值确定是创建新索引还是打开现有索引。它提供了添加，删除或更新索引中文档的方法。

最初对索引所做的更改将存储在内存中，并定期刷新到索引目录中。 IndexWriter公开了几个字段，这些字段控制索引在内存中的缓冲方式以及如何将其写入磁盘。除非调用IndexWriter的commit或close方法，否则对IndexReader不到对索引所做的更改。 IndexWriter为目录创建一个锁定文件，以防止索引同时更新导致索引损坏。 IndexWriter允许用户指定可选的索引删除策略。

清单1.使用Lucene `IndexWriter`

//Create instance of Directory where index files will be stored
Directory fsDirectory =  FSDirectory.getDirectory(indexDirectory);
/* Create instance of analyzer, which will be used to tokenize
the input data */
Analyzer standardAnalyzer = new StandardAnalyzer();
//Create a new index
boolean create = true;
//Create the instance of deletion policy
IndexDeletionPolicy deletionPolicy = new KeepOnlyLastCommitDeletionPolicy(); 
indexWriter =new IndexWriter(fsDirectory,standardAnalyzer,create,
	deletionPolicy,IndexWriter.MaxFieldLength.UNLIMITED);

向索引添加数据

将文本数据添加到索引涉及两个类。

Field表示在搜索中查询或检索的一条数据。 Field类封装一个字段名称及其值。 Lucene提供了一些选项来指定是否需要对字段进行索引或分析以及是否需要存储其值。在创建字段实例时可以传递这些选项。下表显示了Field元数据选项的详细信息。

表2. `Field`元数据选项的详细信息

选项	描述
Field.Store.Yes	用于存储字段的值。适用于显示搜索结果的字段，例如文件路径和URL。
字段存储号	字段值未存储-例如，电子邮件正文。
字段索引号	适用于未搜索的字段-通常与存储的字段一起使用，例如文件路径。
字段索引分析	用于索引和分析的字段，例如，电子邮件正文和主题。
Field.Index.NOT_ANALYZED	用于索引但未分析的字段。它完整保留了字段的原始值，例如日期和个人名称。

而Document是字段的集合。 Lucene还支持增强文档和字段，如果要重视某些索引数据，这是一个有用的功能。为文本文件建立索引包括将文本数据包装在字段中，创建文档，使用字段填充文本，以及使用IndexWriter将文档添加到索引中。

清单2显示了将数据添加到索引的示例。

清单2.向索引添加数据

/*Step 1. Prepare the data for indexing. Extract the data. */

String sender = properties.getProperty("sender");
String date = properties.getProperty("date");
String subject = properties.getProperty("subject");
String message = properties.getProperty("message");
String emaildoc = file.getAbsolutePath();

/* Step 2. Wrap the data in the Fields and add them to a Document */

Field senderField =
	new Field("sender",sender,Field.Store.YES,Field.Index.NOT_ANALYZED);
Field emaildatefield = 
		new Field("date",date,Field.Store.NO,Field.Index.NOT_ANALYZED); 
Field subjectField = 
	new Field("subject",subject,Field.Store.YES,Field.Index.ANALYZED);
Field messagefield = 
			new Field("message",message,Field.Store.NO,Field.Index.ANALYZED);
Field emailDocField =
	new Field("emailDoc",emaildoc,Field.Store.YES,
						Field.Index.NO);

Document doc = new Document();
// Add these fields to a Lucene Document
doc.add(senderField);
doc.add(emaildatefield);
doc.add(subjectField);
doc.add(messagefield);
doc.add(emailDocField);

//Step 3: Add this document to Lucene Index.
indexWriter.addDocument(doc);

搜索索引数据

搜索是在索引中查找单词并查找包含这些单词的文档的过程。使用Lucene的搜索API构建搜索功能是一个简单明了的过程。本节讨论Lucene搜索API中的主要类。

搜索者

Searcher是一个抽象基类，具有各种重载的搜索方法。 IndexSearcher是一个常用的子类，它允许搜索存储在给定目录中的索引。 Search方法返回按计算分数排序的文档的有序集合。 Lucene计算与给定查询匹配的每个文档的分数。 IndexSearcher是线程安全的；一个实例可以由多个线程同时使用。

术语

术语是搜索的最基本单位。它由两个元素组成：单词的文本和出现该文本的字段的名称。术语对象也参与索引编制，但它们是由Lucene内部创建的。

查询和子类

Query是Query的抽象基类。搜索指定的单词或短语包括将它们包装在一个术语中，将这些术语添加到查询对象中，然后将此查询对象传递给IndexSearcher的search方法。

Lucene带有各种类型的具体查询实现，例如TermQuery，BooleanQuery，PhraseQuery，PrefixQuery，RangeQuery，MultiTermQuery，FilteredQuery，SpanQuery等。下面的部分讨论了Lucene的查询API中的主要查询类。

TermQuery

用于搜索索引的最基本的查询类型。可以使用单个术语构造TermQuery 。术语值应区分大小写，但这并不完全正确。重要的是要注意，传递给搜索的术语应与文档分析产生的术语一致，因为分析人员在建立索引之前会对原始文本执行许多操作。

例如，考虑电子邮件主题“班加罗尔Java专业人员的职位空缺”。假设您使用StandardAnalyzer将其编入索引。现在，如果我们使用TermQuery搜索“ Java”，它将不会返回任何内容，因为此文本将被StandardAnalyzer规范化并以小写形式显示。如果我们搜索小写的单词“ java”，它将在主题字段中返回所有包含该单词的邮件。

清单3.使用`TermQuery`搜索

//Search mails having the word "java" in the subject field
Searcher indexSearcher = new IndexSearcher(indexDirectory);
Term term = new Term("subject","java");
Query termQuery = new TermQuery(term);	 
TopDocs topDocs = indexSearcher.search(termQuery,10);

RangeQuery

您可以使用RangeQuery在范围内进行RangeQuery 。所有术语均按字典顺序排列在索引中。 Lucene的RangeQuery允许用户搜索范围内的术语。可以使用开始项和结束项来指定范围，可以将其包括在内或排除在外。

清单4.在范围内搜索

/* RangeQuery example:Search mails from 01/06/2009 to 6/06/2009 
both inclusive */
Term begin = new Term("date","20090601");
Term end = new Term("date","20090606");
Query query = new RangeQuery(begin, end, true);

PrefixQuery

您可以使用PrefixQuery来搜索前缀词，该前缀词用于构造与包含以指定词前缀开头的术语的文档匹配的查询。

清单5.使用`PrefixQuery`搜索

//Search mails having sender field prefixed by the word 'job'
PrefixQuery prefixQuery = new PrefixQuery(new Term("sender","job"));
PrefixQuery query = new PrefixQuery(new Term("sender","job"));

BooleanQuery

您可以通过使用BooleanQuery组合任意数量的查询对象来构造功能强大的查询。它使用query和与查询相关联的子句，该子句指示查询应该发生，必须发生还是必须不发生。在BooleanQuery ，子句的最大数目默认限制为1,024。您可以通过调用setMaxClauseCount方法来设置最大类。

清单6.使用`BooleanQuery`搜索

// Search mails have both 'java' and 'bangalore' in the subject field
Query query1 = new TermQuery(new Term("subject","java"));
Query query2 = new TermQuery(new Term("subject","bangalore"));
BooleanQuery query = new BooleanQuery();
query.add(query1,BooleanClause.Occur.MUST);
query.add(query2,BooleanClause.Occur.MUST);

PhraseQuery

您可以使用PhraseQuery按词组搜索。 PhraseQuery匹配包含特定术语序列的文档。 PhraseQuery使用存储在索引中的术语的位置信息。被认为匹配的术语之间的距离称为slop 。默认情况下， setSlop的值为零，可以通过调用setSlop方法进行设置。 PhraseQuery还支持多个术语短语。

清单7.使用`PhraseQuery`搜索

/* PhraseQuery example: Search mails that have phrase 'job opening j2ee'
   in the subject field.*/
PhraseQuery query = new PhraseQuery();
query.setSlop(1);
query.add(new Term("subject","job"));
query.add(new Term("subject","opening"));
query.add(new Term("subject","j2ee"));

WildcardQuery

WildcardQuery实现了WildcardQuery搜索查询，该查询使您可以进行诸如arch *的搜索（让您查找包含架构师，体系结构等的文档）。使用两种标准的通配符：

*零个或多个
? 一个或多个

如果您尝试在通配符查询的开头使用模式进行搜索，则性能可能会下降，因为将查询索引中的所有术语以查找匹配的文档。

清单8.使用WildcardQuery进行搜索

//Search for 'arch*' to find e-mail messages that have word 'architect' in the subject
field./
Query query = new WildcardQuery(new Term("subject","arch*"));

FuzzyQuery

您可以使用FuzzyQuery搜索相似的词， FuzzyQuery匹配与您指定的词相似的词。相似性度量基于Levenshtein（编辑距离）算法。在清单9中， FuzzyQuery用于查找拼写错误的单词“ admnistrtor”的紧密匹配，尽管该单词未编入索引。

清单9.使用`FuzzyQuery`搜索

/* Search for emails that have word similar to 'admnistrtor' in the
subject field. Note we have misspelled admnistrtor here.*/
Query query = new FuzzyQuery(new Term("subject", "admnistrtor"));

QueryParser

QueryParser对解析人类输入的查询字符串很有用。您可以使用它将用户输入的查询表达式解析为Lucene查询对象，该对象可以传递给IndexSearcher的search方法。它可以解析丰富的查询表达式。 QueryParser内部将人工输入的查询字符串转换为具体的查询子类之一。您需要转义* 、 ?等特殊字符? 加上反斜杠（ \ ）。您可以使用AND ， OR和NOT运算符以文本形式构造布尔查询。

清单10.搜索人类输入的查询表达式

QueryParser queryParser = new QueryParser("subject",new StandardAnalyzer());
// Search for emails that contain the words 'job openings' and '.net' and 'pune'
Query query = queryParser.parse("job openings AND .net AND pune");

显示搜索结果

IndexSearcher返回对排名搜索结果的引用的数组，例如与给定查询匹配的文档。您可以通过在IndexSearcher的搜索方法中进行指定来确定需要检索的热门搜索结果的数量。可以在此基础上构建自定义分页。您可以添加自定义Web应用程序或桌面应用程序以显示搜索结果。检索搜索结果涉及的主要类是ScoreDoc和TopDocs 。

ScoreDoc: 指向搜索结果中包含的文档的简单指针。这封装了文档在索引中的位置以及Lucene计算的分数。
TopDocs: 封装搜索结果的总数和一个ScoreDoc数组。

下面的代码段显示了如何检索搜索结果中包含的文档。

清单11.显示搜索结果

/* First parameter is the query to be executed and 
   second parameter indicates the no of search results to fetch */
   TopDocs topDocs = indexSearcher.search(query,20);	
   System.out.println("Total hits "+topDocs.totalHits);

   // Get an array of references to matched documents
   ScoreDoc[] scoreDosArray = topDocs.scoreDocs;	
   for(ScoreDoc scoredoc: scoreDosArray){
      //Retrieve the matched document and show relevant details
      Document doc = indexSearcher.doc(scoredoc.doc);
      System.out.println("\nSender: "+doc.getField("sender").stringValue());
      System.out.println("Subject: "+doc.getField("subject").stringValue());
      System.out.println("Email file location: "
					+doc.getField("emailDoc").stringValue());	
   }

基本索引操作

基本索引操作包括删除和增强文档。

从索引中删除文档

应用程序通常需要使用最新数据来更新索引，并删除较旧的数据。例如，对于Web搜索引擎，随着添加新的Web页面和不存在的Web页面需要删除，索引需要定期更新。 Lucene提供了IndexReader接口，可让您对索引执行这些操作。

IndexReader是一个抽象类，提供了各种访问索引的方法。 Lucene在内部指的是文档编号随文档添加到索引或从索引删除而更改的文档。文档编号用于访问索引中的文档。 IndexReader不能用于更新已经打开IndexWriter的目录中的IndexWriter 。当索引快照打开时， IndexReader始终会对其进行搜索。在重新打开IndexReader之前，对索引的任何更改都是不可见的。使用Lucene的应用程序重新打开其IndexReader以查看最新的索引更新很重要。

清单12.从索引中删除文档

// Delete all the mails from the index received in May 2009.
IndexReader indexReader = IndexReader.open(indexDirectory);
indexReader.deleteDocuments(new Term("month","05"));
//close associate index files and save deletions to disk
indexReader.close();

加强文件和领域

有时您可能希望更加重视某些索引数据。您可以通过为文档或字段设置提升因子来实现。默认情况下，所有文档和字段都具有相同的默认提升因子1.0。

清单13.增强字段

if(subject.toLowerCase().indexOf("pune") != -1){
// Display search results that contain pune in their subject first by setting boost factor
	subjectField.setBoost(2.2F);
}
//Display search results that contain 'job' in their sender email address
if(sender.toLowerCase().indexOf("job")!=-1){	
	luceneDocument.setBoost(2.1F);
}

扩展搜索

Lucene提供了称为sorting的高级功能。您可以按指示索引中文档相对位置的字段对搜索结果进行排序。用于排序的字段必须建立索引，但不能标记化。可以在排序字段中放入四种可能的术语值：整数，长整数，浮点数或字符串。

搜索结果也可以按索引顺序排序。 Lucene通过降低相关性（例如默认情况下的计算得分）对结果进行排序。排序顺序也可以更改。

清单14.对搜索结果进行排序

/* Search mails having the word 'job' in subject and return results
   sorted by sender's email in descending order.
 */
SortField sortField = new SortField("sender", true);	
Sort sortBySender = new Sort(sortField);
WildcardQuery query = new WildcardQuery(new Term("subject","job*"));
TopFieldDocs topFieldDocs = 
			indexSearcher.search(query,null,20,sortBySender);
//Sorting by index order
topFieldDocs = indexSearcher.search(query,null,20,Sort.INDEXORDER);

筛选是一个限制搜索空间的过程，只允许考虑文档的一个子集作为搜索结果。您可以使用此功能实现搜索内搜索结果，或在搜索结果之上实现安全性。 Lucene带有各种内置过滤器，例如BooleanFilter，CachingWrapperFilter，ChainedFilter，DuplicateFilter，PrefixFilter，QueryWrapperFilter，RangeFilter，RemoteCachingWrapperFilter，SpanFilter等。可以将Filter传递给IndexSearcher的搜索方法以过滤符合过滤条件的文档。

清单15.过滤搜索结果

/*Filter the results to show only mails that have sender field 
prefixed with 'jobs' */
Term prefix = new Term("sender","jobs");
Filter prefixFilter = new PrefixFilter(prefix);
WildcardQuery query = new WildcardQuery(new Term("subject","job*"));
indexSearcher.search(query,prefixFilter,20);

结论

Lucene是来自Apache的非常流行的开源搜索库，它为应用程序提供了强大的索引和搜索功能。它提供了一个简单易用的API，只需要对索引和搜索的内部知识了解最少。在本文中，您了解了Lucene体系结构及其核心API。

Lucene支持了许多知名网站和组织正在使用的各种搜索应用程序。它已被移植到许多其他编程语言。 Lucene具有庞大而活跃的技术用户社区。如果您正在寻找易于使用，可扩展且高性能的开源搜索库，那么Apache Lucene是一个不错的选择。

翻译自: https://www.ibm.com/developerworks/java/library/os-apache-lucenesearch/index.html

你可能感兴趣的:(apache lucene_使用Apache Lucene搜索文本)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在