jiutao_tang

9.搜索结果的处理和显示

1. 提取搜索结果

Lucene 中，搜索结果保存在 Hits 对象中，提取搜索结果就是从 Hits 对象中提取出文档，然后再从文档中提取各个字段。

1.1 Hits 对象的方法

l Document doc(int n) 返回指定序号的 Document 。 Doc 对象的 getField(“”) 方法获取字段

l Int id(int n) 返回指定序号的 Document 的 id 属性

l Int length() 返回 Hits 对象的长度，即 Hits 对象中包含的 Document 的数量

l Float score(int n) 返回指定序号的 Document 的 score 属性

l Iterator iterator() 返回一个 Iterator 对象用于导航 Hits 。将 Hits 的 iterator 方法返回的 Iterator 对象转换成 HitIterator 对象后，就可以用 HitIterator 对象的 next 方法获得 Hit 对象，这个 hit 对象就是 Hits 的个体，具有 get(“ 字段名 ”) ， getDocument(), getScore() 等方法，可以获得某 Document 的一切信息。

1.2 性能说明

Hits 对象有内部缓存，搜索时，如果 Hits 内部已经缓存了一些记录，如果需要返回的记录在其缓存里， Lucene 将直接从缓存中提取记录，从而加快搜索。

Hits 对象的缓存机制，使得 Lucene 的查询性能很高，因此在做分页显示的时候，可以对用户的每次请求进行新的查询，而不是把 Hits 对象保留。（点第几页都重新搜索）

为加快速度，还可以把文件索引读入内存，建立起内存索引，然后执行搜索。方法如下：

RAMDirectory(Directory dir)

RamDirectrory(File dir)

RamDirectory(String dir);

如：

//search

RAMDirectory rd = new RAMDirectory(indexPath);

//IndexSearcher

IndexSearcher searcher = new IndexSearcher(rd);

2. 过滤搜索结果

过滤方式有两种：在搜索结果提取出来后过滤；把过滤条件加在搜索条件中。看起来后者更具优势，但目前，后者的实现是基于前者的，所以更耗内存，不如使用前者。

2.1 简单的过滤

2.2 利用 Filter 类过滤

抽象类，自定义的过滤器只需要覆盖它的一个方法：

BitSet bits(IndexReader reader);

过滤器在搜索结果显示之前就得到了 IndexReader 对象，从而将数据进行拦截来完成过滤。其子类有： QueryFilter 、 RangeFilter 、 PrefixFilter 、 ChainedFilter 、 CachingWrapperFilter 等。 QueryFilter 类的结果被缓存，其它类都不被缓存。

2.3 QueryFilter 类过滤

应用最广，结果被缓存

//IndexSearcher

IndexSearcher searcher = new IndexSearcher(rd);

//Term & Query

String searchField = "text";

String searchPhrase = "love";

Term t = new Term(searchField, searchPhrase);

TermQuery q = new TermQuery(t);

//Filter ，从上面的结果中过滤出包含“ genius ”的结果

Term te = new Term(searchField,"genius");

TermQuery tq = new TermQuery(te);

QueryFilter filter = new QueryFilter(tq);

//Hits

Hits hs = searcher.search(q,filter);

使用 RangeQuery 构建 QueryFilter 过滤

//Filter ， id 号在 0-2 之间

Term tb = new Term("id","0");

Term te = new Term("id","2");

RangeQuery rq = new RangeQuery(tb,te,false);

QueryFilter filter = new QueryFilter(rq);

使用 PrefixQuery 构建 QueryFilter

//Filter

Term te = new Term("text","people");

PrefixQuery pq = new PrefixQuery(te);

QueryFilter filter = new QueryFilter(pq);

2.4 PrefixFilter 前缀过滤

//Filter

Term te = new Term("text","people");

PrefixFilter filter = new PrefixFilter(te);

2.5 RangeFilter

结果没有被缓存

用于从搜索结果中得到满足某一范围要求的记录，上面的 RangeQuery 和 QueryFilter 的组合与单独使用 RangeFilter 的效果是一样的。

RangeFilter(String fieldname, String lowerTerm, String upperTerm, Boolean includedLower, Boolean includedUpper);

参数：字段名称，下边界，上边界，是否包含上边界，是否包含下边界

静态方法 Less 设定小于等于上边界的过滤器， More 设定大于等于下边界的过滤器。

Static RangeFilter Less(String filedName, String upperTerm);

Static RangeFilter More(String filedName, String upperTerm);

//Filter

RangeFilter filter = new RangeFilter("id","0","2",false,false);

使用 More 方法的例子：

//Filter

RangeFilter filter = RangeFilter.More("id","1");

2.6 ChainedFilter

用来将多个过滤器连接起来，从而达到多重过滤的效果，三个构造方法：

ChainedFilter(Filter[] chain)

ChainedFilter(Filter[] chain, int logic);

ChainedFilter(Filter[] chain, int[] logicArray);

参数：过滤器数组，逻辑关系： ChainedFilter.AND, ChainedFitler.OR 等常量来表示，默认为逻辑或。

BooleanQuery 和 QueryFilter 结合也可以达到 ChainedFilter 的效果。

使用 ChainedFilter 需要把 contrib/misc 目录下的 lucene-misc-2.1.0.jar 放入编译路径

例 1 ：简单的组合

//Filter

RangeFilter rf = RangeFilter.More("id","1"); 范围过滤器

Term te = new Term("text","people");

PrefixFilter pf = new PrefixFilter(te); 前缀过滤器

ChainedFilter filter = new ChainedFilter(new Filter[]{rf,pf}); 默认或逻辑

ChainedFilter filter = new ChainedFilter(new Filter[]{rf,pf}, ChainedFilter.AND); 与

例二：使用 BooleanQuery 和 QueryFilter ，效果相当于 ChainedFilter

//IndexSearcher

IndexSearcher searcher = new IndexSearcher(rd);

//Term & Query

String searchField = "text";

String searchPhrase = "love";

Term t = new Term(searchField, searchPhrase);

TermQuery q = new TermQuery(t);

//Filter

Term te = new Term("text","you");

TermQuery tq = new TermQuery(te); // 普通词项搜索

Term tr = new Term("text","xiaoyue");

PrefixQuery pq = new PrefixQuery(tr); // 前缀搜索

BooleanQuery bq = new BooleanQuery(); // BooleanQuery

bq.add(tq,BooleanClause.Occur.MUST);

bq.add(pq,BooleanClause.Occur.MUST);

QueryFilter filter = new QueryFilter(bq); //QueryFilter

//Hits

Hits hs = searcher.search(q,filter);

2.7 CachingWrapperFilter 的使用

由于除了 QueryFilter 之外的其它 Filter 自身都没有缓存，所以， CachingWrapperFilter 被开发出来用于包装其它 Filter ，从而使之具有缓存功能。构造方法如下：

CachingWrapperFilter(Filter filter);

只需在其它过滤器语句后面，加上这样一句即可：

CachingWrapperFilter(Filter filter);

CachingWrapperFilter filter = new CachingWrapperFilter(pf);

2.8 FilterQuery 的使用

FilteredQuery 是一种带有过滤器的特殊 Query 类，它是一种包装器，将原始的 Query 对象和某个过滤器结合起来。构造方法如下：

FilterQuery(Query query, Filter fitler);

因此，我们有了两种方式过滤搜索结果：

（1）使用 Query 加 Filter ，得到 Filter ，然后使用 search(Query 对象， Filter 对象 ) 的方法执行搜索，上面的示例大都如此；

（2）使用 Query 加 Filter ，得到 Query ，然后使用 search(Query 对象 ) 的方法执行搜索。（ FilterQuery ）

//Term & Query 创建 Query

//original query

String searchField = "text";

String searchPhrase = "love";

Term t = new Term(searchField, searchPhrase);

TermQuery qo = new TermQuery(t);

//Filter 创建过滤器

Term te = new Term("text","people");

PrefixFilter filter = new PrefixFilter(te);

//new query 结合 Query 和 Filter

FilteredQuery q = new FilteredQuery (qo,filter);

//Hits

Hits hs = searcher.search(q);

2.9 综述

Lucece 为了过滤搜索结果，提供了许多过滤器类，如同那些 Query 类一样，许多类都是不必要的，只是为了编程的方便。

对于过滤器的一些建议：

l 过滤器消耗资源，慎用

l 如果需要过滤结果，最好是将搜索结果按某些自定义的条件显示出来，而不使用过滤器

l 如果一定要使用过滤器，应使用 QueryFilter ，因为它的结果被缓存了，再次执行过滤搜索时，速度更快

l 如果一定要使用过滤器，而且一定要使用 QueryFilter 之外的其它 Filter ，那么应使用 CachingWrapperFilter 为其封装（实现缓存）

评：貌似都可以用 Query 的那些类生成 Query ，然后再使用 QueryFilter 进行过滤。

3. 搜索结果排序

Lucene 默认是按文档得分进行排序的，我们可以按照其它规则进行排序。 Lucene 不进行链接结构分析。

3.1 按照文档得分排序

（1） 默认排序规则

//Hits

Hits hs = searcher.search(q);

int num = hs.length();

//view details

for(int i=0;i<num;i++)

{

//get document

doc = hs.doc(i);

//fields

id = doc.getField("id").stringValue();

//score

float score = hs.score(i); // 获取得分值

}

（2） 修改默认得分

最常用的修改得分的方法如下：

Void setBoost(float boost);

该方法修改 boost 因素，这是影响得分的主要因素之一。

Document 和 Field 类都有这个方法， Document 类的 setBoost 方法用来设定其所有 Field 的 boost 值； Field 类的 setBoost 方法用来设定该 Field 的 boost 值。对 boost 的设定是在建立索引的过程中进行的，也即对某个文档调用 addDocument 之前。

例一：为 Document 设置 boost

IndexWriter writer = new IndexWriter(rd,new StandardAnalyzer());

Document doc = null;

Field field = null;

String id = null;

String text = null;

//doc 0

doc = new Document();

id = "0";

field = new Field("id",id ,Field.Store.YES, Field.Index.UN_TOKENIZED);

doc.add(field);

text = "i love you, my mother land! ";

field = new Field("text", text ,Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field);

doc.setBoost(2.0f);

writer.addDocument(doc);

例二：为 Field 设置 boost

Document doc = null;

Field field = null;

String id = null;

String text = null;

//doc 0

doc = new Document();

id = "0";

field = new Field("id",id ,Field.Store.YES, Field.Index.UN_TOKENIZED);

doc.add(field);

text = "i love you, my mother land! ";

field = new Field("text", text ,Field.Store.YES, Field.Index.TOKENIZED);

field.setBoost(2.0f); 为这一字段进行设置

doc.add(field);

writer.addDocument(doc);

最终的 boost 值未必和我们设置的一样，因为我们的设置只代表我们对文档排名的期待，最终值要通过进一步的计算才能转换成文档的真实 boost 值。

（3） 查看得分计算过程

Searcher 类提供了 explain 方法用来查看得分的计算过程。调用方法：

Explanation Explain(Query, int)

参数：被解释的 Query 对象，索引中文档序号，返回值是 Explanation 对象。该对象有 getDetails() 、 isMatch() 等方法。

//IndexSearcher

IndexSearcher searcher = new IndexSearcher(rd);

//Term & Query

String searchField = "text";

String searchPhrase = "love";

Term t = new Term(searchField, searchPhrase);

TermQuery q = new TermQuery(t);

//Hits

Hits hs = searcher.search(q);

//view details

int num = hs.length();

for(int i=0;i<num;i++)

{

//get document

doc = hs.doc(i);

//fields

id = doc.getField("id").stringValue();

text = doc.getField("text").stringValue();

//document id

int did = hs.id(i);

//boost

float boost = doc.getBoost();

//score

float score = hs.score(i);

String explaination = searcher.explain(q,i).toString();

sb.append("document " + did + ":" + doc + "/n");

sb.append("boost:" + boost + "/n");

sb.append("score:" + score + "/n");

sb.append("id:" + id + "/n");

sb.append("text:" + text + "/n");

sb.append("explaination:/n" + explaination + "/n");

sb.append("------------------- " + "/n/n");

}

searcher.close();

结果：

0.75 = (MATCH) fieldWeight(text:love in 0), product of:

1.0 = tf(termFreq(text:love)=1) 注释：在该文档中出现一次

1.0 = idf(docFreq=2) 注释：共两个文档，各出现一次

0.75 = fieldNorm(field=text, doc = 0)

要注意，使用 explain 方法是要付出代价的，这代价相当于执行对整个索引的查询。所以，除非要做改善得分算法一类的基础研究，否则不要使用该方法。

3.2 自定义排序规则

如按日期或多个字段组合排序，自定义排序规则需要使用 sort 类，构造方法如下：

（1） sort() ：系统自己的排序规则

（2） sort(String field) ：按照指定的某个 field 排序，参数是 field 名

（3） sort(String[] fields) ：按照指定的多个 field 进行排序

（4） sort(SortField field) ：按照指定的某个 field 排序，参数不是原始 field 名，而是 SortField 对象

（5） sort(SortField[] fields) ：按照指定的多个 field 排序

（6） sort(String field, Boolean reverse) ：按照指定的某个 field 排序， reverse 指明是降序还是升序，默认为 false 升序

两个静态属性：

（ 1 ） Public static final Sort RELEVANCE

使用 RELEVANCE 属性时相当于没有使用 sort 方法，它将排序规则交给系统决定，默认就是，不需要专门设置

（ 2 ） Public static final Sort INDEXORDER

使用 INDEXORDER 属性相当于按照索引内部的文档编号进行排序

在构造好 Sort 对象后，就可以用 search(Query 对象 , Sort 对象 ) 执行搜索了

注意：

l 被指定为排序依据的字段必须被索引且不能被分词（即使用 Field.Index.UN_TOKENIZED ），试图对分词了的字段作排序时，会抛出异常

l 被指定为排序依据的字段可以存储也可以不存储（ Field.Store.YES 或 Field.Store.NO ）

l 被指定为排序依据的字段的值类型必须是可排序的整型、浮点型或字符型。系统会根据第一个值自动判断字段类型。整型、浮点型效率高，字符型排序消耗资源多，意义不大。

3.3 让系统决定如何排序

Hits hs = searcher.search(q,Sort.INDEXORDER);

3.4 按照索引中的文档编号排序

Hits hs = searcher.search(q,Sort.INDEXORDER);

3.5 按照文本字段排序

//Hits sort(String field, Boolean reverse)

Sort sort = new Sort("time",true);

Hits hs = searcher.search(q,sort);

3.6 指定字段的数据类型

指定数据类型，需要用到 SortField 类。

l SortField(String field)

l SortField(String field, Boolean reverse)

l SortField(String field, int type); type 是字段类型，值为六个静态属性

Ø AUTO: 系统自己猜

Ø CUSTOM ：用户自己指定某个排序类型

Ø FLOAT ：指定排序字段为 float 类型

Ø INT ：

Ø STRING ：

Ø SCORE ：指定按照文档得分排序

l SortField(String field, int type, Boolean reverse)

示例：

//Hits

SortField sf = new SortField("id",SortField.INT,true); id 字段，整型，逆序

Sort sort = new Sort(sf);

Hits hs = searcher.search(q,sort);

3.7 按多个字段排序

只需将作为排序依据的字段合起来，以数组形式传递给 sort 方法即可。

String[] fields = new String[]{"id","age"};

Sort sort = new Sort(fields);

Hits hs = searcher.search(q,sort);

说明：按照｛ ”id”, “age” ｝排序，以 id 字段为主， id 字段相同时，以 age 排序。

没有指明升降顺序，以默认升序排列

如果要让排序所依据的多个字段按照不同的升降顺序排列，就需要独立的 SortField 对象，在 SortField 对象中指定字段的排序规则，然后使用 sort(SortField[] fields) 构造方法。

//Hits

SortField sf1 = new SortField("id",false);

SortField sf2 = new SortField("age",true);

SortField[] fields = new SortField[]{sf1,sf2};

Sort sort = new Sort(fields);

Hits hs = searcher.search(q,sort);

3.8 综述

排序是很耗资源的，越复杂消耗越大，通常按照得分排序就足够了

另外， Lucene 提供了对于复杂自定义字段的排序接口，例如希望将三维坐标值以字符串形式保存在索引中，然后在提取出来时进行排序。

为了提高效率，我们可以在建立索引的时候，为某个不方便排序的字段建立一个辅助字段，将复杂数据类型转换成可以表示其大小的数值存储在辅助字段中，这样就容易排序了。

4. 高亮显示

关键词背景色、换颜色、加粗、斜体等，网页中的高亮是通过格式转换的方式完成的。

4.1 高亮显示的基本方式

手工实现高亮显示不大方便，有人开发了一套类库，主要类是 org.apache.lucene.search.highlight.Higelighter ，与其配合的还有 Fragmenter 、 Scorer 、 Formatter 、 Encoder 等类。

高亮原理：

l 建立索引时，在文档相关字段（需要高亮处理的字段，被搜索的字段）中记录 Term 的位置

l 搜索时，利用字段中记录的词条的位置信息，将修饰符号添加进去，从而改变了搜索关键词的显示格式，达到突出显示的目的。

（1）建立索引时，在文档相关字段中记录词条位置

Field field = new Field(“text”,text, Field.Store.YES, Field.Index.TOKENIZED, Field.TermVector.WITH_POSITIONS_OFFSETS );

这是个新的 Field 构造方法，可以将词条位置信息记录进去。

（2）在搜索时修改词条显示格式

a. 首先要构造 Highlighter 对象

Highlighter(Scorer fragmentScore)

参数类型 Scorer ， Scorer 是一个接口，常用子类是 QueryScorer ，可以由 QueryScorer(Query query) 方法来构造。

Term t = new Term(“id”, 2);

Query q = new TermQuery(t);

QueryScorer qs = new QueryScorer(q);

Highlighter hl = new Highlighter(qs);

b. 再设置文本分块

Highlighter 类通过 setTextFragmenter(Fragmenter fragmenter) 方法设定文本的分块，参数 Framenter 是一个接口，其最常用的子类是 SimpleFragmenter ，可以通过 SimpleFragmenter() 或 SimpleFragmenter(int fragmentSize) 方法构造。参数表示分块的大小，即显示给用户的含有关键词的文本块的大小。

SimpleFragmenter sf = new SimpleFragmenter(60);

highlighter.setTextFragmenter(sf);

c. 建立 TermPositionVector 对象

TermPositionVector tpv = (TermPositionVector)IndexReader 对象 .getTermFreqVector( 文档编号，被搜索字段 )

d. 设定高亮显示块的分隔符号

int maxNumFragmentsRequired = 3;

String fragmentSeparater = “…”

e. 最后，获得高亮处理后的结果

TokenStream tokenStream = TokenSouces.getTokenStream(tpv);

String result = highlighter.getBestFragments(tokenStream, text, maxNumFragmentsRequired, fragmentSeparator);

示例：

包

import org.apache.lucene.search.highlight.*;

创建索引时：

//doc 0

doc = new Document();

id = "0";

field = new Field("id",id ,Field.Store.YES, Field.Index.UN_TOKENIZED);

doc.add(field);

text = "i love you, my mother land!i love you, my mother land!i love you, my mother land! ";

field = new Field("text", text ,Field.Store.YES, Field.Index.TOKENIZED,Field.TermVector.WITH_POSITIONS_OFFSETS );

doc.add(field);

time = "2007-05-28";

field = new Field("time", time ,Field.Store.YES, Field.Index.UN_TOKENIZED);

doc.add(field);

writer.addDocument(doc);

结果输出时

//IndexSearcher

IndexSearcher searcher = new IndexSearcher(rd);

//Term & Query

String searchField = "text";

String searchPhrase = "love";

Term t = new Term(searchField, searchPhrase);

TermQuery q = new TermQuery(t);

//Hits

Hits hs = searcher.search(q,Sort.RELEVANCE);

//highlight

Highlighter highlighter =new Highlighter(new QueryScorer(q));

SimpleFragmenter sf = new SimpleFragmenter(10);

highlighter.setTextFragmenter( sf );

for (int i = 0; i < hs.length(); i++)

{

text = hs.doc(i).get("text");

int maxNumFragmentsRequired = 3;

String fragmentSeparator = "...";

TermPositionVector tpv = (TermPositionVector)searcher.getIndexReader().getTermFreqVector(hs.id(i),"text");

TokenStream tokenStream=TokenSources.getTokenStream(tpv);

String result = highlighter.getBestFragments( tokenStream, text, maxNumFragmentsRequired, fragmentSeparator);

System.out.println(result);

}

searcher.close();

}

结果：

索引前文本：

text = "i love you, my mother land!i love you, my mother land!i love you, my mother land! ";

输出结果：

I love … love you… love you, my

4.2 高亮显示的基本设置

（1）如果一个文档包含多个被搜索的关键词，则可以限定显示出来的关键词的数量，用 maxNumFragmentsRequired 进行设置

（2）高亮处理后的结果是一段文本，可以在 SimpleFragmenter 的构造方法中指定显示给用户的文本长度 SimpleFragmenter sf = new SimpleFragmenter(10);

（3）通常，我们设置含有关键词的文本块直接使用“ … ”符号来连接，也可以通过 String fragmentSeparator = "..." 改为别的符号

（4）默认情况下，高亮处理是使用“ ”来修饰关键词的，可以自定义修饰格式

4.3 为高亮显示设置新的格式

默认情况下，高亮处理是使用“ ”来修饰关键词的，可以用 SimpleHTMLFormatter 类进行修改，

Highlighter 的一种构造方法：

Hightlighter(Formatter formatter, Scorer fragmentScorer);

SimpleHTMLFormatter 也就是格式器，有两个构造方法：

（ 1 ） SimpleHTMLFormatter()

默认格式“ ”

（ 2 ） SimpleHTMLFormatter(String preTag, String postTag)

自定义标记，前标记，后标记

//Hits

Hits hs = searcher.search(q,Sort.RELEVANCE);

//highlight

SimpleHTMLFormatter shf = new SimpleHTMLFormatter("< 前 >","</ 后 >");

Highlighter highlighter =new Highlighter(shf,new QueryScorer(q));

SimpleFragmenter sf = new SimpleFragmenter(60);

highlighter.setTextFragmenter( sf );

你可能感兴趣的:(String,filter,Lucene,iterator,query,文档)

Go语言中make和new的区别神奇萝卜头 go语言 golang
主要有两点1.返回值不同,make返回的是分配的内存空间本身。而new返回的是指向分配的内存空间的指针2.适用类型的不同make仅适用于map,channel,slice,而new适用于基本类型（如int、string、bool等）和指针类型
SvelteKit 最新中文文档教程（17）—— 仅服务端模块和快照
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
QtTest编写单元测试 GrayCatYa Qt Test 单元测试
第1章:编写单元测试如何编写单元测试。在第一章中，我们将看到如何为一个类编写一个简单的单元测试，以及如何执行它。编写一个测试假设您想要测试QString类的行为。首先，您需要一个包含测试函数的类。这个类必须继承QObject://testqstring.cpp#includeclassTestQString:publicQObject{Q_OBJECTprivateslots:voidtoUppe
导出批注工具--用VBA脚本导出Word评审文档的所有批注 arron168 Office2007
前述介绍了用VBA导出Excel批注，现在介绍用VBA导出Word批注本文实现的是，通过单击VBA按钮，选择一个word批注文件，即可导出该word所有批注，该批注生成excel文件的格式如下：页码行号批注选中的原文字批注内容批注作者下面是代码实现：SubexportWordComments_Click()'DimCmtAsCommentDimexcelAppAsObjectDimxlsWbk,o
【Python】绘图文字显示异常技术文档毕业茄 python 开发语言
一、背景说明使用Python绘图库（如Matplotlib）生成图表时，可能出现标题、坐标轴标签、图例等文字显示为方框、空白或缺失的情况，影响图表可读性。本文档针对该问题分析原因并提供解决方案。二、问题原因及解决方法2.1中文显示异常原因：Matplotlib默认字体不支持中文，导致中文内容无法正确渲染。解决方法：配置支持中文的字体，代码如下：importmatplotlib.pyplotaspl
【深度学习基础】模型文件介绍毕业茄深度学习深度学习人工智能
目录简介文件概述config.jsonmodel_state.pdparamsspecial_tokens_map.jsontokenizer_config.jsonvocab.txt文件内容解析如何查看和使用这些文件示例代码简介本文档详细介绍了深度学习训练过程中生成的关键文件，及其在模型加载和推理中的作用。这些文件包括模型配置文件、模型权重文件、特殊标记映射文件、分词器配置文件和词汇表文件。文件
新版电子表格的筛选神器——FILTER函数梦幻精灵_cq Pandas 笔记 pandas 学习
捅破日期单元格壁垒通透理解FILTER函数语法，Python3+years背书生成“软件”。笔记模板由python脚本于2025-03-2012:48:04创建，本篇笔记适合电子表格使用的coder翻阅。【学习的细节是欢悦的历程】博客的核心价值：在于输出思考与经验，而不仅仅是知识的简单复述。Python官网：这里，才python前沿。英文原版，原汁原味，才是寻根溯源的正统。地址：htt
【Word】批注一键导出：VBA 宏毕业茄 word c#开发语言
VBA宏代码实现下面是完整的VBA代码，支持：自动创建新文档，并将当前Word文档的所有批注导出。批注格式清晰，包括编号、作者、日期和批注内容。智能检测，如果当前文档没有批注，则提示用户并终止导出。自定义保存路径，通过对话框选择导出文件位置。若想详细引用到某段，参见链接地址文章代码均成功实现效果代码SubExportComments()DimdocAsDocumentDimcommentAsCom
Python字符串详解：从基础到高级聪明的一休哥哥 python 开发语言
在Python编程中，字符串（String）是一种基本的数据类型，用于表示文本信息。字符串是由零个或多个字符组成的有序字符序列，被广泛应用在数据处理、文本分析、网络通信等领域。本文将带你从字符串的基础知识开始，逐步深入到高级特性和应用，帮助你全面掌握Python字符串的使用。字符串的基础知识在Python中，字符串可以用单引号（’‘）、双引号（""）或三引号（’‘’‘’’或“”"“”"）括起来。单
掌握Python字符串：全面解析与实战指南技术蜜糖罐 python python 服务器 linux 开发语言后端运维
Python中的字符串（string）是一种不可变的数据类型，用于表示文本。字符串可以包含字母、数字、符号等字符，是程序处理中非常重要的一部分。本文将详细介绍Python中字符串的基本语法、常用命令、示例、应用场景、注意事项以及总结。基本语法字符串的定义Python中的字符串可以使用单引号'、双引号"或三引号'''或"""来定义。s1='Hello,World!'s2="Hello,World!"
高精度（加分，乘法） Repeat715 算法数据结构蓝桥杯高精度
A+Bplus题目描述给定两个非负整数a,ba,b，请你输出a+ba+b的值。输入描述输入共一行，包含两个整数a,ba,b。0≤a,b≤10500≤a,b≤1050。输出描述输出共一行，包含一个整数，表示答案。输入输出样例示例1输入123456输出579importjava.util.Scanner;publicclassAaddB{publicstaticvoidmain(String[]arg
树莓派超全系列教程文档--(21)用户配置想躺在地上晒成地瓜干树莓派树莓派 RaspberryPi 树莓派教程 linux
用户配置用户配置更改用户密码添加用户删除用户更改默认用户文章来源：http://raspberry.dns8844.cn/documentation原文网址用户配置更改用户密码您可以通过raspi-config应用程序或命令行更改当前用户账户的密码：$sudoraspi-config选择option2，然后按照说明更改密码。或者使用passwd应用程序：$passwd添加用户要添加新用户，请输入以
开源：SmolDocling-256M-preview 小模型完成更优的图像文档转换 Panesle 前沿人工智能多模态开源
SmolDocling模型介绍SmolDocling是一种超紧凑的多模态图像-文本到文本模型（模型文件大小仅513M），专为高效的文档转换而设计。它通过生成一种名为DocTags的新通用标记格式，捕捉页面中所有元素的完整上下文和位置信息。与依赖大型基础模型或多模型组合的传统方法不同，SmolDocling通过一个256M参数的视觉-语言模型实现了端到端的文档转换，能够准确捕捉文档内容、结构和空间位
英文命名实体识别：Flair Panesle 总结 ner
Flair是一种基于深度学习的自然语言处理框架，它通过字符级语言模型和上下文字符串嵌入（contextualstringembeddings）实现了高质量的命名实体识别（NER）。1.核心思想：上下文字符串嵌入Flair的核心创新在于提出了一种新的词嵌入方法——上下文字符串嵌入（contextualstringembeddings）。这种嵌入方法具有以下特点：基于字符：直接将单词视为字符序列进行建
165、NumPy秘籍：数据科学和机器学习的强力工具多多的编程笔记决策树算法机器学习
Python开发之NumPy学习资源：官方文档、教程与实践项目NumPy是Python中用于处理大型数组和矩阵的高级数学函数库。它广泛应用于数据分析、机器学习、科学计算等领域。本文将为你介绍NumPy的学习资源，包括官方文档、教程和实践项目，帮助你快速掌握NumPy的使用。1.官方文档NumPy的官方文档是最权威、最全面的学习资源。文档分为两个部分：用户指南和开发者文档。1.1用户指南用户指南主要
【traefik】基于k8s搭建traefik, nginx与traefik共存喝醉的小喵网关与代理 kubernetes 容器云原生 docker
目录1.关于traefik2.关于nginx与trarfik的冲突3.搭建步骤3.1创建crd与rbac3.2启动traefikingresscontroller3.3创建service3.4开放dashboard3.5配置api入口路由Ingress3.6创建whoami服务3.7配置whoami的服务路由IngressRoute官方文档：TraefikProxyDocumentation-Tr
<鸿蒙生态学堂线上培训第14期>体验打磨：应用横竖屏无缝切换 harmonyos
课程简介本课程是【HarmonyOS生态学堂线上培训】的第14期。应用存在竖屏和横屏两种操作体验:竖屏便于单手操作，适合日常使用场景；横屏拥有宽阔视野，利于视频播放、文档处理等场景。若横竖屏切换体验设计不完善，就可能出现画面变形、内容显示不全、布局错乱等问题，影响用户体验。本课程聚焦应用横竖屏切换，通过横竖屏功能讲解，提供不同终端的优化建议，并结合典型案例与常见问题，给予更加顺滑、稳定的横竖屏切换
如何实现高性能的在线 PDF 预览水煮白菜王 2025 前端 pdf 前端性能优化
作者简介：水煮白菜王（juejin/csdn同名），一位前端劝退师文章专栏：高德AMap专栏，记录一下平时学习在博客写作中记录，总结出的一些开发技巧✍。感目录思路实现方案1.服务器对PDF文件进行分片2.浏览器（客户端）根据用户交互行为获取并渲染指定的分片获取远程的pdf文档PDFDocumentLoadingTaskPDFDocumentProxyPDFPageProxy实现细节下载PDF分片渲
git 按行切割 csv文件曲奇hmb git
#进入GitBash环境#基础用法（不保留标题行）：split-l1000input.csvoutput_part_#增强版（保留标题行）：header=$(head-n1input.csv) #提取标题tail-n+2input.csv|split-l5000000---filter="echo\"$header\">\$FILE&&cat>>\$FILE"ls-loutput_part_*参数
微信小程序的WXS语法的日常小用处秋水君y 小程序
tips:一般在小程序中处理图片替换时间转换都是可以用到，我大多用来格式化一些数据参考官方说明：https://developers.weixin.qq.com/miniprogram/dev/framework/view/wxs/简略写法示例：1.//这里算是引入，定义名称之类的2.{{filter.localData(item.endtime)}}//这边是用法，格式化时间的意思，具体怎么格式
批量清空或者删除 PDF 文档中作者、创建程序、修改时间等元数据 inxunoffice pdf
在PDF文件中，通常会包含各种元数据信息，如文件的作者、来源、创建时间、更新时间等。这些描述信息对文件的管理和追踪非常重要，但如果您不希望其他人看到这些敏感信息，清理PDF文件中的元数据就变得非常必要。今天，我们将介绍如何批量清理PDF文件中的元数据，通过今天介绍的方法您可以轻松去除多个PDF文件中的元数据，从而保护您的隐私和文件安全。无论是工作文档还是个人文件，批量清理PDF文件中的元数据都是一
【TS学习】（5）装箱和拆箱 yanxy512 TS学习学习 typescript 前端 javascript
在JavaScript和TypeScript中，装箱（Boxing）和拆箱（Unboxing）是与原始类型（PrimitiveTypes）和包装对象（WrapperObjects）相关的概念。它们描述了原始值如何被转换为对象形式，以及对象形式的值如何被还原为原始值。1.装箱（Boxing）(1)定义装箱是指将原始值（如string、number、boolean等）临时转换为其对应的包装对象（如St
Dify外挂RAGFlow的知识库配置操作，实现提高增强检索能力 awei0916 AI linux 人工智能 ai
背景在AI应用开发领域，Dify凭借其革命性的可视化编排能力迅速成为低代码开发赛道的领跑者。然而随着企业级用户深入应用，其技术瓶颈逐渐显现：原生检索增强生成（RAG）引擎在处理多模态数据处理、长文本语义理解及高频迭代更新的企业级知识库时，响应质量与效率呈现显著衰减，尤其在应对复杂业务场景下的多轮对话意图捕捉、跨文档关联推理等核心需求时，现有架构暴露出明显的性能天花板。作为开源领域新一代检索增强生成
Logstash Configuration Examples zhongliang.chang Linux elasticsearch
ThefollowingexamplesillustratehowyoucanconfigureLogstashtofilterevents,processApachelogsandsyslogmessages,anduseconditionalstocontrolwhateventsareprocessedbyafilteroroutput.Ifyouneedhelpbuildinggrokpa
测试提效之AI 辅助生成测试用例：具体案例与代码实现 Python测试之道测试提效 python 人工智能 python 功能测试
AI技术在自动化测试中的应用日益成熟，尤其是在测试用例生成方面，能够大幅提升测试工程师的效率。通过AI模型（如OpenAIGPT系列），我们可以根据代码逻辑、接口定义或需求描述，快速生成高质量的测试用例。1.AI辅助生成测试用例的场景1.1单元测试生成根据代码逻辑，AI可以自动生成单元测试，包括正常路径、边界条件和异常场景。1.2接口测试用例生成通过接口的API文档或定义，AI自动生成请求参数和预
linux系统qt导出excel,Qt 数据导出为excel Rachel G33
Qt项目遇到的将view中的数据导出为excel总结一下经验：QStringfileName=QFileDialog::getSaveFileName(this,tr("Saveexcel"),".",tr("MicrosoftOffice2003(*.xls)"));//获取保存路径if(fileName.isEmpty()){QMessageBox::critical(0,tr("错误"),t
sql语言中有没有类似C语言中的switch case的语句？？ bigheadsheep SQL Server 语言 sql c null go
没有,用casewhen来代替就行了.例如,下面的语句显示中文年月selectgetdate()as日期,casemonth(getdate())when11then'十一'when12then'十二'elsesubstring('一二三四五六七八九十',month(getdate()),1)end+'月'as月份==========================================
DeepSeek + Python 提效测试用例生成落地程序员小雷测试用例单元测试测试工具功能测试 selenium postman jmeter
在测试流程中，测试用例生成是一个耗时且重要的环节。测试工程师需要基于需求文档、历史用例和功能模块设计覆盖全面的测试用例，确保产品质量。然而，这个过程容易受到信息分散、重复劳动及遗漏问题的困扰。通过结合DeepSeek和Python，可以实现以下目标：1.智能生成测试用例：基于需求文档和历史测试用例，推荐或自动生成相关测试场景。2.提高测试覆盖率：利用DeepSeek的语义搜索，避免遗漏边界条件、异
如何学好c++(萌新小白速入) 卫枝枝 c++开发语言
一、基础阶段（1-2个月）目标：建立C++核心语法体系关键知识点变量/常量、基础数据类型（int,double,char等）运算符与表达式（算术/逻辑/位运算）控制流（if-else,switch,for,while,do-while）函数定义与调用（参数传递、返回值、作用域）数组与字符串操作（C风格字符串与std::string）实践建议用代码实现斐波那契数列、素数判断等基础算法尝试LeetCo
springboot thymeleaf html转pdf两种实现天天不想学习 spring boot pdf java
thymeleaf是用来获取html数据的，毕竟是个模版，传参最终拼成html的字符串string。获取html传入给相关组件。在网上找了N多方式。itext5,pdfbox,puppeteer,还有个googleheader命令行。还有问前端有没有什么好的推荐，前端直接让后端来搞。后两个没测试，看着网上说的效果不错。给我的感觉就是截图，转pdf，具体我并没有实现。itext5需要前端调整它能支持
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc