zhaohaolin

Lucene：基于Java的全文检索引擎简介

Lucene是一个基于Java的全文索引工具包。基于Java的全文索引引擎Lucene简介：关于作者和Lucene的历史全文检索的实现：Luene全文索引和数据库索引的比较中文切分词机制简介：基于词库和自动切分词算法的比较具体的安装和使用简介：系统结构介绍和演示 Hacking Lucene：简化的查询分析器，删除的实现，定制的排序，应用接口的扩展从Lucene我们还可以学到什么另外，如果是在选择全文引擎，现在也许是试试Sphinx的时候了：相比Lucene速度更快，有中文分词的支持，而且内置了对简单的分布式检索的支持；基于Java的全文索引/检索引擎——Lucene Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。 Lucene的作者：Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家，曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者，后在Excite担任高级系统架构设计师，目前从事于一些INTERNET底层架构的研究。他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。 Lucene的发展历程：早先发布在作者自己的www.lucene.com，后来发布在SourceForge，2001年年底成为APACHE基金会jakarta的一个子项目：http://jakarta.apache.org/lucene/ 已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎，比较著名的有： Jive：WEB论坛系统； Eyebrows：邮件列表HTML归档/浏览/查询系统，本文的主要参考文档“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系统的主要开发者之一，而EyeBrows已经成为目前APACHE项目的主要邮件列表归档系统。 Cocoon:基于XML的web发布框架，全文检索部分使用了Lucene Eclipse:基于Java的开放开发平台，帮助部分的全文索引使用了Lucene 对于中文用户来说，最关心的问题是其是否支持中文的全文检索。但通过后面对于Lucene的结构的介绍，你会了解到由于Lucene良好架构设计，对中文的支持只需对其语言词法分析接口进行扩展就能实现对中文检索的支持。全文检索的实现机制 Lucene的API接口设计的比较通用，输入输出结构都很像数据库的表==>记录==>字段，所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。总体上看：可以先把Lucene当成一个支持全文索引的数据库系统。比较一下Lucene和数据库： Lucene 数据库索引数据源：doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ | Lucene Index| -------------- / searcher \ 结果输出：Hits(doc(field1,field2) doc(field1...)) 索引数据源：record(field1,field2...) record(field1..) \ SQL: insert/ _____________ | DB Index | ------------- / SQL: select \ 结果输出：results(record(field1,field2..) record(field1...)) Document：一个需要进行索引的“单元” 一个Document由多个字段组成 Record：记录，包含多个字段 Field：字段 Field：字段 Hits：查询结果集，由匹配的Document组成 RecordSet：查询结果集，由多个Record组成全文检索 ≠ like "%keyword%" 通常比较厚的书籍后面常常附关键词索引表（比如：北京：12, 34页，上海：3,77页……），它能够帮助读者比较快地找到相关内容的页码。而数据库索引能够大大提高查询的速度原理也是一样，想像一下通过书后面的索引查找的速度要比一页一页地翻内容高多少倍……而索引之所以效率高，另外一个原因是它是排好序的。对于检索系统来说核心是一个排序问题。由于数据库索引不是为全文索引设计的，因此，使用like "%keyword%"时，数据库索引是不起作用的，在使用like查询时，搜索过程又变成类似于一页页翻书的遍历过程了，所以对于含有模糊查询的数据库服务来说，LIKE对性能的危害是极大的。如果是需要对多个关键词进行模糊匹配：like"%keyword1%" and like "%keyword2%" ...其效率也就可想而知了。所以建立一个高效检索系统的关键是建立一个类似于科技索引一样的反向索引机制，将数据源（比如多篇文章）排序顺序存储的同时，有另外一个排好序的关键词列表，用于存储关键词==>文章映射关系，利用这样的映射关系索引：[关键词==>出现关键词的文章编号，出现次数（甚至包括位置：起始偏移量，结束偏移量），出现频率]，检索过程就是把模糊查询变成多个可以利用索引的精确查询的逻辑组合的过程。从而大大提高了多关键词查询的效率，所以，全文检索问题归结到最后是一个排序问题。由此可以看出模糊查询相对数据库的精确查询是一个非常不确定的问题，这也是大部分数据库对全文检索支持有限的原因。Lucene最核心的特征是通过特殊的索引结构实现了传统数据库不擅长的全文索引机制，并提供了扩展接口，以方便针对不同应用的定制。可以通过一下表格对比一下数据库的模糊查询：　 Lucene全文索引引擎数据库索引将数据源中的数据都通过全文索引一一建立反向索引对于LIKE查询来说，数据传统的索引是根本用不上的。数据需要逐个便利记录进行GREP式的模糊匹配，比有索引的搜索速度要有多个数量级的下降。匹配效果通过词元(term)进行匹配，通过语言分析接口的实现，可以实现对中文等非英语的支持。使用：like "%net%" 会把netherlands也匹配出来，多个关键词的模糊匹配：使用like "%com%net%"：就不能匹配词序颠倒的xxx.net..xxx.com 匹配度有匹配度算法，将匹配程度（相似度）比较高的结果排在前面。没有匹配程度的控制：比如有记录中net出现5词和出现1次的，结果是一样的。结果输出通过特别的算法，将最匹配度最高的头100条结果输出，结果集是缓冲式的小批量读取的。返回所有的结果集，在匹配条目非常多的时候（比如上万条）需要大量的内存存放这些临时结果集。可定制性通过不同的语言分析接口实现，可以方便的定制出符合应用需要的索引规则（包括对中文的支持）没有接口或接口复杂，无法定制结论高负载的模糊查询应用，需要负责的模糊查询的规则，索引的资料量比较大使用率低，模糊匹配规则简单或者需要模糊查询的资料量少全文检索和数据库应用最大的不同在于：让最相关的头100条结果满足98%以上用户的需求 Lucene的创新之处：大部分的搜索（数据库）引擎都是用B树结构来维护索引，索引的更新会导致大量的IO操作，Lucene在实现中，对此稍微有所改进：不是维护一个索引文件，而是在扩展索引的时候不断创建新的索引文件，然后定期的把这些新的小索引文件合并到原先的大索引中（针对不同的更新策略，批次的大小可以调整），这样在不影响检索的效率的前提下，提高了索引的效率。 Lucene和其他一些全文检索系统/应用的比较：　 Lucene 其他开源全文检索系统增量索引和批量索引可以进行增量的索引(Append)，可以对于大量数据进行批量索引，并且接口设计用于优化批量索引和小批量的增量索引。很多系统只支持批量的索引，有时数据源有一点增加也需要重建索引。数据源 Lucene没有定义具体的数据源，而是一个文档的结构，因此可以非常灵活的适应各种应用（只要前端有合适的转换器把数据源转换成相应结构），很多系统只针对网页，缺乏其他格式文档的灵活性。索引内容抓取 Lucene的文档是由多个字段组成的，甚至可以控制那些字段需要进行索引，那些字段不需要索引，近一步索引的字段也分为需要分词和不需要分词的类型：需要进行分词的索引，比如：标题，文章内容字段不需要进行分词的索引，比如：作者/日期字段缺乏通用性，往往将文档整个索引了语言分析通过语言分析器的不同扩展实现：可以过滤掉不需要的词：an the of 等，西文语法分析：将jumps jumped jumper都归结成jump进行索引/检索非英文支持：对亚洲语言，阿拉伯语言的索引支持缺乏通用接口实现查询分析通过查询分析接口的实现，可以定制自己的查询语法规则：比如：多个关键词之间的 + - and or关系等　并发访问能够支持多用户的使用　关于亚洲语言的的切分词问题(Word Segment) 对于中文来说，全文索引首先还要解决一个语言分析的问题，对于英文来说，语句中单词之间是天然通过空格分开的，但亚洲语言的中日韩文语句中的字是一个字挨一个，所有，首先要把语句中按“词”进行索引的话，这个词如何切分出来就是一个很大的问题。首先，肯定不能用单个字符作(si-gram)为索引单元，否则查“上海”时，不能让含有“海上”也匹配。但一句话：“北京”，计算机如何按照中文的语言习惯进行切分呢？ “北京 ” 还是“北京 ”？让计算机能够按照语言习惯进行切分，往往需要机器有一个比较丰富的词库才能够比较准确的识别出语句中的单词。另外一个解决的办法是采用自动切分算法：将单词按照2元语法(bigram)方式切分出来，比如： "北京" ==> "北京京天 "。这样，在查询的时候，无论是查询"北京" 还是查询"天"，将查询词组按同样的规则进行切分："北京"，"天"，多个关键词之间按与"and"的关系组合，同样能够正确地映射到相应的索引中。这种方式对于其他亚洲语言：韩文，日文都是通用的。基于自动切分的最大优点是没有词表维护成本，实现简单，缺点是索引效率低，但对于中小型应用来说，基于2元语法的切分还是够用的。基于2元切分后的索引一般大小和源文件差不多，而对于英文，索引文件一般只有原文件的30%-40%不同，自动切分词表切分实现实现非常简单实现复杂查询增加了查询分析的复杂程度，适于实现比较复杂的查询语法规则存储效率索引冗余大，索引几乎和原文一样大索引效率高，为原文大小的30％左右维护成本无词表维护成本词表维护成本非常高：中日韩等语言需要分别维护。还需要包括词频统计等内容适用领域嵌入式系统：运行环境资源有限分布式系统：无词表同步问题多语言环境：无词表维护成本对查询和存储效率要求高的专业搜索引擎目前比较大的搜索引擎的语言分析算法一般是基于以上2个机制的结合。关于中文的语言分析算法，大家可以在Google查关键词"wordsegment search"能找到更多相关的资料。安装和使用下载：http://jakarta.apache.org/lucene/ 注意：Lucene中的一些比较复杂的词法分析是用JavaCC生成的（JavaCC：JavaCompilerCompiler，纯Java的词法分析生成器），所以如果从源代码编译或需要修改其中的QueryParser、定制自己的词法分析器，还需要从https://javacc.dev.java.net/下载javacc。 lucene的组成结构：对于外部应用来说索引模块(index)和检索模块(search)是主要的外部应用入口 org.apache.Lucene.search/ 搜索入口 org.apache.Lucene.index/ 索引入口 org.apache.Lucene.analysis/ 语言分析器 org.apache.Lucene.queryParser/ 查询分析器 org.apache.Lucene.document/ 存储结构 org.apache.Lucene.store/ 底层IO/存储结构 org.apache.Lucene.util/ 一些公用的数据结构简单的例子演示一下Lucene的使用方法：索引过程：从命令行读取文件名（多个），将文件分路径(path字段)和内容(body字段)2个字段进行存储，并对内容进行全文索引：索引的单位是Document对象，每个Document对象包含多个字段Field对象，针对不同的字段属性和数据输出的需求，对字段还可以选择不同的索引/存储字段规则，列表如下：方法切词索引存储用途 Field.Text(String name, String value) Yes Yes Yes 切分词索引并存储，比如：标题，内容字段 Field.Text(String name, Reader value) Yes Yes No 切分词索引不存储，比如：META信息，不用于返回显示，但需要进行检索内容 Field.Keyword(String name, String value) No Yes Yes 不切分索引并存储，比如：日期字段 Field.UnIndexed(String name, String value) No No Yes 不索引，只存储，比如：文件路径 Field.UnStored(String name, String value) Yes Yes No 只全文索引，不存储 public class IndexFiles { //使用方法：: IndexFiles [索引输出目录] [索引的文件列表] ... public static void main(String[] args) throws Exception { String indexPath = args[0]; IndexWriter writer; //用指定的语言分析器构造一个新的写索引器（第3个参数表示是否为追加索引） writer = new IndexWriter(indexPath, new SimpleAnalyzer(), false); for (int i=1; iField中的内容。假设根据body字段进行全文检索，可以将查询结果的path字段和相应查询的匹配度(score)打印出来， public class Search { public static void main(String[] args) throws Exception { String indexPath = args[0], queryString = args[1]; //指向索引目录的搜索器 Searcher searcher = new IndexSearcher(indexPath); //查询解析器：使用和索引同样的语言分析器 Query query = QueryParser.parse(queryString, "body", new SimpleAnalyzer()); //搜索结果使用Hits存储 Hits hits = searcher.search(query); //通过hits可以访问到相应字段的数据和查询的匹配度 for (int i=0; i ":"] ( | "(" Query ")") 中间的逻辑包括：and or + - &&||等符号，而且还有"短语查询"和针对西文的前缀/模糊查询等，个人感觉对于一般应用来说，这些功能有一些华而不实，其实能够实现目前类似于Google的查询语句分析功能其实对于大多数用户来说已经够了。所以，Lucene早期版本的QueryParser仍是比较好的选择。添加修改删除指定记录（Document） Lucene提供了索引的扩展机制，因此索引的动态扩展应该是没有问题的，而指定记录的修改也似乎只能通过记录的删除，然后重新加入实现。如何删除指定的记录呢？删除的方法也很简单，只是需要在索引时根据数据源中的记录ID专门另建索引，然后利用IndexReader.delete(Termterm)方法通过这个记录ID删除相应的Document。根据某个字段值的排序功能 lucene缺省是按照自己的相关度算法（score）进行结果排序的，但能够根据其他字段进行结果排序是一个在LUCENE的开发邮件列表中经常提到的问题，很多原先基于数据库应用都需要除了基于匹配度（score）以外的排序功能。而从全文检索的原理我们可以了解到，任何不基于索引的搜索过程效率都会导致效率非常的低，如果基于其他字段的排序需要在搜索过程中访问存储字段，速度回大大降低，因此非常是不可取的。但这里也有一个折中的解决方法：在搜索过程中能够影响排序结果的只有索引中已经存储的docID和score这2个参数，所以，基于score以外的排序，其实可以通过将数据源预先排好序，然后根据docID进行排序来实现。这样就避免了在LUCENE搜索结果外对结果再次进行排序和在搜索过程中访问不在索引中的某个字段值。这里需要修改的是IndexSearcher中的HitCollector过程： ... 　scorer.score(new HitCollector() { private float minScore = 0.0f; public final void collect(int doc, float score) { if (score > 0.0f && // ignore zeroed buckets (bits==null || bits.get(doc))) { // skip docs not in bits totalHits[0]++; if (score >= minScore) { /* 原先：Lucene将docID和相应的匹配度score例入结果命中列表中： * hq.put(new ScoreDoc(doc, score)); // update hit queue * 如果用doc 或 1/doc 代替 score，就实现了根据docID顺排或逆排 * 假设数据源索引时已经按照某个字段排好了序，而结果根据docID排序也就实现了 * 针对某个字段的排序，甚至可以实现更复杂的score和docID的拟合。 */ hq.put(new ScoreDoc(doc, (float) 1/doc )); if (hq.size() > nDocs) { // if hit queue overfull hq.pop(); // remove lowest in hit queue minScore = ((ScoreDoc)hq.top()).score; // reset minScore } } } } }, reader.maxDoc()); 更通用的输入输出接口虽然lucene没有定义一个确定的输入文档格式，但越来越多的人想到使用一个标准的中间格式作为Lucene的数据导入接口，然后其他数据，比如PDF只需要通过解析器转换成标准的中间格式就可以进行数据索引了。这个中间格式主要以XML为主，类似实现已经不下4，5个：数据源: WORD PDF HTML DB other \ | | | / XML中间格式 | Lucene INDEX 目前还没有针对MSWord文档的解析器，因为Word文档和基于ASCII的RTF文档不同，需要使用COM对象机制解析。这个是我在Google上查的相关资料：http://www.intrinsyc.com/products/enterprise_applications.asp 另外一个办法就是把Word文档转换成text：http://www.winfield.demon.nl/index.html 索引过程优化索引一般分2种情况，一种是小批量的索引扩展，一种是大批量的索引重建。在索引过程中，并不是每次新的DOC加入进去索引都重新进行一次索引文件的写入操作（文件I/O是一件非常消耗资源的事情）。 Lucene先在内存中进行索引操作，并根据一定的批量进行文件的写入。这个批次的间隔越大，文件的写入次数越少，但占用内存会很多。反之占用内存少，但文件IO操作频繁，索引速度会很慢。在IndexWriter中有一个MERGE_FACTOR参数可以帮助你在构造索引器后根据应用环境的情况充分利用内存减少文件的操作。根据我的使用经验：缺省Indexer是每20条记录索引后写入一次，每将MERGE_FACTOR增加50倍，索引速度可以提高1倍左右。搜索过程优化 lucene支持内存索引：这样的搜索比基于文件的I/O有数量级的速度提升。 http://www.onjava.com/lpt/a/3273 而尽可能减少IndexSearcher的创建和对搜索结果的前台的缓存也是必要的。 Lucene面向全文检索的优化在于首次索引检索后，并不把所有的记录（Document）具体内容读取出来，而起只将所有结果中匹配度最高的头100条结果（TopDocs）的ID放到结果集缓存中并返回，这里可以比较一下数据库检索：如果是一个10,000条的数据库检索结果集，数据库是一定要把所有记录内容都取得以后再开始返回给应用结果集的。所以即使检索匹配总数很多，Lucene的结果集占用的内存空间也不会很多。对于一般的模糊检索应用是用不到这么多的结果的，头100条已经可以满足90%以上的检索需求。如果首批缓存结果数用完后还要读取更后面的结果时Searcher会再次检索并生成一个上次的搜索缓存数大1倍的缓存，并再重新向后抓取。所以如果构造一个Searcher去查1－120条结果，Searcher其实是进行了2次搜索过程：头100条取完后，缓存结果用完，Searcher重新检索再构造一个200条的结果缓存，依此类推，400条缓存，800条缓存。由于每次Searcher对象消失后，这些缓存也访问那不到了，你有可能想将结果记录缓存下来，缓存数尽量保证在100以下以充分利用首次的结果缓存，不让Lucene浪费多次检索，而且可以分级进行结果缓存。 Lucene的另外一个特点是在收集结果的过程中将匹配度低的结果自动过滤掉了。这也是和数据库应用需要将搜索的结果全部返回不同之处。我的一些尝试：支持中文的Tokenizer：这里有2个版本，一个是通过JavaCC生成的，对CJK部分按一个字符一个TOKEN索引，另外一个是从SimpleTokenizer改写的，对英文支持数字和字母TOKEN，对中文按迭代索引。基于XML数据源的索引器：XMLIndexer，因此所有数据源只要能够按照DTD转换成指定的XML，就可以用XMLIndxer进行索引了。根据某个字段排序：按记录索引顺序排序结果的搜索器：IndexOrderSearcher，因此如果需要让搜索结果根据某个字段排序，可以让数据源先按某个字段排好序（比如：PriceField），这样索引后，然后在利用这个按记录的ID顺序检索的搜索器，结果就是相当于是那个字段排序的结果了。从Lucene学到更多 Luene的确是一个面对对象设计的典范所有的问题都通过一个额外抽象层来方便以后的扩展和重用：你可以通过重新实现来达到自己的目的，而对其他模块而不需要；简单的应用入口Searcher, Indexer，并调用底层一系列组件协同的完成搜索任务；所有的对象的任务都非常专一：比如搜索过程：QueryParser分析将查询语句转换成一系列的精确查询的组合(Query),通过底层的索引读取结构IndexReader进行索引的读取，并用相应的打分器给搜索结果进行打分/排序等。所有的功能模块原子化程度非常高，因此可以通过重新实现而不需要修改其他模块。除了灵活的应用接口设计，Lucene还提供了一些适合大多数应用的语言分析器实现（SimpleAnalyser,StandardAnalyser），这也是新用户能够很快上手的重要原因之一。这些优点都是非常值得在以后的开发中学习借鉴的。作为一个通用工具包，Lunece的确给予了需要将全文检索功能嵌入到应用中的开发者很多的便利。此外，通过对Lucene的学习和使用，我也更深刻地理解了为什么很多数据库优化设计中要求，比如：尽可能对字段进行索引来提高查询速度，但过多的索引会对数据库表的更新操作变慢，而对结果过多的排序条件，实际上往往也是性能的杀手之一。很多商业数据库对大批量的数据插入操作会提供一些优化参数，这个作用和索引器的merge_factor的作用是类似的， 20%/80%原则：查的结果多并不等于质量好，尤其对于返回结果集很大，如何优化这头几十条结果的质量往往才是最重要的。尽可能让应用从数据库中获得比较小的结果集，因为即使对于大型数据库，对结果集的随机访问也是一个非常消耗资源的操作。参考资料： Apache: Lucene Project http://jakarta.apache.org/lucene/ Lucene开发/用户邮件列表归档 Lucene-dev@jakarta.apache.org Lucene-user@jakarta.apache.org The Lucene search engine: Powerful, flexible, and free http://www.javaworld.com/javaworld/jw-09-2000/jw-0915-Lucene_p.html Lucene Tutorial http://www.darksleep.com/puff/lucene/lucene.html Notes on distributed searching with Lucene http://home.clara.net/markharwood/lucene/ 中文语言的切分词 http://www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment 搜索引擎工具介绍 http://searchtools.com/ Lucene作者Cutting的几篇论文和专利 http://lucene.sourceforge.net/publications.html Lucene的.NET实现：dotLucene http://sourceforge.net/projects/dotlucene/ Lucene作者Cutting的另外一个项目：基于Java的搜索引擎Nutch http://www.nutch.org/ http://sourceforge.net/projects/nutch/ 关于基于词表和N-Gram的切分词比较 http://china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html 2005-01-08 Cutting在Pisa大学做的关于Lucene的讲座：非常详细的Lucene架构解说特别感谢：前网易CTO许良杰(Jack Xu)给我的指导：是您将我带入了搜索引擎这个行业。作者：车东发表于：2002-08-06 18:08 最后更新于：2009-03-20 23:03 版权声明：可以任意转载，转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。 http://www.chedong.com/tech/lucene.html

Spark 薇晶晶大数据
Spark简介Spark的特点运行速度快：使用DAG执行引擎以支持循环数据流与内存计算容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过SparkShell进行交互式编程通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于AmazonEC2等云环境中，并且可以
【JavaWeb后端学习笔记】登录校验（JWT令牌技术、Interceptor拦截器、Filter过滤器） wrjwww JavaWeb后端学习笔记学习笔记 java
登录校验1、JWT令牌技术1.1JWT令牌介绍1.2Java代码生成与校验JWT令牌2、Filter过滤器2.1Filter过滤器的简单实现2.2配置拦截路径2.3Filter接口中的三个方法：2.4Filter过滤器登录校验2.5过滤器链3、Interceptor拦截器3.1拦截器(Interceptor)的简单实现3.2配置拦截路径3.3拦截器中的三个方法2.4Interceptor拦截器登录
使用 Flask 框架添加多个AI模型的API进行对话欣然～人工智能
1.概述该应用是一个基于Flask框架的AI模型API管理系统，允许用户添加、删除不同AI模型（如DeepSeek、阿里云、智谱、百度、科大讯飞等）的API密钥，并通过这些配置好的API与相应的AI模型进行交互，获取回复。应用包含后端的Flask服务和前端的HTML页面及JavaScript脚本。2.后端代码说明2.1依赖库导入pythonfromflaskimportFlask,request,
Java 贪吃蛇游戏欣然～ python 算法开发语言
这段Java代码实现了一个经典的贪吃蛇游戏。玩家可以使用键盘的上下左右箭头键控制蛇的移动方向，蛇会在游戏面板中移动并尝试吃掉随机生成的食物。每吃掉一个食物，蛇的身体会变长，玩家的得分也会增加。如果蛇撞到自己的身体或者撞到游戏面板的边界，游戏就会结束。类和方法详细说明类定义javapublicclassSnakeGameextendsJPanelimplementsActionListener{Sn
罗马数字 java_Java算法练习——整数转罗马数字馍菌罗马数字 java
题目描述罗马数字包含以下七种字符：I，V，X，L，C，D和M。字符数值I1V5X10L50C100D500M1000例如，罗马数字2写做II，即为两个并列的1。12写做XII，即为X+II。27写做XXVII,即为XX+V+II。通常情况下，罗马数字中小的数字在大的数字的右边。但也存在特例，例如4不写做IIII，而是IV。数字1在数字5的左边，所表示的数等于大数5减小数1得到的数值4。同样地，数字
java实时推送前端数据_Java整合WebSocket实现实时推送（注解版）棒棒的海绵糖 java实时推送前端数据
第一次写博客，备份下代码，顺便给需要的同学看看，网上也有很多Java整合webSocket的例子，大多自己写个类继承WebSocketConfigurer，直接使用注解的比较少，我也看了很多写的运行有问题，要么代码关键部分缺少，想着自己弄一个好了，这个版本在网上某些大佬的基础上实现的，基础代码重复写没意义。1.加入websocket依赖包org.springframeworkspring-webs
Java8特性知识体系详解小小兔在普陀山走神啊 #Java8特性详解开发语言 java
Java8特性知识体系详解知识体系相关文章函数编程Optional类default方法类型注解重复注解类型推断JRE精简LocalDate/LocalDateTimeJavaFXPermGen移除StampedLock其它更新参考文档Java8新特性详解汇总。Java新特性的增加都是来源于JSR或者JEPJSR论坛:https://jcp.org/en/jsr/detail?id=335知识体系相
深入理解C语言(三)——位域 Bluetangos C语言 c语言开发语言驱动开发
驱动开发人员或者经常与协议规范打交道的工程师对位域肯定不陌生。当我们需要用C语言数据类型来表示软硬件平台指定的描述符结构，以及某些网络协议的包格式时；或者描述为了节省内存而自定义的紧凑数据结构时；为了可读性，编码的方便性，我们会使用使用位域（Bit-Field）。本文将探讨位域的基本概念，使用细节和一些注意项。位域——基本概念带有预定义宽度的变量被称为位域，形式如下：struct位域结构名{类型说
JAVA背景知识----JRE基础知识 wiki843 java 学习开发语言
JRE概念：JRE(JavaRuntimeEnvironment)即Java运行环境，包含Java虚拟机（JVM）和Java程序所需要的核心类库，计算机中安装JRE即可运行开发好的Java程序。JDK中包含了JRE无需单独下载JREJDK与JRE、JVM的关系JRE=JVM+核心类库JDK=JRE+JAVA开发工具JDK>JRE>JVM
红宝书第二十四讲：详解BOM对象：window、location、history 前端javascript
红宝书第二十四讲：详解BOM对象：window、location、history资料取自《JavaScript高级程序设计（第5版）》。查看总目录：红宝书学习大纲一、BOM核心：window对象window对象是浏览器窗口的入口，同时扮演全局作用域角色（所有全局变量/函数都挂载在window上）1。//全局变量实际是window的属性varname="小明";console.log(window.
聊聊Spring AI的RetrievalAugmentationAdvisor 人工智能
序本文主要研究一下SpringAI的RetrievalAugmentationAdvisorBaseAdvisorspring-ai-core/src/main/java/org/springframework/ai/chat/client/advisor/api/BaseAdvisor.javapublicinterfaceBaseAdvisorextendsCallAroundAdvisor,
Java康威生命游戏（Conway‘s Game of Life）欣然～ java
这段Java代码实现了一个三维版本的康威生命游戏（Conway'sGameofLife）的图形用户界面（GUI）程序。康威生命游戏是一个零玩家游戏，它包括一个二维或多维的网格，每个网格中的细胞有存活或死亡两种状态，根据其周围细胞的存活情况按照一定规则进行迭代更新。此程序模拟了一个三维的细胞世界，并且通过JFrame和JPanel提供了可视化的界面，以一定的时间间隔展示细胞状态的演化。类和成员变量说
简化java代码、提升效率小技巧（下篇）悟能不能悟开发语言 java
1.利用sun.misc.Unsafe实现对象实例化（绕过构造函数）FieldtheUnsafe=Unsafe.class.getDeclaredField("theUnsafe");theUnsafe.setAccessible(true);Unsafeunsafe=(Unsafe)theUnsafe.get(null);//绕过构造函数创建对象Personperson=(Person)unsa
针对vue 、 kotlin 、java 这三个语言AI辅助开发的提示词人生富有 java vue.js kotlin
Vue项目搭建与配置请使用Vue3和Vite搭建一个新项目，包含路由和状态管理，给出详细的配置步骤和示例代码。我想用Vue构建一个电商网站前端，采用VueRouter和Pinia，如何进行项目的初始配置？组件开发开发一个可复用的Vue卡片组件，要求有标题、内容和按钮，使用Vue3的组合式API。帮我实现一个基于Vue的日期选择器组件，结合ElementPlusUI库。生成代码"用Vue3Compo
Java语音技术之FreeTTS ysds20211402 编程语言 java java 编程语言
转自：https://www.weidianyuedu.com/content/0017809736406.html
Kotlin 类扩展实现原理 MarkRZJ java class proxy 类 jvm
在Kotlin中当项目集成第三方SDK的时候，如果需要为其中某个类新增方法来可以通过className.methodName(){},即类名.方法名的形式来扩展函数，那么同样和Java一样是JVM语言的Kt为什么就可以实现这种功能呢，以下为一个例子，借助它来详细探讨一下实现原理及细节。openclassFather{//定义成员函数openfunshout()=println("Fathercal
不愧是高级Java开发岗，确实有点难~ 后端java
今天和大家分享一下组织内部成员在高级Java开发工程师岗位的面经详解，看看面试强度如何（删除了跟主人公项目相关的问题）：面经详解1.线程池参数怎么配置？拒绝策略？线程池参数配置：核心线程数（corePoolSize）•CPU密集型任务：通常设置为CPU核心数+1，例如4核CPU设置5。•IO密集型任务：建议设置为CPU核心数×2，例如4核CPU设置8，或通过公式CPU核心数×(1+平均等待时间/计
Python3的100多个Python挑战性编程练习题【收藏就对了】梦想python python 开发语言 pygame pycharm django
1.等级说明1级初学者初学者是指刚刚完成Python入门课程的人。他可以使用1或2个Python类或函数解决一些问题。通常，答案可以直接在教科书中找到。2级中级中级是指刚刚学习过Python，但已经具有相对较强的编程背景的人。他应该能够解决可能涉及3或3个Python类或函数的问题。答案不能直接在教科书中找到。3级高级。他应该使用Python通过更丰富的库函数，数据结构和算法来解决更复杂的问题。他
【Linux系统】僵尸进程和孤儿进程时差freebright #Linux进程管理 linux 运维服务器
一、僵尸进程1、何为僵尸进程？在Unix/Linux系统中，正常情况下，子进程是通过父进程创建的，且两者的运行是相互独立的，父进程永远无法预测子进程到底什么时候结束。当一个进程调用exit命令结束自己的生命时，其实它并没有真正的被销毁，操作系统内核只是释放了该进程的所有资源，包括打开的文件、占用的内存等(比如malloc占用内存不释放，也会在此时释放)，但是留下一个数据结构（只保留structta
【一起来学kubernetes】30、k8s的java sdk怎么用有梦想的攻城狮 kubernetes kubernetes java 贪心算法 sdk client-java
KubernetesJavaSDK是开发者在Java应用中与Kubernetes集群交互的核心工具，支持资源管理、服务发现、配置操作等功能。一、主流JavaSDK对比与选择官方client-java库特点：由Kubernetes社区维护，API与Kubernetes原生对象严格对应，适合对原生API有深度需求的场景。依赖引入：io.kubernetesclient-java19.0.0Fabric
Scala 正则表达式 wjs2024 开发语言
Scala正则表达式引言正则表达式（RegularExpression）是一种强大的文本处理工具，在Scala编程语言中也有着广泛的应用。Scala正则表达式可以帮助开发者高效地进行字符串匹配、搜索、替换和解析等操作。本文将深入探讨Scala正则表达式的相关知识，包括语法、常用模式、匹配技巧以及实际应用场景。Scala正则表达式基础1.语法Scala正则表达式的基本语法与Java正则表达式类似，主
初识javaweb1 忘记578 java 开发语言
JavaSE中是C/S（ClientServer）客户端到服务器端的软件结构JavaWeb是B/S（BrowserServer）浏览器到web服务器的软件结构HTML：超文本标记语言-决定页面上显示什么内容CSS：页面上的内容显示的风格（决定页面上内容的美观程度）JavaScript：页面特效网页的组成部分（三部分）：内容（结构)、表现、行为javasrcript特点：1.交互性（它可以做的就是信
#前端js发异步请求的几种方式在下千玦前端 javascript 开发语言
JavaScript进行异步请求的方式经历了多个阶段的发展，每个阶段都在解决上一阶段的问题，变得更简洁、易用、强大。我们从历史发展角度来看，主要经历了以下几个阶段：1️⃣早期阶段：XHR（XMLHttpRequest）诞生背景1999年W3C引入XMLHttpRequest，是AJAX（异步JavaScript和XML）的基础。主要用于局部刷新页面，避免整个页面重新加载，提高用户体验。早期用于XM
如何确保一个集合不能被修改 Stay Passion #JAVA 开发语言 java 面试
面试官提问：在Java中，如何确保一个集合不能被修改？回答：确保集合不能被修改，主要有以下几种方法：1.使用Collections.unmodifiableXXX()方法Collections.unmodifiableXXX()方法可以创建一个不可修改的集合视图。它返回一个包装过的集合，所有对该集合的修改操作都会抛出UnsupportedOperationException异常。示例代码：impo
java压缩指针32g失效_为什么压缩指针超过32G会失效？不爱说话的我 java压缩指针32g失效
为什么压缩指针超过32G会失效？classA{inta;//基本类型Bb;//引用类型}32位操作系统花费的内存空间为对象头-8字节+实例数据int类型-4字节+引用类型-4字节+补充0字节(16是8的倍数)16个字节64位操作系统对象头-16字节+实例数据int类型-4字节+引用类型-8字节+补充4字节(28不是8的倍数补充4字节到达32字节)32个字节同样的对象需要将近两倍的容量,(实际平均1
SSM框架—Spring基础—概念喜你成疾. SSM框架 spring java
Spring概念Spring具有良好的设计和分层结构，极大的简化了项目开发中的技术复杂性。Spring是分层的javaSE/EE一站式轻量级的开源框架。最核心的理念是控制反转（InversionofControl，缩写为IoC）（控制反转：不用实例化。Spring自动创建，使用）和面向切面编程（AspectOrientedProgramming，缩写为AOP）。IoC是Spring的基础，他支撑着
Java-01-源码篇-JUC并发编程-原子类吐司呐 java SE 17 源码篇 java 开发语言
在J.U.C并发包之中，有一个原子包（java.util.concurrent.atomic）该包里面的类都天生拥有原子性质。其原子性质的表现在于多线程并发的环境下统计计算和赋值业务自带有锁功能，从而自带有原子性。该原子包（java.util.concurrent.atomic）下提供了一系列的原子类型（有基本数据类型的原子类，引用类型的原子类，数组类型的原子类，原子类型的属性修改器）java.u
为什么JVM开启指针压缩后支持的最大堆内存是32G? 凉_风有信 jvm java
-XX:+UseCompressedOopsOops（ordinaryobjectpointer）JVM开启压缩之后对象指针会被压缩到4字节，也就是32位，也就是能代表2的32次方个寻址地址（4G个）又因为java默认对象对齐方式是8个字节对齐，所以能根据4G个地址找到4*8（32G）个内存的对象。如果超过32G之后，压缩就已经找不全所有的对象了，所以干脆不压缩了。
数据量管理系统 mozixiao__ 数据库
什么是数据库管理系统定义1:用户(应用程序)与操作系统之间的数据库管理软件定义2:一个管理数据的大型复杂基础软件系统数据库管理系统的用途优雅查询和数据抽象高效组织和存储数据正确一致的并发更新低时延高吞吐的查询并行高效的有序执行可用性和高可靠保证安全可信的统一控制方便易用的用户接口查询接口层负责用户和数据库管理系统的交互SQL查询语常见的查询接口JDBC(Javadatabaseconnectivi
Python使用总结之Flask构建文件服务器，通过网络地址访问本地文件阿福不是狗 Python使用总结 python flask 服务器
Python使用总结之Flask构建文件服务器，通过网络地址访问本地文件在Web开发中，静态文件（如图片、CSS、JavaScript）的管理是基础且重要的环节。Flask提供的send_from_directory函数为开发者提供了灵活的文件服务解决方案。本文将详细解析其原理、用法及最佳实践。一、什么是send_from_directory？send_from_directory是Flask内置
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

Lucene：基于Java的全文检索引擎简介

你可能感兴趣的:(java,数据结构,搜索引擎,Lucene,全文检索)