fengbin2005

Lucene使用IKAnalyzer分词实例及 IKAnalyzer扩展词库

方案一: 基于配置的词典扩充

项目结构图如下:

IK分词器还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典。谷歌拼音词库下载: http://ishare.iask.sina.com.cn/f/14446921.html?from=like
在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  

    <comment>IK Analyzer 扩展配置</comment>
    <!-- 用户可以在这里配置自己的扩展字典 -->
     <entry key="ext_dict">/dicdata/use.dic.dic;/dicdata/googlepy.dic</entry> 
     <!-- 用户可以在这里配置自己的扩展停止词字典    -->
    <entry key="ext_stopwords">/dicdata/ext_stopword.dic</entry> 

</properties>

词典文件的编辑与部署
分词器的词典文件格式是无BOM 的UTF-8 编码的中文文本文件，文件扩展名不限。词典中，每个中文词汇独立占一行，使用\r\n 的DOS 方式换行。（注，如果您不了解什么是无BOM 的UTF-8 格式，请保证您的词典使用UTF-8 存储，并在文件的头部添加一空行）。您可以参考分词器源码org.wltea.analyzer.dic 包下的.dic 文件。词典文件应部署在Java 的资源路径下，即ClassLoader 能够加载的路径中。（推荐同IKAnalyzer.cfg.xml 放在一起）.

方案二:基于API的词典扩充

在IKAnalyzer的与词条相关的操作
1.org.wltea.analyzer.cfg
2.org.wltea.analyzer.dic

org.wltea.analyzer.cfg下Configuration接口中的定义
　　getExtDictionarys()  获取扩展字典配置路径
　　getExtStopWordDictionarys() 获取扩展停止词典配置路径
　　getMainDictionary() 获取主词典路径
　　getQuantifierDicionary() 获取量词词典路径
org.wltea.analyzer.cfg.DefualtConfig类是对Configuration接口的实现

org.wltea.analyzer.dic下的Directory类中相关的方法

public void addWords(java.util.Collection<java.lang.String> words) 批量加载新词条 参数：words - Collection词条列表 public void disableWords(java.util.Collection<java.lang.String> words) 批量移除（屏蔽）词条

Lucene中使用IKAnalyzer分词器实例演示
业务实体

package com.icrate.service.study.demo; /** * * * @version ： 1.0 * * @author ： 苏若年 <a href="mailto:DennisIT@163.com">发送邮件</a> * * @since ： 1.0 创建时间: 2013-4-7 下午01:52:49 * * @function： TODO * */
public class Medicine { private Integer id; private String name; private String function; public Medicine() { } public Medicine(Integer id, String name, String function) { super(); this.id = id; this.name = name; this.function = function; } //getter and setter() 

    public String toString(){ return this.id + "," +this.name + "," + this.function; } }

构建模拟数据

package com.icrate.service.study.demo; import java.util.ArrayList; import java.util.List; /** * * * @version ： 1.0 * * @author ： 苏若年 <a href="mailto:DennisIT@163.com">发送邮件</a> * * @since ： 1.0 创建时间: 2013-4-7 下午01:54:34 * * @function： TODO * */
public class DataFactory { private static DataFactory dataFactory = new DataFactory(); private DataFactory(){ } public List<Medicine> getData(){ List<Medicine> list = new ArrayList<Medicine>(); list.add(new Medicine(1,"银花 感冒颗粒","功能主治：银花感冒颗粒 ，头痛,清热，解表，利咽。")); list.add(new Medicine(2,"感冒 止咳糖浆","功能主治：感冒止咳糖浆,解表清热，止咳化痰。")); list.add(new Medicine(3,"感冒灵颗粒","功能主治：解热镇痛。头痛 ,清热。")); list.add(new Medicine(4,"感冒灵胶囊","功能主治：银花感冒颗粒 ，头痛,清热，解表，利咽。")); list.add(new Medicine(5,"仁和 感冒颗粒","功能主治：疏风清热，宣肺止咳,解表清热，止咳化痰。")); return list; } public static DataFactory getInstance(){ return dataFactory; } }

使用Lucene对模拟数据进行检索

package com.icrate.service.study.demo; import java.io.File; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.index.Term; import org.apache.lucene.queryParser.MultiFieldQueryParser; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TopDocs; import org.apache.lucene.search.highlight.Formatter; import org.apache.lucene.search.highlight.Fragmenter; import org.apache.lucene.search.highlight.Highlighter; import org.apache.lucene.search.highlight.QueryScorer; import org.apache.lucene.search.highlight.Scorer; import org.apache.lucene.search.highlight.SimpleFragmenter; import org.apache.lucene.search.highlight.SimpleHTMLFormatter; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.util.Version; import org.wltea.analyzer.lucene.IKAnalyzer; /** * * LuenceProcess.java * * @version ： 1.1 * * @author ： 苏若年 <a href="mailto:DennisIT@163.com">发送邮件</a> * * @since ： 1.0 创建时间: Apr 3, 2013 11:48:11 AM * * TODO : Luence中使用IK分词器 * */

public class LuceneIKUtil { private Directory directory ; private Analyzer analyzer ; /** * 带参数构造,参数用来指定索引文件目录 * @param indexFilePath */
    public LuceneIKUtil(String indexFilePath){ try { directory = FSDirectory.open(new File(indexFilePath)); analyzer = new IKAnalyzer(); } catch (IOException e) { e.printStackTrace(); } } /** * 默认构造,使用系统默认的路径作为索引 */
    public LuceneIKUtil(){ this("/luence/index"); } /** * 创建索引 * Description： * @author dennisit@163.com Apr 3, 2013 * @throws Exception */
    public void createIndex()throws Exception{ IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_35,analyzer); IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig); indexWriter.deleteAll(); List<Medicine> list = DataFactory.getInstance().getData(); for(int i=0; i<list.size(); i++){ Medicine medicine = list.get(i); Document document = addDocument(medicine.getId(), medicine.getName(), medicine.getFunction()); indexWriter.addDocument(document); } indexWriter.close(); } /** * * Description： * @author dennisit@163.com Apr 3, 2013 * @param id * @param title * @param content * @return
     */
    public Document addDocument(Integer id, String name, String function){ Document doc = new Document(); //Field.Index.NO 表示不索引 //Field.Index.ANALYZED 表示分词且索引 //Field.Index.NOT_ANALYZED 表示不分词且索引
        doc.add(new Field("id",String.valueOf(id),Field.Store.YES,Field.Index.NOT_ANALYZED)); doc.add(new Field("name",name,Field.Store.YES,Field.Index.ANALYZED)); doc.add(new Field("function",function,Field.Store.YES,Field.Index.ANALYZED)); return doc; } /** * * Description： 更新索引 * @author dennisit@163.com Apr 3, 2013 * @param id * @param title * @param content */
    public void update(Integer id,String title, String content){ try { IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_35,analyzer); IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig); Document document = addDocument(id, title, content); Term term = new Term("id",String.valueOf(id)); indexWriter.updateDocument(term, document); indexWriter.close(); } catch (Exception e) { e.printStackTrace(); } } /** * * Description：按照ID进行索引 * @author dennisit@163.com Apr 3, 2013 * @param id */
    public void delete(Integer id){ try { IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_35,analyzer); IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig); Term term = new Term("id",String.valueOf(id)); indexWriter.deleteDocuments(term); indexWriter.close(); } catch (Exception e) { e.printStackTrace(); } } /** * * Description：查询 * @author dennisit@163.com Apr 3, 2013 * @param where 查询条件 * @param scoreDoc 分页时用 */
    public List<Medicine> search(String[] fields,String keyword){ IndexSearcher indexSearcher = null; List<Medicine> result = new ArrayList<Medicine>(); try { //创建索引搜索器,且只读
            IndexReader indexReader = IndexReader.open(directory,true); indexSearcher = new IndexSearcher(indexReader); MultiFieldQueryParser queryParser =new MultiFieldQueryParser(Version.LUCENE_35, fields,analyzer); Query query = queryParser.parse(keyword); //返回前number条记录
            TopDocs topDocs = indexSearcher.search(query, 10); //信息展示
            int totalCount = topDocs.totalHits; System.out.println("共检索出 "+totalCount+" 条记录"); //高亮显示
            /* 创建高亮器,使搜索的结果高亮显示 SimpleHTMLFormatter：用来控制你要加亮的关键字的高亮方式 此类有2个构造方法 1：SimpleHTMLFormatter()默认的构造方法.加亮方式：<B>关键字</B> 2：SimpleHTMLFormatter(String preTag, String postTag).加亮方式：preTag关键字postTag */ Formatter formatter = new SimpleHTMLFormatter("<font color='red'>","</font>"); /* QueryScorer QueryScorer 是内置的计分器。计分器的工作首先是将片段排序。QueryScorer使用的项是从用户输入的查询中得到的； 它会从原始输入的单词、词组和布尔查询中提取项，并且基于相应的加权因子（boost factor）给它们加权。 为了便于QueryScoere使用，还必须对查询的原始形式进行重写。 比如，带通配符查询、模糊查询、前缀查询以及范围查询 等，都被重写为BoolenaQuery中所使用的项。 在将Query实例传递到QueryScorer之前，可以调用Query.rewrite (IndexReader)方法来重写Query对象 */ Scorer fragmentScorer = new QueryScorer(query); Highlighter highlighter = new Highlighter(formatter,fragmentScorer); Fragmenter fragmenter = new SimpleFragmenter(100); /* Highlighter利用Fragmenter将原始文本分割成多个片段。 内置的SimpleFragmenter将原始文本分割成相同大小的片段，片段默认的大小为100个字符。这个大小是可控制的。 */ highlighter.setTextFragmenter(fragmenter); ScoreDoc[] scoreDocs = topDocs.scoreDocs; for(ScoreDoc scDoc : scoreDocs){ Document document = indexSearcher.doc(scDoc.doc); Integer id = Integer.parseInt(document.get("id")); String name = document.get("name"); String function = document.get("function"); //float score = scDoc.score; //相似度
 String lighterName = highlighter.getBestFragment(analyzer, "name", name); if(null==lighterName){ lighterName = name; } String lighterFunciton = highlighter.getBestFragment(analyzer, "function", function); if(null==lighterFunciton){ lighterFunciton = function; } Medicine medicine = new Medicine(); medicine.setId(id); medicine.setName(lighterName); medicine.setFunction(lighterFunciton); result.add(medicine);  } } catch (Exception e) { e.printStackTrace(); }finally{ try { indexSearcher.close(); } catch (IOException e) { e.printStackTrace(); } } return result; } public static void main(String[] args) { LuceneIKUtil luceneProcess = new LuenceIKUtil("F:/index"); try { luceneProcess.createIndex(); } catch (Exception e) { e.printStackTrace(); } //修改测试
        luceneProcess.update(2, "测试内容", "修改测试。。。"); //查询测试
        String [] fields = {"name","function"}; List<Medicine> list = luenceProcess.search(fields,"感冒"); for(int i=0; i<list.size(); i++){ Medicine medicine = list.get(i); System.out.println("("+medicine.getId()+")"+medicine.getName() + "\t" + medicine.getFunction()); } //删除测试 //luenceProcess.delete(1);
 } }

程序运行结果

加载扩展词典：/dicdata/use.dic.dic 加载扩展词典：/dicdata/googlepy.dic 加载扩展停止词典：/dicdata/ext_stopword.dic 共检索出 4 条记录 (1)银花 <font color='red'>感冒</font>颗粒    功能主治：银花<font color='red'>感冒</font>颗粒 ，头痛,清热，解表，利咽。 (4)<font color='red'>感冒</font>灵胶囊    功能主治：银花<font color='red'>感冒</font>颗粒 ，头痛,清热，解表，利咽。 (3)<font color='red'>感冒</font>灵颗粒 功能主治：解热镇痛。头痛 ,清热。 (5)仁和 <font color='red'>感冒</font>颗粒    功能主治：疏风清热，宣肺止咳,解表清热，止咳化痰。

如何判断索引是否存在

    /** * 判断是否已经存在索引文件 * @param indexPath * @return
     */
    private  boolean isExistIndexFile(String indexPath) throws Exception{ File file = new File(indexPath); if (!file.exists()) { file.mkdirs(); } String indexSufix="/segments.gen"; //根据索引文件segments.gen是否存在判断是否是第一次创建索引 
        File indexFile=new File(indexPath+indexSufix); return indexFile.exists(); }

附录: IK分词处理过程

IK的整个分词处理过程首先，介绍一下IK的整个分词处理过程：

1. Lucene的分词基类是Analyzer，所以IK提供了Analyzer的一个实现类IKAnalyzer。首先，我们要实例化一个IKAnalyzer，它有一个构造方法接收一个参数isMaxWordLength，这个参数是标识IK是否采用最大词长分词，还是采用最细粒度切分两种分词算法。实际两种算法的实现，最大词长切分是对最细粒度切分的一种后续处理，是对最细粒度切分结果的过滤，选择出最长的分词结果。

2. IKAnalyzer类重写了Analyzer的tokenStream方法，这个方法接收两个参数，field name和输入流reader，其中filed name是Lucene的属性列，是对文本内容进行过分词处理和创建索引之后，索引对应的一个名称，类似数据库的列名。因为IK仅仅涉及分词处理，所以对field name没有进行任何处理，所以此处不做任何讨论。

3. tokenStream方法在Lucene对文本输入流reader进行分词处理时被调用，在IKAnalyzer的tokenStream方法里面仅仅实例化了一个IKTokenizer类，该类继承了Lucene的Tokenizer类。并重写了incrementToken方法，该方法的作用是处理文本输入流生成token，也就是Lucene的最小词元term，在IK里面叫做Lexeme。

4. 在IKtokenizer的构造方法里面实例化了IK里面最终要的分词类IKSegmentation，也称为主分词器。它的构造方法接收两个参数，reader和isMaxWordLength。

5. IKsegmentation的构造方法里面，主要做了三个工作，创建上下文对象Context，加载词典，创建子分词器。

6. Contex主要是存储分词结果集和记录分词处理的游标位置。

7. 词典是作为一个单例被创建的，主要有量词词典、主词典和停词词典。词典是被存储在字典片段类DictSegment 这个字典核心类里面的。DictSegment有一个静态的存储结构charMap，是公共词典表，用来存储所有汉字，key和value都是一个中文汉字，目前IK里面的charMap大概有7100多的键值对。另外，DictSegment还有两个最重要的数据结构，是用来存储字典树的，一个是DictSegment的数组childrenArray，另一个是key为单个汉字（每个词条的第一个汉字），value是DictSegment的HashMap childrenMap。这两个数据结构二者取其一，用来存储字典树。

8. 子分词器才是真正的分词类，IK里面有三个子分词器，量词分词器，CJK分词器（处理中文），停词分词器。主分词器IKSegmentation遍历这三个分词器对文本输入流进行分词处理。

9. IKTokenizer的incrementToken方法调用了IKSegmentation的next方法，next的作用是获得下一个分词结果。next在第一次被调用的时候，需要加载文本输入流，并将其读入buffer，此时便遍历子分词器，对buffer种的文本内容进行分词处理，然后把分词结果添加到context的lexemeSet中。

转转请注明出处:[http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html]

HashMap 在 JDK 1.7 和 JDK 1.8 有什么区别努力的搬砖人. java 后端面试经验分享
HashMap在JDK1.7和JDK1.8中的实现存在显著差异，主要体现在以下几个方面：1.数据结构的变化•JDK1.7：HashMap的底层数据结构是数组+单向链表。当哈希冲突发生时，新的元素会插入到链表的头部（头插法）。•JDK1.8：HashMap的底层数据结构变为数组+链表/红黑树。当链表长度超过一定阈值（默认为8）时，链表会转换为红黑树，以提高查询效率。2.链表插入方式的变化•JDK1.
数据结构之二叉树Python版巷北夜未央数据结构数据结构 python 开发语言
数据结构之二叉树Python版简述一、二叉树基本操作1、二叉树结点定义2、二叉树的创建（1）输入区别（2）实现区别（3）分析3、二叉树求深度4、二叉树求叶子数（1）类型1（2）类型25、二叉树统计指定取值元素节点的个数6、遍历二叉树（1）先序遍历（2）中序遍历（3）后序遍历7、顺序存储的二叉树遍历简述目前来看，讲数据结构用的语言，最多的还是C++，Python版的也不是没有，但总感觉还是缺少了
关于数据结构--不同的哈希表 wyshh119 数据结构散列表
基于哈希表的两个容器unordered_set和vector。unordered_set是无序的，不重复的储存容器，对于那些需要按一定顺序输出的内容只用unordered_set是报错的，他是按随机顺序输出的。所以这时候往往需要同时利用两个容器。vector负责按插入顺序记录唯一元素。unordered_set负责以O（1）的复杂度判断元素是否存在。例如单词去重：#include#include#
深入理解Trie树：高效处理字符串的利器不语n 算法与数据结构算法数据结构
1.什么是Trie树？Trie树（字典树、前缀树）是一种树形数据结构，专门用于高效存储和检索字符串集合。它的核心特点是：每个节点代表一个字符。从根节点到某一节点的路径构成一个字符串。适用于前缀匹配、词频统计、自动补全等场景。2.Trie树的优势操作时间复杂度适用场景插入字符串O(L)动态添加新字符串查询字符串O(L)快速检查字符串是否存在前缀匹配O(L)搜索引擎、输入法自动补全（L为字符串长度）3
【C++】set（STL）熙曦Sakura C++c++开发语言
序列式容器和关联式容器前面我们已经接触过STL中的部分容器，如：string、vector、list、deque、array、forward_list等，这些容器统称为序列式容器，因为逻辑结构为线性序列的数据结构，两个位置存储的值之间一般没有紧密的关联关系，比如交换一下，它依旧是序列式容器。顺序容器中的元素是按他们在容器中的存储位置来顺序保存和访问的。关联式容器也是用来存储数据的，与序列式容器不同
C++ map, unordered_map JCjunior C/C++c++
1.map1.1map简介map是STL的一个关联容器，它提供一对一（其中第一个可以称为关键字，每个关键字只能在map中出现一次，第二个可能称为该关键字的值）的数据处理能力，能在处理一对一数据时，在编程上提供快速通道。容器map的底层实现是红黑树，表明其内部数据结构是一个map对应一颗红黑树(一种非严格意义上的平衡二叉树)，红黑树具有对数据自动排序的功能，所以在map内部所有的数据都是有序的，由小
算法之Java动态连通性问题：union-find算法解析一杯年华@编程空间算法精讲算法 java 性能优化
算法之Java动态连通性问题：union-find算法解析在编程的学习旅程中，不断探索新的算法和数据结构是提升能力的关键。今天，我们一起深入研究Java中处理动态连通性问题的union-find算法，从问题的定义、API的设计，到具体的算法实现，希望能和大家共同进步，让我们的编程技能更上一层楼！一、动态连通性问题与union-find算法概述在实际编程场景中，经常会遇到需要判断元素之间连接关系的问
Oracle的PL/SQL高级编程一颗冰椰子 oracle sql 数据库
实验目的：1、掌握PL/SQL的数据结构和编程结构，掌握应用PL/SQL编写简单程序的方法2、理解存储过程的概念，掌握编写存储过程的方法3、理解函数的概念，掌握编写存储过程的方法实训内容：一、PL/SQL编程基础1、pl/sql的组成：声明块、执行块、异常处理块DECLARE--声明块在PL/SQL中，DECLARE关键字用于定义变量、常量和其他数据结构，以便后续的PL/SQL块可以使用这些声明的
初识Redis 反方向的空 Redis redis 数据库缓存
初始Redis关于redisRedis（REmoteDIctionaryServer）是一个开源的、高性能的键值存储系统，广泛用于缓存、消息队列、实时分析等场景。它支持多种数据结构，并提供了丰富的特性，使其成为一个功能强大且灵活的工具。Redis之所以受到如此多公司的⻘睐，必然有之过⼈之处，下面是关于Redis的8个重要特性速度快正常情况下，Redis执行命令的速度非常快，官方给出的数字是读写性能
Redis常见数据类型(1)String 反方向的空 Redis redis bootstrap java
Redis常见数据类型(1)String字符串类型是Redis最基础的数据类型，关于字符串需要特别注意：首先Redis中所有的键的类型都是字符串类型，而且其他几种数据结构也都是在字符串类似基础上构建的，例如列表和集合的元素类型是字符串类型，所以字符串类型能为其他4种数据结构的学习奠定基础.其次,字符串类型的值实际可以是字符串，包含⼀般格式的字符串或者类似JSON、XML格式的字符串；数字，可以是整
Python列表常用方法五：元素如何去掉重复项奋进的LY python编程基础学习 python 开发语言
引言列表作为一个容器可以存储不同类型的数据元素，而且可以存储重复元素。在项目应用中，提取列表中唯一元素删除重复项是常见操作，实现方法也多种多样。列举几种常用方法方便遗忘时回忆。目录一、set()去重复二、列表推导式去重复三、numpy.unque()去重复四、字典的键去重复五、列表常用方法系列文章链接一、set()去重复使用集合set数据结构可以去重复，但会造成数据无序性，改变原始列表的有序性。示
算法竞赛备赛——【数据结构】二叉树 Aurora_wmroy 算法竞赛备赛算法数据结构 c++蓝桥杯
二叉树二叉树的问题大多基于递归实现（面试较多力扣的二叉树的题会多一些竞赛遇到的较少）n个节点x个度为0的节点有x-1个度为2的节点（线的总数2n2+n1=n2+n1+n0-1）n0=n2+1有一个先序序列1234,有___棵树二叉树满足这个先序序列：卡特兰数：C2nn/(n+1)C^{n}_{2n}/(n+1)C2nn/(n+1)先序+中序可以确定一棵树先序对应入栈中序对应出栈顺序用卡特兰数可求L
ES基本核心概念总结信小呆 ES ES Elastic Search
1、es的核心概念索引词，可以通过term查询进行准确的搜索文本，非结构化文字，通常文本会被分成一个个的索引词。分析，将文本转换为索引词的过程。集群，由一个或多个结点组成，对外提供服务，对外提供索引和搜索功能节点，一个节点上是一个逻辑上独立的服务。路由，分片，单个lucene实例，主分片，副本份片，复制，当一个节点出现问题的时候，可以通过复制，对故障进行转移。索引，具有相同结构的文档集合。类型，在
第二章:ROS架构_《ROS机器人开发实践》_notes lianghu666 硬件和智能机器人架构机器人
第二章核心内容总结一、核心架构计算图（ComputationGraph）节点（Node）：独立执行单元消息（Message）：严格类型定义的数据结构话题（Topic）：异步通信机制服务（Service）：同步请求/响应模式节点管理器（ROSMaster）：命名注册与协调文件系统功能包（Package）：最小功能单元元功能包（Metapackage）：逻辑集合多个功能包工作空间覆盖（Overlay）
数据结构篇-时间复杂度刚入门的大一新生数据结构篇数据结构算法 c语言
基于我学的课程知识来写的这篇博客，希望大家能喜欢，之后会持续更新#define_CRT_SECURE_NO_WARNINGS1#include#include#include#include#include#include数据结构初阶初阶用C语言实现基础的数据结构针对C语言刚学完的情况下可以巩固C语言的语法知识数据结构是什么计算机存储、组织数据的方式指相互之间存在的一种或多种特定关系的数据元素的集
【机器学习】机器学习入门基础普及介绍（面向新人小白）偷偷的卷机器学习人工智能 python 学习
hello大家好！机器学习的小文章如期而至~还是和数据结构的顺序一样，也是从头开始描述，有基础的朋友可以看目录划重点哈OK，咱们话不多说，直奔主题！本次介绍也是根据我之前学习的经验来选择相应的内容，也参考了带我的教授的一些教学内容，所以可以说是经历之谈，不是那种方方面面俱全的百科，略写的部分后续的文章还会展开讲的，不好理解的地方也带过了或者没有提及，毕竟是入门嘛（顺带一提，这位教授来自MIT，大家
[Visual Studio] VC++项目属性之C/C++运行库设置老狼IT工作室 C++visual studio visual studio c++
什么是MSVC运行库(CRT)?MSVC(MicrosoftVisualC++)的运行库是一组库文件，它们包含了一些常用的函数和数据结构，可以在程序运行时被调用。这些库文件通常会被编译到程序中，以提高程序的性能和可移植性。MSVC的运行库包括以下几个部分：标准库：包含了一些基本的函数和数据结构，如字符串、数组、链表等。数学库：包含了一些数学函数，如三角函数、对数函数、指数函数等。图形库：包含了一些
C语言与数据库内核开发：存储引擎设计、事务处理与索引算法实现（一） JJJ69 学习C语言吧 c语言数据库开发语言
目录一、引言1.1C语言在系统级软件开发中的地位与优势二、C语言在存储引擎设计中的应用2.1存储引擎架构解析数据文件管理缓冲区管理日志系统2.2数据结构与文件操作2.3内存管理和缓存机制一、引言1.1C语言在系统级软件开发中的地位与优势C语言作为一门历史悠久且历久弥新的编程语言，凭借其独特的特性在系统级软件开发领域占据不可动摇的地位。其显著优势包括：贴近硬件：C语言的语法简洁、紧凑，编译后的代码与
18.redis基本操作 chxii go语言 #go 基础 redis 数据库缓存
Redis（RemoteDictionaryServer）是一个开源的、高性能的键值对（Key-Value）存储数据库，广泛应用于缓存、消息队列、实时分析等场景。它以其极高的读写速度、丰富的数据结构和灵活的应用方式而受到开发者的青睐。Redis的主要特点高性能：内存存储：Redis将所有数据存储在内存中，读写速度极快，适合对性能要求高的应用。持久化：支持将内存中的数据持久化到磁盘，防止数据丢失。丰
深入理解C语言(三)——位域 Bluetangos C语言 c语言开发语言驱动开发
驱动开发人员或者经常与协议规范打交道的工程师对位域肯定不陌生。当我们需要用C语言数据类型来表示软硬件平台指定的描述符结构，以及某些网络协议的包格式时；或者描述为了节省内存而自定义的紧凑数据结构时；为了可读性，编码的方便性，我们会使用使用位域（Bit-Field）。本文将探讨位域的基本概念，使用细节和一些注意项。位域——基本概念带有预定义宽度的变量被称为位域，形式如下：struct位域结构名{类型说
Python3的100多个Python挑战性编程练习题【收藏就对了】梦想python python 开发语言 pygame pycharm django
1.等级说明1级初学者初学者是指刚刚完成Python入门课程的人。他可以使用1或2个Python类或函数解决一些问题。通常，答案可以直接在教科书中找到。2级中级中级是指刚刚学习过Python，但已经具有相对较强的编程背景的人。他应该能够解决可能涉及3或3个Python类或函数的问题。答案不能直接在教科书中找到。3级高级。他应该使用Python通过更丰富的库函数，数据结构和算法来解决更复杂的问题。他
【Linux系统】僵尸进程和孤儿进程时差freebright #Linux进程管理 linux 运维服务器
一、僵尸进程1、何为僵尸进程？在Unix/Linux系统中，正常情况下，子进程是通过父进程创建的，且两者的运行是相互独立的，父进程永远无法预测子进程到底什么时候结束。当一个进程调用exit命令结束自己的生命时，其实它并没有真正的被销毁，操作系统内核只是释放了该进程的所有资源，包括打开的文件、占用的内存等(比如malloc占用内存不释放，也会在此时释放)，但是留下一个数据结构（只保留structta
c++进阶之----哈希（桶）卷卷的小趴菜学编程 C++c++开发语言 c语言散列表哈希算法哈希算法
本篇主要讲解哈希桶的实现，线性探测和开放寻址法在下一篇博客中讲解1.概念哈希（Hash）是一种将任意长度的输入数据映射到固定长度的输出数据的方法。哈希函数是哈希的核心，它负责将输入数据转换为哈希值。哈希值通常是一个整数，用于快速查找和比较数据。哈希函数：将输入数据转换为固定长度的输出数据（哈希值）的函数。哈希值：哈希函数的输出结果。哈希表：一种基于哈希的数据结构，用于快速查找、插入和删除数据。2.
数据结构(C语言版)-1.线性表 yangpipi- 数据结构C描述数据结构 c语言算法
特点存在唯一一个称为“第一个”的元素存在唯一一个称为“最后一个”的元素；除第一个元素外，序列中的每个元素只有一个直接前驱除最后一个元素外，序列中的每个元素只有一个直接后继数据元素的类型都是相同的顺序表操作SeqList.h#ifndef__SEQLIST_H__#define__SEQLIST_H__#defineMAXSIZE128typedefintdatatype;typedefstruct
算法之Java数据结构：链表实现栈与队列的深度剖析一杯年华@编程空间算法精讲数据结构算法 java
算法之Java数据结构：链表实现栈与队列的深度剖析在编程的学习旅程中，每一次对新知识点的钻研都是成长的宝贵契机。今天，咱们一同深入探索Java中利用链表实现栈和队列的相关知识，希望能和大家共同进步，让我们的编程技能更上一层楼！一、链表：数据结构的基石链表是一种灵活的数据结构，它由一系列的节点组成，每个节点包含一个数据元素和一个指向下一个节点的引用。这种结构就像是一条链子，每个节点都是链环，通过引用
数据结构（C\C++）——单链表OJ 飞鸟吟数据结构数据结构 c语言 c++
前言本文介绍几道典型算法题的思路移除链表元素、反转链表、链表的中间结点、合并两个有序链表、链表分割、链表的回文结构、相交链表以及两种环形链表单链表算法题前言移除链表元素反转链表链表的中间结点合并两个有序链表链表分割链表的回文结构相交链表环形链表I环形链表II更多链表算法刷题入口：移除链表元素移除链表元素思路：以空间换时间，将值不为val的结点拿下来尾插到newheadtypedefstructLi
HarmonyOS NEXT 中级开发笔记：ArkTS在数据资讯类应用的开发实践 harmonyos-next
最近使用ArkTS应用开发语言开发了一款金融资讯分析类APP，针对HarmonyOSNEXT平台特性做了深度适配。相较于传统开发方式，ArkTS在数据处理和展示方面展现出独特优势。数据模型构建ArkTS的静态类型系统为金融数据结构提供了严谨的类型保障：typescriptinterfaceFinancialData{stockCode:string;currentPrice:number;chan
‌【Python性能革命】：深入解析高性能编程与六大核心优化技术（附完整代码实战）一个天蝎座白勺程序猿 python 开发语言 numpy numba
目录‌一、背景与挑战：为什么Python需要性能优化？‌‌二、性能分析：定位瓶颈的四大工具‌‌1.cProfile：函数级耗时分析‌2.line_profiler：逐行代码分析‌3.memory_profiler：内存占用分析‌4.py-spy：实时性能监控‌三、六大核心优化技术详解‌‌1.算法与数据结构优化‌‌2.向量化计算：NumPy替代原生循环‌‌3.并发与并行：突破GIL限制‌‌4.JIT
2.15日总结泽553180 算法
今天主要看了数据结构，学习了堆排序，晚上看了esayx咋贴图，但是遇到了一点小问题堆排序：堆排序是一种基于堆数据结构的排序算法，它利用了堆的性质来高效地对数据进行排序。堆排序可以分为两种：最大堆排序和最小堆排序。通常我们讨论的是最大堆排序，即通过构建最大堆来实现升序排序。1.堆的定义堆是一种特殊的完全二叉树，满足以下性质：最大堆：每个节点的值都大于或等于其子节点的值。最小堆：每个节点的值都小于或等
利用DeepSeek备战蓝桥杯，冲刺20天晨宸莀蓝桥杯人工智能 c语言 c++
博主在大二的时候，“误打误撞”在第十五届蓝桥杯C/C++赛道B组中获得了省三的成绩，知道自己获奖后第一反应是惊讶，但也算是“欧亨利式”结局了——意料之外，情理之中。当时每周都会花一整天的时间专门学习蓝桥杯的相关知识，从STL开始学起，然后就是慢慢刷题锻炼自己的思考方式，从3月份开始每晚都刷。因为经常花大片段时间去琢磨，所以面临考场上的4小时攻坚战，这个还未学过数据结构与算法课程的大二小白，通过暴力
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

Lucene使用IKAnalyzer分词实例 及 IKAnalyzer扩展词库

你可能感兴趣的:(数据结构,Lucene)

Lucene使用IKAnalyzer分词实例及 IKAnalyzer扩展词库