qindongliang1922

Lucene4.3进阶开发之纯阳无极（十九）

原创不易，转载请务必注明，原创地址，谢谢配合!
http://qindongliang.iteye.com/blog/2164583

Lucene内置很多的分词器工具包，几乎涵盖了全球所有的国家和地区，最近散仙，在搞多语言分词的一个处理，主要国家有西班牙，葡萄牙，德语，法语，意大利，其实这些语系都与英语非常类似，都是以空格为分割的语种。

那么首先，探讨下分词器的词形还原和词干提取的对搜索的意义？在这之前，先看下两者的概念：
词形还原（lemmatization），是把一个任何形式的语言词汇还原为一般形式（能表达完整语义），而词干提取

（stemming）是抽取词的词干或词根形式（不一定能够表达完整语义）。词形还原和词干提取是词形规范化的两类
重要方式，都能够达到有效归并词形的目的，二者既有联系也有区别

详细介绍，请参考这篇文章

在电商搜索里，词干的抽取，和单复数的还原比较重要（这里主要针对名词来讲），因为这有关搜索的查准率，和查全率的命中，如果我们的分词器没有对这些词做过处理，会造成什么影响呢？那么请看如下的一个例子？

句子： i have two cats

分词器如果什么都没有做：

这时候我们搜cat，就会无命中结果，而必须搜cats才能命中到一条数据，而事实上cat和cats是同一个东西，只不过单词的形式不一样，这样以来，如果不做处理，我们的查全率和查全率都会下降，会涉及影响到我们的搜索体验，所以stemming这一步，在某些场合的分词中至关重要。

本篇，散仙，会参考源码分析一下，关于德语分词中中如何做的词干提取，先看下德语的分词声明：

	 List list=new ArrayList();
		list.add("player");//这里面的词，不会被做词干抽取，词形还原
		CharArraySet ar=new CharArraySet(Version.LUCENE_43,list , true);
		//分词器的第二个参数是禁用词参数，第三个参数是排除不做词形转换，或单复数的词
		GermanAnalyzer sa=new GermanAnalyzer(Version.LUCENE_43,null,ar);

接着，我们具体看下，在德语的分词器中，都经过了哪几部分的过滤处理：

  protected TokenStreamComponents createComponents(String fieldName,
      Reader reader) {
	  //标准分词器过滤
    final Tokenizer source = new StandardTokenizer(matchVersion, reader);
    TokenStream result = new StandardFilter(matchVersion, source);
	//转小写过滤
    result = new LowerCaseFilter(matchVersion, result);
	//禁用词过滤
    result = new StopFilter( matchVersion, result, stopwords);
	//排除词过滤
    result = new SetKeywordMarkerFilter(result, exclusionSet);
    if (matchVersion.onOrAfter(Version.LUCENE_36)) {
	//在lucene3.6以后的版本，采用如下filter过滤
	  //规格化，将德语中的特殊字符，映射成英语
      result = new GermanNormalizationFilter(result);
	  //stem词干抽取，词性还原
      result = new GermanLightStemFilter(result);
    } else if (matchVersion.onOrAfter(Version.LUCENE_31)) {
	//在lucene3.1至3.6的版本中，采用SnowballFilter处理
      result = new SnowballFilter(result, new German2Stemmer());
    } else {
	//在lucene3.1之前的采用兼容的GermanStemFilter处理
      result = new GermanStemFilter(result);
    }
    return new TokenStreamComponents(source, result);
  }

OK，我们从源码中得知，在Lucene4.x中对德语的分词也做了向前和向后兼容，现在我们主要关注在lucene4.x之后的版本如何的词形转换，下面分别看下
result = new GermanNormalizationFilter(result);
result = new GermanLightStemFilter(result);
这两个类的功能：

package org.apache.lucene.analysis.de;

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

import java.io.IOException;

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.util.StemmerUtil;

/**
 * Normalizes German characters according to the heuristics
 * of the 
 * German2 snowball algorithm.
 * It allows for the fact that ä, ö and ü are sometimes written as ae, oe and ue.
 * 
 * [list]
 *    'ß' is replaced by 'ss'
 *   
 'ä', 'ö', 'ü' are replaced by 'a', 'o', 'u', respectively.
 *   
 'ae' and 'oe' are replaced by 'a', and 'o', respectively.
 *   
 'ue' is replaced by 'u', when not following a vowel or q.
 * [/list]
 * 
 * This is useful if you want this normalization without using
 * the German2 stemmer, or perhaps no stemming at all.
 *上面的解释说得很清楚，主要是对德文的一些特殊字母，转换成对应的英文处理
 *
 */
 
public final class GermanNormalizationFilter extends TokenFilter {
  // FSM with 3 states:
  private static final int N = 0; /* ordinary state */
  private static final int V = 1; /* stops 'u' from entering umlaut state */
  private static final int U = 2; /* umlaut state, allows e-deletion */

  private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);
  
  public GermanNormalizationFilter(TokenStream input) {
    super(input);
  }

  @Override
  public boolean incrementToken() throws IOException {
    if (input.incrementToken()) {
      int state = N;
      char buffer[] = termAtt.buffer();
      int length = termAtt.length();
      for (int i = 0; i < length; i++) {
        final char c = buffer[i];
        switch(c) {
          case 'a':
          case 'o':
            state = U;
            break;
          case 'u':
            state = (state == N) ? U : V;
            break;
          case 'e':
            if (state == U)
              length = StemmerUtil.delete(buffer, i--, length);
            state = V;
            break;
          case 'i':
          case 'q':
          case 'y':
            state = V;
            break;
          case 'ä':
            buffer[i] = 'a';
            state = V;
            break;
          case 'ö':
            buffer[i] = 'o';
            state = V;
            break;
          case 'ü': 
            buffer[i] = 'u';
            state = V;
            break;
          case 'ß':
            buffer[i++] = 's';
            buffer = termAtt.resizeBuffer(1+length);
            if (i < length)
              System.arraycopy(buffer, i, buffer, i+1, (length-i));
            buffer[i] = 's';
            length++;
            state = N;
            break;
          default:
            state = N;
        }
      }
      termAtt.setLength(length);
      return true;
    } else {
      return false;
    }
  }
}

package org.apache.lucene.analysis.de;

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

import java.io.IOException;

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.miscellaneous.SetKeywordMarkerFilter;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.KeywordAttribute;

/**
 * A {@link TokenFilter} that applies {@link GermanLightStemmer} to stem German
 * words.
 * 
 * To prevent terms from being stemmed use an instance of
 * {@link SetKeywordMarkerFilter} or a custom {@link TokenFilter} that sets
 * the {@link KeywordAttribute} before this {@link TokenStream}.
 * 

 *
 *
 *这个类，主要做Stemmer（词干提取），而我们主要关注
 *GermanLightStemmer这个类的作用
 *
 *
 */
public final class GermanLightStemFilter extends TokenFilter {
  private final GermanLightStemmer stemmer = new GermanLightStemmer();
  private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);
  private final KeywordAttribute keywordAttr = addAttribute(KeywordAttribute.class);

  public GermanLightStemFilter(TokenStream input) {
    super(input);
  }
  
  @Override
  public boolean incrementToken() throws IOException {
    if (input.incrementToken()) {
      if (!keywordAttr.isKeyword()) {
        final int newlen = stemmer.stem(termAtt.buffer(), termAtt.length());
        termAtt.setLength(newlen);
      }
      return true;
    } else {
      return false;
    }
  }
}

下面看下，在GermanLightStemmer中，如何做的词干提取：源码如下：

 package org.apache.lucene.analysis.de;

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

/* 
 * This algorithm is updated based on code located at:
 * http://members.unine.ch/jacques.savoy/clef/
 * 
 * Full copyright for that code follows:
 */

/*
 * Copyright (c) 2005, Jacques Savoy
 * All rights reserved.
 *
 * Redistribution and use in source and binary forms, with or without 
 * modification, are permitted provided that the following conditions are met:
 *
 * Redistributions of source code must retain the above copyright notice, this 
 * list of conditions and the following disclaimer. Redistributions in binary 
 * form must reproduce the above copyright notice, this list of conditions and
 * the following disclaimer in the documentation and/or other materials 
 * provided with the distribution. Neither the name of the author nor the names 
 * of its contributors may be used to endorse or promote products derived from 
 * this software without specific prior written permission.
 * 
 * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" 
 * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE 
 * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE 
 * ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE 
 * LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR 
 * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF 
 * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS 
 * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN 
 * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) 
 * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
 * POSSIBILITY OF SUCH DAMAGE.
 */

/**
 * Light Stemmer for German.
 * 
 * This stemmer implements the "UniNE" algorithm in:
 * Light Stemming Approaches for the French, Portuguese, German and Hungarian Languages
 * Jacques Savoy
 */
public class GermanLightStemmer {
  
  //处理特殊字符映射
  public int stem(char s[], int len) {   
    for (int i = 0; i < len; i++)
      switch(s[i]) {
        case 'ä':
        case 'à':
        case 'á':
        case 'â': s[i] = 'a'; break;
        case 'ö':
        case 'ò':
        case 'ó':
        case 'ô': s[i] = 'o'; break;
        case 'ï':
        case 'ì':
        case 'í':
        case 'î': s[i] = 'i'; break;
        case 'ü': 
        case 'ù': 
        case 'ú':
        case 'û': s[i] = 'u'; break;
      }
    
    len = step1(s, len);
    return step2(s, len);
  }
  
  
  private boolean stEnding(char ch) {
    switch(ch) {
      case 'b':
      case 'd':
      case 'f':
      case 'g':
      case 'h':
      case 'k':
      case 'l':
      case 'm':
      case 'n':
      case 't': return true;
      default: return false;
    }
  }
  //处理基于以下规则的词干抽取和缩减
  private int step1(char s[], int len) {
    if (len > 5 && s[len-3] == 'e' && s[len-2] == 'r' && s[len-1] == 'n')
      return len - 3;
    
    if (len > 4 && s[len-2] == 'e')
      switch(s[len-1]) {
        case 'm':
        case 'n':
        case 'r':
        case 's': return len - 2;
      }
    
    if (len > 3 && s[len-1] == 'e')
      return len - 1;
    
    if (len > 3 && s[len-1] == 's' && stEnding(s[len-2]))
      return len - 1;
    
    return len;
  }
  //处理基于以下规则est，er，en等的词干抽取和缩减
  private int step2(char s[], int len) {
    if (len > 5 && s[len-3] == 'e' && s[len-2] == 's' && s[len-1] == 't')
      return len - 3;
    
    if (len > 4 && s[len-2] == 'e' && (s[len-1] == 'r' || s[len-1] == 'n'))
      return len - 2;
    
    if (len > 4 && s[len-2] == 's' && s[len-1] == 't' && stEnding(s[len-3]))
      return len - 2;
    
    return len;
  }
}

具体的分析结果如下：

搜索技术交流群：324714439
大数据hadoop交流群：376932160

0，将一些德语特殊字符，替换成对应的英文表示
1，将所有词干元音还原 a ，o，i，u
ste（2）（按先后顺序，符合以下任意一项，就完成一次校验（return））
2，单词长度大于5的词，以ern结尾的，直接去掉
3，单词长度大于4的词，以em，en，es，er结尾的，直接去掉
4，单词长度大于3的词，以e结尾的直接去掉
5，单词长度大于3的词，以bs，ds，fs，gs，hs，ks，ls，ms，ns，ts结尾的，直接去掉s
step（3）（按先后顺序，符合以下任意一项，就完成一次校验（return））
6，单词长度大于5的词，以est结尾的，直接去掉
7，单词长度大于4的词，以er或en结尾的直接去掉
8，单词长度大于4的词，bst，dst，fst，gst，hst，kst，lst，mst，nst，tst，直接去掉后两位字母st

最后，结合网上资料分析，基于er，en，e，s结尾的是做单复数转换的，其他的几条规则主要是对非名词的单词，做词干抽取。

原创不易，转载请务必注明，原创地址，谢谢配合!
http://qindongliang.iteye.com/blog/2164583

ELK介绍小馋喵知识杂货铺性能 elk
ELK是由三个开源项目组成的日志管理解决方案，分别是Elasticsearch、Logstash和Kibana。这三个工具协同工作，提供强大的日志收集、处理、存储和可视化能力。通常，ELK被用于大规模的日志分析和数据监控，帮助开发人员和运维团队快速发现问题、进行故障排查和性能优化。1.Elasticsearch（E）Elasticsearch是一个基于Lucene的开源搜索引擎，提供实时的分布式搜
WMS系统在跨境电商物流中的重要性 wms系统wms
一、多平台对接与订单同步优化在当今电商多元化的背景下，众多卖家纷纷选择在亚马逊、TK、eBay、Temu等多个主流平台上同时运营。然而，每个平台的订单格式各异，这无疑增加了订单管理的复杂性。为解决这一问题，WMS（仓库管理系统）应运而生，它能够无缝对接多个电商平台，批量抓取并整合各平台的订单信息，自动统一订单格式，实现集中管理。这一自动化处理流程不仅显著提升了订单处理的效率，还确保了订单信息的准确
分布式IO模块与S7-1200 PLC：打造高效分拣系统的新引擎明达技术分布式物联网
在现代化物流中心，快速、高效、准确的包裹分拣是衡量整个系统性能的关键指标。为了实现这一目标，国产IO模块与西门子S7-1200PLC的结合应用，正成为越来越多企业的首选方案。这一组合不仅优化了数据采集和处理流程，还显著提升了分拣效率，降低了运营成本。精准配合分布式IO模块是工业自动化系统中的关键组件，负责采集现场设备的各种信号，并将这些信号转换为数字信号传输给PLC。在分拣系统中，这些模块外接了各
HCIP-Datacom-ARST必选题库_设备【道题】小红红的学习笔记网络 HCIP-Datacom
单选1.交换机控制平面的功能不包括哪个?业务处理A路由运算系统加载流呈统计2.业务报文转发处理流程中，将报文送往交换网板之前，会进行以下哪一动作?获取封装信息切片查表转发PFE3.相比较于路由器、交接机,防火墙转发独有的模块为?交换网板MPUBLPUSPU4.下列关于交换设备转发平面说法不正确的是?实现报文的封装和解封装由主控板以及接口板组成B提供高速无阻塞的数据通道可以实现报文的统计5.数据中心
Kestra实战指南:构建高效可靠的数据工作流 ivwdcwso 运维开发 Kestra 工作流运维开发
在当今数据驱动的世界中,高效管理和执行复杂的数据工作流变得越来越重要。Kestra作为一款开源的分布式工作流和任务管理系统,为我们提供了一个强大的解决方案。本文将深入探讨Kestra的安装、配置和使用,帮助您充分利用这个强大的平台来优化您的数据处理流程。©ivwdcwso(ID:u012172506)什么是Kestra?Kestra是一个基于JVM构建的开源分布式工作流和任务管理系统。它支持对任务
你有一份待查收的TextIn文档解析内测邀请函！内测分发人工智能解析文本
近期，为便捷智能文档处理流程，TextIn文档解析推出内测版本，支持内置参数，完成去水印与切边矫正处理，有效提升解析准确率与输出结果质量。如何获得内测资格：内测功能以白名单邀请制的形式进行小范围测试，如有需要，请在后台联系我们进行开通。内测功能详情见下：1内置参数，去除图片和PDF水印实操场景下，部分带有明显水印的文件，会在解析过程中由于水印干扰产生错漏字现象。TextInParseX将去水印功能
Kafka消息轨迹方案设计与实现小马不敲代码大数据 kafka
在处理过的几个千万级TPS的Kafka集群中，消息追踪始终是一个既重要又棘手的问题。一条消息从Producer发出后，经过复杂的处理流程，最终被Consumer消费，中间可能会经历重试、重平衡、多副本复制等多个环节。如果没有完善的追踪机制，一旦出现问题将很难定位。本文将详细介绍Kafka消息轨迹的实现方案。1、Kafka消息处理模型在设计追踪方案前，我们需要先理解Kafka的消息处理模型。一条消息
火山引擎数据飞轮2.0：聚焦Data+AI，驱动企业数智化转型大数据
数字化浪潮席卷全球，数据与人工智能的融合正给各行各业带来巨大变革，不仅重塑数据处理流程，更在决策支持、业务优化、产品创新等多个维度上展现巨大的潜力。近期，火山引擎数智平台技术和产品专家受邀出席DataFun首届“数据与人工智能解决方案大会”，围绕数据飞轮2.0模式，及Data+AI领域热门话题ChatBI、多模态数据湖展开分享。据介绍，2023年4月火山引擎发布了数据飞轮，其内核为“以数据消费促资
ELK Stack学习笔记在线打码学习笔记 redis linux centos es elk
一、ELKStack简介1、Elasticsearch一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。它是一个建立在全文搜索引擎ApacheLucene(信息检索的工具jar包)基础上的搜索引擎，使用Java语言编写2、Logstash一个完全开源的工具，可以对日志进行收集、过滤，并将其存储供以后使用。是开源的服务器端数据处理管道，能够从多个来源收集数据、转换数据。并保存到
【Elasticsearch 实战应用】 wenshao.du elasticsearch
Elasticsearch实战应用在现代企业技术架构中，Elasticsearch因其出色的性能、可扩展性和易用性，成为了处理大规模数据和构建搜索引擎的首选工具。本文将通过一个实际案例，详细讲解如何在SpringBoot项目中集成Elasticsearch，进行数据索引、搜索、聚合分析等操作。1.Elasticsearch简介Elasticsearch是一个基于ApacheLucene构建的开源分
多功能水印添加工具風落软件需求软件工程
水印管家是一款功能强大的水印添加软件，支持图片和视频水印的添加。为作品添加个性化标识，水印管家都能满足您的需求。功能特点1.多语言支持水印管家支持多种语言，包括中文简体、英语、德语、法语、意大利语、日语等，满足不同用户的语言需求。2.图片加水印轻松为您的图片添加水印，支持多种水印样式和位置选择，保护您的图片版权。3.视频加水印不仅支持图片水印，还能为视频添加水印，确保您的视频内容得到保护。4.视频
使用 Java 和 FreeMarker 实现自动生成供货清单，动态生成 Word 文档，简化文档处理流程。熊文豪 java apache freemarker
在上一篇博客中主要是使用SpringBoot+ApachePOI实现了BOM物料清单Excel表格导出，详见以下博客：SpringBoot+ApachePOI实现Exc（）el导出：BOM物料清单生成器（支持中文文件名、样式美化、数据合并）目录引言项目结构源代码展示1.WordController2.WordUtil工具类3.FreeMarker模版4.POM依赖WordController类深度
windows环境变量不生效的一个处理方案给自己做加法个人 windows
文章目录场景处理流程解决场景家里的台式电脑是自己组装的，所以系统也是从网上拷贝的镜像，今天在执行python项目的时候，发现python命令是无效的。处理流程1，修改环境变量Path值修改Path值后系统多次重启，结果依旧不生效2，检查是否被其他的环境变量影响了发现了一个环境变量c盘用小写的，其他都是大写，修正重启，结果依旧不生效3，在python安装目录下检查命令cmd窗口切换到python部署
基于docker微服务日志ELK+Kafka搭建我是奶龙！我是奶龙！我是奶龙！ docker 微服务 elk spring cloud spring boot kafka
ELK是Elasticsearch、Logstash、Kibana的简称Elasticsearch是实时全文搜索和分析引擎，提供搜集、分析、存储数据三大功能；是一套开放REST和JAVAAPI等结构提供高效搜索功能，可扩展的分布式系统。它构建于ApacheLucene搜索引擎库之上。Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志，包括系统日志、错误日志和自定义应用程
ElasticSearch10-性能优化李宥小哥常用中间件性能优化 jenkins 运维
零、文章目录ElasticSearch10-性能优化1、硬件优化（1）存储配置ElasticSearch是基于Lucene的，Lucene将数据存储在磁盘上，磁盘的IO就是ElasticSearch的瓶颈所在。Elasticsearch默认的数据存储路径是在Elasticsearch安装目录下的data子目录中。不过，这个路径是可以配置的，具体的默认路径可能因操作系统和安装方式的不同而有所差异。对
整合全文检索引擎 Lucene 添加站内搜索子模块七禾页话全文检索 lucene mybatis
整合全文检索引擎Lucene:添加站内搜索子模块1.什么是Lucene?有啥优势？Lucene是一个开源的全文检索引擎库，由Apache基金会维护，官网地址：https://lucene.apache.org/。它提供了丰富的文本处理和搜索功能，允许开发者在应用程序中集成强大的全文检索能力。以下是Lucene的一些主要特点和优势：全文检索：Lucene支持全文检索，可以在大量文本数据中快速而准确地
数据仓库的复用性：流程层面 PersistDZ 大数据与AI 数据仓库
在数据仓库建设中，流程层面的复用性是提高开发效率和数据质量的关键。通过标准化ETL流程、模块化设计，以及实时与离线共用的架构，可以最大化数据处理流程的复用性，降低复杂度。以下是详细的介绍和落地方案。1.标准化ETL流程1.1标准化ETL的意义提高流程一致性，减少人为失误。降低维护成本，方便团队协作。支持多项目间共享和复用。1.2标准化ETL设计方法1.2.1标准化流程定义将ETL过程拆分为抽取（E
Rabbitmq源码分析，重复消费问题的redis或数据库代码实现 xweiran rabbitmq 分布式 java 架构 jvm 数据结构后端
目录底层源码解析自定义唯一id算法MessageProperties类的相关实现自定义消息ID生成器配置和使用Rabbitmq是怎么判断是不是重复消息的呢？通过Redis的幂等性处理消息消费者实现分布式锁实现的重复检测完整的消息处理流程基于数据库实现Mapper接口消息处理服务RabbitMQ消息消费者底层源码解析RabbitMQ判断重复消息主要通过消息的唯一标识（MessageId）和幂等性处理
智能数据时代：如何优化数仓模型的复用性 Python编程杰哥 llama 人工智能 easyui 前端设计模式
在数仓岗位面试中，相信很多同学都频繁被问到“模型复用性”相关面试题。这个也是很多企业数仓建设中非常关注的问题，因为在企业数仓建设中数仓模型的复用性，更是有着多方面的关键意义。数仓模型复用性的价值1.1提高开发效率在互联网金融信贷数仓建设中，面临着快速变化的业务需求和海量的数据处理任务。如果数仓模型的复用性低，每次新的业务需求出现时，开发人员都需要从头开始构建数据处理流程和模型，这将耗费大量的时间和
es查询大文本效率_Elasticsearch 技术分析（七）： Elasticsearch 的性能优化 weixin_39672296 es查询大文本效率
javajava8java开发Elasticsearch技术分析(七)：Elasticsearch的性能优化硬件选择Elasticsearch(后文简称ES)的基础是Lucene，所有的索引和文档数据是存储在本地的磁盘中，具体的路径可在ES的配置文件../config/elasticsearch.yml中配置，如下：#-----------------------------------Paths
zk 节点宕机如何处理？思维导图代码示例（java 架构) 用心去追梦 java 架构 python
当ZooKeeper(ZK)节点宕机时，集群需要能够快速响应并恢复服务以确保高可用性。以下是ZK节点宕机处理的一般流程、思维导图结构描述以及一个简单的Java架构代码示例，用于展示如何检测和处理节点失效。ZooKeeper节点宕机处理流程故障检测：使用心跳机制或会话超时来检测节点是否失去响应。当节点未能在指定时间内发送心跳或者客户端连接断开时，认为该节点可能已经宕机。Leader选举：如果宕机的是
HDFS 在上传文件的时候，如果其中一个 DataNode 突然挂掉了怎么办？思维导图代码示例（java 架构) 用心去追梦 hdfs java 架构
当在HDFS中上传文件时，如果其中一个DataNode突然挂掉，HDFS有内置的机制来确保数据的完整性和可靠性。以下是详细的处理流程、Java架构代码示例以及创建思维导图的建议。HDFS上传文件时遇到DataNode故障的处理1.检测DataNode故障心跳机制：每个DataNode定期向NameNode发送心跳信号。如果NameNode在一段时间内没有收到某个DataNode的心跳，它会将该节点
深度学习图像算法中的网络架构：Backbone、Neck 和 Head 详解肥猪猪爸 #深度学习深度学习算法人工智能数据结构神经网络计算机视觉机器学习
深度学习已经成为图像识别领域的核心技术，特别是在目标检测、图像分割等任务中，深度神经网络的应用取得了显著进展。在这些任务的网络架构中，通常可以分为三个主要部分：Backbone、Neck和Head。这些部分在整个网络中扮演着至关重要的角色，它们各自处理不同的任务，从特征提取到最终的预测输出，形成了一个完整的图像处理流程。本文将详细介绍这三部分的作用以及它们在目标检测和图像分割中的应用，帮助大家更好
如何让 localStorage 数据实现实时响应
重大事项：重大事项提前通知！快来围观，不容错过！极限科技一直致力于为开发者和企业提供优质的开源工具，提升整个技术生态的活力。除了维护国内最流行的分词器analysis-ik和analysis-pinyin，也在不断推动更多高质量开源产品的诞生。在极限科技成立三周年之际，公司宣布以下产品和工具已全面开源：INFINIFrameworkINFINIGatewayINFINIConsoleINFINIA
Elasticsearch搭建框架以及测试小郭爱编程
elasticsearch学习介绍Elasticsearch简介Elasticsearch是一个建立在全文搜索引擎ApacheLucene™基础上的搜索引擎，可以说Lucene是当今最先进，最高效的全功能开源搜索引擎框架。用通俗的话理解就是：将不同服务器需要的数据，弄成一个文档，放到es中去，当我们去搜索的时候，就是去搜索文档。es是一个非关系型数据库，和redis一样，redis是一个键值对的数
ATF：givc3的中断初始化配置流程 TrustZone_ #ARM中断 ATF arm开发 GIC ATF
前言前段时间不是在整gicv2吗？这个确实太老了。资料很少，但是gicv3的蛮多的，这里找到了一篇关于gicv3的中断的blog，我们一起来学习一下，相信通过前辈的文章一定有所收获，核心内存的内容链接我放在了文末。ATF在bl31中提供了GICv3驱动加载、bl31的中断处理、异常等级切换时中断路由信息配置以及GICv3相关的电源管理功能，由于电源管理功能与中断处理流程关联不大，在本文中不做详细分
【原创】大数据治理入门（6）《数据标准与元数据管理：构建大数据治理的基石》入门必看高赞实用精通代码大仙数据库 hadoop python 大数据数据库 python 数据挖掘
数据标准与元数据管理引言：数据标准的重要性在大数据治理中，数据标准的制定和元数据管理是确保数据质量、一致性和可追溯性的关键环节。数据标准可以规范数据的采集、存储和处理流程，而元数据管理则可以帮助企业更好地理解和管理其数据资源。本文将详细探讨数据标准的重要性、元数据的概念及其管理方法，并分享企业实践案例。元数据的概念：什么是元数据定义：元数据（Metadata）是指描述数据的数据，它提供了关于数据的
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
周末充实的一天敬亭山123
今天从上午10：45到下午5：30左右，一共学习了六个多小时的德语，另外还处理了30分钟左右的工作！值得一提的是，学习效率很高效！给自己鼓掌！PS:今天是在附近的如家蹭的暖气，蹭到下午三点多的时候实在不好意思了，就到隔壁水果店买了40块钱左右的水果送酒店前台。下午6点多，酒店前台忍着寒风，把门开了半个小时，委婉的催我离开了酒店了。如家酒店高效学习一天的心情就如下图——岁月流转中上海的冬天一样美丽多
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

Lucene4.3进阶开发之纯阳无极（十九）

你可能感兴趣的:(lucene,德语分词器处理流程,分词器)