u012804784

ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

Python微信订餐小程序课程视频

https://edu.csdn.net/course/detail/36074

Python实战量化交易理财系统

https://edu.csdn.net/course/detail/35475

1、中文分词器

1.1 默认分词器

先来看看ElasticSearch中默认的standard 分词器，对英文比较友好，但是对于中文来说就是按照字符拆分，不是那么友好。

GET /_analyze
{
  "analyzer": "standard",
  "text": "中华人民共和国"
}

我们想要的效果是什么：“中华人民共和国”作为一整个词语。

得到的结果是：

{
  "tokens" : [
    {
      "token" : "中",
      "start\_offset" : 0,
      "end\_offset" : 1,
      "type" : "",
      "position" : 0
    },
    {
      "token" : "华",
      "start\_offset" : 1,
      "end\_offset" : 2,
      "type" : "",
      "position" : 1
    },
    {
      "token" : "人",
      "start\_offset" : 2,
      "end\_offset" : 3,
      "type" : "",
      "position" : 2
    },
    {
      "token" : "民",
      "start\_offset" : 3,
      "end\_offset" : 4,
      "type" : "",
      "position" : 3
    },
    {
      "token" : "共",
      "start\_offset" : 4,
      "end\_offset" : 5,
      "type" : "",
      "position" : 4
    },
    {
      "token" : "和",
      "start\_offset" : 5,
      "end\_offset" : 6,
      "type" : "",
      "position" : 5
    },
    {
      "token" : "国",
      "start\_offset" : 6,
      "end\_offset" : 7,
      "type" : "",
      "position" : 6
    }
  ]
}

得到的结果不如人意，IK分词器就是目前最流行的es中文分词器

1.2 安装ik分词器

安装我就不详细说了，教程很多。

1.3 ik分词器基础知识

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国，中华人民，中华，华人，人民共和国，人民大会堂，人民大会，大会堂”，会穷尽各种可能的组合；

GET /_analyze
{
  "analyzer": "ik\_max\_word",
  "text": "中华人民共和国人民大会堂"
}

{
  "tokens" : [
    {
      "token" : "中华人民共和国",
      "start\_offset" : 0,
      "end\_offset" : 7,
      "type" : "CN\_WORD",
      "position" : 0
    },
    {
      "token" : "中华人民",
      "start\_offset" : 0,
      "end\_offset" : 4,
      "type" : "CN\_WORD",
      "position" : 1
    },
    {
      "token" : "中华",
      "start\_offset" : 0,
      "end\_offset" : 2,
      "type" : "CN\_WORD",
      "position" : 2
    },
    {
      "token" : "华人",
      "start\_offset" : 1,
      "end\_offset" : 3,
      "type" : "CN\_WORD",
      "position" : 3
    },
    {
      "token" : "人民共和国",
      "start\_offset" : 2,
      "end\_offset" : 7,
      "type" : "CN\_WORD",
      "position" : 4
    },
    {
      "token" : "人民",
      "start\_offset" : 2,
      "end\_offset" : 4,
      "type" : "CN\_WORD",
      "position" : 5
    },
    {
      "token" : "共和国",
      "start\_offset" : 4,
      "end\_offset" : 7,
      "type" : "CN\_WORD",
      "position" : 6
    },
    {
      "token" : "共和",
      "start\_offset" : 4,
      "end\_offset" : 6,
      "type" : "CN\_WORD",
      "position" : 7
    },
    {
      "token" : "国人",
      "start\_offset" : 6,
      "end\_offset" : 8,
      "type" : "CN\_WORD",
      "position" : 8
    },
    {
      "token" : "人民大会堂",
      "start\_offset" : 7,
      "end\_offset" : 12,
      "type" : "CN\_WORD",
      "position" : 9
    },
    {
      "token" : "人民大会",
      "start\_offset" : 7,
      "end\_offset" : 11,
      "type" : "CN\_WORD",
      "position" : 10
    },
    {
      "token" : "人民",
      "start\_offset" : 7,
      "end\_offset" : 9,
      "type" : "CN\_WORD",
      "position" : 11
    },
    {
      "token" : "大会堂",
      "start\_offset" : 9,
      "end\_offset" : 12,
      "type" : "CN\_WORD",
      "position" : 12
    },
    {
      "token" : "大会",
      "start\_offset" : 9,
      "end\_offset" : 11,
      "type" : "CN\_WORD",
      "position" : 13
    },
    {
      "token" : "会堂",
      "start\_offset" : 10,
      "end\_offset" : 12,
      "type" : "CN\_WORD",
      "position" : 14
    }
  ]
}

ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国，人民大会堂”。

GET /_analyze
{
  "analyzer": "ik\_smart",
  "text": "中华人民共和国人民大会堂"
}

{
  "tokens" : [
    {
      "token" : "中华人民共和国",
      "start\_offset" : 0,
      "end\_offset" : 7,
      "type" : "CN\_WORD",
      "position" : 0
    },
    {
      "token" : "人民大会堂",
      "start\_offset" : 7,
      "end\_offset" : 12,
      "type" : "CN\_WORD",
      "position" : 1
    }
  ]
}

1.4 ik分词器的使用

存储时，使用ik_max_word，搜索时，使用ik_smart，原因也很容易想到：存储时，尽量存储多的可能性，搜索时做粗粒度的拆分

例如，创建以下映射

PUT /my_index 
{
  "mappings": {
      "properties": {
        "text": {
          "type": "text",
          "analyzer": "ik\_max\_word",
          "search\_analyzer": "ik\_smart"
        }
      }
  }
}

2、ik配置文件

ik配置文件地址：插件的config目录下

部分文件内容如下：

IKAnalyzer.cfg.xml：用来配置自定义词库
main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起，都会按照这个里面的词语去分词，ik原生最重要的两个配置文件之一
preposition.dic: 介词
quantifier.dic：放了一些单位相关的词，量词
suffix.dic：放了一些后缀
surname.dic：中国的姓氏
stopword.dic：包含了英文的停用词，a the and at but等。会在分词的时候，直接被干掉，不会建立在倒排索引中。ik原生最重要的两个配置文件之一

3、自定义词库

3.1 自定义分词词库

每年都会涌现一些特殊的流行词，内卷，耗子尾汁，不讲武德等，这些词一般不会出现在ik的原生词典里，分词的时候也不会把这些词汇当作整个词汇来进行分词。所以需要我们自己补充自己的最新的词语，到ik的词库里面。

就拿耗子尾汁来说，不做自定义分词的效果如下。

在实际的搜索过程中，肯定不希望把它分词，而是希望把它作为一个整体的词汇。

（1）首先在IK插件的config目录下，有一个IKAnalyzer.cfg.xml文件。

（2）使用Notepad++打开该文件

xml version=
"http://java.sun.com/dtd/properties.dtd">

 IK Analyzer 扩展配置
 
 "ext\_dict">
 
 "ext\_stopwords">

（3）可以看到上面的提示

（4）于是我们创建一个名为mydict.dic的文件，内容如下

（5）注意如果多个词语，就着下一行接着录入，然后把这个文件放在与配置文件的相同目录下。

（6）然后再把文件名mydict.dic添加在IKAnalyzer.cfg.xml文件中，然后保存

（7）然后重启es，查看效果

（9）可以看到，耗子尾汁这个词已经能够作为一个整体的词语来做分词了。

3.2 自定义停用词库

比如了，的，啥，么，我们可能并不想去建立索引，让人家搜索。

做法与上面自定义词库类似，这里只是简单的说一下，比方说建立一个mystop.dic文件，把不想建立的索引的词写进文件，把文件与配置文件放在同一个目录，然后在把文件名写进配置文件对应的位置，如下所示

然后在重启es，就可以查看效果了。

这样做的一个好处就是，已经有了常用的中文停用词，但是可以补充自己的停用词。

4、热更新词库

4.1 热更新

每次都是在es的扩展词典中，手动添加新词语，很坑

（1）每次添加完，都要重启es才能生效，非常麻烦

（2）es是分布式的，可能有数百个节点，你不能每次都一个一个节点上面去修改

所以引出热更新的解决方案。es不停机，直接我们在外部某个地方添加新的词语，es中立即热加载到这些新词语

热更新的方案

（1）基于ik分词器原生支持的热更新方案，部署一个web服务器，提供一个http接口，通过modified和tag两个http响应头，来提供词语的热更新，这种方式在官网也提到过。https://github.com/medcl/elasticsearch-analysis-ik

修改了插件配置之后需要重启，如果之后对远程的词库.txt文件修改就不需要再重启ES了，该插件支持热更新分词。

（2）修改ik分词器源码，然后手动支持从数据库中每隔一定时间，自动加载新的词库

一般来说采用第二种方案，第一种，ik git社区官方都不建议采用，觉得不太稳定

4.2 步骤

1、下载源码，https://github.com/medcl/elasticsearch-analysis-ik/releases

ik分词器，是个标准的java maven工程，直接导入idea就可以看到源码

2、修改源

org.wltea.analyzer.dic.Dictionary类，160行Dictionary单例类的初始化方法，在这里需要创建一个我们自定义的线程，并且启动它

org.wltea.analyzer.dic.HotDictReloadThread类：就是死循环，不断调用Dictionary.getSingleton().reLoadMainDict()，去重新加载词典

Dictionary类，399行：this.loadMySQLExtDict(); 加载mysql字典。

Dictionary类，609行：this.loadMySQLStopwordDict();加载mysql停用词

config下jdbc-reload.properties。mysql配置文件

3、mvn package打包代码

target\releases\elasticsearch-analysis-ik-7.3.0.zip

4、解压缩ik压缩包

将mysql驱动jar，放入ik的目录下

5、修改jdbc相关配置

6、重启es

观察日志，日志中就会显示我们打印的那些东西，比如加载了什么配置，加载了什么词语，什么停用词

7、在mysql中添加词库与停用词

8、分词实验，验证热更新生效

这里只是大概的一个步骤，具体情况按照自己的业务逻辑进行开发。

如果您觉得阅读本文对您有帮助，请点一下“**推荐**”按钮，您的**“推荐”**将是我最大的写作动力！欢迎各位转载，但是未经作者本人同意，转载文章之后**必须在文章页面明显位置给出作者和原文连接**，否则保留追究法律责任的权利。

你可能感兴趣的:(android,计算机)

用c++语言编写的小程序,利用C++编写一些有趣的小程序瑞士鲁迅用c++语言编写的小程序
虽然说中学没有参加过信息学竞赛，但相对来说，我接触编程算是比较早的。和我同龄的人，若小学参加过计算机竞赛，大概还对PC-logo有点印象，这算是我对编程的最初体验，这里就不叙述。到了初中，便按着规定学习了一点Pascal，在家里也自己写过一点极其简单的程序。高中会考也需要学习VisualBasic，但学的十分浅显，并无什么收获。C语言是大学的必修课，于是在军训期间，我就买来《C++Primer》自
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
**[特殊字符] 计算机领域创作挑战赛，邀你共绘文字海洋！** 爱编程的Loren 活动文章活动文章
亲爱的大学博主们：大家好！你是否热爱写作，渴望在文字的海洋中遨游，展示自己的创作才华？你是否对计算机领域充满热情，希望将你的知识和见解分享给更多人？如果你对这两点都给出了肯定的答案，那么这个创作活动就是为你量身定制的！ **创作挑战赛火热开启** 我们诚挚地邀请你参加为期14天的创作挑战赛！这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
360 最新Android面试题及参考答案大模型大数据攻城狮 android 安卓面经安卓面试 dex结构 hook技术 Binder aosp
一个activity只能有一个进程么【对进程的理解】在Android中，一个Activity并不只能有一个进程。进程是操作系统进行资源分配和调度的一个独立单位。从原理上来说，Android系统允许开发者通过在AndroidManifest.xml文件中的标签设置android:process属性，来指定Activity运行在不同的进程中。例如，如果有一个对性能要求很高的多媒体播放Activity，
下载安装新版Android studio4.1.3无法启动的问题 kaolagirl Android studio 前端
我原来的AndroidStudio是2.3.3版本的，想更新成最新版，然后就把之前的卸载了，安装一路顺畅，没什么问题，就在我启动的时候进度条到80%就不动了，真的搞了一整天，然后突然看到【yijiaodingqiankun】博主的文章，让我解决了，真的太感谢了！启动不起来的原因是因为，新版的AndroidStudio更换了某些配置的文件夹，和之前的有冲突，还有就是之前的配置文件和新版有冲突，也可能
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
数据库原理实验报告：Powerdesigner建模E-R模型并转换表不吃~香菜各类实验报告汇总需要私数据库实验报告 Powerdesigner E-R模型建模
注：此实验并不完整，仅供参考，如需完整版请私我留言一、实验目的：二、实验工具：三、实验要求：四、实验过程：图文并茂，每一步都包含详细图片，总共11页word！往期回顾：计算机接口实验报告：8254定时/计数器应用实验-CSDN博客计算机接口实验报告：D/A转换实验-CSDN博客计算机接口实验报告：LED显示实验-CSDN博客数据库原理实验报告：Powerdesigner建模E-R模型并转换表一、实
计算机接口实验报告：D/A转换实验不吃~香菜各类实验报告汇总需要私计算机接口实验报告 D/A转换实验
注：此实验并不完整，仅供参考，如需完整版请私我留言完整版包含：1、实验原理2、实验内容3、实验代码4、实验截图5、实验心得图文并茂，包含内部引脚图、线路图等，非常详细！总共10+页word！往期回顾：计算机接口实验报告：8255并行接口实验-CSDN博客计算机接口实验报告：8254定时/计数器应用实验-CSDN博客计算机接口实验报告：D/A转换实验一、实验内容编写D/A转换程序，要求产生锯齿波、脉
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
C#入门学习记录（五）轻松掌握条件分支与循环语句 FAREWELL00075 c#学习前端
前言编程就像给计算机写一份"烹饪指南"，而条件分支和循环就是这份指南中的关键指令。想象你要教机器人做蛋糕：条件分支："如果没有鸡蛋了，就去超市买"（做决定）循环："重复搅拌面糊100次"（重复动作）本文会用简单易懂的语言和比喻，带你掌握C#中这两个核心概念。新手友好，放心食用！一、条件分支：让程序学会"做选择"1.if-else语句（基础版选择器）if(今天下雨){Console.WriteLin
Java单例设计模式（懒汉式和饿汉式）俺是凡人很好 java 设计模式开发语言
一、什么是单例设计模式概念：java中单例模式是一种常见的设计模式，单例模式的写法有好几种，这里主要介绍俩种：懒汉式单例、饿汉式单例。单例模式有以下特点：1、单例类只能有一个实例。2、单例类必须自己创建自己的唯一实例。3、单例类必须给所有其他对象提供这一实例。单例模式确保某个类只有一个实例，而且自行实例化并向整个系统提供这个实例。在计算机系统中，线程池、缓存、日志对象、对话框、打印机、显卡的驱动程
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
sql2019安装重启计算机失败,SQL SERVER 2019安装失败小蛋子儿哦
Detailedresults:Feature:全文和语义提取搜索Status:失败Reasonforfailure:该功能的某个依赖项出错，导致该功能的安装过程失败。NextStep:使用以下信息解决错误，卸载此功能，然后再次运行安装过程。Componentname:SQLServer数据库引擎服务实例功能Componenterrorcode:0x80004005Errordescription
matlab两矩阵相似性,两个矩阵同时相似对角化MATLAB程序.docx weixin_39870664 matlab两矩阵相似性
两个矩阵同时相似对角化MATLAB程序摘要：使用Matlab语言设计出实现两个复矩阵同时相似对角化的计算机程序。关键词：同时相似对角化；Matlab；程序矩阵对角化是重要的数学方法，但因其计算过程繁琐，人们往往望之生畏，尤其是多个矩阵同时对角化问题，因此本文设计出判断及计算两个复矩阵能否同时相似对角化的Matlab程序，用此能够方便地解决两个复矩阵同时相似对角化问题。1.理论基础定义［1］：设A、
Android Compose 框架基本状态管理（mutableStateOf、State 接口）深入剖析(十四) &有梦想的咸鱼& android
AndroidCompose框架基本状态管理（mutableStateOf、State接口）深入剖析一、引言在Android开发的历史长河中，UI开发模式经历了从传统的XML布局到动态视图操作，再到如今声明式UI框架的转变。AndroidCompose作为Google推出的新一代声明式UI工具包，为开发者带来了全新的UI开发体验。其中，状态管理是Compose框架的核心概念之一，它决定了UI如何根
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
Ubuntu新服务器安装流程整理 Sion木子 Linux 服务器 ubuntu linux 1024程序员节
Ubuntu新服务器安装流程整理1、修改计算机名2、设置时区与时间3、修改DNS4、更新软件包列表，升级软件包5、清理不再需要的软件包6、清理缓存7、更换内核8、设置SSH空闲超时时间9、设置SSH密码最小间隔天数10、配置GRUB引导加载程序文件权限11、处理具有SUID和SGID权限的文件以防止潜在的权限提升风险12、限制核心转储（coredumps）、禁Ping、开启TCP-SYNcooki
网络安全威胁与防护措施（下）冬冬小圆帽 web安全网络 php
8.恶意软件（Malware）**恶意软件（Malware，MaliciousSoftware）**是指旨在通过破坏、破坏或未经授权访问计算机系统、网络或设备的程序或代码。恶意软件通常用于窃取敏感信息、破坏系统、窃取资源、干扰正常操作，或者获取非法控制。恶意软件种类繁多，攻击手段不断发展，可能对个人用户、企业和政府构成严重威胁。恶意软件的主要类型：病毒（Virus）：定义：病毒是能够自我复制并将自
Nginx核心知识100讲 janthinasnail linux
详见：作者网站：http://www.taohui.pub/视频原网站：https://time.geekbang.org/course/intro/138?device=geekTime.android视频地址：https://www.bilibili.com/video/BV1w7411v74u文档地址：https://github.com/russelltao/geektime-nginx
自然语言处理（5）—— 中文分词隐私无忧人工智能 #自然语言处理自然语言处理中文分词人工智能
中文分词的基本原理及实现1.什么是词2.基本原理3.发展趋势：多数场景无需显式分词信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。汉语词汇是语言中能够独立运用的最小的语言单位，是语言中的原子结构。由于中文缺乏类似英文的空格分隔，分词的准确性直接影响后续任务（如机器翻译、情感分析）的效果。因此，对中文进行分词就显得至关重要。中文分词（Chine
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
静态html 500错误,HTTP-500错误金门走狗静态html 500错误
http500内部服务器(HTTP-InternalServerError)错误说明IIS服务器无法解析ASP代码，访问一个静态页面试试是否也出现这个问题，如果访问静态页面没问题，那就要分以下几种情况来分析了：①你是否改变过计算机名称。②站点所在的文件目录是否自定义了安全属性。③安装了域控制器后是否调整了域策略。如果是其中的一种情况，请一一将改变的参数设置回来看是否解决问题。如果静态空间也无法访问
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
装Win11系统盘怎么分区？Win11分区教程 m0_70960708 笔记电脑
现在已经有越来越多的人安装Win11系统，但是进入系统后发现系统盘空间很大，想要进行分区，把一些空间分成新的磁盘，那么装Win11系统盘怎么分区？C盘其实只要够用就行，系统之家今天给大家讲讲Win11怎么给硬盘分区的教程。Win11分区教程1、桌面右键点击此电脑，在打开的菜单项中，选择【管理】。2、计算机管理窗口，点击左侧存储下的【磁盘管理】。
Ubuntu解决开机黑屏五花肉村长 Linux ubuntu linux 运维编辑器前端服务器
Ubuntu系统开机后出现黑屏问题时，可以使用以下方法：1.检查硬件连接：首先，确保所有硬件设备（如显示器、键盘和鼠标）都正确连接并且正常工作.尝试重新插拔它们，确保它们连接牢固且没有松动。2.强制重新启动：系统可能遇到问题导致无法正确启动。按下电源按钮，将计算机完全关机，然后再次启动。3.检查显示器连接：确保显示器正确连接到计算机，并且显示器输入源正确设置。4.进入恢复模式：在启动过程中按下Sh
Python语言程序设计 1 摸你就像摸自己 python
目录1Python基本语法元素￲1.1程序设计基本方法1.1.1计算机与程序设计1.1.2编译与解释1.1.3程序的基本编写方法—IPO1.1.4计算机编程1.2Python开发环境配置1.2.1Python语言概述1.2.2Python程序的编写与运行例1：计算圆面积例2：绘制同切圆例3：绘制五角星1.3实例一：温度转换1.3.1问题分析：实例编写：1.4Python程序语法元素分析1.4.1格
【从零开始学习计算机科学】软件测试（三）回归测试、系统测试与验收测试贫苦游商学习软件测试回归测试系统测试验收测试测试工具 ab测试
【从零开始学习计算机科学】软件测试（三）回归测试、系统测试与验收测试回归测试回归测试的组织和实施回归测试集回归测试的范围自动回归测试框架自动回归测试框架的技术特点回归测试克服的几个问题回归测试人员应掌握的测试手段回归用例库的维护系统测试系统测试的组织和分工系统测试的过程系统测试方法用户界面测试用户界面测试-符合标准和规范用户界面测试-一致性用户界面测试-直观性用户界面测试-灵活性用户界面测试-舒适
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他