forfuture1978

Lucene学习总结之十：Lucene的分词器Analyzer

1、抽象类Analyzer

其主要包含两个接口，用于生成TokenStream：

TokenStream tokenStream(String fieldName, Reader reader);
TokenStream reusableTokenStream(String fieldName, Reader reader) ;

所谓TokenStream，后面我们会讲到，是一个由分词后的Token结果组成的流，能够不断的得到下一个分成的Token。

为了提高性能，使得在同一个线程中无需再生成新的TokenStream对象，老的可以被重用，所以有reusableTokenStream一说。

所以Analyzer中有CloseableThreadLocal< Object > tokenStreams = new CloseableThreadLocal< Object >();成员变量，保存当前线程原来创建过的TokenStream，可用函数setPreviousTokenStream设定，用函数getPreviousTokenStream得到。

在reusableTokenStream函数中，往往用getPreviousTokenStream得到老的TokenStream对象，然后将TokenStream对象reset以下，从而可以从新开始得到Token流。

让我们看一下最简单的一个Analyzer:

public final class SimpleAnalyzer extends Analyzer {

@Override

public TokenStream tokenStream(String fieldName, Reader reader) {

//返回的是将字符串最小化，并且按照空格分隔的Token

return new LowerCaseTokenizer(reader);

}

@Override

public TokenStream reusableTokenStream(String fieldName, Reader reader) throws IOException {

//得到上一次使用的TokenStream，如果没有则生成新的，并且用setPreviousTokenStream放入成员变量，使得下一个可用。

Tokenizer tokenizer = (Tokenizer) getPreviousTokenStream();

if (tokenizer == null) {

tokenizer = new LowerCaseTokenizer(reader);

setPreviousTokenStream(tokenizer);

} else

//如果上一次生成过TokenStream，则reset。

tokenizer.reset(reader);

return tokenizer;

}

2、TokenStream抽象类

TokenStream主要包含以下几个方法：

boolean incrementToken()用于得到下一个Token。
public void reset() 使得此TokenStrean可以重新开始返回各个分词。

和原来的TokenStream返回一个Token对象不同，Lucene 3.0的TokenStream已经不返回Token对象了，那么如何保存下一个Token的信息呢。

在Lucene 3.0中，TokenStream是继承于AttributeSource，其包含Map，保存从class到对象的映射，从而可以保存不同类型的对象的值。

在TokenStream中，经常用到的对象是TermAttributeImpl，用来保存Token字符串；PositionIncrementAttributeImpl用来保存位置信息；OffsetAttributeImpl用来保存偏移量信息。

所以当生成TokenStream的时候，往往调用AttributeImpl tokenAtt = (AttributeImpl) addAttribute(TermAttribute.class)将TermAttributeImpl添加到Map中，并保存一个成员变量。

在incrementToken()中，将下一个Token的信息写入当前的tokenAtt，然后使用TermAttributeImpl.term()得到Token的字符串。

3、几个具体的TokenStream

在索引的时候，添加域的时候，可以指定Analyzer，使其生成TokenStream，也可以直接指定TokenStream：

public Field(String name, TokenStream tokenStream);

下面介绍两个单独使用的TokenStream

3.1、NumericTokenStream

上一节介绍NumericRangeQuery的时候，在生成NumericField的时候，其会使用NumericTokenStream，其incrementToken如下：

public boolean incrementToken() {

if (valSize == 0)

throw new IllegalStateException("call set???Value() before usage");

if (shift >= valSize)

return false;

clearAttributes();

//虽然NumericTokenStream欲保存数字，然而Lucene的Token只能保存字符串，因而要将数字编码为字符串，然后存入索引。

final char[] buffer;

switch (valSize) {

//首先分配TermBuffer，然后将数字编码为字符串

case 64:

buffer = termAtt.resizeTermBuffer(NumericUtils.BUF_SIZE_LONG);

termAtt.setTermLength(NumericUtils.longToPrefixCoded(value, shift, buffer));

break;

case 32:

buffer = termAtt.resizeTermBuffer(NumericUtils.BUF_SIZE_INT);

termAtt.setTermLength(NumericUtils.intToPrefixCoded((int) value, shift, buffer));

break;

default:

throw new IllegalArgumentException("valSize must be 32 or 64");

}

typeAtt.setType((shift == 0) ? TOKEN_TYPE_FULL_PREC : TOKEN_TYPE_LOWER_PREC);

posIncrAtt.setPositionIncrement((shift == 0) ? 1 : 0);

shift += precisionStep;

return true;

}

public static int intToPrefixCoded(final int val, final int shift, final char[] buffer) {

if (shift>31 || shift<0)

throw new IllegalArgumentException("Illegal shift value, must be 0..31");

int nChars = (31-shift)/7 + 1, len = nChars+1;

buffer[0] = (char)(SHIFT_START_INT + shift);

int sortableBits = val ^ 0x80000000;

sortableBits >>>= shift;

while (nChars>=1) {

//int按照每七位组成一个utf-8的编码，并且字符串大小比较的顺序同int大小比较的顺序完全相同。

buffer[nChars--] = (char)(sortableBits & 0x7f);

sortableBits >>>= 7;

}

return len;

}

3.2、SingleTokenTokenStream

SingleTokenTokenStream顾名思义就是此TokenStream仅仅包含一个Token，多用于保存一篇文档仅有一个的信息，如id，如time等，这些信息往往被保存在一个特殊的Token(如ID:ID, TIME:TIME)的倒排表的payload中的，这样可以使用跳表来增加访问速度。

所以SingleTokenTokenStream返回的Token则不是id或者time本身，而是特殊的Token，"ID:ID", "TIME:TIME"，而是将id的值或者time的值放入payload中。

//索引的时候

int id = 0; //用户自己的文档号

String tokenstring = "ID";

byte[] value = idToBytes(); //将id装换为byte数组

Token token = new Token(tokenstring, 0, tokenstring.length);

token.setPayload(new Payload(value));

SingleTokenTokenStream tokenstream = new SingleTokenTokenStream(token);

Document doc = new Document();

doc.add(new Field("ID", tokenstream));

……

//当得到Lucene的文档号docid，并不想构造Document对象就得到用户的文档号时

TermPositions tp = reader.termPositions("ID:ID");

boolean ret = tp.skipTo(docid);

tp.nextPosition();

int payloadlength = tp.getPayloadLength();

byte[] payloadBuffer = new byte[payloadlength];

tp.getPayload(payloadBuffer, 0);

int id = bytesToID(); //将payloadBuffer转换为用户id

4、Tokenizer也是一种TokenStream

public abstract class Tokenizer extends TokenStream {

protected Reader input;

protected Tokenizer(Reader input) {

this.input = CharReader.get(input);

}

public void reset(Reader input) throws IOException {

this.input = input;

}

以下重要的Tokenizer如下，我们将一一解析：

CharTokenizer
- LetterTokenizer
  - LowerCaseTokenizer
- WhitespaceTokenizer
ChineseTokenizer
CJKTokenizer
EdgeNGramTokenizer
KeywordTokenizer
NGramTokenizer
SentenceTokenizer
StandardTokenizer

4.1、CharTokenizer

CharTokenizer是一个抽象类，用于对字符串进行分词。

在构造函数中，生成了TermAttribute和OffsetAttribute两个属性，说明分词后除了返回分词后的字符外，还要返回offset。

offsetAtt = addAttribute(OffsetAttribute.class);

termAtt = addAttribute(TermAttribute.class);

其incrementToken函数如下：

public final boolean incrementToken() throws IOException {

clearAttributes();

int length = 0;

int start = bufferIndex;

char[] buffer = termAtt.termBuffer();

while (true) {

//不断读取reader中的字符到buffer中

if (bufferIndex >= dataLen) {

offset += dataLen;

dataLen = input.read(ioBuffer);

if (dataLen == -1) {

dataLen = 0;

if (length > 0)

break;

else

return false;

}

bufferIndex = 0;

}

//然后逐一遍历buffer中的字符

final char c = ioBuffer[bufferIndex++];

//如果是一个token字符，则normalize后接着取下一个字符，否则当前token结束。

if (isTokenChar(c)) {

if (length == 0)

start = offset + bufferIndex - 1;

else if (length == buffer.length)

buffer = termAtt.resizeTermBuffer(1+length);

buffer[length++] = normalize(c);

if (length == MAX_WORD_LEN)

break;

} else if (length > 0)

break;

}

termAtt.setTermLength(length);

offsetAtt.setOffset(correctOffset(start), correctOffset(start+length));

return true;

}

CharTokenizer是一个抽象类，其isTokenChar函数和normalize函数由子类实现。

其子类WhitespaceTokenizer实现了isTokenChar函数：

//当遇到空格的时候，当前token结束

protected boolean isTokenChar(char c) {

return !Character.isWhitespace(c);

}

其子类LetterTokenizer如下实现isTokenChar函数：

protected boolean isTokenChar(char c) {

return Character.isLetter(c);

}

LetterTokenizer的子类LowerCaseTokenizer实现了normalize函数，将字符串转换为小写：

protected char normalize(char c) {

return Character.toLowerCase(c);

}

4.2、ChineseTokenizer

其在初始化的时候，添加TermAttribute和OffsetAttribute。

其incrementToken实现如下：

public boolean incrementToken() throws IOException {

clearAttributes();

length = 0;

start = offset;

while (true) {

final char c;

offset++;

if (bufferIndex >= dataLen) {

dataLen = input.read(ioBuffer);

bufferIndex = 0;

}

if (dataLen == -1) return flush();

else

c = ioBuffer[bufferIndex++];

switch(Character.getType(c)) {

//如果是英文下小写字母或数字的时候，则属于同一个Token，push到buffer中

case Character.DECIMAL_DIGIT_NUMBER:

case Character.LOWERCASE_LETTER:

case Character.UPPERCASE_LETTER:

push(c);

if (length == MAX_WORD_LEN) return flush();

break;

//中文属于OTHER_LETTER，当出现中文字符的时候，则上一个Token结束，并将当前字符push到buffer中

case Character.OTHER_LETTER:

if (length>0) {

bufferIndex--;

offset--;

return flush();

}

push(c);

return flush();

default:

if (length>0) return flush();

break;

}

4.3、KeywordTokenizer

KeywordTokenizer是将整个字符作为一个Token返回的。

其incrementToken函数如下：

public final boolean incrementToken() throws IOException {

if (!done) {

clearAttributes();

done = true;

int upto = 0;

char[] buffer = termAtt.termBuffer();

//将字符串全部读入buffer，然后返回。

while (true) {

final int length = input.read(buffer, upto, buffer.length-upto);

if (length == -1) break;

upto += length;

if (upto == buffer.length)

buffer = termAtt.resizeTermBuffer(1+buffer.length);

}

termAtt.setTermLength(upto);

finalOffset = correctOffset(upto);

offsetAtt.setOffset(correctOffset(0), finalOffset);

return true;

}

return false;

}

4.4、CJKTokenizer

其incrementToken函数如下：

public boolean incrementToken() throws IOException {

clearAttributes();

while(true) {

int length = 0;

int start = offset;

while (true) {

//得到当前的字符，及其所属的Unicode块

char c;

Character.UnicodeBlock ub;

offset++;

if (bufferIndex >= dataLen) {

dataLen = input.read(ioBuffer);

bufferIndex = 0;

}

if (dataLen == -1) {

if (length > 0) {

if (preIsTokened == true) {

length = 0;

preIsTokened = false;

}

break;

} else {

return false;

}

} else {

c = ioBuffer[bufferIndex++];

ub = Character.UnicodeBlock.of(c);

}

//如果当前字符输入ASCII码

if ((ub == Character.UnicodeBlock.BASIC_LATIN) || (ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS)) {

if (ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {

int i = (int) c;

if (i >= 65281 && i <= 65374) {

//将半型及全型形式Unicode转变为普通的ASCII码

i = i - 65248;

c = (char) i;

}

//如果当前字符是字符或者"_" "+" "#"

if (Character.isLetterOrDigit(c) || ((c == '_') || (c == '+') || (c == '#'))) {

if (length == 0) {

start = offset - 1;

} else if (tokenType == DOUBLE_TOKEN_TYPE) {

offset--;

bufferIndex--;

if (preIsTokened == true) {

length = 0;

preIsTokened = false;

break;

} else {

break;

}

//将当前字符放入buffer

buffer[length++] = Character.toLowerCase(c);

tokenType = SINGLE_TOKEN_TYPE;

if (length == MAX_WORD_LEN) {

break;

}

} else if (length > 0) {

if (preIsTokened == true) {

length = 0;

preIsTokened = false;

} else {

break;

}

} else {

//如果非ASCII字符

if (Character.isLetter(c)) {

if (length == 0) {

start = offset - 1;

buffer[length++] = c;

tokenType = DOUBLE_TOKEN_TYPE;

} else {

if (tokenType == SINGLE_TOKEN_TYPE) {

offset--;

bufferIndex--;

break;

} else {

//非ASCII码字符，两个字符作为一个Token

//(如"中华人民共和国"分词为"中华"，"华人"，"人民"，"民共"，"共和"，"和国")

buffer[length++] = c;

tokenType = DOUBLE_TOKEN_TYPE;

if (length == 2) {

offset--;

bufferIndex--;

preIsTokened = true;

break;

}

} else if (length > 0) {

if (preIsTokened == true) {

length = 0;

preIsTokened = false;

} else {

break;

}

if (length > 0) {

termAtt.setTermBuffer(buffer, 0, length);

offsetAtt.setOffset(correctOffset(start), correctOffset(start+length));

typeAtt.setType(TOKEN_TYPE_NAMES[tokenType]);

return true;

} else if (dataLen == -1) {

return false;

}

4.5、SentenceTokenizer

其是按照如下的标点来拆分句子："。，！？；,!?;"

让我们来看下面的例子：

String s = "据纽约时报周三报道称，苹果已经超过微软成为美国最有价值的科技公司。这是一个不容忽视的转折点。";

StringReader sr = new StringReader(s);

SentenceTokenizer tokenizer = new SentenceTokenizer(sr);

boolean hasnext = tokenizer.incrementToken();

while(hasnext){

TermAttribute ta = tokenizer.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = tokenizer.incrementToken();

}

结果为：

据纽约时报周三报道称，
苹果已经超过微软成为美国最有价值的
科技公司。
这是一个不容忽视的转折点。

其incrementToken函数如下：

public boolean incrementToken() throws IOException {

clearAttributes();

buffer.setLength(0);

int ci;

char ch, pch;

boolean atBegin = true;

tokenStart = tokenEnd;

ci = input.read();

ch = (char) ci;

while (true) {

if (ci == -1) {

break;

} else if (PUNCTION.indexOf(ch) != -1) {

//出现标点符号，当前句子结束，返回当前Token

buffer.append(ch);

tokenEnd++;

break;

} else if (atBegin && Utility.SPACES.indexOf(ch) != -1) {

tokenStart++;

tokenEnd++;

ci = input.read();

ch = (char) ci;

} else {

buffer.append(ch);

atBegin = false;

tokenEnd++;

pch = ch;

ci = input.read();

ch = (char) ci;

//当连续出现两个空格，或者\r\n的时候，则当前句子结束，返回当前Token

if (Utility.SPACES.indexOf(ch) != -1

&& Utility.SPACES.indexOf(pch) != -1) {

tokenEnd++;

break;

}

if (buffer.length() == 0)

return false;

else {

termAtt.setTermBuffer(buffer.toString());

offsetAtt.setOffset(correctOffset(tokenStart), correctOffset(tokenEnd));

typeAtt.setType("sentence");

return true;

}

5、TokenFilter也是一种TokenStream

来对Tokenizer后的Token作过滤，其使用的是装饰者模式。

public abstract class TokenFilter extends TokenStream {

protected final TokenStream input;

protected TokenFilter(TokenStream input) {

super(input);

this.input = input;

}

5.1、ChineseFilter

其incrementToken函数如下：

public boolean incrementToken() throws IOException {

while (input.incrementToken()) {

char text[] = termAtt.termBuffer();

int termLength = termAtt.termLength();

//如果不被停词表过滤掉

if (!stopTable.contains(text, 0, termLength)) {

switch (Character.getType(text[0])) {

//如果是英文且长度超过一，则算一个Token，否则不算一个Token

case Character.LOWERCASE_LETTER:

case Character.UPPERCASE_LETTER:

if (termLength>1) {

return true;

}

break;

//如果是中文则算一个Token

case Character.OTHER_LETTER:

return true;

}

return false;

}

举例：

String s = "Javaeye: IT外企那点儿事。1.外企也就那么会儿事。";

StringReader sr = new StringReader(s);

ChineseTokenizer ct = new ChineseTokenizer(sr);

ChineseFilter filter = new ChineseFilter(ct);

boolean hasnext = filter.incrementToken();

while(hasnext){

TermAttribute ta = filter.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = filter.incrementToken();

}

结果为：

javaeye
外
企
那
点
儿
事
外
企
也
就
那
么
会
儿
事

5.2、LengthFilter

其incrementToken函数如下：

public final boolean incrementToken() throws IOException {

while (input.incrementToken()) {

int len = termAtt.termLength();

//当当前字符串的长度在指定范围内的时候则返回。

if (len >= min && len <= max) {

return true;

}

return false;

}

举例如下：

String s = "a it has this there string english analyzer";

StringReader sr = new StringReader(s);

WhitespaceTokenizer wt = new WhitespaceTokenizer(sr);

LengthFilter filter = new LengthFilter(wt, 4, 7);

boolean hasnext = filter.incrementToken();

while(hasnext){

TermAttribute ta = filter.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = filter.incrementToken();

}

结果如下：

this
there
string
english

5.3、LowerCaseFilter

其incrementToken函数如下：

public final boolean incrementToken() throws IOException {

if (input.incrementToken()) {

final char[] buffer = termAtt.termBuffer();

final int length = termAtt.termLength();

for(int i=0;i<length;i++)

//转小写

buffer[i] = Character.toLowerCase(buffer[i]);

return true;

} else

return false;

}

5.4、NumericPayloadTokenFilter

public final boolean incrementToken() throws IOException {

if (input.incrementToken()) {

if (typeAtt.type().equals(typeMatch))

//设置payload

payloadAtt.setPayload(thePayload);

return true;

} else {

return false;

}

5.5、PorterStemFilter

其成员变量PorterStemmer stemmer，其实现著名的stemming算法是The Porter Stemming Algorithm，其主页为http://tartarus.org/~martin/PorterStemmer/，也可查看其论文http://tartarus.org/~martin/PorterStemmer/def.txt。

通过以下网页可以进行简单的测试：Porter's Stemming Algorithm Online[http://facweb.cs.depaul.edu/mobasher/classes/csc575/porter.html]

cars –> car

driving –> drive

tokenization –> token

其incrementToken函数如下：

public final boolean incrementToken() throws IOException {

if (!input.incrementToken())

return false;

if (stemmer.stem(termAtt.termBuffer(), 0, termAtt.termLength()))

termAtt.setTermBuffer(stemmer.getResultBuffer(), 0, stemmer.getResultLength());

return true;

}

举例：

String s = "Tokenization is the process of breaking a stream of text up into meaningful elements called tokens.";

StringReader sr = new StringReader(s);

LowerCaseTokenizer lt = new LowerCaseTokenizer(sr);

PorterStemFilter filter = new PorterStemFilter(lt);

boolean hasnext = filter.incrementToken();

while(hasnext){

TermAttribute ta = filter.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = filter.incrementToken();

}

结果为：

token
is
the
process
of
break
a
stream
of
text
up
into
meaning
element
call
token

5.6、ReverseStringFilter

public boolean incrementToken() throws IOException {

if (input.incrementToken()) {

int len = termAtt.termLength();

if (marker != NOMARKER) {

len++;

termAtt.resizeTermBuffer(len);

termAtt.termBuffer()[len - 1] = marker;

}

//将token反转

reverse( termAtt.termBuffer(), len );

termAtt.setTermLength(len);

return true;

} else {

return false;

}

public static void reverse( char[] buffer, int start, int len ){

if( len <= 1 ) return;

int num = len>>1;

for( int i = start; i < ( start + num ); i++ ){

char c = buffer[i];

buffer[i] = buffer[start * 2 + len - i - 1];

buffer[start * 2 + len - i - 1] = c;

}

举例：

String s = "Tokenization is the process of breaking a stream of text up into meaningful elements called tokens.";

StringReader sr = new StringReader(s);

LowerCaseTokenizer lt = new LowerCaseTokenizer(sr);

ReverseStringFilter filter = new ReverseStringFilter(lt);

boolean hasnext = filter.incrementToken();

while(hasnext){

TermAttribute ta = filter.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = filter.incrementToken();

}

结果为：

noitazinekot
si
eht
ssecorp
fo
gnikaerb
a
maerts
fo
txet
pu
otni
lufgninaem
stnemele
dellac
snekot

5.7、SnowballFilter

其包含成员变量SnowballProgram stemmer，其是一个抽象类，其子类有EnglishStemmer和PorterStemmer等。

public final boolean incrementToken() throws IOException {

if (input.incrementToken()) {

String originalTerm = termAtt.term();

stemmer.setCurrent(originalTerm);

stemmer.stem();

String finalTerm = stemmer.getCurrent();

if (!originalTerm.equals(finalTerm))

termAtt.setTermBuffer(finalTerm);

return true;

} else {

return false;

}

举例：

String s = "Tokenization is the process of breaking a stream of text up into meaningful elements called tokens.";

StringReader sr = new StringReader(s);

LowerCaseTokenizer lt = new LowerCaseTokenizer(sr);

SnowballFilter filter = new SnowballFilter(lt, new EnglishStemmer());

boolean hasnext = filter.incrementToken();

while(hasnext){

TermAttribute ta = filter.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = filter.incrementToken();

}

结果如下：

token
is
the
process
of
break
a
stream
of
text
up
into
meaning
element
call
token

5.8、TeeSinkTokenFilter

TeeSinkTokenFilter可以使得已经分好词的Token全部或者部分的被保存下来，用于生成另一个TokenStream可以保存在其他的域中。

我们可用如下的语句生成一个TeeSinkTokenFilter：

TeeSinkTokenFilter source = new TeeSinkTokenFilter(new WhitespaceTokenizer(reader));

然后使用函数newSinkTokenStream()或者newSinkTokenStream(SinkFilter filter)生成一个SinkTokenStream：

TeeSinkTokenFilter.SinkTokenStream sink = source.newSinkTokenStream();

其中在newSinkTokenStream(SinkFilter filter)函数中，将新生成的SinkTokenStream保存在TeeSinkTokenFilter的成员变量sinks中。

在TeeSinkTokenFilter的incrementToken函数中：

public boolean incrementToken() throws IOException {

if (input.incrementToken()) {

//对于每一个Token，依次遍历成员变量sinks

AttributeSource.State state = null;

for (WeakReference<SinkTokenStream> ref : sinks) {

//对于每一个SinkTokenStream，首先调用函数accept看是否接受，如果接受则将此Token也加入此SinkTokenStream。

final SinkTokenStream sink = ref.get();

if (sink != null) {

if (sink.accept(this)) {

if (state == null) {

state = this.captureState();

}

sink.addState(state);

}

return true;

}

return false;

}

SinkTokenStream.accept调用SinkFilter.accept，对于默认的ACCEPT_ALL_FILTER则接受所有的Token：

private static final SinkFilter ACCEPT_ALL_FILTER = new SinkFilter() {

@Override

public boolean accept(AttributeSource source) {

return true;

}

};

这样SinkTokenStream就能够保存下所有WhitespaceTokenizer分好的Token。

当我们使用比较复杂的分成系统的时候，分词一篇文章往往需要耗费比较长的时间，当分好的词需要再次使用的时候，再分一次词实在太浪费了，于是可以用上述的例子，将分好的词保存在一个TokenStream里面就可以了。

如下面的例子：

String s = "this is a book";

StringReader reader = new StringReader(s);

TeeSinkTokenFilter source = new TeeSinkTokenFilter(new WhitespaceTokenizer(reader));

TeeSinkTokenFilter.SinkTokenStream sink = source.newSinkTokenStream();

boolean hasnext = source.incrementToken();

while(hasnext){

TermAttribute ta = source.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = source.incrementToken();

}

System.out.println("---------------------------------------------");

hasnext = sink.incrementToken();

while(hasnext){

TermAttribute ta = sink.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = sink.incrementToken();

}

结果为：

this
is
a
book
---------------------------------------------
this
is
a
book

当然有时候我们想在分好词的一系列Token中，抽取我们想要的一些实体，保存下来。

如下面的例子：

String s = "Japan will always balance its national interests between China and America.";

StringReader reader = new StringReader(s);

TeeSinkTokenFilter source = new TeeSinkTokenFilter(new LowerCaseTokenizer(reader));

//一个集合，保存所有的国家名称

final HashSet<String> countryset = new HashSet<String>();

countryset.add("japan");

countryset.add("china");

countryset.add("america");

countryset.add("korea");

SinkFilter countryfilter = new SinkFilter() {

@Override

public boolean accept(AttributeSource source) {

TermAttribute ta = source.getAttribute(TermAttribute.class);

//如果在国家名称列表中，则保留

if(countryset.contains(ta.term())){

return true;

}

return false;

}

};

TeeSinkTokenFilter.SinkTokenStream sink = source.newSinkTokenStream(countryfilter);

//由LowerCaseTokenizer对语句进行分词，并把其中的国家名称保存在SinkTokenStream中

boolean hasnext = source.incrementToken();

while(hasnext){

TermAttribute ta = source.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = source.incrementToken();

}

System.out.println("---------------------------------------------");

hasnext = sink.incrementToken();

while(hasnext){

TermAttribute ta = sink.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = sink.incrementToken();

}

结果为：

japan
will
always
balance
its
national
interests
between
china
and
america
---------------------------------------------
japan
china
america

6、不同的Analyzer就是组合不同的Tokenizer和TokenFilter得到最后的TokenStream

6.1、ChineseAnalyzer

public final TokenStream tokenStream(String fieldName, Reader reader) {

//按字分词，并过滤停词，标点，英文

TokenStream result = new ChineseTokenizer(reader);

result = new ChineseFilter(result);

return result;

}

举例："This year, president Hu 科学发展观" 被分词为 "year","president","hu","科","学","发","展","观"

6.2、CJKAnalyzer

public final TokenStream tokenStream(String fieldName, Reader reader) {

//每两个字组成一个词，并去除停词

return new StopFilter(StopFilter.getEnablePositionIncrementsVersionDefault(matchVersion), new CJKTokenizer(reader), stopTable);

}

举例："This year, president Hu 科学发展观" 被分词为"year","president","hu","科学","学发","发展","展观"。

6.3、PorterStemAnalyzer

public TokenStream tokenStream(String fieldName, Reader reader) {

//将转为小写的token，利用porter算法进行stemming

return new PorterStemFilter(new LowerCaseTokenizer(reader));

}

6.4、SmartChineseAnalyzer

public TokenStream tokenStream(String fieldName, Reader reader) {

//先分句子

TokenStream result = new SentenceTokenizer(reader);

//句子中分词组

result = new WordTokenFilter(result);

//用porter算法进行stemming

result = new PorterStemFilter(result);

//去停词

if (!stopWords.isEmpty()) {

result = new StopFilter(StopFilter.getEnablePositionIncrementsVersionDefault(matchVersion), result, stopWords, false);

}

return result;

}

6.5、SnowballAnalyzer

public TokenStream tokenStream(String fieldName, Reader reader) {

//使用标准的分词器

TokenStream result = new StandardTokenizer(matchVersion, reader);

//标准的过滤器

result = new StandardFilter(result);

//转换为小写

result = new LowerCaseFilter(result);

//去停词

if (stopSet != null)

result = new StopFilter(StopFilter.getEnablePositionIncrementsVersionDefault(matchVersion), result, stopSet);

//根据设定的stemmer进行stemming

result = new SnowballFilter(result, name);

return result;

}

7、Lucene的标准分词器

7.1、StandardTokenizerImpl.jflex

和QueryParser类似，标准分词器也需要词法分析，在原来的版本中，也是用javacc，当前的版本中，使用的是jflex。

jflex也是一个词法及语法分析器的生成器，它主要包括三部分，由%%分隔：

用户代码部分：多为package或者import
选项及词法声明
语法规则声明

用于生成标准分词器的flex文件尾StandardTokenizerImpl.jflex，如下:

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.tokenattributes.TermAttribute;

%% //以上是用户代码部分，以下是选项及词法声明

%class StandardTokenizerImpl //类名

%unicode

%integer //下面函数的返回值

%function getNextToken //进行词法及语法分析的函数

%pack

%char

%{ //此之间的代码之间拷贝到生成的java文件中

public static final int ALPHANUM = StandardTokenizer.ALPHANUM;

public static final int APOSTROPHE = StandardTokenizer.APOSTROPHE;

public static final int ACRONYM = StandardTokenizer.ACRONYM;

public static final int COMPANY = StandardTokenizer.COMPANY;

public static final int EMAIL = StandardTokenizer.EMAIL;

public static final int HOST = StandardTokenizer.HOST;

public static final int NUM = StandardTokenizer.NUM;

public static final int CJ = StandardTokenizer.CJ;

public static final int ACRONYM_DEP = StandardTokenizer.ACRONYM_DEP;

public static final String [] TOKEN_TYPES = StandardTokenizer.TOKEN_TYPES;

public final int yychar()

{

return yychar;

}

final void getText(Token t) {

t.setTermBuffer(zzBuffer, zzStartRead, zzMarkedPos-zzStartRead);

}

final void getText(TermAttribute t) {

t.setTermBuffer(zzBuffer, zzStartRead, zzMarkedPos-zzStartRead);

}

THAI = [\u0E00-\u0E59]

//一系列字母和数字的组合

ALPHANUM = ({LETTER}|{THAI}|[:digit:])+

//省略符号，如you're

APOSTROPHE = {ALPHA} ("'" {ALPHA})+

//缩写，如U.S.A.

ACRONYM = {LETTER} "." ({LETTER} ".")+

ACRONYM_DEP = {ALPHANUM} "." ({ALPHANUM} ".")+

// 公司名称如AT&T，Excite@Home.

COMPANY = {ALPHA} ("&"|"@") {ALPHA}

// 邮箱地址

EMAIL = {ALPHANUM} (("."|"-"|"_") {ALPHANUM})* "@" {ALPHANUM} (("."|"-") {ALPHANUM})+

// 主机名

HOST = {ALPHANUM} ((".") {ALPHANUM})+

NUM = ({ALPHANUM} {P} {HAS_DIGIT}

| {HAS_DIGIT} {P} {ALPHANUM}

| {ALPHANUM} ({P} {HAS_DIGIT} {P} {ALPHANUM})+

| {HAS_DIGIT} ({P} {ALPHANUM} {P} {HAS_DIGIT})+

| {ALPHANUM} {P} {HAS_DIGIT} ({P} {ALPHANUM} {P} {HAS_DIGIT})+

| {HAS_DIGIT} {P} {ALPHANUM} ({P} {HAS_DIGIT} {P} {ALPHANUM})+)

//标点

P = ("_"|"-"|"/"|"."|",")

//至少包含一个数字的字符串

HAS_DIGIT = ({LETTER}|[:digit:])* [:digit:] ({LETTER}|[:digit:])*

ALPHA = ({LETTER})+

//所谓字符，即出去所有的非字符的ASCII及中日文。

LETTER = !(![:letter:]|{CJ})

//中文或者日文

CJ = [\u3100-\u312f\u3040-\u309F\u30A0-\u30FF\u31F0-\u31FF\u3300-\u337f\u3400-\u4dbf\u4e00-\u9fff\uf900-\ufaff\uff65-\uff9f]

//空格

WHITESPACE = \r\n | [ \r\n\t\f]

%% //以下是语法规则部分，由于是分词器，因而不需要进行语法分析，则全部原样返回

{ALPHANUM} { return ALPHANUM; }

{APOSTROPHE} { return APOSTROPHE; }

{ACRONYM} { return ACRONYM; }

{COMPANY} { return COMPANY; }

{EMAIL} { return EMAIL; }

{HOST} { return HOST; }

{NUM} { return NUM; }

{CJ} { return CJ; }

{ACRONYM_DEP} { return ACRONYM_DEP; }

下面我们看下面的例子，来说明StandardTokenizerImpl的功能：

String s = "I'm Juexian, my email is [email protected]. My ip address is 192.168.0.1, AT&T and I.B.M are all great companies.";

StringReader reader = new StringReader(s);

StandardTokenizerImpl impl = new StandardTokenizerImpl(reader);

while(impl.getNextToken() != StandardTokenizerImpl.YYEOF){

TermAttributeImpl ta = new TermAttributeImpl();

impl.getText(ta);

System.out.println(ta.term());

}

结果为：

I'm
Juexian
my
email
is
[email protected]
My
ip
address
is
192.168.0.1
AT&T
and
I.B.M
are
all
great
companies

7.2、StandardTokenizer

其有一个成员变量StandardTokenizerImpl scanner;

其incrementToken函数如下：

public final boolean incrementToken() throws IOException {

clearAttributes();

int posIncr = 1;

while(true) {

//用词法分析器得到下一个Token以及Token的类型

int tokenType = scanner.getNextToken();

if (tokenType == StandardTokenizerImpl.YYEOF) {

return false;

}

if (scanner.yylength() <= maxTokenLength) {

posIncrAtt.setPositionIncrement(posIncr);

//得到Token文本

scanner.getText(termAtt);

final int start = scanner.yychar();

offsetAtt.setOffset(correctOffset(start), correctOffset(start+termAtt.termLength()));

//设置类型

typeAtt.setType(StandardTokenizerImpl.TOKEN_TYPES[tokenType]);

return true;

} else

posIncr++;

}

7.3、StandardFilter

其incrementToken函数如下：

public final boolean incrementToken() throws java.io.IOException {

if (!input.incrementToken()) {

return false;

}

char[] buffer = termAtt.termBuffer();

final int bufferLength = termAtt.termLength();

final String type = typeAtt.type();

//如果是省略符号，如He's，则去掉's

if (type == APOSTROPHE_TYPE && bufferLength >= 2 &&

buffer[bufferLength-2] == '\'' && (buffer[bufferLength-1] == 's' || buffer[bufferLength-1] == 'S')) {

termAtt.setTermLength(bufferLength - 2);

} else if (type == ACRONYM_TYPE) {

//如果是缩略语I.B.M.，则去掉.

int upto = 0;

for(int i=0;i<bufferLength;i++) {

char c = buffer[i];

if (c != '.')

buffer[upto++] = c;

}

termAtt.setTermLength(upto);

}

return true;

}

7.4、StandardAnalyzer

public TokenStream tokenStream(String fieldName, Reader reader) {

//用词法分析器分词

StandardTokenizer tokenStream = new StandardTokenizer(matchVersion, reader);

tokenStream.setMaxTokenLength(maxTokenLength);

//用标准过滤器过滤

TokenStream result = new StandardFilter(tokenStream);

//转换为小写

result = new LowerCaseFilter(result);

//去停词

result = new StopFilter(enableStopPositionIncrements, result, stopSet);

return result;

}

举例如下：

String s = "He's Juexian, His email is [email protected]. He's an ip address 192.168.0.1, AT&T and I.B.M. are all great companies.";

StringReader reader = new StringReader(s);

StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);

TokenStream ts = analyzer.tokenStream("field", reader);

boolean hasnext = ts.incrementToken();

while(hasnext){

TermAttribute ta = ts.getAttribute(TermAttribute.class);

System.out.println(ta.term());

hasnext = ts.incrementToken();

}

结果为：

he
juexian
his
email
[email protected]
he
ip
address
192.168.0.1
at&t
ibm
all
great
companies

8、不同的域使用不同的分词器

8.1、PerFieldAnalyzerWrapper

有时候，我们想不同的域使用不同的分词器，则可以用PerFieldAnalyzerWrapper进行封装。

其有两个成员函数：

Analyzer defaultAnalyzer：即当域没有指定分词器的时候使用此分词器
Map<String,Analyzer> analyzerMap = new HashMap<String,Analyzer>()：一个从域名到分词器的映射，将根据域名使用相应的分词器。

其TokenStream函数如下：

public TokenStream tokenStream(String fieldName, Reader reader) {

Analyzer analyzer = analyzerMap.get(fieldName);

if (analyzer == null) {

analyzer = defaultAnalyzer;

}

return analyzer.tokenStream(fieldName, reader);

}

举例说明：

String s = "Hello World";
PerFieldAnalyzerWrapper analyzer = new PerFieldAnalyzerWrapper(new SimpleAnalyzer());
analyzer.addAnalyzer("f1", new KeywordAnalyzer());
analyzer.addAnalyzer("f2", new WhitespaceAnalyzer());

TokenStream ts = analyzer.reusableTokenStream("f1", new StringReader(s));
boolean hasnext = ts.incrementToken();
while(hasnext){
TermAttribute ta = ts.getAttribute(TermAttribute.class);
System.out.println(ta.term());
hasnext = ts.incrementToken();
}

System.out.println("---------------------------------------------");

ts = analyzer.reusableTokenStream("f2", new StringReader(s));
hasnext = ts.incrementToken();
while(hasnext){
TermAttribute ta = ts.getAttribute(TermAttribute.class);
System.out.println(ta.term());
hasnext = ts.incrementToken();
}

System.out.println("---------------------------------------------");

ts = analyzer.reusableTokenStream("none", new StringReader(s));
hasnext = ts.incrementToken();
while(hasnext){
TermAttribute ta = ts.getAttribute(TermAttribute.class);
System.out.println(ta.term());
hasnext = ts.incrementToken();
}

结果为：

Hello World
---------------------------------------------
Hello
World
---------------------------------------------
hello
world

你可能感兴趣的:(C++,c,C#,Lucene,Gmail)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D