我有一头小毛驴我从来都不骑

识别文件编码

概述

项目中经常遇到上传文本文件,当含有中文时,由于编码就会出现乱码,其根本原因就是用户上传文件的编码与解析的编码不一致.基本有两种解决方案

规定用户上传的文件的编码
自动识别文件编码

对于第一种的解决方法简单粗暴,通常的做法是提供一个规定了默认编码示例文件供用户下载,但是这种的不确定性因素比较大,因此考虑通用的自动识别也是有必要的.自动识别文件编码的工具包有很多,仅摘取几例学习.

自动识别编码工具包其基本原理就是取一串字节流,然后根据各个不同编码集的编码规则依次进行匹配判断.为了简化操作,不采用真实的web环境,直接使用本地文件测试(因为web传递的字节流,更简单的,直接使用字节数组测试).

example

识别工具类有很多,此处举例仅作参考

测试主要以ansi,unicode,unicode big endian,utf-8,以文件流的形式进行测试

还有另一种简化操作,使用字节数组测试,为了取到与文件流相同的效果,将字节数组写入流中

		/*	对于需要重复读取的流(判断编码取一次,获取内容取一次),需要使用支持reset的流.
		注:有些解析器支持字节数组,但是处理字节数组与处理流是有区别的,可能会得到不同的结果*/
		BufferedInputStream in = new BufferedInputStream(new ByteArrayInputStream(content.getBytes("GBK")));

tika

package charset;

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.nio.charset.Charset;

import org.apache.tika.detect.AutoDetectReader;
import org.junit.Test;


public class ParseCharset {
	public static String content = "中国";
	
	@Test
	public void parseByTika() {
		AutoDetectReader detect = null;
		InputStream in = null;
		try {
			in = new FileInputStream("C:\\Users\\admin\\Desktop\\temp\\test.txt");
			//detect = new AutoDetectReader(getInputStream(charsetName));
			detect = new AutoDetectReader(in);
			Charset charset = detect.getCharset();
			//System.out.println(charset.name());
			String row = null;
			while ((row = detect.readLine()) != null) {
				if (!charset.name().startsWith("UTF"))
					row = new String(row.getBytes(charset.name()), "GBK");
				System.out.println("charset : " + charset.name() +"; content : "+ row);
			}
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			try {
				in.close();
				detect.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
		/***************运行结果****************/
		/*        unicode big endian
		  charset : UTF-16BE; content : 中国
		  
		                ansi
		  charset : IBM855; content : 中国
		  
		                unicode
		 charset : UTF-16LE; content : 中国
		  
		                utf-8
		 charset : UTF-8; content : 中国
		 
		 注:一般解析不出来,当ISO-8859-1(字节编码,数据不会丢失)处理
		*/
		
		
		/***************相关依赖****************/
		/*
		 * pom依赖 
		 * 		
		
			org.apache.tika
			tika-core
			1.16
		
		
		
			org.apache.tika
			tika-parsers
			1.16
		
		 *解析基本所有常见格式的文件，得到文件的metadata，content等内容，返回格式化信息
		 *解析的内容有 文件格式,文件内容,文件编码,字符串语言等
		 *
		 * 
		 */
		
	}
}

tika解析的核心源码,AutoDetectReader配置了三种解析器Icu4jEncodingDetector,UniversalEncodingDetector ,HtmlEncodingDetector,轮询解析,以UniversalEncodingDetector 为例

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.apache.tika.parser.txt;

import java.io.IOException;
import java.io.InputStream;
import java.nio.charset.Charset;

import org.apache.tika.detect.EncodingDetector;
import org.apache.tika.metadata.Metadata;

public class UniversalEncodingDetector implements EncodingDetector {

    private static final int BUFSIZE = 1024;

    private static final int LOOKAHEAD = 16 * BUFSIZE;

    public Charset detect(InputStream input, Metadata metadata)
            throws IOException {
        if (input == null) {
            return null;
        }

        input.mark(LOOKAHEAD);
        try {
            UniversalEncodingListener listener =
                    new UniversalEncodingListener(metadata);

            byte[] b = new byte[BUFSIZE];
            int n = 0;
            int m = input.read(b);
            while (m != -1 && n < LOOKAHEAD && !listener.isDone()) {
                n += m;
                listener.handleData(b, 0, m);
                m = input.read(b, 0, Math.min(b.length, LOOKAHEAD - n));
            }

            return listener.dataEnd();
        } catch (LinkageError e) {
            return null; // juniversalchardet is not available
        } finally {
            input.reset();
        }
    }

}

重点关注的listener.handleData

        if (this.done) {
            return;
        }
        
        if (length > 0) {
            this.gotData = true;
        }
        
        if (this.start) {
            this.start = false;
            if (length > 3) {
                int b1 = buf[offset] & 0xFF;
                int b2 = buf[offset+1] & 0xFF;
                int b3 = buf[offset+2] & 0xFF;
                int b4 = buf[offset+3] & 0xFF;
                
                         //判断规则
                switch (b1) {
                case 0xEF:
                    if (b2 == 0xBB && b3 == 0xBF) {
                        this.detectedCharset = Constants.CHARSET_UTF_8;
                    }
                    break;
                case 0xFE:
                    if (b2 == 0xFF && b3 == 0x00 && b4 == 0x00) {
                        this.detectedCharset = Constants.CHARSET_X_ISO_10646_UCS_4_3412;
                    } else if (b2 == 0xFF) {
                        this.detectedCharset = Constants.CHARSET_UTF_16BE;
                    }
                    break;
                case 0x00:
                    if (b2 == 0x00 && b3 == 0xFE && b4 == 0xFF) {
                        this.detectedCharset = Constants.CHARSET_UTF_32BE;
                    } else if (b2 == 0x00 && b3 == 0xFF && b4 == 0xFE) {
                        this.detectedCharset = Constants.CHARSET_X_ISO_10646_UCS_4_2143;
                    }
                    break;
                case 0xFF:
                    if (b2 == 0xFE && b3 == 0x00 && b4 == 0x00) {
                        this.detectedCharset = Constants.CHARSET_UTF_32LE;
                    } else if (b2 == 0xFE) {
                        this.detectedCharset = Constants.CHARSET_UTF_16LE;
                    }
                    break;
                } // swich end
                
                if (this.detectedCharset != null) {
                    this.done = true;
                    return;
                }
            }
        } // if (start) end
        
        int maxPos = offset + length;
        for (int i=offset; i

         其实各种不同解析器,基本都配备多个编码解析器,一个个进行匹配,都匹配不上,则返回默认(比如 
     AutoDetectReader的ISO-8859-1,或者设置默认),因为更关注实现这种功能的思路,而并不是各种编码之间的区别,故对最底层的解析判断不进行深入研究.

 
    cpdetector

 
   
           cpdetector是一个开源的字符检测工具( 主页) 
    
 
    
    
    	public void parseByIo() {
		try {
			File file = new File("C:\\Users\\admin\\Desktop\\temp\\test.txt");
			CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
			//相关解析器
			detector.add(new ByteOrderMarkDetector());
			detector.add(JChardetFacade.getInstance());
			detector.add(new ParsingDetector(true));
	        detector.add(ASCIIDetector.getInstance());
	        detector.add(UnicodeDetector.getInstance());
	        
	        //获取编码
	        java.nio.charset.Charset charset = null;
            charset = detector.detectCodepage(file.toURI().toURL());
            
            //读取文本内容
            BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(file), charset));
            String content = reader.readLine();
			if (!charset.name().startsWith("UTF"))
				content = new String(content.getBytes(charset.name()), "GBK");
            System.out.println("charset : " + charset.name() +"; content : "+ content);
            reader.close();
		/***************运行结果****************/
		/*        unicode big endian
		  charset : UTF-16BE; content : 中国
		  
		                ansi
		  charset : windows-1252; content : 中国
		  
		                unicode
		 charset : UTF-16LE; content : 中国
		  
		                utf-8
		 charset : UTF-8; content : 中国
		 
		*/
		
		/***************相关依赖****************/
		/*https://sourceforge.net/projects/cpdetector/files/cpdetector/javadoc/
		 * 下载相关jar,引入项目中
		 * antlr-2.7.4.jar
		 * chardet-1.0.jar
		 * cpdetector-1.0.10.jar
		 * jargs-1.0.jar
		 * 
		 */
		} catch (Exception e) {
			e.printStackTrace();
		}
	}      这个源码没有,所以只能用,无法究竟其原理 
    
    
    
 
    
    
    TikaEncodingDetector 
    	public void parseByany23() {

		InputStream in = null;
		try {
			in = new FileInputStream("C:\\Users\\admin\\Desktop\\temp\\test.txt");
			TikaEncodingDetector detector = new TikaEncodingDetector();
			String guessEncoding = detector.guessEncoding(in);
			String preGuessEncoding=guessEncoding;
			if (!guessEncoding.startsWith("UTF")) {
				
				guessEncoding = "GBK";
			}
			in.close();
			
            //读取文本内容
            BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream("C:\\Users\\admin\\Desktop\\temp\\test.txt"), guessEncoding));
            String content = reader.readLine();
            System.out.println("charset : " + preGuessEncoding +"; content : "+ content);
            reader.close();
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			try {
				in.close();
			} catch (IOException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}
		}
		/***************运行结果****************/
		/*        unicode big endian
		  charset : UTF-16BE; content : 中国
		  
		                ansi
		  charset : IBM420_ltr; content : 中国
		  
		                unicode
		 charset : UTF-16LE; content : 中国
		  
		                utf-8
		 charset : UTF-8; content : 中国
		 
		 注:此方法只为单纯获取编码,但是不能再获取编码的获取编码内容,需要打开文件2次(fileInputStream不支持reset)
		 */
		
		
		/***************相关依赖****************/
		/*
		 * pom依赖 
		
		
			org.apache.any23
			apache-any23-encoding
			1.1
		
		 * 
		 */
	}   核心解析 
    
    
       /**
     * Return an array of all charsets that appear to be plausible
     * matches with the input data.  The array is ordered with the
     * best quality match first.
     * 
     * Raise an exception if
     * 

     * no charsets appear to match the input data.
     * no input text has been provided
     * 
     *
     * @return An array of CharsetMatch objects representing possibly matching charsets.
     * @stable ICU 3.4
     */
    public CharsetMatch[] detectAll() {
        CharsetRecognizer csr;
        int i;
        CharsetMatch charsetMatch;
        int confidence;
        ArrayList matches = new ArrayList();
        //  Iterate over all possible charsets, remember all that
        //    give a match quality > 0.
        for (i = 0; i < ALL_CS_RECOGNIZERS.size(); i++) {
            csr = ALL_CS_RECOGNIZERS.get(i).recognizer;
            charsetMatch = csr.match(this);
            if (charsetMatch != null) {
                confidence = charsetMatch.getConfidence() & 0x000000ff;
                if (confidence > 0) {
                    // Just to be safe, constrain
                    confidence = Math.min(confidence, MAX_CONFIDENCE);

                    // Apply charset hint.
                    if ((fDeclaredEncoding != null) && (fDeclaredEncoding.equalsIgnoreCase(csr.getName()))) {
                        // Reduce lack of confidence (delta between "sure" and current) by 50%.
                        confidence += (MAX_CONFIDENCE - confidence) / 2;
                    }
                    CharsetMatch m = new CharsetMatch(this, csr, confidence, charsetMatch.getName(), charsetMatch.getLanguage());
                    matches.add(m);
                }
            }
        }
        Collections.sort(matches);      // CharsetMatch compares on confidence
        Collections.reverse(matches);   //  Put best match first.
        CharsetMatch[] resultArray = new CharsetMatch[matches.size()];
        resultArray = matches.toArray(resultArray);
        return resultArray;
    } 
       以上原理tika还有个解析类也是同理 
     
    	@Test
	public void parseByCharsetDetector () {
		try {
			BufferedInputStream in = new BufferedInputStream(new FileInputStream(new File("C:\\Users\\admin\\Desktop\\temp\\test.txt")));
			System.out.println(in.markSupported());
			CharsetDetector detector = new CharsetDetector();
			detector.setText(in);
			
			CharsetMatch cm = detector.detect();
			
			String charsetName = cm.getName();
			BufferedReader reader=null;
			if (!charsetName.startsWith("UTF")) {
				reader=	new BufferedReader(new InputStreamReader(in, "GBK"));
			} else {
				reader = new BufferedReader(cm.getReader());
			}
			String content = reader.readLine();
			
			//读取文本内容
			System.out.println("charset : " + charsetName +"; content : "+ content);
			reader.close();
			in.close();
		} catch (Exception e) {
			e.printStackTrace();
		} 
		/***************运行结果****************/
		/*        unicode big endian
		  charset : UTF-16LE; content : 中国
		  
		                ansi
		 charset : IBM420_ltr; content : 中国
		  
		                unicode
		 charset : UTF-16BE; content : 中国
		  
		                utf-8
		 charset : UTF-8; content : 中国
		 
		 注:此方法对流的要求必须要允许reset,此处编码为IBM420_ltr,会报错,故需重新读取一次流
		 */
		
		
		/***************相关依赖****************/
		/*
		 * pom依赖 
	
		
		
			org.apache.any23
			apache-any23-encoding
			1.1
		
		 * 
		 */
	} 
    
 
    
 
     
     
    CharsetToolkit 
    	@Test
	public void parseByCharsetToolkit() {
		File file = new File("C:\\Users\\admin\\Desktop\\temp\\test.txt");
		try {
			CharsetToolkit detector = new CharsetToolkit(file);
			detector.setDefaultCharset(Charset.forName("GBK"));
			Charset charset = detector.getCharset();
			BufferedReader reader = detector.getReader();
			String content = reader.readLine();
			
			//读取文本内容
			if (!charset.name().startsWith("UTF"))
				content = new String(content.getBytes(charset.name()), "GBK");
            System.out.println("charset : " + charset.name() +"; content : "+ content);
			reader.close();
		} catch (Exception e) {
			e.printStackTrace();
		} 
		/***************运行结果****************/
		/*        unicode big endian
		  charset : UTF-16BE; content : 中国
		  
		                ansi
		 charset : GBK; content : 中国
		  
		                unicode
		 charset : UTF-16LE; content : 中国
		  
		                utf-8
		 charset : UTF-8; content : 中国
		 
		 注:此方法对无法解析的都使用期默认的编码,故要设置默认编码
		 */
		
		
		/***************相关依赖****************/
		/*
		 * pom依赖 
	
	
	    org.codehaus.groovy
	    groovy-all
	    2.4.12
	
		 * 
		 */
	}核心源码 
    
    
        /**
     * Guess the encoding of the provided buffer.
     * If Byte Order Markers are encountered at the beginning of the buffer, we immediately
     * return the charset implied by this BOM. Otherwise, the file would not be a human
     * readable text file.
     * 
     * If there is no BOM, this method tries to discern whether the file is UTF-8 or not.
     * If it is not UTF-8, we assume the encoding is the default system encoding
     * (of course, it might be any 8-bit charset, but usually, an 8-bit charset is the default one).
     * 

     * It is possible to discern UTF-8 thanks to the pattern of characters with a multi-byte sequence.
     * 
     * UCS-4 range (hex.)        UTF-8 octet sequence (binary)
     * 0000 0000-0000 007F       0xxxxxxx
     * 0000 0080-0000 07FF       110xxxxx 10xxxxxx
     * 0000 0800-0000 FFFF       1110xxxx 10xxxxxx 10xxxxxx
     * 0001 0000-001F FFFF       11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
     * 0020 0000-03FF FFFF       111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
     * 0400 0000-7FFF FFFF       1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
     * 
     * With UTF-8, 0xFE and 0xFF never appear.
     *
     * @return the Charset recognized.
     */
    private Charset guessEncoding() {
        // if the file has a Byte Order Marker, we can assume the file is in UTF-xx
        // otherwise, the file would not be human readable
        if (hasUTF8Bom())
            return Charset.forName("UTF-8");
        if (hasUTF16LEBom())
            return Charset.forName("UTF-16LE");
        if (hasUTF16BEBom())
            return Charset.forName("UTF-16BE");

        // if a byte has its most significant bit set, the file is in UTF-8 or in the default encoding
        // otherwise, the file is in US-ASCII
        boolean highOrderBit = false;

        // if the file is in UTF-8, high order bytes must have a certain value, in order to be valid
        // if it's not the case, we can assume the encoding is the default encoding of the system
        boolean validU8Char = true;

        // TODO the buffer is not read up to the end, but up to length - 6

        int length = buffer.length;
        int i = 0;
        while (i < length - 6) {
            byte b0 = buffer[i];
            byte b1 = buffer[i + 1];
            byte b2 = buffer[i + 2];
            byte b3 = buffer[i + 3];
            byte b4 = buffer[i + 4];
            byte b5 = buffer[i + 5];
            if (b0 < 0) {
                // a high order bit was encountered, thus the encoding is not US-ASCII
                // it may be either an 8-bit encoding or UTF-8
                highOrderBit = true;
                // a two-bytes sequence was encountered
                if (isTwoBytesSequence(b0)) {
                    // there must be one continuation byte of the form 10xxxxxx,
                    // otherwise the following character is is not a valid UTF-8 construct
                    if (!isContinuationChar(b1))
                        validU8Char = false;
                    else
                        i++;
                }
                // a three-bytes sequence was encountered
                else if (isThreeBytesSequence(b0)) {
                    // there must be two continuation bytes of the form 10xxxxxx,
                    // otherwise the following character is is not a valid UTF-8 construct
                    if (!(isContinuationChar(b1) && isContinuationChar(b2)))
                        validU8Char = false;
                    else
                        i += 2;
                }
                // a four-bytes sequence was encountered
                else if (isFourBytesSequence(b0)) {
                    // there must be three continuation bytes of the form 10xxxxxx,
                    // otherwise the following character is is not a valid UTF-8 construct
                    if (!(isContinuationChar(b1) && isContinuationChar(b2) && isContinuationChar(b3)))
                        validU8Char = false;
                    else
                        i += 3;
                }
                // a five-bytes sequence was encountered
                else if (isFiveBytesSequence(b0)) {
                    // there must be four continuation bytes of the form 10xxxxxx,
                    // otherwise the following character is is not a valid UTF-8 construct
                    if (!(isContinuationChar(b1)
                        && isContinuationChar(b2)
                        && isContinuationChar(b3)
                        && isContinuationChar(b4)))
                        validU8Char = false;
                    else
                        i += 4;
                }
                // a six-bytes sequence was encountered
                else if (isSixBytesSequence(b0)) {
                    // there must be five continuation bytes of the form 10xxxxxx,
                    // otherwise the following character is is not a valid UTF-8 construct
                    if (!(isContinuationChar(b1)
                        && isContinuationChar(b2)
                        && isContinuationChar(b3)
                        && isContinuationChar(b4)
                        && isContinuationChar(b5)))
                        validU8Char = false;
                    else
                        i += 5;
                }
                else
                    validU8Char = false;
            }
            if (!validU8Char)
                break;
            i++;
        }
        // if no byte with an high order bit set, the encoding is US-ASCII
        // (it might have been UTF-7, but this encoding is usually internally used only by mail systems)
        if (!highOrderBit) {
            // returns the default charset rather than US-ASCII if the enforce8Bit flag is set.
            if (this.enforce8Bit)
                return this.defaultCharset;
            else
                return Charset.forName("US-ASCII");
        }
        // if no invalid UTF-8 were encountered, we can assume the encoding is UTF-8,
        // otherwise the file would not be human readable
        if (validU8Char)
            return Charset.forName("UTF-8");
        // finally, if it's not UTF-8 nor US-ASCII, let's assume the encoding is the default encoding
        return this.defaultCharset;
    }

ArrayList 与 LinkedList 的区别 BonnenuIt゛浅时光737 Java基础 java 面试
ArrayList与LinkedList的核心区别在Java中，ArrayList和LinkedList是两种常用的列表实现，它们在底层结构、性能特性和适用场景上有显著差异。以下从多个维度详细对比：1.底层数据结构对比项ArrayListLinkedList数据结构动态数组（Object[]）双向链表（每个节点包含前驱和后继指针）存储方式连续内存空间存储元素非连续内存，通过指针关联元素内存占用需预
ArrayList与LinkedList有什么区别萤火12345 java基础 java 数据结构算法面试
总结自知乎用户bravo1988java小册数组与链表ArrayList与LinkedList区别底层数据结构首先要从底层数据结构说起，ArrayList底层数据结构是数组，是一块连续的内存空间LinkedList底层数据结构不是连续的内存空间，是用一个节点记住下个节点的地址串起来的容器特点ArrayList保证数据在内存中是连续的只有保证连续才能使用索引，保证连续导致了操作非尾部数据时，会发生数
打造完美Web登录界面：HTML、CSS与Bootstrap实战 Suvo Sarkar
本文还有配套的精品资源，点击获取简介：登录界面是用户与Web应用程序互动的起点，其设计和实现对用户体验至关重要。本教程将指导开发者如何使用HTML、CSS和Bootstrap框架创建一个功能齐全且视觉吸引力强的登录界面。内容涵盖从基础的表单标签到使用Bootstrap的响应式设计，以及如何结合JavaScript和后端技术来增强界面的业务逻辑和用户验证功能。1.HTML表单标签基础HTML表单标签
java web登录代码_Java Web 登录页面的实现代码实例 KJ(Kan Jia) java web登录代码
代码如下~内有详细解释，最后有照片！functioninuser(){username_mess.style.visibility="visible";}functionoutuser(){//获取name为usesrname的文本u=f1.username.value;f1.username.style.border="1pxsolidaaaaaa";if(u==""){username_mes
Java学习-----Bean 典孝赢麻崩乐急 java 学习 rpc
在Spring框架中，Bean是核心概念之一，它贯穿了整个Spring应用的生命周期，是实现依赖注入（DI）和控制反转（IoC）的基础。理解Bean的原理、作用及使用特点，对于掌握Spring框架至关重要。SpringBean的本质是由SpringIoC容器管理的对象，它的创建、初始化、依赖注入及销毁等过程均由容器控制，而非通过传统的new关键字手动创建。其核心原理可概括为以下两点：1.控制反转（
Java学习----NIO模型典孝赢麻崩乐急 java 学习 nio
在Java的I/O模型中，NIO（Non-BlockingI/O，非阻塞I/O）是对BIO的重要改进。它为高并发场景提供了更高效的处理方式，在众多Java应用中发挥着关键作用。NIO模型的核心在于非阻塞和多路复用，其采用“一个线程处理多个连接”的模式，主要依靠通道（Channel）、缓冲区（Buffer）和选择器（Selector）这三个核心组件协同工作，每个核心组件的功能原理和功能如下：（1）通
Java学习————————ThreadLocal 典孝赢麻崩乐急 java 学习开发语言
ThreadLocal是Java中一个非常重要的线程级别的变量隔离机制，它提供了线程局部变量，使得每个线程都可以拥有自己独立的变量副本，从而避免了多线程环境下的共享变量竞争问题。ThreadLocal的实现原理主要依赖于：（1）ThreadLocalMap：每个Thread对象内部都有一个ThreadLocalMap实例（2）弱引用键：ThreadLocalMap使用ThreadLocal对象作为
【集群】MySQL的主从复制了解吗？会有延迟吗，原因是什么？雪碧聊技术 Java八股文 mysql 数据库 MySQL主从复制
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
【锁】MySQL中有哪几种锁？雪碧聊技术 Java八股文 mysql 数据库锁
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
MySQL的Binlog有几种格式? 雪碧聊技术 Java八股文 mysql 数据库
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
web登录注册页面 m0_67391518 面试学习路线阿里巴巴前端 java html mysql 数据库
目录web登录注册页面效果图结构图Java代码User.javaUserMapper.javaIndexServlet.javaRegisterServlet.javaDButil.javaxml配置文件mybatis-config.xmldb.propertiesweb.xmlhtml与cssindex.jspindex.cssregister.htmlregister.css文章目录web登录
简单WEB登录页面代码实现逆流的飞鱼简单代码 java
longin.html：登录页面，此处action引用**/**类型的地址，JSP可以用${pageContext.request.contextPath}/LS用户名:密码：LoginServlet.java用户和前台WEB页面数据进行交互packageit.tongyou.web.servlet;importjava.io.IOException;importjava.io.PrintWrit
Arraylist与LinkedList区别雪碧聊技术 Java八股文 ArrayList LinkedList
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
聊聊artemis的SlowConsumerReaperRunnable go4it
序本文主要研究一下artemis的SlowConsumerReaperRunnableSlowConsumerPolicyactivemq-artemis-2.11.0/artemis-server/src/main/java/org/apache/activemq/artemis/core/settings/impl/SlowConsumerPolicy.javapublicenumSlowCo
java开发安卓和kotlin对比哈哈皮皮虾的皮 java android kotlin
Java和Kotlin都是用于Android开发的编程语言，它们各自具有独特的特点和优势。以下是对Java和Kotlin在Android开发中的对比：一、语法与简洁性Java：Java的语法相对繁琐，需要编写较多的样板代码。例如，在Java中，每一行代码的末尾都需要一个分号来表示语句的结束。Kotlin：Kotlin的语法更为简洁，支持更多的语法糖，可以减少冗余的代码。在Kotlin中，换行符通常
Android Room使用方法与底层原理详解你过来啊你 android room
Room是一个强大的SQLite对象映射库，旨在提供更健壮、更简洁、更符合现代开发模式的数据库访问方式。核心价值：消除大量样板代码，提供编译时SQL验证，强制结构化数据访问，并流畅集成LiveData、Flow和RxJava以实现响应式UI。一、使用流程(Step-by-StepWorkflow)Room的使用遵循一个清晰的结构化流程：添加依赖：//build.gradle(Module)depe
Java中HashMap的实现原理详解
HashMap是Java集合框架中的核心类，基于哈希表实现键值对（Key-Value）存储，提供O(1)时间复杂度的快速查找。以下从数据结构、哈希机制、冲突解决、扩容策略等角度详细解析其实现原理（基于Java8）。一、核心数据结构：数组+链表+红黑树transientNode[]table;//哈希桶数组staticclassNode{//链表节点finalinthash;finalKkey;Vv
JAVA学习-行为抽象和Lambda.Lambda表达式守护者170 java学习 java 学习开发语言
行为抽象和Lambda表达式是Java8引入的新特性，用于简化代码和提高代码的可读性。一、概述、特点、使用方法以及与其他比较和高级应用的说明：1.行为抽象：它是指将一段代码抽象为一种功能或行为，以便在需要时可以传递给其他方法或对象。行为抽象通常通过接口来定义，其中接口包含一个或多个抽象方法来表示不同的功能。2.Lambda表达式：Lambda表达式是一种简洁的语法，用于实现行为抽象。它可以替代匿名
CodeBuild构建文件复制到特定目录处理亚林瓜子 linux 运维服务器
version:0.2phases:install:runtime-versions:java:corretto17pre_build:commands:-mvn--versionbuild:commands:-mvnclean&&mvnpackage-Dmaven.test.skip=truepost_build:commands:-mkdir-ppackaged-artifact/.ebext
牛客 - 倒置字符串(java)
题目解题思路解题代码题链接题目解题思路解题代码importjava.util.*;publicclassMain{//定义翻转字符数组的方法publicstaticvoidreverse(char[]arr,intstart,intend){while(start
Gson、Fastjson 和 Jackson 对比解析小张0.0 JavaWeb json
目录1.Gson(Google)基本介绍：核心功能：特点：使用场景：2.Fastjson(Alibaba)基本介绍：核心功能：特点：使用场景：3.Jackson基本介绍：核心功能：特点：使用场景：4.对比总结5.选择建议Gson、Fastjson和Jackson这三种都是Java生态中广泛使用的JSON处理库，用于实现Java对象与JSON数据之间的相互转换。在项目中使用不同的方法即可调用不同的J
牛客-倒置字符串小张0.0 OJ算法题题目心得算法 leetcode 动态规划
1.题目描述2.题目链接倒置字符串_牛客题霸_牛客网3.代码解答importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerscanner=newScanner(System.in);Strings=scanner.nextLine();//按空格分割单词（处理多个连续空格的情况，split("
使用Meteor构建实时仪表板的完整指南杏花朵朵 Meteor 实时仪表板 Vue组件路由设置集合集成
背景简介随着现代Web应用对实时性和响应性的要求不断提高，开发人员需要使用强大的框架来构建能够满足这些需求的应用程序。Meteor作为一个全栈JavaScript框架，提供了一种快速开发实时Web应用的方法。本文将通过构建一个实时仪表板项目，详细探讨Meteor的特点和使用方法。Meteor简介Meteor是一个全栈JavaScript框架，用于构建Web应用程序。它的主要元素包括Web客户端、基
完善Meteor应用的NPM集成——meteorhacks/npm项目推荐尤峻淳Whitney
完善Meteor应用的NPM集成——meteorhacks/npm项目推荐1.项目基础介绍及编程语言meteorhacks/npm是一个开源项目，旨在为Meteor应用提供完整的NPM模块集成。该项目通过允许在Meteor应用内部使用NPM模块，极大地扩展了Meteor应用的功能性和灵活性。该项目的主要编程语言是JavaScript。2.项目核心功能项目的核心功能是提供一个桥接器，让开发者可以在M
node.js详解思静鱼 node.js node.js
文章目录一、什么是Node.js？二、Node.js的核心组成三、Node.js的运行机制（事件循环）四、常见内置模块（无需安装）五、应用场景六、npm包生态七、Node.js适合哪些人？八、优缺点总结一、什么是Node.js？Node.js是一个基于ChromeV8引擎的JavaScript运行时，用于构建高性能网络应用。由RyanDahl于2009年发布。允许你在服务器端使用JavaScrip
48Days-Day03 | 删除公共字符，两个链表的第一个公共结点，mari和shiny TinaAmber 笔试训练48Days 链表 java 算法
删除公共字符删除公共字符_牛客题霸_牛客网算法思路直接哈希，把第二个字符塞集合里面，遍历第一个，只要在集合里面有的就跳过代码importjava.util.HashSet;importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerscan=newScanner(System.in);Strin
面试实战，问题一，讲一下Springboot的作用
SpringBoot框架的主要作用和功能SpringBoot是由Pivotal团队开发的一个开源Java框架，旨在显著简化基于Spring框架的应用程序开发过程。它通过提供一系列自动化工具和约定，帮助开发者快速构建独立、生产就绪的应用程序。下面我将逐步介绍其主要作用和核心功能，确保回答清晰易懂。主要作用简化Spring应用程序开发：SpringBoot的核心目标是降低Spring框架的入门门槛和配
面试挂在阿里，庆幸拿到网易offer，一位三年Java岗面试总，细节如下小迁不秃头
前言15年毕业到现在有三年多了，最近去面试了阿里集团（菜鸟网络，蚂蚁金服），网易，滴滴，点我达，最终收到点我达，网易offer，蚂蚁金服二面挂掉，菜鸟网络一个月了还在流程中...最终有幸去了网易。但是要特别感谢点我达的领导及HR，真的非常非常好，很感谢他们一直的关照和指导。面试整体事项1.简历要准备好，联系方式一定要正确清晰醒目，项目经历按照时间倒序阐述，注意描述自己在项目中承担的职责，简历的模板
Selenium+Java 自动化测试入门到实践：从环境搭建到元素操作 yy鹈鹕灌顶 selenium java 测试工具
在自动化测试领域，Selenium凭借其强大的跨浏览器兼容性和灵活的API，成为Web应用测试的首选工具。而Java作为一门稳定且广泛应用的编程语言，与Selenium结合能构建出高效、可维护的自动化测试框架。本文将从环境搭建开始，逐步介绍Selenium+Java的核心用法，帮助新手快速上手。一、环境搭建：让工具跑起来1.安装Java开发环境Selenium的Java客户端需要依赖JDK，建议安
android单个页面切换_Android实现界面切换的两种方式 weixin_39939918 android单个页面切换
在初学Android开发过程中，一定会遇到实现两个界面互相切换的问题，有两种方法来实现这个功能，小编带大家一起学习一下；这种方法严格意义上不算是界面切换(纯属小编愚见)，因为它只是重新设置了一下界面的布局文件；比如我们在eclipse中新创建一个项目工程，会默认给我们两个文件，一个为MainActivity.java，另一个就是activity_main.xml，大家可以这样理解，MainActi
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

识别文件编码

概述

example

tika

cpdetector

TikaEncodingDetector

CharsetToolkit

你可能感兴趣的:(java)