weixin_30344995

使用阻塞式队列处理大数据

前言

我们都知道，JAVA对于文本文件在读时是独占的，即使可以用多线程去读也涉及到一个POS（定位读）的问题，这在设计框架上会带来许多的复杂性，同时也带来代码上的不可维护性以及会经常出一些千奇百怪的错误（多线程程序由其如此）。

传统阻塞式做法的敝病

特点：多线程，阻塞式导入
缺点：阻塞式，导入速度慢，线程状态无法精确记录，速度慢内存开销大

优秀的做法

多线程
非阻塞式
内存开销恒定
线程可以自由增加

我们将采用的做法

在数据提取的设计时基于以下几个指标考虑：

1）内存占用数始终必须恒定值

2）使用多线程非阻塞式算法，即不加线程锁机制

3）尽可能少的占用数据库的打开游标数和CPU效率

4）保证数据读和写的速度

在此，我们将利用阻塞队列+多线程来加快我们的大数据文件的处理速度即使用

BlockingQueue queue = new ArrayBlockingQueue(TASK_LIST_SIZE)

为什么要使用BlockingQueue

它会自动阻塞大于Queue Size的写入动作
栈的机制，get一个队列中的item，相应的Queue中的item数就会减少一个
因为有栈的机制，因此我们可以使用Queue中的这个机制无需多写一个Daemon线程来监控我们的所有的items是不是全取完了然后结束线程，更有甚者我看到过许多程序员写一个While循环，循环直至所有的item取完哪怕有很大一部分是在“空转”也在所不惜。
读/处理完全相分离，读完后也一定处理完了

核心代码

读文件代码

public void run() {
	try {
		enumerate(super.fileName, super.colNames);
	} catch (Exception e) {
		logger.error("read txtFileName error, parse excel quit because :"
				+ e.getMessage(), e);
		try {
			Thread.interrupted();
		} catch (Exception ee) {
		}
		} finally {
		try {
			queue.put(DUMMY);
				// BatchTaskQueue.getInstance().taskList.put(DUMMY);
		} catch (Exception ex) {
		}
	}

}

这边需要注意的点有2处：

enumerate就是读，在这段代码下还有一个具体的enumerate的实现，它是顶部递归直到把一个文件内所有的ITEM全部queue.put到队列中去
为什么finally块中要有一个queue.put(DUMMY)哈，一般程序员看到这个语句或者碰到一个什么DUMMY的最头疼了，这是什么个玩意的哈？

DUMMY在我们这边是这样定义的

protected static Map DUMMY = new HashMap();

它代表一个“空”的标志，比如说一个文件有50万条记录，那么我们的queue中其实会放入50万零1条记录，最后那个1条记录就是这个DUMMY，它告诉另一个take即真正处理导出的线程（可能是一堆的线程，因为我们用的是多线程处理）你已经处理到没有记录可以“再让你处理了“，因此呢。。。因此你得结束了。。。所以我在这边说读完文件，正好处理完指的就是这个，因此我们在处理线程（子线程）中对这个DUMMY是如下处理的：

while (!done) {
	Map data = (Map) queue.take();
	if (data == EnumerationEnginee.DUMMY) {
		//no data
		queue.put(data);
		done = true;
	} else {
		// if (data != null) {
		for (Iterator it = data.keySet().iterator(); it.hasNext();) {
			String key = String.valueOf(it.next());
			System.out.print("import:>>>[" + key + "]  :  ["+ data.get(key) + "]");
		}
		System.out.println("\n");						
	}
}

处理Queue中item的代码（多线程）

public void run() {
	boolean done = false;
	try {
		synchronized (this) {
			while (!done) {
				Map data = (Map) queue.take();
				if (data == EnumerationEnginee.DUMMY) {
					//no data
					queue.put(data);
					done = true;
				} else {
					// if (data != null) {
					for (Iterator it = data.keySet().iterator(); it.hasNext();) {
						String key = String.valueOf(it.next());
						System.out.print("import:>>>[" + key + "]  :  ["+ data.get(key) + "]");
					}
					System.out.println("\n");						
				}
			}
		}
	} catch (Exception e) {
		logger.error("import file into db error:" + e.getMessage(), e);
		try {
			Thread.interrupted();
		} catch (Exception ie) {
		}
		try {
			queue.put(EnumerationEnginee.DUMMY);
			done = true;
		} catch (Exception ex) {

		}
	} finally {
		threadSignal.countDown();
	}

}

代码解读

一切源于需求，一切源于”业务“场景，这边的业务不是让大家去做业务，而是”idea“。

老习惯，注意下面红色加粗文字，我们就喜欢“ 粗”，YEAH！

大家知道了一个BlockQueue，OK，这东西的好处在于：

你可以设一个size=100的Queue，然后把几十万数据往里扔，当扔到100个的时候它会自动帮你阻塞住，然后你可以起一堆的线程去扫这个Queue里的item而且你扫一个（queue.take()）一个，queue里实际的item就会自动减少一个，因此一个线程take后你不用担心另一个线程去”重复take”。这样我们的读和handle就可以相分离。
在多线程扫queue里的item时你要告诉线程，已经到queue的底啦，没东西可取了，你可以停了，因此当所有的handle线程都碰到queue的“底”时，它们就都会自动停止了，因此我说了，基本上可以做到读完文件中的条数，所有的handle线程也正好处理完。

最后：

我们以实际场景出发一般在handle时都是写数据库或者是NOSQL，因此涉及到一个key, value的问题，因此在这边我们往queue里put的是一个Map。

这就是核心设计思路，此处有一个地方需要高度注意：

DUMMY是一个“空”标准，可是你千万不能放一个NULL，因为一旦你放了NULL，在Queue.take, Queue.put时会直接出错，这将打乱整个线程的运行，因此你一定要New一个，如：

Map DUMMY = new HashMap();

看，要这样才行。

绝对不要Map DUMMP=null，那就完蛋了。D...D...D...D.E.A.D！

如何对整个多线程的process过程进行计时

请见 BatchImportExec.java中以下这行：

和 ImportTask.java中的

给出完整例子

业务需求

我们需要一个封装好的方法，传入一个文件，然后用多线程handle这个文件中的行数。
线程数，队列size可设
需要有一个计时的功能，即从处理开始到处理结束，这个过程一共耗时多少（不少人在多线程处理任务上的计时很头疼，在例子中一并解决该问题）
最后这个处理过程能够支持csv, txt, excel, 数据库...bla,bla,bla等多种格式的文件（由于篇幅有限我们在这边只实现 1)对于txt/csv和excel文件的处理 2)给出工厂方法可以便于大家自己去扩展这个FileParser。
处理大数据的excel文件 ，大家都知道我们无论是使用POI还是JXL都会遇上当EXCEL的行数超过65,535行时，你只要worksheet一下，整个JVM内存直接“爆掉”的经验，那么怎么去更高效更少内存的处理大数据量的EXCEL文件呢？如一个excel含有50万行数据时。。。你怎么处理？在此例子中一并给出解决方案。

主要框架代码

BatchDTO.java

package batchpoc;

import java.io.Serializable;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Date;
import java.util.List;
import java.util.Map;

public class BatchDTO implements Serializable {

	private String pkBtTaskId = "";
	private String taskName = "";
	private String actionType = "";
	private String taskDesc = "";
	private String status = "";
	private String commitedBy = "";
	private Date commitedTime = null;
	private String resultLog = "";
	private String batchId = "";
	private boolean headSkip = true;
	private String errorLogPath = "";
	private String logRootPath = "";
	private boolean errorFlag = false;
	private String campId = "";
	private String[] data = null;
	private long totalCount = 0;

	@Override
	public int hashCode() {
		final int prime = 31;
		int result = 1;
		result = prime * result
				+ ((actionType == null) ? 0 : actionType.hashCode());
		result = prime * result + ((batchId == null) ? 0 : batchId.hashCode());
		result = prime * result + ((campId == null) ? 0 : campId.hashCode());
		result = prime * result
				+ ((commitedBy == null) ? 0 : commitedBy.hashCode());
		result = prime * result
				+ ((commitedTime == null) ? 0 : commitedTime.hashCode());
		result = prime * result + Arrays.hashCode(data);
		result = prime * result + (errorFlag ? 1231 : 1237);
		result = prime * result
				+ ((errorLogPath == null) ? 0 : errorLogPath.hashCode());
		result = prime * result + (headSkip ? 1231 : 1237);
		result = prime * result
				+ ((logRootPath == null) ? 0 : logRootPath.hashCode());
		result = prime * result
				+ ((pkBtTaskId == null) ? 0 : pkBtTaskId.hashCode());
		result = prime * result
				+ ((resultLog == null) ? 0 : resultLog.hashCode());
		result = prime * result + ((status == null) ? 0 : status.hashCode());
		result = prime * result
				+ ((taskDesc == null) ? 0 : taskDesc.hashCode());
		result = prime * result
				+ ((taskName == null) ? 0 : taskName.hashCode());
		result = prime * result + (int) (totalCount ^ (totalCount >>> 32));
		return result;
	}

	public String getPkBtTaskId() {
		return pkBtTaskId;
	}

	public void setPkBtTaskId(String pkBtTaskId) {
		this.pkBtTaskId = pkBtTaskId;
	}

	public String getTaskName() {
		return taskName;
	}

	public void setTaskName(String taskName) {
		this.taskName = taskName;
	}

	public String getActionType() {
		return actionType;
	}

	public void setActionType(String actionType) {
		this.actionType = actionType;
	}

	public String getTaskDesc() {
		return taskDesc;
	}

	public void setTaskDesc(String taskDesc) {
		this.taskDesc = taskDesc;
	}

	public String getStatus() {
		return status;
	}

	public void setStatus(String status) {
		this.status = status;
	}

	public String getCommitedBy() {
		return commitedBy;
	}

	public void setCommitedBy(String commitedBy) {
		this.commitedBy = commitedBy;
	}

	public Date getCommitedTime() {
		return commitedTime;
	}

	public void setCommitedTime(Date commitedTime) {
		this.commitedTime = commitedTime;
	}

	public String getResultLog() {
		return resultLog;
	}

	public void setResultLog(String resultLog) {
		this.resultLog = resultLog;
	}

	public String getBatchId() {
		return batchId;
	}

	public void setBatchId(String batchId) {
		this.batchId = batchId;
	}

	public boolean isHeadSkip() {
		return headSkip;
	}

	public void setHeadSkip(boolean headSkip) {
		this.headSkip = headSkip;
	}

	public String getErrorLogPath() {
		return errorLogPath;
	}

	public void setErrorLogPath(String errorLogPath) {
		this.errorLogPath = errorLogPath;
	}

	public String getLogRootPath() {
		return logRootPath;
	}

	public void setLogRootPath(String logRootPath) {
		this.logRootPath = logRootPath;
	}

	public boolean isErrorFlag() {
		return errorFlag;
	}

	public void setErrorFlag(boolean errorFlag) {
		this.errorFlag = errorFlag;
	}

	public String getCampId() {
		return campId;
	}

	public void setCampId(String campId) {
		this.campId = campId;
	}

	public String[] getData() {
		return data;
	}

	public void setData(String[] data) {
		this.data = data;
	}

	public long getTotalCount() {
		return totalCount;
	}

	public void setTotalCount(long totalCount) {
		this.totalCount = totalCount;
	}

	@Override
	public boolean equals(Object obj) {
		if (this == obj) {
			return true;
		}
		if (obj == null) {
			return false;
		}
		if (!(obj instanceof BatchDTO)) {
			return false;
		}
		BatchDTO other = (BatchDTO) obj;
		if (actionType == null) {
			if (other.actionType != null) {
				return false;
			}
		} else if (!actionType.equals(other.actionType)) {
			return false;
		}
		if (batchId == null) {
			if (other.batchId != null) {
				return false;
			}
		} else if (!batchId.equals(other.batchId)) {
			return false;
		}
		if (campId == null) {
			if (other.campId != null) {
				return false;
			}
		} else if (!campId.equals(other.campId)) {
			return false;
		}
		if (commitedBy == null) {
			if (other.commitedBy != null) {
				return false;
			}
		} else if (!commitedBy.equals(other.commitedBy)) {
			return false;
		}
		if (commitedTime == null) {
			if (other.commitedTime != null) {
				return false;
			}
		} else if (!commitedTime.equals(other.commitedTime)) {
			return false;
		}
		if (!Arrays.equals(data, other.data)) {
			return false;
		}
		if (errorFlag != other.errorFlag) {
			return false;
		}
		if (errorLogPath == null) {
			if (other.errorLogPath != null) {
				return false;
			}
		} else if (!errorLogPath.equals(other.errorLogPath)) {
			return false;
		}
		if (headSkip != other.headSkip) {
			return false;
		}
		if (logRootPath == null) {
			if (other.logRootPath != null) {
				return false;
			}
		} else if (!logRootPath.equals(other.logRootPath)) {
			return false;
		}
		if (pkBtTaskId == null) {
			if (other.pkBtTaskId != null) {
				return false;
			}
		} else if (!pkBtTaskId.equals(other.pkBtTaskId)) {
			return false;
		}
		if (resultLog == null) {
			if (other.resultLog != null) {
				return false;
			}
		} else if (!resultLog.equals(other.resultLog)) {
			return false;
		}
		if (status == null) {
			if (other.status != null) {
				return false;
			}
		} else if (!status.equals(other.status)) {
			return false;
		}
		if (taskDesc == null) {
			if (other.taskDesc != null) {
				return false;
			}
		} else if (!taskDesc.equals(other.taskDesc)) {
			return false;
		}
		if (taskName == null) {
			if (other.taskName != null) {
				return false;
			}
		} else if (!taskName.equals(other.taskName)) {
			return false;
		}
		if (totalCount != other.totalCount) {
			return false;
		}
		return true;
	}

}

BatchTask.java

package batchpoc;

import java.util.concurrent.BlockingQueue;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public abstract class BatchTask{
	protected final Logger logger = LoggerFactory.getLogger(this.getClass());
	public final static String TXT_IMP_EXP = "101";
	public final static String EXCEL_IMP_EXP = "102";
	public final static String TASK_RUNNING = "2";
	public final static String TASK_FINISHED = "4";
	public final static String TASK_FAILED = "5";
	protected BatchDTO taskContext = null;

	public BatchTask(BatchDTO taskContext) {
		this.taskContext = taskContext;
	}

	public abstract void doBatch() throws Exception;
}

EnumerationEngineeFactory.java，用于构建处理“读”多种格式文件的FileParser

package batchpoc;

import java.util.Map;
import java.util.concurrent.BlockingQueue;

import util.Constants;

public class EnumerationEngineeFactory {

	public static EnumerationEnginee getInstance(BlockingQueue queue,
			String type, String fileName, String colNames, boolean skipHeader,
			BatchDTO taskContext) {
		EnumerationEnginee task = null;
		if (type.equals(Constants.ENUMERATION_TXT_TASK)) {
			return new TxtEnumerationTask(queue, fileName, colNames,
					skipHeader, taskContext);
		} else if (type.equals(Constants.ENUMERATION_EXCEL_TASK)) {
			return new XLSEnumerationTask(queue, fileName, colNames,
					skipHeader, taskContext);
		}
		return task;
	}
}

EnumerationEnginee.java

package batchpoc;

import java.io.File;
import java.util.HashMap;
import java.util.Map;
import java.util.concurrent.BlockingQueue;
import java.util.concurrent.CountDownLatch;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public abstract class EnumerationEnginee implements Runnable {
	protected String fileName = "";
	protected String colNames = "";
	protected final Logger logger = LoggerFactory.getLogger(this.getClass());
	protected boolean skipHeader = true;
	protected BatchDTO taskContext = null;
	protected static Map DUMMY = new HashMap();
	protected BlockingQueue queue = null;

	public EnumerationEnginee(BlockingQueue queue, String fileName,
			String colNames, boolean skipHeader, BatchDTO taskContext) {
		this.fileName = fileName;
		this.colNames = colNames;
		this.skipHeader = skipHeader;
		this.taskContext = taskContext;
		this.queue = queue;
	}

	public abstract void enumerate(String fileName, String strKeys)
			throws Exception;

	public abstract void run();

}

ImportTask.java

package batchpoc;

import java.util.Iterator;
import java.util.Map;
import java.util.concurrent.BlockingQueue;
import java.util.concurrent.CountDownLatch;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public class ImportTask implements Runnable {
	private final Logger logger = LoggerFactory.getLogger(getClass());
	private BatchDTO taskContext = null;
	private CountDownLatch threadSignal = null;
	BlockingQueue queue = null;

	public ImportTask(BlockingQueue queue, BatchDTO taskContext,
			CountDownLatch threadSignal) {
		this.taskContext = taskContext;
		this.threadSignal = threadSignal;
		this.queue = queue;
	}

	public void run() {
		boolean done = false;
		try {
			synchronized (this) {
				while (!done) {
					Map data = (Map) queue.take();
					if (data == EnumerationEnginee.DUMMY) {
						//no data
						queue.put(data);
						done = true;
					} else {
						// if (data != null) {
						for (Iterator it = data.keySet().iterator(); it
								.hasNext();) {
							String key = String.valueOf(it.next());
							System.out.print("import:>>>[" + key + "]  :  ["
									+ data.get(key) + "]");
						}
						System.out.println("\n");						
					}
				}
			}
		} catch (Exception e) {
			logger.error("import file into db error:" + e.getMessage(), e);
			try {
				Thread.interrupted();
			} catch (Exception ie) {
			}
			try {
				queue.put(EnumerationEnginee.DUMMY);
				done = true;
			} catch (Exception ex) {

			}
		} finally {
			threadSignal.countDown();
		}

	}
}

MapUtil.java-用于Map中根据key值排序用

package batchpoc;

/*
 * Author: Mk
 * Created By: 2012-08-23
 */
import java.util.Collections;
import java.util.Comparator;
import java.util.LinkedHashMap;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;

public class MapUtil {
	public static > Map sortByValue(
			Map map) {
		List> list = new LinkedList>(
				map.entrySet());
		Collections.sort(list, new Comparator>() {
			public int compare(Map.Entry o1, Map.Entry o2) {
				return (String.valueOf(o1.getKey())).compareTo(String
						.valueOf(o2.getKey()));
			}
		});

		Map result = new LinkedHashMap();
		for (Map.Entry entry : list) {
			result.put(entry.getKey(), entry.getValue());
		}
		return result;
	}
}

TxtEnumerationTask.java-这个就是专门用于读txt、csv等文本文件的FileParser，它在EnumerationEngineeFactory被调用

package batchpoc;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.Map;
import java.util.concurrent.BlockingQueue;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public class TxtEnumerationTask extends EnumerationEnginee {
	private final Logger logger = LoggerFactory.getLogger(this.getClass());

	public TxtEnumerationTask(BlockingQueue queue, String txtFileName,
			String colNames, boolean skipHeader, BatchDTO taskContext) {
		super(queue, txtFileName, colNames, taskContext.isHeadSkip(),
				taskContext);

	}

	@Override
	public void run() {
		try {
			enumerate(super.fileName, super.colNames);
		} catch (Exception e) {
			logger.error("read txtFileName error, parse excel quit because :"
					+ e.getMessage(), e);
			try {
				Thread.interrupted();
			} catch (Exception ee) {
			}
		} finally {
			try {
				queue.put(DUMMY);
			} catch (Exception ex) {
			}
		}

	}

	public void enumerate(String txtFileName, String strKeys) throws Exception {
		FileInputStream is = null;
		StringBuilder sb = new StringBuilder();
		String a_line = "";
		String[] columnNames = null;
		String[] cellValues = null;
		Map dataRow = new HashMap();
		int i = 0;
		try {
			File f = new File(txtFileName);
			if (f.exists()) {
				is = new FileInputStream(new File(txtFileName));
				BufferedReader br = new BufferedReader(new InputStreamReader(
						is, "UTF-8"));
				if (skipHeader) {
					br.readLine();
				}

				while ((a_line = br.readLine()) != null) {
					if (a_line.trim().length() > 0) {
						String[] data = a_line.split(",");
						for (int index = 0; index < data.length; index++) {
							dataRow.put(String.valueOf(index), data[index]);
						}
						dataRow = MapUtil.sortByValue(dataRow);
						queue.put(dataRow);
						dataRow = new HashMap();
						i++;
					}
				}
			}
		} catch (Exception e) {
			throw new Exception("import was interrupted, error happened in "
					+ i + "  row", e);
		} finally {
			try {
				if (is != null) {
					is.close();
					is = null;
				}
			} catch (Exception e) {
			}
		}
	}
}

XLSEnumerationTask.java-这个就是专门用于读excel文件的FileParser，它在EnumerationEngineeFactory被调用并且它支持读超过几十万行的XLS文件

package batchpoc;

import java.io.File;
import java.util.HashMap;
import java.util.Map;
import java.util.concurrent.BlockingQueue;

import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.openxml4j.opc.PackageAccess;

public class XLSEnumerationTask extends EnumerationEnginee {

	public XLSEnumerationTask(BlockingQueue queue, String txtFileName,
			String colNames, boolean skipHeader, BatchDTO taskContext) {
		super(queue, txtFileName, colNames, taskContext.isHeadSkip(),
				taskContext);
	}

	@Override
	public void enumerate(String fileName, String strKeys) throws Exception {
		File xlsxFile = new File(fileName);
		if (xlsxFile.exists()) {
			// The package open is instantaneous, as it should be.
			OPCPackage p = OPCPackage.open(xlsxFile.getPath(),
					PackageAccess.READ);
			Map dataMap = new HashMap();
			XLSXParser xlsxParser = new XLSXParser(p, queue, true);
			xlsxParser.process();
		}
	}

	@Override
	public void run() {
		try {
			enumerate(super.fileName, super.colNames);
		} catch (Exception e) {
			logger.error("read excel file error, parse excel quit because :"
					+ e.getMessage(), e);
			try {
				Thread.interrupted();
			} catch (Exception ee) {
			}
		} finally {
			try {
				// queue.put(DUMMY);
				queue.put(DUMMY);
			} catch (Exception ex) {
			}
		}

	}

}

XLSXParser.java-这个大了，就是用来处理大数据量的XLS文件的

package batchpoc;

import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.concurrent.BlockingQueue;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

import org.apache.poi.openxml4j.exceptions.OpenXML4JException;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.openxml4j.opc.PackageAccess;
import org.apache.poi.ss.usermodel.BuiltinFormats;
import org.apache.poi.ss.usermodel.DataFormatter;
import org.apache.poi.xssf.eventusermodel.ReadOnlySharedStringsTable;
import org.apache.poi.xssf.eventusermodel.XSSFReader;
import org.apache.poi.xssf.model.StylesTable;
import org.apache.poi.xssf.usermodel.XSSFCellStyle;
import org.apache.poi.xssf.usermodel.XSSFRichTextString;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.xml.sax.Attributes;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;

/**

 */
public class XLSXParser {

	private final Logger logger = LoggerFactory.getLogger(getClass());

	/**
	 * The type of the data value is indicated by an attribute on the cell. The
	 * value is usually in a "v" element within the cell.
	 */
	enum xssfDataType {
		BOOL, ERROR, FORMULA, INLINESTR, SSTINDEX, NUMBER,
	}

	int countrows = 0;

	/**
	 * Derived from http://poi.apache.org/spreadsheet/how-to.html#xssf_sax_api
	 * 
	 * Also see Standard ECMA-376, 1st edition, part 4, pages 1928ff, at
	 * http://www.ecma-international.org/publications/standards/Ecma-376.htm
	 * 
	 * A web-friendly version is http://openiso.org/Ecma/376/Part4
	 */
	class MyXSSFSheetHandler extends DefaultHandler {

		/**
		 * Table with styles
		 */
		private StylesTable stylesTable;
		private Map dataMap = new HashMap();
		/**
		 * Table with unique strings
		 */
		private ReadOnlySharedStringsTable sharedStringsTable;

		/**
		 * Destination for data
		 */
		// private final PrintStream output;

		/**
		 * Number of columns to read starting with leftmost
		 */
		// private final int minColumnCount;

		// Set when V start element is seen
		private boolean vIsOpen;

		// Set when cell start element is seen;
		// used when cell close element is seen.
		private xssfDataType nextDataType;

		// Used to format numeric cell values.
		private short formatIndex;
		private String formatString;
		private final DataFormatter formatter;

		private int thisRow = 0;
		private int thisColumn = -1;
		// The last column printed to the output stream
		private int lastColumnNumber = -1;

		// Gathers characters as they are seen.
		private StringBuffer value;

		/**
		 * Accepts objects needed while parsing.
		 * 
		 * @param styles
		 *            Table of styles
		 * @param strings
		 *            Table of shared strings
		 * @param cols
		 *            Minimum number of columns to show
		 * @param target
		 *            Sink for output
		 */

		public MyXSSFSheetHandler(StylesTable styles,
				ReadOnlySharedStringsTable strings, Map dataMap) {
			this.stylesTable = styles;
			this.sharedStringsTable = strings;
			// this.minColumnCount = cols;
			this.value = new StringBuffer();
			this.nextDataType = xssfDataType.NUMBER;
			this.formatter = new DataFormatter();
			this.dataMap = dataMap;
		}

		/*
		 * (non-Javadoc)
		 * 
		 * @see
		 * org.xml.sax.helpers.DefaultHandler#startElement(java.lang.String,
		 * java.lang.String, java.lang.String, org.xml.sax.Attributes)
		 */
		public void startElement(String uri, String localName, String name,
				Attributes attributes) throws SAXException {

			if ("inlineStr".equals(name) || "v".equals(name)) {
				vIsOpen = true;
				// Clear contents cache
				value.setLength(0);
			}
			// c => cell
			else if ("c".equals(name)) {
				// Get the cell reference
				String r = attributes.getValue("r");
				int firstDigit = -1;
				for (int c = 0; c < r.length(); ++c) {
					if (Character.isDigit(r.charAt(c))) {
						firstDigit = c;
						break;
					}
				}
				thisColumn = nameToColumn(r.substring(0, firstDigit));

				// Set up defaults.
				this.nextDataType = xssfDataType.NUMBER;
				this.formatIndex = -1;
				this.formatString = null;
				String cellType = attributes.getValue("t");
				String cellStyleStr = attributes.getValue("s");
				if ("b".equals(cellType))
					nextDataType = xssfDataType.BOOL;
				else if ("e".equals(cellType))
					nextDataType = xssfDataType.ERROR;
				else if ("inlineStr".equals(cellType))
					nextDataType = xssfDataType.INLINESTR;
				else if ("s".equals(cellType))
					nextDataType = xssfDataType.SSTINDEX;
				else if ("str".equals(cellType))
					nextDataType = xssfDataType.FORMULA;
				else if (cellStyleStr != null) {
					// It's a number, but almost certainly one
					// with a special style or format
					int styleIndex = Integer.parseInt(cellStyleStr);
					XSSFCellStyle style = stylesTable.getStyleAt(styleIndex);
					this.formatIndex = style.getDataFormat();
					this.formatString = style.getDataFormatString();
					if (this.formatString == null)
						this.formatString = BuiltinFormats
								.getBuiltinFormat(this.formatIndex);
				}
			}

		}

		/**
		 * 取值
		 * 
		 * @param str
		 * @return
		 */
		public String checkNumber(String str) {
			str = str.trim();
			String str2 = "";
			if (str != null && !"".equals(str)) {
				for (int i = 0; i < str.length(); i++) {
					if (str.charAt(i) >= 48 && str.charAt(i) <= 57) {
						str2 += str.charAt(i);
					}
				}
			}
			return str2.trim();
		}

		/*
		 * (non-Javadoc)
		 * 
		 * @see org.xml.sax.helpers.DefaultHandler#endElement(java.lang.String,
		 * java.lang.String, java.lang.String)
		 */

		public void endElement(String uri, String localName, String name)
				throws SAXException {
			String thisStr = null;
			// System.out.println("endElement----->" + name);
			// v => contents of a cell
			if ("v".equals(name)) {
				// Process the value contents as required.
				// Do now, as characters() may be called more than once
				switch (nextDataType) {

				case BOOL:
					char first = value.charAt(0);
					thisStr = first == '0' ? "FALSE" : "TRUE";
					break;

				case ERROR:
					thisStr = "\"ERROR:" + value.toString() + '"';
					break;

				case FORMULA:
					// A formula could result in a string value,
					// so always add double-quote characters.
					thisStr = '"' + value.toString() + '"';
					break;

				case INLINESTR:
					// TODO: have seen an example of this, so it's untested.
					XSSFRichTextString rtsi = new XSSFRichTextString(
							value.toString());
					if (rtsi != null) {
						thisStr = rtsi.toString().trim();
						thisStr = thisStr.substring(1, thisStr.length() - 1);
					}
					break;

				case SSTINDEX:
					String sstIndex = value.toString();
					try {
						int idx = Integer.parseInt(sstIndex);
						XSSFRichTextString rtss = new XSSFRichTextString(
								sharedStringsTable.getEntryAt(idx));
						if (rtss != null) {
							/*
							 * thisStr = rtss.toString().trim()
							 * .replaceAll("\\s*", "");
							 */
							thisStr = checkNumber(rtss.toString().trim());
							/*
							 * thisStr = thisStr .substring(1, thisStr.length()
							 * - 1);
							 */
						}
					} catch (NumberFormatException ex) {
						logger.error("Failed to parse SST index '" + sstIndex
								+ "': " + ex.toString(), ex);
					}
					break;

				case NUMBER:
					String n = value.toString();
					if (this.formatString != null)
						thisStr = formatter.formatRawCellContents(
								Double.parseDouble(n), this.formatIndex,
								this.formatString);
					else
						thisStr = n;
					break;

				default:
					thisStr = "(TODO: Unexpected type: " + nextDataType + ")";
					break;
				}

				// Output after we've seen the string contents
				// Emit commas for any fields that were missing on this row
				if (lastColumnNumber == -1) {
					lastColumnNumber = 0;
				}
				// for (int i = lastColumnNumber; i < thisColumn; ++i) {
				// System.out.print("   col: " + i + "  ");
				// }
				// Might be the empty string.
				// output.print(thisStr);
				// System.out.println(thisStr);
				// System.out.println("thisRow...." + thisRow);
				if (thisRow > 0 && thisStr != null
						&& thisStr.trim().length() > 0) {
					// logger.info("dataMap.put()");
					dataMap.put(String.valueOf(thisColumn), thisStr);

				}
				// Update column
				if (thisColumn > -1)
					lastColumnNumber = thisColumn;

			} else if ("row".equals(name)) {
				try {
					if (dataMap.keySet().size() > 0) {
						dataMap = MapUtil.sortByValue(dataMap);
						if (toQueue) {
							queue.put(dataMap);
						}
					}
				} catch (Exception e) {
					logger.error(
							"put data into queue error: " + e.getMessage(), e);
				}
				thisRow++;
				dataMap = new HashMap();
				lastColumnNumber = -1;

			}

		}

		/**
		 * Captures characters only if a suitable element is open. Originally
		 * was just "v"; extended for inlineStr also.
		 */
		public void characters(char[] ch, int start, int length)
				throws SAXException {
			if (vIsOpen)
				value.append(ch, start, length);
		}

		/**
		 * Converts an Excel column name like "C" to a zero-based index.
		 * 
		 * @param name
		 * @return Index corresponding to the specified name
		 */
		private int nameToColumn(String name) {
			int column = -1;
			for (int i = 0; i < name.length(); ++i) {
				int c = name.charAt(i);
				column = (column + 1) * 26 + c - 'A';
			}
			return column;
		}

	}

	// /////////////////////////////////////

	private OPCPackage xlsxPackage;
	private BlockingQueue queue = null;
	private boolean toQueue = false;

	// private int minColumns;

	// private PrintStream output;

	/**
	 * Creates a new XLSX -> XML converter
	 * 
	 * @param pkg
	 *            The XLSX package to process
	 * @param output
	 *            The PrintStream to output the CSV to
	 * @param minColumns
	 *            The minimum number of columns to output, or -1 for no minimum
	 */
	public XLSXParser(OPCPackage pkg, BlockingQueue queue, boolean toQueue) {
		this.xlsxPackage = pkg;
		this.queue = queue;
		this.toQueue = toQueue;
		// this.minColumns = minColumns;
	}

	/**
	 * Parses and shows the content of one sheet using the specified styles and
	 * shared-strings tables.
	 * 
	 * @param styles
	 * @param strings
	 * @param sheetInputStream
	 */
	public void processSheet(StylesTable styles,
			ReadOnlySharedStringsTable strings, InputStream sheetInputStream)
			throws IOException, ParserConfigurationException, SAXException {

		InputSource sheetSource = new InputSource(sheetInputStream);
		SAXParserFactory saxFactory = SAXParserFactory.newInstance();
		SAXParser saxParser = saxFactory.newSAXParser();
		XMLReader sheetParser = saxParser.getXMLReader();
		Map dataMap = new HashMap();
		ContentHandler handler = new MyXSSFSheetHandler(styles, strings,
				dataMap);
		sheetParser.setContentHandler(handler);
		sheetParser.parse(sheetSource);
	}

	/**
	 * Initiates the processing of the XLS workbook file to CSV.
	 * 
	 * @throws IOException
	 * @throws OpenXML4JException
	 * @throws ParserConfigurationException
	 * @throws SAXException
	 */
	public void process() throws IOException, OpenXML4JException,
			ParserConfigurationException, SAXException {

		ReadOnlySharedStringsTable strings = new ReadOnlySharedStringsTable(
				this.xlsxPackage);
		XSSFReader xssfReader = new XSSFReader(this.xlsxPackage);

		StylesTable styles = xssfReader.getStylesTable();
		XSSFReader.SheetIterator iter = (XSSFReader.SheetIterator) xssfReader
				.getSheetsData();
		int index = 0;
		while (iter.hasNext()) {
			InputStream stream = iter.next();
			String sheetName = iter.getSheetName();
			// System.out.println(sheetName + " [index=" + index + "]:");
			processSheet(styles, strings, stream);
			stream.close();
			++index;
		}
	}

	public static void main(String[] args) throws Exception {
		/*
		 * if (args.length < 1) { System.err.println("Use:");
		 * System.err.println("  XLSX2CSV  [min columns]"); return; }
		 */

		// File xlsxFile = new File(args[0]);
		File xlsxFile = new File("d:/test.xlsx");
		if (!xlsxFile.exists()) {
			System.err
					.println("Not found or not a file: " + xlsxFile.getPath());
			return;
		}

		int minColumns = -1;
		// if (args.length >= 2)
		// minColumns = Integer.parseInt(args[1]);

		minColumns = 2;
		// The package open is instantaneous, as it should be.
		OPCPackage p = OPCPackage.open(xlsxFile.getPath(), PackageAccess.READ);
		XLSXParser xlsxParser = new XLSXParser(p, null, false);
		xlsxParser.process();
	}

}

这个用的是 POI3.5以上版本并且需要有下面这几个LIB库辅助支持才能编译和运行通过：


	
		org.apache.poi
		poi
		${poi_version}
	
	
		org.apache.poi
		poi-ooxml-schemas
		${poi_version}
	
	
		org.apache.poi
		poi-scratchpad
		${poi_version}
	
        
	org.apache.poi
	poi-ooxml
	${poi_version}

我在这边使用的是3.8，回头会给出详细的pom.xml文件

它不是按照传统的load内存的文式去读这个xls文件，而是把xls文件当成一个xml然后以SAX的模式去读取这个excel。

关键处理部位

public void endElement(String uri, String localName, String name)方法中如下语句：

if (thisRow > 0 && thisStr != null&& thisStr.trim().length() > 0) {
	// logger.info("dataMap.put()");
	dataMap.put(String.valueOf(thisColumn), thisStr);
					
}

和

} else if ("row".equals(name)) {
		try {
			if (dataMap.keySet().size() > 0) {
				dataMap = MapUtil.sortByValue(dataMap);
				if (toQueue) {
					queue.put(dataMap);
				}
			}
		} catch (Exception e) {
			logger.error(
					"put data into queue error: " + e.getMessage(), e);
		}

其它辅助类

UUID.java

package batchpoc;

public class UUID {
	protected static int count = 0;

	public static synchronized String getUUID() {
		count++;
		long time = System.currentTimeMillis();

		String timePattern = Long.toHexString(time);
		int leftBit = 14 - timePattern.length();
		if (leftBit > 0) {
			timePattern = "0000000000".substring(0, leftBit) + timePattern;
		}

		String uuid = timePattern
				+ Long.toHexString(Double.doubleToLongBits(Math.random()))
				+ Long.toHexString(Double.doubleToLongBits(Math.random()))
				+ "000000000000000000";

		uuid = uuid.substring(0, 32).toUpperCase();

		return uuid;
	}
}

GuidCreator.java

package batchpoc;

import java.net.*;
import java.util.*;
import java.security.*;

public class GuidCreator {
	private String seedingString = "";
	private String rawGUID = "";
	private boolean bSecure = false;
	private static Random myRand;
	private static SecureRandom mySecureRand;

	private static String s_id;

	public static final int BeforeMD5 = 1;
	public static final int AfterMD5 = 2;
	public static final int FormatString = 3;
	static {
		mySecureRand = new SecureRandom();
		long secureInitializer = mySecureRand.nextLong();
		myRand = new Random(secureInitializer);
		try {
			s_id = InetAddress.getLocalHost().toString();
		} catch (UnknownHostException e) {
			e.printStackTrace();
		}
	}

	public GuidCreator() {
	}

	/*
	 * Constructor with security option. Setting secure true enables each random
	 * number generated to be cryptographically strong. Secure false defaults to
	 * the standard Random function seeded with a single cryptographically
	 * strong random number.
	 */
	public GuidCreator(boolean secure) {
		bSecure = secure;
	}

	/*
	 * Method to generate the random GUID
	 */
	private void getRandomGUID(boolean secure) {
		MessageDigest md5 = null;
		StringBuffer sbValueBeforeMD5 = new StringBuffer();

		try {
			md5 = MessageDigest.getInstance("MD5");
		} catch (NoSuchAlgorithmException e) {
			System.out.println("Error: " + e);
		}

		try {
			long time = System.currentTimeMillis();
			long rand = 0;

			if (secure) {
				rand = mySecureRand.nextLong();
			} else {
				rand = myRand.nextLong();
			}

			// This StringBuffer can be a long as you need; the MD5
			// hash will always return 128 bits. You can change
			// the seed to include anything you want here.
			// You could even stream a file through the MD5 making
			// the odds of guessing it at least as great as that
			// of guessing the contents of the file!
			sbValueBeforeMD5.append(s_id);
			sbValueBeforeMD5.append(":");
			sbValueBeforeMD5.append(Long.toString(time));
			sbValueBeforeMD5.append(":");
			sbValueBeforeMD5.append(Long.toString(rand));

			seedingString = sbValueBeforeMD5.toString();
			md5.update(seedingString.getBytes());

			byte[] array = md5.digest();
			StringBuffer sb = new StringBuffer();
			for (int j = 0; j < array.length; ++j) {
				int b = array[j] & 0xFF;
				if (b < 0x10)
					sb.append('0');
				sb.append(Integer.toHexString(b));
			}

			rawGUID = sb.toString();

		} catch (Exception e) {
			System.out.println("Error:" + e);
		}
	}

	public String createNewGuid(int nFormatType, boolean secure) {
		getRandomGUID(secure);
		String sGuid = "";
		if (BeforeMD5 == nFormatType) {
			sGuid = this.seedingString;
		} else if (AfterMD5 == nFormatType) {
			sGuid = this.rawGUID;
		} else {
			sGuid = this.toString();
		}
		return sGuid;
	}

	public String createNewGuid(int nFormatType) {
		return this.createNewGuid(nFormatType, this.bSecure);
	}

	/*
	 * Convert to the standard format for GUID (Useful for SQL Server
	 * UniqueIdentifiers, etc.) Example: C2FEEEAC-CFCD-11D1-8B05-00600806D9B6
	 */
	public String toString() {
		String raw = rawGUID.toUpperCase();
		StringBuffer sb = new StringBuffer();
		sb.append(raw.substring(0, 8));
		sb.append("-");
		sb.append(raw.substring(8, 12));
		sb.append("-");
		sb.append(raw.substring(12, 16));
		sb.append("-");
		sb.append(raw.substring(16, 20));
		sb.append("-");
		sb.append(raw.substring(20));

		return sb.toString();
	}

	public static void main(String args[]) {
		GuidCreator myGUID = new GuidCreator();
//		System.out.println("Seeding String="
//				+ myGUID.createNewGuid(GuidCreator.BeforeMD5));
//		System.out.println("rawGUID="
//				+ myGUID.createNewGuid(GuidCreator.AfterMD5));
		System.out.println("RandomGUID="
				+ myGUID.createNewGuid(GuidCreator.AfterMD5));
	}
}

GuidByRandom.java

package batchpoc;

import java.text.SimpleDateFormat;

public class GuidByRandom {
	private static int cnt = 0;

	public static synchronized String getGUID() throws Exception {
		StringBuffer code = new StringBuffer();
		try {
			java.util.Date dt = new java.util.Date(System.currentTimeMillis());
			SimpleDateFormat fmt = new SimpleDateFormat("yyyyMMddHHmmssSSS");//format system time 
			String randomCode = fmt.format(dt);
			cnt = (cnt + 1) % 10000; // You are free the set %100 to
			// 1000,100000
			code.append(randomCode).append(cnt);
			return code.toString();
		} catch (Exception e) {
			throw new Exception("createFileName error:" + e.getMessage(), e);
		}
	}

	public static void main(String[] args) throws Exception {
		System.out.println(getGUID());
	}
}

Constants.java

package util;

public class Constants {

	public final static String ENUMERATION_EXCEL_TASK = "excel";
	public final static String ENUMERATION_TXT_TASK = "txt";
}

StringUtil.java

package util;

import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.util.Calendar;
import java.util.Date;
import java.sql.Blob;
import java.text.*;
import java.util.regex.Pattern;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public class StringUtil {
	protected final static Logger logger = LoggerFactory
			.getLogger(StringUtil.class);

	public static Object unserializeObj(byte[] bytes) {
		ByteArrayInputStream bais = null;
		try {
			// 反序列化
			bais = new ByteArrayInputStream(bytes);
			ObjectInputStream ois = new ObjectInputStream(bais);
			return ois.readObject();
		} catch (Exception e) {
			logger.error("unserializeObj error:" + e.getMessage(), e);
		}
		return null;
	}

	public static byte[] serializeObj(Object obj) {
		ByteArrayOutputStream bout = null;
		ObjectOutputStream out = null;
		byte[] bytes = null;
		try {
			bout = new ByteArrayOutputStream();
			out = new ObjectOutputStream(bout);
			out.writeObject(obj);
			out.flush();
			bytes = bout.toByteArray();
		} catch (Exception e) {
			logger.error("serializeObject error:" + e.getMessage(), e);
		} finally {
			try {
				if (out != null) {
					out.close();
					out = null;
				}
			} catch (Exception e) {
			}
			try {
				if (bout != null) {
					bout.close();
					bout = null;
				}
			} catch (Exception e) {
			}
		}
		return bytes;
	}

	public static String escpaeCharacters(String s) {
		String val = "";
		try {
			if (s == null || s.length() < 1) {
				return s;
			}
			StringBuilder sb = new StringBuilder(s.length() + 16);
			for (int i = 0; i < s.length(); i++) {
				char c = s.charAt(i);
				switch (c) {
				case '\'':
					sb.append("′");// ´");
					break;
				case '′':
					sb.append("′");// ´");
					break;
				case '\"':
					sb.append(""");
					break;
				case '＂':
					sb.append(""");
					break;
				case '&':
					sb.append("＆");
					break;
				case '#':
					sb.append("＃");
					break;
				case '\\':
					sb.append('￥');
					break;

				case '>':
					sb.append('＞');
					break;
				case '<':
					sb.append('＜');
					break;
				default:
					sb.append(c);
					break;
				}
			}
			val = sb.toString();
			return val;
		} catch (Exception e) {
			logger.error("sanitized characters error: " + e.getMessage(), e);
			return s;
		}
	}

	public static boolean isNotNullOrEmpty(String str) {
		return str != null && str.trim().length() > 0;
	}

	public static boolean isNull(Object... params) {
		if (params == null) {
			return true;
		}

		for (Object obj : params) {
			if (obj == null) {
				return true;
			}
		}
		return false;
	}

	public static String getString(Object val) {
		String rtnVal = "";
		try {
			rtnVal = (String) val;
			rtnVal = rtnVal.trim();
		} catch (Exception e) {
			rtnVal = "";
		}
		return rtnVal;
	}

	public static String nullToStr(Object val) {
		return ((val == null) ? "" : String.valueOf(val).trim());
	}

	public static int getInt(Object val) {
		int rtnVal = -1;
		String rtnValStr = "-1";
		try {
			rtnValStr = (String) val;
			rtnValStr = rtnValStr.trim();
			rtnVal = Integer.parseInt(rtnValStr);
		} catch (Exception e) {
			rtnVal = -1;
		}

		return rtnVal;
	}

	public static String convertDateToStr(Date dt) {
		String dateStr = "";
		DateFormat format = new SimpleDateFormat("yyyy-MM-dd");
		if (dt != null) {
			dateStr = format.format(dt);
		}
		return dateStr;
	}

	public static String convertDateToStr(Date dt, String formatter) {
		String dateStr = "";
		DateFormat format = new SimpleDateFormat(formatter);
		if (dt != null) {
			dateStr = format.format(dt);
		}
		return dateStr;
	}

	public static Date convertStrToDateByFormat(String dateStr) {
		String inputDateStr = "";
		SimpleDateFormat sf = new SimpleDateFormat("yyyy-MM-dd");
		Date date = null;
		try {
			inputDateStr = dateStr;
			if (dateStr == null || dateStr.trim().length() < 1) {
				inputDateStr = "1900-01-01";
			}
			java.util.Date d = sf.parse(inputDateStr.toString().trim());
			date = new Date(d.getTime());
		} catch (Exception e) {
			logger.error(
					"convertStrToDateByFormat(" + dateStr + ") error:"
							+ e.getMessage(), e);
		}
		return date;
	}

	public static Date convertStrToDateByFormat(String dateStr, String formatter) {
		String inputDateStr = "";
		SimpleDateFormat sf = new SimpleDateFormat(formatter);
		Date date = null;
		try {
			inputDateStr = dateStr;
			if (dateStr == null || dateStr.trim().length() < 1) {
				inputDateStr = "1900-01-01 01:01:01";
			}
			java.util.Date d = sf.parse(inputDateStr.toString().trim());
			date = new Date(d.getTime());
		} catch (Exception e) {
			logger.error(
					"convertStrToDateByFormat(" + dateStr + ") error:"
							+ e.getMessage(), e);
		}
		return date;
	}

	public static Object deepcopy(Object src) throws Exception {
		ByteArrayOutputStream byteout = null;
		ObjectOutputStream out = null;
		ByteArrayInputStream bytein = null;
		ObjectInputStream in = null;
		Object dest = null;
		try {
			byteout = new ByteArrayOutputStream();
			out = new ObjectOutputStream(byteout);
			out.writeObject(src);

			bytein = new ByteArrayInputStream(byteout.toByteArray());

			in = new ObjectInputStream(bytein);

			dest = (Object) in.readObject();
		} catch (Exception e) {
			throw new Exception("deep copy object[" + src
					+ "] error cause by: " + e.getMessage(), e);
		} finally {
			try {
				if (in != null) {
					in.close();
					in = null;
				}
			} catch (Exception e) {
			}
			try {
				if (bytein != null) {
					bytein.close();
					bytein = null;
				}
			} catch (Exception e) {
			}
			try {
				if (out != null) {
					out.close();
					out = null;
				}
			} catch (Exception e) {
			}
			try {
				if (byteout != null) {
					byteout.close();
					byteout = null;
				}
			} catch (Exception e) {
			}
		}
		return dest;

	}

	public static Object blobToObject(Blob blob) throws Exception {
		Object obj = null;
		ObjectInputStream in = null;
		try {
			in = new ObjectInputStream(blob.getBinaryStream());
			obj = in.readObject();
			return obj;
		} catch (Exception e) {
			throw new Exception(e);
		} finally {
			try {
				if (in != null) {
					in.close();
					in = null;
				}
			} catch (Exception e) {
			}
		}
	}

	public static long dateSub(String dateStr) throws ParseException {
		SimpleDateFormat sdf = new SimpleDateFormat("yyyy/MM/dd");
		java.util.Date d = sdf.parse(dateStr);
		Calendar calendar = Calendar.getInstance();
		calendar.setTime(new Date());
		long currentTime = calendar.getTimeInMillis();
		calendar.setTime(d);
		long timeEnd = calendar.getTimeInMillis();
		long theDay = (timeEnd - currentTime) / (1000 * 60 * 60 * 24);
		return theDay;
	}

	public static boolean isNumeric(String str) {
		Pattern pattern = Pattern.compile("[0-9]*");
		return pattern.matcher(str).matches();
	}
}

工程使用maven，因此给出pom.xml完整内容


	4.0.0
	webpoc
	webpoc
	0.0.1-SNAPSHOT
	war
	
		UTF-8
		1.8
		9.3.3.v20150827
		1.7.7
		4.2.1.RELEASE
		1.0.2.RELEASE
		2.5
		5.8.0
		3.8
	
	

		
		
			org.apache.poi
			poi
			${poi_version}
		
		
			org.apache.poi
			poi-ooxml-schemas
			${poi_version}
		
		
			org.apache.poi
			poi-scratchpad
			${poi_version}
		
		
			org.apache.poi
			poi-ooxml
			${poi_version}
		
		
		
		
			org.apache.activemq
			activemq-all
			5.8.0
		

		
			org.apache.activemq
			activemq-pool
			${activemq_version}
		

		
			org.apache.xbean
			xbean-spring
			3.16
		
		

		
		
			javax.servlet
			servlet-api
			${javax.servlet-api.version}
			provided
		
		
			javax.servlet.jsp
			jsp-api
			2.1
			provided
		
		
			javax.servlet
			jstl
			1.2
		
		

		
		
			redis.clients
			jedis
			2.5.2
		
		
			org.redisson
			redisson
			1.0.2
		
		
		
			org.slf4j
			jcl-over-slf4j
			${slf4j.version}
		
		
			org.slf4j
			slf4j-log4j12
			${slf4j.version}
		

		
		
			org.springframework.data
			spring-data-redis
			1.5.2.RELEASE
		
		
			org.springframework
			spring-webmvc
			${spring.version}
			
				
					commons-logging
					commons-logging
				
			
		
		
			org.springframework
			spring-tx
			${spring.version}
		
		
			org.springframework
			spring-aop
			${spring.version}
		
		
			org.springframework
			spring-context-support
			${spring.version}
		
		
			org.springframework.data
			spring-data-redis
			1.4.1.RELEASE
		

		
			org.springframework
			spring-orm
			${spring.version}
		


		
			org.springframework
			spring-jms
			${spring.version}
		

		
			org.springframework.session
			spring-session
			${spring.session.version}
		
		
			org.springframework
			spring-core
			${spring.version}
		
		
	
	
		src
		
			
				maven-compiler-plugin
				3.1
				
					1.7
					1.7
				
			
			
				maven-war-plugin
				2.4
				
					WebContent
					false

给出实际调用代码-即如何使用这套批处理数据框架

package batchpoc;

import java.util.ArrayList;
import java.util.Date;
import java.util.List;

import util.Constants;

public class TestImpLogfile {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		//final String fileName = "d:/log_small.csv";
		final String fileName = "d:/test_big.xlsx";
		try {
			GuidCreator myGUID = new GuidCreator();
			BatchDTO taskContext = new BatchDTO();
			String batchId = myGUID.createNewGuid(GuidCreator.AfterMD5);
			taskContext.setPkBtTaskId(batchId);
			taskContext.setTaskName(BatchTask.TXT_IMP_EXP);
			taskContext.setTaskDesc(fileName);
			taskContext.setCommitedBy("unittest");
			taskContext.setStatus(BatchTask.TASK_RUNNING);
			taskContext.setCommitedTime(new Date());
			taskContext.setBatchId(batchId);
			taskContext.setHeadSkip(true);
			//BatchImportExec task = new BatchImportExec(
			//		Constants.ENUMERATION_TXT_TASK, fileName, "", taskContext);
			task.doBatch();
			// if (data != null && data.size() > 0) {
			// for (int i = 0; i < data.size(); i++) {
			// System.out.println("rows: " + i + "=====" + data.get(i));
			// }
			// }
			BatchImportExec task = new BatchImportExec( Constants.ENUMERATION_EXCEL_TASK, fileName, "", taskContext);
                        task.doBatch();
		} catch (Exception e) {
			e.printStackTrace();
		}

	}

}

上面我们处理一个含有50万记录的excel文件

读和handle只用了15秒（内存8GB，2核CPU），我们还只是开了如下的线程数和队列：

来看看读一个20万行记录以逗号“,“分隔的CSV文件的效率吧。

这个文件的列数会多一些，也就用了20秒左右

经过我实际测试在服务器上，16GB-32GB，4-6核CPU上运行一个导入50万条数据的EXCEL至ORACLE或者是SQL SERVER也只是在5分-8分钟内的事，内存占用不过几十MB，handle线程条数也不过5-10条（等于数据库连接占用数据）。。。。。。在此我想到了07年。。。。。。我的以前有一个上家公司。。。。。。他们的一个批处理无法是读一个含有8000行，3列的txt文件导入至oracle单表，竟然要导2-4小时，有时还会OOM。。。。。。感叹中。

当然，大家可能有更好的现在的框架或者是开源的组件如：spring batch, spring cloud来更高效简单的处理这样的批处理任务，但这篇文章的目的是在于使用尽可能简单的方式让大家可以廉价高效更重要的是通过此篇我们知道了：

如何处量含有大数据量的excel文件（超过65,535行记录）
BlockQueue的妙用
如何在线程任务中计算整个过程耗时的方法

笔者拿这东西写过一个按照输入关键字找含有相关内容的文本文件的搜索引擎，搜索速度比windows自带搜索快了许多，是java swing界面的，有兴趣的同鞋也可以自己去做做玩玩。

上述方案可以改进之处留给读者当回家作业吧

如果要处理的文本文件不是用逗号”,“分隔的，如何做到动态可配置Txt文件Parser时的分隔符？
如何支持多任务操作，即一个系统中对于多个不同格式的文件甚至数据库同时进行批处理，如：先启动一个100万行的txt文件的导入工作，再启动一个100万行xls文件的导入，再启动对MYSQL中一张含有100万行记录的表导入到oracle的一个表中，这样系统中有3个任务，这3个任务都是10个线程+1000个queue.size的任务，如何知道它们目前的运行情况是pending, finished还是stop or fail，甚至可以人为的去stop, suspend, restart这些批处理任务呢？

由其是第2点，处理好第2点，这个批处理导入导出框架就可以直接复用了。

下次博文将更精彩，欢迎关注。

完整代码

戳我下载

转载于:https://www.cnblogs.com/aiwz/p/6154608.html

你可能感兴趣的:(使用阻塞式队列处理大数据)

知乎高赞！BAT大牛的大数据学习之路！数据工程师金牛大数据大数据人工智能机器学习数据挖掘数据分析
前几天，网易云音乐公布了一份年度音乐总结。让我惊叹的是在这个大数据时代底下，比起我们自己，大数据似乎更懂得我们。如果科技更进一步，就像《奇葩说》中一集辩题里所说的，它有可能可以帮我们匹配到那个灵魂相契的人。有人觉得这个现象很恐怖，但在我看来，人的恐惧是源自于未知。如果能顺应着时代的步伐，一起向前，对它了解再加深一点，也许我们就会爱上它。在这里相信有许多想要学习大数据的同学，大家可以+下大数据学习裙
数据库：mysqldump用法详解
mysqldump用法详解：MySQL数据库备份工具mysqldump是MySQL提供的一款用于备份和恢复数据库的命令行工具，能够将数据库的数据和结构导出为SQL文件，便于后续的数据迁移、恢复或灾难恢复等操作。通过合理使用mysqldump，可以灵活地备份数据库的不同部分，并保证数据的安全性。下面将对mysqldump的常用命令进行详细说明。1.备份整个数据库备份整个数据库时，只需使用以下命令：m
解决MySQL与Redis缓存一致性的问题
解决MySQL与Redis缓存一致性问题的策略在分布式系统中，MySQL数据库与Redis缓存的配合是常见的设计模式，尤其在高并发场景下，通过缓存来减轻数据库压力。然而，缓存和数据库的同步问题常常成为瓶颈，主要体现在缓存数据与数据库数据的一致性问题。为了有效解决这一问题，我们可以采取以下几种策略：1.缓存穿透缓存穿透是指查询的数据在缓存和数据库中都不存在的情况。为了避免恶意请求导致数据库压力过大，
PolarDB分布式版V2.0：安全可靠的集中分布式一体化数据库管理软件 mysql数据库sql
阿里云PolarDB数据库管理软件（分布式版）V2.0（简称PolarDB分布式版V2.0）采用Shared-nothing架构，兼容MySQL开源生态构建产品竞争力，支持集中式和分布式一体化形态，具备金融级数据高可用、高可靠和分布式水平扩展能力。目前有以下产品方案供用户选择：PolarDB分布式版V2.0（公有云版本）立即查看方案PolarDB分布式版V2.0（混合云版本）立即咨询PolarDB
华为OD机试E卷 - 单词接龙（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c++C
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述单词接龙的规则是：可用于接龙的单词首字母必须要前一个单词的尾字母相同；当存在多个首字母相同的单词时，取长度最长的单词，如果长度也相等，则取字典序最小的单词；已经参与接龙的单词不能重复使用。现给定一组全部由小写字母组成单词数组，并指定其中的一个单词作为起始单词，进行单词接龙，请输出最长的单词串，单词串是单词拼接而成，中间
debian12 安装docker以及docker-compose bali16 Linux debian docker
最快的方法请确保你的下载源已经是使用了国内镜像源,否则请你先修改apt镜像源为国内源再进行下载!设置国内镜像源安装dockeraptinstalldocker.io安装docker-composeaptinstalldocker-compose以前的方法现在镜像站，跟docker都访问不了，不能用这个了。更新软件包列表确保您的系统软件包列表是最新的。您可以通过运行以下命令来更新软件包列表：sudo
Java 大视界 -- Java 大数据平台迁移与升级策略：平滑过渡的方法（十四）青云交大数据新视界 Java 大视界大数据平台迁移升级大数据平台升级平滑过渡数据迁移应用程序适配性能测试 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 大数据测试框架与实践：确保数据处理质量（十二）青云交大数据新视界 Java 大视界大数据大数据测试框架 Java 大数据测试测试框架数据处理质量数据清洗数据采集 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 分布式协调服务：Zookeeper 在大数据中的应用（十一）青云交 Java 大视界大数据新视界大数据 Zookeeper 分布式协调数据存储应用场景性能优化节点操作 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 与大数据存储优化：HBase 与 Cassandra 应用（十）青云交大数据新视界 #HBase 之道 Java 大视界大数据 hbase Cassandra 大数据存储优化性能优化数据处理社交网络 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
50个 Java 最佳实践小技巧
Java是一种广泛使用的面向对象编程语言，凭借其平台无关性、丰富的类库和强大的功能，已经成为了软件开发中的主流语言之一。为了提高代码质量、性能和可维护性，开发者在写Java程序时可以遵循一些最佳实践。以下是50个Java最佳实践小技巧，帮助开发者提高代码质量，写出更高效、可读、可维护的Java程序。1.使用合适的命名规则类名：采用大驼峰命名法（PascalCase），例如UserAccount。方
Gateway的配置与使用
SpringCloudGateway配置与使用SpringCloudGateway是一个轻量级的API网关解决方案，它是SpringCloud微服务架构中的关键组件，主要用于请求的路由、过滤和转发。通过SpringCloudGateway，开发者能够以高效且灵活的方式管理微服务的API接入和流量控制。本文将详细介绍如何配置和使用SpringCloudGateway，并通过实际代码示例来展示配置过程
大数据新视界 -- Hive 数据生命周期自动化管理（2 - 16 - 12）青云交大数据新视界 #Hive 之道 Hive 数据生命周期自动化管理数据处理机器学习数据采集性能优化大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
nodejs获取git信息
在一个长期维护的项目中，为了更好排查之前已上线或使用的版本的问题，我们可以在浏览器控制台中打印出git信息，如：git号、git提交时间、打包时间等，也可以生成一个git信息文件，方便后续排查问题。上代码constexecSync=require('child_process').execSync;constfs=require('fs');constpath=require('path');//
Linux 下 kill 孙子进程（qbit）
qbit在使用Python的FastAPI框架，在Python脚本中用os.system调用了uvicorn启动程序，调用链条大致如下python3main.py#进程1--shpython3uvicorn#进程2--python3uvicorn#进程3qbit发现直接kill进程1或进程2，并不能终止进程3。即kill某个进程，并不一定能终止该进程的子进程和孙子进程。于是通过找到孙子进程的方式来
玩转前端正则表达式正则表达式前端后端
文章首发本人博客，由于格式和图片解析问题，可以前往阅读原文JavaScript中的正则是Perl的大子集，但Perl内部的一些表达式却没有继承正则表达式是用于匹配字符串中字符组合的模式(可参考MDN教程)扫码关注公粽号，查看更多优质文章一个例子使用正则将一个数字以科学计数法进行表示，如：//10000000=>10,000,000现在用一个正则来解决conststr='10000000'const
大数据新视界 -- Hive 数据倾斜问题剖析与解决方案（2 - 16 - 5）青云交大数据新视界 #Hive 之道 Hive 数据倾斜解决方案数据仓库数据预处理 SQL 优化 sql 大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 数据抽样实战与结果评估（2 - 16 - 2）青云交大数据新视界 #Hive 之道 Hive 数据抽样实战结果评估大数据应用 Hive 优化策略大数据 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 数据抽样：高效数据探索的方法（2 - 16 - 1）青云交大数据新视界 #Hive 之道 Hive 数据抽样大数据处理随机抽样分层抽样基于桶抽样结果评估大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
AOP 项目中的应用 javaspringaop
在实际的项目中，AOP（面向切面编程）通常被用于处理一些横切关注点，这些关注点通常与业务逻辑无关，但却需要应用到多个业务逻辑中。以下是一些常见的AOP应用场景：1.日志记录目的：在方法执行的前后，记录系统的运行日志，通常用于监控、调试和故障排查。AOP应用：通过AOP切面，在每个方法执行前后插入日志记录逻辑，而无需在每个方法中显式地调用日志记录代码。示例：记录方法的执行时间、输入参数、返回结果等信
公司被薅了2.6W，出bug的代码还是我写的…… 后端前端java程序员
事情经过前两天线上发生了结算的漏洞，这里的代码是我写的，出问题的时候是周日晚上，那天大领导打电话过来问我具体的损失情况。最后查出来是有两个人逮到了系统漏洞，一共87笔订单出现了多结算的问题，薅了大概2.6w，有个人当时已经跑了，还有个账户里面只有几百块钱。发现问题后紧急停止提现，其他的明天上班再处理。但我当晚已经无法入睡了，压力非常非常大。普通开发和项目负责人最大的区别，可能是后者要承担风险和责任
大数据新视界 -- Hive 数据湖集成与数据治理（下）（26 / 30）青云交大数据新视界 #Hive 之道 Hive 数据湖集成数据治理数据管理大数据集成数据质量保障数据湖优化 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 与其他大数据工具的集成：协同作战的优势（下）（14/ 30）青云交大数据新视界 #Hive 之道数据库 Hive 集成大数据工具集成模式优化策略数据一致性
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- 大数据大厂之 Hive 函数库：丰富函数助力数据处理（上）（11/ 30）青云交大数据新视界 #Hive 之道数据库 Hive 函数库数据处理函数分类自定义函数常用函数大数据 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 函数应用：复杂数据转换的实战案例（下）（12/ 30）青云交大数据新视界 #Hive 之道大数据 Hive 函数数据转换实战案例性能优化数据倾斜 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Redis 分片
Redis分片（Sharding）概述1.概念和目的：Redis分片是通过将整个数据集分割成多个部分，分布存储在多个独立的Redis节点上来扩展Redis系统的技术。目的是提高系统的存储容量和处理能力，以应对大规模数据和高并发请求的需求。2.基本原理：数据分片策略：选择合适的数据分片策略，如哈希分片或范围分片，决定数据如何分布到各个Redis节点上。客户端路由：客户端根据数据的键计算哈希值或使用其
大数据新视界 -- 大数据大厂之数据导入：优化数据摄取的高级技巧（下）（4/ 30）青云交大数据新视界 #Hive 之道大数据 Hive 数据导入数据分区数据压缩数据缓存批量摄取优化技巧
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Impala 性能优化：量子计算启发下的数据加密与性能平衡（下）（30 / 30）青云交大数据新视界 #Impala 之道大数据 Impala 量子计算数据加密性能平衡 Hive 量子密钥分发
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- 大数据大厂之 Impala 性能优化：跨数据中心环境下的挑战与对策（上）（27 / 30）青云交大数据新视界 #Impala 之道大数据 Impala 跨数据中心性能优化挑战对策案例分析代码示例
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Impala 性能优化：分布式环境中的优化新视野（下）（28 / 30）青云交大数据新视界 #Impala 之道大数据 Impala 性能优化分布式环境数据布局资源管理优化策略
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象