Word文件读取工具类

调用示例:

 

File wordFile = new File("D:\\temp.doc");

//读取Word文档中所有文本内容,以字符串形式返回
System.out.println(WordFileUtil.extractTextFromWordFile(wordFile));

 

工具类源码:

 

/**
 * WordFileUtil.java
 * Copyright ® 2010 窦海宁
 * All right reserved
 */

package org.aiyu.core.common.util.file;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

import org.apache.commons.io.IOUtils;
import org.apache.poi.hwpf.extractor.WordExtractor;

/**
 * <p>Word文件工具类
 * 
 * <p>通用的Word文件工具类,可用于从Word文档中抽取文本信息
 * 
 * <p>您好,我是窦海宁,现在是一名免费开源工具研发人员,如果您喜欢我的开源代码,
 * <p>如果您希望我更好的发展下去,为您提供更多更好的开源代码,在这里感谢您的捐助。
 * <p>捐助地址:https://me.alipay.com/chong0660
 * 
 * @author  窦海宁, [email protected]
 * @since   AiyuCommonCore-1.0
 * @version AiyuCommonCore-1.0
 */
public abstract class WordFileUtil {

	/**
	 * <p>从Excel文档中提取文本信息
	 * 
	 * @param  wordFile Excel文件
	 * 
	 * @return 提取后的文本信息
	 * 
	 * @modify 窦海宁, 2013-08-12
	 */
	public static String extractTextFromWordFile(File wordFile) {

		String returnValue = null;
		if (wordFile != null) {

			if (wordFile.isFile()) {

				InputStream inputStream = null;
				try {

					inputStream = new FileInputStream(wordFile);
					WordExtractor wordExtractor = new WordExtractor(inputStream);
					returnValue = wordExtractor.getText();
				} catch (Exception ex) {

					System.err.println(ex.getMessage());
				} finally {

					IOUtils.closeQuietly(inputStream);
				}
			}
		}
		return returnValue;
	}

}

你可能感兴趣的:(word)