最近在项目维护过程中涉及到了office各种文档的解析,捣鼓了好长时间,有点点收货,记下来。
涉及文档:doc、docx、xls、xlsx、pptx。
语言:VC
下面对不同的文档进行简单解析:
一、word文档
1、首先想到的方法就是ado,网上一找一大片,下面给几个连接:http://www.docin.com/p-355819700.html ,,,http://huguangchaoren.blog.163.com/blog/static/888341502010922924154/ ,,,,http://blog.csdn.net/dancewyr/article/details/7674558,操作很简单,如果自己安装了office,在vs中找到项目下的类向导,添加“类型库中的mfc类”,在office目录下找到msword.olb,导入。下面简单写下自己的测试代码:
#include "CApplication.h"
#include "CDocuments.h"
#include "CDocument0.h"
#include "CRange.h"
void CdocxtestDlg::OnBnClickedButton1()
{
// TODO: 在此添加控件通知处理程序代码
CString strFileName;
WCHAR chPath[MAX_PATH] = {0};
GetModuleFileName(NULL, chPath, MAX_PATH);
WCHAR * ptrPath = wcsstr(chPath,L"demo.exe");
*ptrPath = '\0';
strFileName.Format(L"%s\\111.doc",chPath);
CApplication app;
app.CreateDispatch(L"Word.Application");
OutputDebugStringA("CreateDispatch ok");
app.put_Visible(false);
OutputDebugStringA("put_Visible ok");
app.put_DisplayAlerts(false);
OutputDebugStringA("put_DisplayAlerts ok");
CDocuments docs = app.get_Documents();
COleVariant vTrue((short)TRUE),vFalse((short)FALSE),vOpt((long)DISP_E_PARAMNOTFOUND,VT_ERROR);
CDocument0 doc = docs.Open(COleVariant(strFileName),vFalse,vTrue,vFalse,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt);
OutputDebugStringA("Open ok");
CRange range = doc.Range(vOpt,vOpt);
CString strs = range.get_Text();
OutputDebugStringW(strs);
range.ReleaseDispatch();
doc.ReleaseDispatch();
docs.ReleaseDispatch();
VARIANT SaveChanges,OriginalFormat,RouteDocument;
SaveChanges.vt = VT_BOOL;
SaveChanges.boolVal= VARIANT_FALSE;
::VariantInit(&OriginalFormat);
RouteDocument.vt = VT_EMPTY;
app.Quit(&SaveChanges,&OriginalFormat,&RouteDocument);
app.ReleaseDispatch();
}
以上程序可以简单的读取doc和docx类型的文档,即:ado方式可以读取doc和docx格式的word文档,但是缺陷也是有的,这种方法对office组件(库文件)依赖性很高,所以在没有安装office的操作系统中,此方法运行到app.CreateDispatch(L"Word.Application");会失败,若个人理解有误,请大牛指点,在此感谢。
2、在网上找到了一个word数据解析库tractText.dll,支持word数据的读取,下面给一个连接:http://www.pdfhome.com.cn/Article.aspx?CID=bf51a5b6-78a5-4fa3-9310-16e04aee8c78&AID=621ca553-48ee-43ee-b248-3d63787963cc ,代码在连接里面有详细描述,但是也是有缺陷,首先要注册tractText.dll组件,其次,这个dll不支持docx数据的读取,我自己的demo读取出来的是空,如果哪位大牛用这个dll读取到了docx文档数据,请告诉小弟一下,在此感谢。
3、对于doc文档的读取,我选择了tractText.dll,对于docx文档的读取,我选择了文档结构解析,下面给一个连接:http://www.codeproject.com/Articles/20529/Using-DocxToText-to-Extract-Text-from-DOCX-Files ,上面给了一个docx文档解析的一个新思路,docx可以理解为zip压缩文件,在压缩文件中有很多xml类型文件记录着docx文档的格式和数据,那我们要做的就是找到记录着docx文档数据的xml文件进行读取就可以了。。。下面看一张图片 ,我们把docx文档后缀变成.zip,双击打开,这就是里面的东东,
其中,[content_types].xml中记载着所有xml文档的路径及作用,下面我们来看看这个文档的内容:
其中,document.xml文档就是我们要找的文档,这个文档中记载着docx文档中的所有数据,但是,为啥不能直接在word路径下找呢?office软件在生成docx的时候会把document.xml放到word目录下,但是其他可以生成docx文档的软件不一定会把document.xml放到这个目录,所以要先找[content_types].xml,在[content_types].xml中把document.xml的位置读出来,然后再去找document.xml。
document.xml是有自己的xml格式的,若不懂xml格式,可以去网上简单的学学,下面给一个连接:http://wenku.baidu.com/view/efd94ddfce2f0066f53322e7.html ,,如果我们需求苛刻,可以根据不同节点的属性解析各种docx数据,包括文字,数字,回车换行,空格,图片,表格等等……我这里只需要字符串,所以解析的时候只获取<w:t>数据w:t>
中的数据即可,下面贴下来document.xml格式:
在用这种方式读取docx文档的时候要用到压缩文件解析类和xml文档解析类,这个过程中注意:xml文档是utf-8编码、document.xml中不同节点有不同意义、最好使用支持xpath()函数的xml解析类,这样就不用逐个遍历
我自己使用的压缩文件解析类为unzip,下面给一个连接:http://www.codeproject.com/Articles/7530/Zip-Utils-clean-elegant-simple-C-Win32 ,,在操作的过程中遇到了一个问题,用Unzip解压文件到内存时中文为乱码,我只能将其解压到指定目录再读取,这样效率可想而知,我估计是编码问题,暂时解决不了,哪位大牛如果有好的解决办法,请指点一下,在此感谢。
我自己使用的xml解析类为pugixml库,下面给一个连接:http://blog.csdn.net/yukin_xue/article/details/7540011 ,,http://blog.csdn.net/jdzfjfhnui/article/details/6672532 ,,以前用的CMakeUp类,但是没有xpath接口,处理麻烦。
二、excel
1、还是ado方法,代码思路与解析word文档一样,但是缺陷也一样。
2、odbc方法,这种方法比ado方法更基础一些,其不再利用office组件,但是依赖office相关驱动,这个驱动似乎操作系统都提前预安装了,下面给一个连接:http://wenku.baidu.com/view/fb6ae796daef5ef7ba0d3c9b.html ,其大致思路是,先判断相关驱动是否存在,然后构造查询函数,然后执行就可以了,但是缺陷是无法读取excel第一行数据,我发现,执行函数有相关判断是否查询第一行数据的参数,在运行查询函数时,函数调用底层驱动,底层驱动忽略了这个变量,仍然没有查询第一行。。。
3、BasicExcel,BasicExcel是一个第三方开源库,提供了xls文档解析功能,还是给一个连接:http://www.codeproject.com/Articles/13852/BasicExcel-A-Class-to-Read-and-Write-to-Microsoft ,但是据网上说这个库还不支持xlsx文档的解析,不知是否属实,如果哪位大牛知道,请指点一下,谢谢。
4、libxl.dll,第三方库,提供了xls和xlsx文档的解析,可以读取所有行,下面给一个连接:http://blog.csdn.net/lbd2008/article/details/8332345 ,下面附上部分个人代码:
#include "libxl.h"
using namespace libxl;
bool ReadXLSXData(wchar_t *ch)
{
bool bResult = true;
//Book* book = xlCreateBook();//Excel xls版本
Book* book = xlCreateXMLBook();//excel 07版本以上的文档
if(book->load(ch))//加载
{
int iSheetCount = book->sheetCount();//获取页数
for (int i=0; i
Sheet * sheet = book->getSheet(i);
if(sheet)
{
for (int row=sheet->firstRow(); row
{
for (int col=sheet->firstCol(); col
{
CellType cellType = sheet->cellType(row, col);
std::wcout << "(" << row << ", " << col << ") = ";
if(sheet->isFormula(row, col))//判断单元格是否为公式
{
//如果是公式,读取并输出
const wchar_t* s = sheet->readFormula(row, col);
std::wcout << (s ? s : L"null") << " [formula]";
}
else
{
//如果不是公式,获取数据格式并输出
switch(cellType)
{
case CELLTYPE_EMPTY://空
{
std::wcout << "[empty]";
break;
}
case CELLTYPE_NUMBER://整数
{
double d = sheet->readNum(row, col);
std::wcout << d << " [number]";
break;
}
case CELLTYPE_STRING://字符串
{
const wchar_t* s = sheet->readStr(row, col);
cout << s<< " [string]";
break;
}
case CELLTYPE_BOOLEAN://真假
{
bool b = sheet->readBool(row, col);
std::wcout << (b ? "true" : "false") << " [boolean]";
break;
}
case CELLTYPE_BLANK:
{
std::wcout << "[blank]";
break;
}
case CELLTYPE_ERROR:
{
std::wcout << "[error]";
bResult = false;
break;
}
default:
{
break;
}
}
}
std::wcout << std::endl;
}
}
}
else
{
bResult = false;
}
}
}
else
{
std::wcout << "load file error";
bResult = false;
}
book->release();
return bResult;
}
三、ppt文档
1、pptx文档的解析思路与docx文档解析思路类似,不过,pptx中把每个页ppt都放到了不同的slides里。
2、由于没有解析ppt文档需求,我暂时没有尝试,不过网上也是很多,这里不说了。
以上都是个人测试后的总结,由于技术能力原因,部分内容可能有出入,如有出入请指点,仅供总结和参考。