使用OLEDB方式读取Excel文件到DataTable中数据类型的处理

首先看一段实例代码

string strCon = @"Provider=Microsoft.ACE.OLEDB.12.0;Data Source=" + excel_path + ";Extended Properties='Excel 12.0;HDR=YES;IMEX=1'";
OleDbConnection myConn = new OleDbConnection(strCon);
string strCom = "SELECT * FROM [Part$A7:AK] where [Part No]=10506";
myConn.Open();
OleDbDataAdapter myCommand = new OleDbDataAdapter(strCom, myConn);
DataSet myDataSet = new DataSet();
myCommand.Fill(myDataSet, "Part");
myConn.Close();

IMEX=1的作用是,当读取Excel中每个单元格的值到DataTable中的时候,不管其在Excel单元格时候是什么数据类型,赋值到DataTable中都强制转化为字符串类型。

在没有IMEX=1这个属性的时候,默认的是根据Excel中对应Column的数据类型来决定DataTable中Column的数据类型。这种情况在Excel中某一列的数据类型都是一致的情况下没有问题,是什么类型,就会在DataTable中的对应列设置相应的类型。但是如果Excel中这一列的类型混乱的话,比如说既包括数值型又有字符串型,在运行时创建DataTable的时候,从Excel中前8行进行采样分析,会去先判断Excel中这一列哪种类型的数据占主体,然后给DataTable的列设置为这种类型。比如说,如果一列中既有整数型又有字符型,而整数型单元格占主体,这时DataTable中的列就是整数型。

这时又出现另外一个问题,当要把值写入到DataTable的时候,如果该单元格符合DataTable中要求的类型,就会写入,如果不符合的话,系统会去强制转换。比如,如果Excel中是字符串的5,而该单元格所在的列整数型占主体,DataTable中这一列是数值型,这时,系统会把字符串的5强制转为数值型的5然后赋给DataTable相应的地方。但是,此时,如果转换有问题的话,比如,此列中有一单元格中是“NO5”,这时强制转换就会有问题,系统就会给DataTable相应的地方赋值DBNull,现在如果你用DataGridView来显示那个DataTable的时候,这个地方显示出来就是一个空白的格,但要注意的是,并不是DataTable中的这一行这一列是null,而是DBNull.其实,我觉得,跟null的作用是一样的,反正在DataGridView中是不会显示出来。只是我们在写程序如果需要对DataTable的null元素筛选的话,需要注意这个问题。

如果Excel中,某一行字符串类型占主体的话,那么DataTable中这一列就会设置为字符串型,而且任何类型都能顺利转换成字符串类型,所以,Excel的类会完整的显示出来,不管这一列中的字符串类型的单元格,还是整数型的单元格,都能完整的显示出来。这是一很特别的地方。但这仅仅是一个特例。

所以,如果为了处理的时候数据类型的一致性,如果Excel中数据类型混乱的话,可以使用IMEX=1使DataTable中的所有列都转为字符型。这种设置并不可靠,IMEX=1只确保在某列前8行数据至少有一个是文本项的时候才起作用,它只是把查找前8行数据中数据类型占优选择的行为作了略微的改变。例如某列前8行数据全为纯数字,那么它仍然以数字类型作为该列的数据类型(详细解释见下面的补充说明)


接下来说一个相关的问题,那就是DataTable中使用语句进行筛选的问题这时也要注意DataTable中Column的类型问题。在下边的例子中,F1,F2,F3等都是DataTable的列名。

下边这个例子中,F1列是数值型,F5列是字符串型

DataRow[] rows = table.Select("F1='1540' andF5='NO2'");

这时程序不会报错,因为F1='1540',虽然筛选条件中给的是字符串类型的1540与table不符合,但是系统会自己去转换,所以这里写F1='1540'和F1=1540都是可以的。F5列是字符串型,F5='NO2'也没问题。

现在我们看另外一种情况,F1列是数值型,F5列是数值型.

DataRow[] rows = table.Select("F1='1540' andF5='NO2'");

当遇到F5='NO2'后,系统会自动去转换,此时,由于不能顺利转换成数值型,在筛选到这里的时候,就会抛出异常,Operator= can’t perform on System.Double and System.String

我们再看一种情况,F1列是数值型,F5列是字符型.

DataRow[] rows = table.Select("F1=1540 andF5='NO2'");

这种情况也是没问题的,F1=1540,因为本身F1就是数值型,所以不必给1540加引号.

但是, 我们注意一种特殊情况 ,F1列是数值型,F5列是字符型.

DataRow[] rows = table.Select("F1=1540 and F5=NO2');

这种情况下会报错,系统不会自动把NO2转换为字符串,而是把Grade2看成一个列了,系统做的判断是,这一行的这两列的单元格值相等,而DataTable中又没有这个列名,所以就会抛出找不到这个列的异常。所以,当某一列为字符串类型时,一定要加上单引号,否则会有异常抛出。


补充说明:

以上内容是前一段时间做Excel中相应开发的时候做出的总结。随着不断的接触,又有了新的发现。针对于IMEX=1与读取到DataTable中的各列数据的数据类型问题,在此做出相应的更正。

IMEX是用来告诉驱动程序使用Excel文件的模式,其值有0、1、2三种,分别代表导出、导入、混合模式。当我们设置IMEX=1时将强制混合数据转换为文本,但仅仅这种设置并不可靠,IMEX=1只确保在某列前8行数据至少有一个是文本项的时候才起作用,它只是把查找前8行数据中数据类型占优选择的行为作了略微的改变。例如某列前8行数据全为纯数字,那么它仍然以数字类型作为该列的数据类型,随后行里的含有文本的数据仍然变空。另一个改进的措施是IMEX=1与注册表值TypeGuessRows配合使用,TypeGuessRows 值决定了ISAM 驱动程序从前几条数据采样确定数据类型,默认为“8”。可以通过修改HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Jet\4.0\Engines\Excel下的该注册表值来更改采样行数。但是这种改进还是没有根本上解决问题,即使我们把IMEX设为“1”, TypeGuessRows设得再大,例如1000,假设数据表有1001行,某列前1000行全为纯数字,该列的第1001行又是一个文本,ISAM驱动的这种机制还是让这列的数据变成空。

话说回来,最彻底的解决方法目前我还没有找到,而且网上也没响应的方法,欢迎一起讨论。


再次补充(2013年5月21日):

因为最近在做一个WinForm处理Excel的项目,关于OLEDB方式读取Excel放入到DataTable中时候DataType的问题困扰了很长时间。碰巧最近找到了一个比较好的解决方案。

一般来讲,一个Excel文件第一行都是标题,而标题一般都是文本格式的。所以,当我们读取的时候,我们可以把第一行当作内容而不是标题来读,HDR=NO;IMEX=1,第一行为字符串类型,所以以后的内容全是字符串类型。最后读到DataTable中后,把table.Row.RemoveAt(0)把第一条记录删除就可以了。使用OLEDB方式读取Excel后,如果HDR=NO,DataTable默认的列名为F1,F2,F3...

你可能感兴趣的:(使用OLEDB方式读取Excel文件到DataTable中数据类型的处理)