浮点数在内存中的存储机制和整型数不同,其有舍入误差,在计算机中用近似表示任意某个实数。具体的说,这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学记数法。所以浮点数在运算过程中通常伴随着因为无法精确表示而进行的近似或舍入。但是这种设计的好处是可以在固定的长度上存储更大范围的数。
1、将字符串转换为float、double过程存在精度损失,只是float、double各自损失的精度不相同而已
std::string str="8.2";
float cc=atof(str.c_str()); //cc的值为8.1999998
std::string str="8.2";
double cc=atof(str.c_str()); //cc的值为8.1999999999999993
2、将float、double转换为字符过程中可能存在精度损失,但是通过%.8lf可以规避
(1)float小数点前后加起来有效数字只有6位。当给定的float有效数在6位以内转换为字符不会丢失精度,当有效位数大于6位就会存在精度丢失
//精度没有丢失
char buf[100]={'\0'};
float aa=8000.25;
sprintf(buf,"%f",aa); //8000.250000
//精度没有丢失
char buf[100]={'\0'};
floataa=8.00025;
sprintf(buf,"%f",aa); buf = 8.000250
//精度丢失,存在误差
charbuf[100]={'\0'};
float aa=8000.251;
sprintf(buf,"%f",aa); //8000.250977
//精度丢失,存在误差此时使用.8lf也无效
char buf[100]={'\0'};
float aa=8000.251;
sprintf(buf,"%.8lf",aa);//8000.25097656
(2)double小数前后加起来的有效数字只有16位,当给定的double有效数在16位以内转换为字符串不会丢失精度,当有效位数大于16位就会存在精度丢失
存在误差
char buf[100]={'\0'};
double aa=121.437565871234012;
sprintf(buf,"%.20lf",aa);//121.43756587123401000000
//没有误差
char buf[100]={'\0'};
double aa=8000.256165;
sprintf(buf,"%.8lf",aa);
std::cout<
3、浮点数比较
用"=="来比较两个double应该相等的类型,返回真值完全是不确定的。计算机对浮点数的进行计算的原理是只保证必要精度内正确即可。
我们在判断浮点数相等时,推荐用范围来确定,若x在某一范围内,我们就认为相等,至于范围怎么定义,要看实际情况而已了,float,和double 各有不同
所以const float EPSINON = 0.00001;
if((x >= - EPSINON) && (x <= EPSINON) 这样判断是可取的至于为什么取0.00001,可以自己按实际情况定义。
也可以 abs(x) <= EPSINON
比如要判断浮点数floatA和B是否相等,我们先令float x = A –B ;
并设constfloat EPSINON = 0.00001; 则
if ((x >= - EPSINON)&& (x <= EPSINON);//或者if(abs(x) <= EPSINON)
cout<<”A 与B相等< else cout<<”不相等”< 根据上面分析建议在系统开发过程中设计到字符转换建议采用double类型,精度设置为%.8lf即可,在比较浮点数十建议EPSINON= 0.00000001 验证: 以下转自:http://blog.csdn.net/u013630349/article/details/44947307 : C++ 之 浮点数的大小比较 摘要 本文首先 将 介绍 浮点数 的 存储结构 以及 (int&) 操作 含义。其次,介绍 常规 浮点数比较 方法。最后 本文,将采用 (int&) 转换为 整型 数据 ,直接比较 转换为的 整形数据 的 大小。 1. 浮点数 的 存储结构 十进制 1.35 二进制 0 000 0000 0 010 1100 1100 1100 1100 1100 符号位 2的n次幂 二进制小数中小数点后23位 符号位,1为负,0为正。 2的n次幂,二进制小数的科学计数法当然是写成:1.01011×2^n,这里就是 n 值。 二进制小数中小数点后 23 位,十进制数换算成二进制数后,表示成科学计数法如上所示,此处就是取点后 23 位数,而小数点前只有一位有效数字,当然就总是1了,比如二进制小数 0.001010 ,表示为二进制科学计数法为 1.010×2^-3 。X86架构下,浮点数 (int&) 操作 含义在内存中以低位在前高位在后的方法存储的。 2. (int&) 操作 (int&a) 是与 *((int*)&a) 等价的,意思都是将 &a 这个地址上的 32 位看成 int 型,即使存储在这里的可能不是 int 型数据 。 与(int)a 比较 ,(int )a 实际上是以浮点数a为参数构造了一个整型数 。 (int&)a 则是告诉编译器将a当作整数看(并没有做任何实质上的转换)。 因为,以整数形式存放和以浮点形式存放其内存数据是不一样的,因此两者不等。 3. 常规方法 在数学运算当中经常会涉及到判断两个数是否相等的情况,对于整数很好处理 A==B这样的一个语句就可以解决全部的问题,但是对于浮点数是不同的。 4. (int&) 操作 实现 浮点数 比较 4.1 回顾 浮点数 存储结构 IEEE的标准,浮点数的定义如下 我们以单精度浮点数来说明: 符号位,表述浮点数的正或者负 指数实际也有正负的,但是没有单独的符号位,而是采用了一个偏移来表示 在计算机的世界里,进位都是二进制的,指数表示的也是2的N次幂 这个数据格式当中的,指数是8位,可表达的范围是0到255,而对应的实际的指数是-127到+128。这里特殊说明,-127和+128这两个数据在IEEE当中是保留的用作多种用途的。-127表示的数字是0,128和其他位数组合表示多种意义,最典型的就是NAN状态。 小数部分,并不是一个浮点数的实际的小数。实际的小数在这个小数前面还保留了一个1。拿浮点数1.0来说,符号位是0, 实际指数是0,对应这里的指数就是127了,也就是0x7f。而小数部分就是1.0了, 1是暗含的不存储,实际的小数部分就是0了。因此组合起来的数据就是,0x3f80000 。 可以用一个类来表示: class FloatType { public: union { DWORD m_dwInt; float m_fFloat; struct { int m_nFra: 23; int m_nExp : 8; bool m_bSign : 1; }; }; 4.2 操作举例 4.2.1 源代码 [cpp] view plain copy #include #include int main() { float f1 = 1.23; float f2 = 1.24; std::cout<<((int&)f1 > (int&)f2)< std::cout<<(int&)f1 < std::cout<<(int&)f2 < std::cout<<(int)f1 < std::cout<<(int)f2 < std::cout<<((int&)f1 - (int&)f2)< return 0; } 4.2.2 代码输出 0 -83886 4.3 原理阐释 对于两个正的浮点数,他们的大小比较就可以用 (int&)f1 - (int&)f2 来进行比较了。差值的结果实际上就应该是相对误差了,这个相对误差,不等同于普遍意义上的相对误差,它所表达的是,两个浮点数之间可能还有多少个可以精确表达的浮点数。这样通过指定这个阈值来控制两个浮点数的比较就更有效了。 对于两个正的浮点数 return true; 这里用abs而不是fabs这在asm上面的运算差距也是很大的了 通过对比我们可以发现, +0 和正的浮点数可以按照转换成为整数的方式直接进行比较,-0 和负的浮点数可以按照转换成为整数的方式直接进行比较。如果我们能够把他们连接起来,整个整数方式的直接比较就完备了。 对比一下负数的结构, 可以找到一个简单的办法了: // 函数: bool IsEqual(float f1, float f2, int absDelta) [cpp] view plain copy
#include
using namespace std;
#include
int main()
{
float f = 1.23;
double d=1.23;
if (f==d)
printf("equal\n");
else
cout << f-d << endl ;
printf("not equal\n");
return 0;
}
1.90735e-008
not equal
#include
#include
int main()
{
float f1=1.23;
double f2=1.23;
std::cout<<((int&)f1>(int&)f2)<
std::cout<<(int&)f1<
std::cout<<(int&)f2<
std::cout<<(int)f1<
std::cout<<(int)f2<
std::cout<<((int&)f1 - (int&)f2)<
return 0;
}
0
1067282596
2061584302
1
1
-994301706
首先,浮点数在计算机当中的二进制表达方式就决定了大多数浮点数都是无法精确的表达。现在的计算机大部分都是数字计算机,不是模拟机,数字机的离散化的数据表示方法自然无法精确表达大部分的数据量的。
其次计算机浮点数的精度在单精度float类型下,只有7位,在进行浮点运算的时候,这个精度往往会导致运算的结果和实际期望的结果之间有误差。因为前两个原因,我们很难用 A==B来判定两个浮点数是否相同。
很自然,我们可以想到 fabs(A-B) < epsilon 这样的一种判别方法
但是这种判别方法稳妥吗?
它也不稳妥。
首先, epsilon是一个绝对的数据,也就是误差分析当中说说的绝对误差。使用一个固定的数值,对于float类型可以表达的整个数域来说是不可以的。比如epsilon取值为0.0001,而a和b的数值大小也是0.0001附近的,那么显然不合适。另外对于a和b大小是10000这样的数据的时候,它也不合适,因为10000和10001也可以认为是相等的呢?适合它的情况只是a或者b在1或者0附近的时候
既然绝对误差不可以,那么自然的我们就会想到了相对误差
bool IsEqual(float a, float b, float relError )
{
return ( fabs ( (a-b)/a ) < relError ) ? true : false;
}
这样写还不完善,因为是拿固定的第一个参数做比较的,那么在调用IsEqual(a, b, relError ) 和 IsEqual(b, a, relError ) 的时候,可能得到不同的结果。同时如果第一个参数是0的话,就有可能是除0溢出。这个可以改造把除数选取为a和b当中绝对数值较大的即可 。
bool IsEqual(float a, float b, float relError )
{
if (fabs(a)
}
使用相对误差就很完善吗?
也不是, 在某些特殊情况下, 相对误差也不能代表全部。比如,在判断空间三点是否共线的时候,使用判断点到另外两个点形成的线段的距离的方法的时候
只用相对误差是不够的,应为线段距离可能很短也可能很长,点到线段的距离以及线段的长度做综合比较的时候,需要相对误差和绝对误差结合的方式才可以。
相对完整的比较算法应该如下(???):
bool IsEqual(float a, float b, float absError, float relError )
{
if (a==b) return true;
if (fabs(a-b)
这样才相对完整。
符号位
指数位
小数部分
指数偏移量
单精度浮点数
1 位[31]
8位 [30-23]
23位 [22-00]
127
双精度浮点数
1 位[63]
11 位[62-52]
52 位[51-00]
1023
class FloatType
{
public:
union {
DWORD m_dwInt;
float m_fFloat;
struct {
int m_nFra: 23;
int m_nExp : 8;
bool m_bSign : 1;
};
};
#include
#include
int main()
{
float f1 = 1.23;
float f2 = 1.24;
std::cout<<((int&)f1 > (int&)f2)<
std::cout<<(int&)f1 <
std::cout<<(int&)f2 <
std::cout<<(int)f1 <
std::cout<<(int)f2 <
std::cout<<((int&)f1 - (int&)f2)<
return 0;
}
1067282596
1067366482
1
1
bool IsEqual(float f1, float f2, int absDelta)
{
if ( abs ( (int&)f1 - (int&)f2 ) < absDelta )
}
对于两个负数进行比较的情况也是相同的。只不过负数内存对应的整数加1,相应的找到的是更小的负数而已。但是负数和整数之间现在还不能进行直接的比较,因为根据IEEE的内存结构,正数和负数是不同的,对应的整数不能连续。
正的最小的数就是0了,对应的整数也是0x 00000000
负的最小的数就是 - 0 ,对应的整数则是0x 80000000
不用奇怪-0。在IEEE的表达当中是有两个0的,一个是 +0 一个是 -0,有趣的是,按照 f1 == f2 的判断 +0 和 -0是相等的。
把负数内存对应的整数减去 -0 ,他们就连续了
而且更好的结果是,所有的负数经过这次减法后,对应的整数也都是负数了。
这样整个整数比较就变得连续了,而且在整个浮点数范围内都是有效的了。
最后的比较算法就是:
// 功能:把比较两个浮点数是否近似相同
// 输入:f1, f2参与比较的两个浮点数
// absDelta 两个浮点数之间允许有多少个其他可以精确表达的浮点数存在,相当于相对误差
// 输出: true,两个浮点数进行相等; false 两个浮点数不等
// 注意:仅仅适合IEEE 32位浮点数结构