解决读取文件乱码问题

一般在windows上的txt文本文件要么以ANSI编码要么以Unicode编码,而用C ,C++,MFC编写的程序一般人只会处理一种编码格式的文本,因为不懂怎么判断读取的文件是以哪种编码格式存储的。那么重点就是判断读取的文件是以哪种方式存储的!有两种方式解决。

一.用二进制方式打开文件,前两个字节为FFFE就是Unicode文件,ANSI则无格式定义.
如图:
这是以16进制打开Unicode文件,很明显看到前两个字节是FFFE

再来,用C语言读取文件,如图:
把buf的地址在内存中显示出来,其内容是FFFE两个字节

因为编译器是32位的,所以最后显示如图:
解决读取文件乱码问题_第1张图片
所以现在基本确定判断Unicode的方法了.
例如:

int main(void)
{
    if (IsUnicode("H:\\Unicode.txt"))
        printf("打开的是Unicode文件\n");
    else
        printf("打开的是ANSI文件\n");
    return 0;
}

IsUnicode函数实现如下:

bool IsUnicode(char* fileName)
{
    FILE* fp = fopen(fileName, "rb");
    if (!fp)
    {
        printf("打开文件失败!\n");
        return 1;
    }
    char buf[2] = { 0 };
    fread(buf, 1, 2, fp);
    char byte1[10] = { 0 };
    char byte2[10] = { 0 };
    sprintf(byte1, "%X", buf[0]);
    sprintf(byte2, "%X", buf[1]);
    int iLen1 = strlen(byte1);
    int iLen2 = strlen(byte2);
    if (byte1[iLen1 - 2] == 'F'&&byte1[iLen1 - 1] == 'F'&&
        byte2[iLen2 - 2] == 'F'&&byte2[iLen2 - 1] == 'E')
        return true;
    else
        return false;
    fclose(fp);
}

判断完之后就是用相应的方法进行读写了,这样一个程序就能实现两种文件的读写。有兴趣的还可以判断UFT-8的。

二.用ANSI方式读写,如果读到Unicode的,就会出现乱码,并且截断,我试了很多,发现不管多大文件,都出来的长度都是10以下,所以根据这个性质,可以判断读出来的是哪种方式编码.但是记住,不能用Unicode方式读写来判断,因为它读出来的虽然是乱码,但是长度却是不确定的.

这里我用文件映射的方法读取,这个比较方便转换编码方式.直接上代码吧,也没有什么可以说的了。如果不懂文件映射的,可以看看前面的文章.

/* @function ReadFileOfMapping 以内存映射的方式读取文件 @param strFileName 要读取的文件名称 @param strContent 存放读取出来的内容 @return TRUE OR FALSE 成功返回TRUE,失败返回FALSE */

BOOL ReadFileOfMapping(_In_ const CString strFileName,
    _Out_ CString& strContent)
{
    BOOL bRet = FALSE;
    CStringA strA;
    do
    {
        //创建文件对象
        HANDLE hFile = ::CreateFile(strFileName, GENERIC_READ, FILE_SHARE_READ, 0,
            OPEN_EXISTING, FILE_FLAG_SEQUENTIAL_SCAN, 0);
        if (hFile == INVALID_HANDLE_VALUE)
        {
            AfxMessageBox(TEXT("Open file faile!"));
            break;
        }
        //创建文件映射对象
        HANDLE hFileMapping = ::CreateFileMapping(hFile, 0, PAGE_READONLY, 0, 0, nullptr);
        if (!hFileMapping)
        {
            AfxMessageBox(TEXT("Mapping faile!"));
            break;
        }
        //将文件的数据映射到进程的地址空间
        void* basepointer = ::MapViewOfFile(hFileMapping, FILE_MAP_READ, 0, 0, 0);
        if (!basepointer)
        {
            AfxMessageBox(TEXT("View faile!"));
            CloseHandle(hFile);
            CloseHandle(hFileMapping);
            break;
        }
        //将进程空间的数据读到编辑框中
        strA = (char*)basepointer;
        strContent = strA;
        if (strContent.GetLength() < 10)    //如果是Unicode则把它转换为LPTSTR
            strContent = (LPTSTR)basepointer;
        //从进程的地址空间撤销对文件数据的映射
        UnmapViewOfFile(basepointer);
        //关闭文件映射对象
        CloseHandle(hFileMapping);
        //关闭文件对象
        CloseHandle(hFile);
    } while (FALSE);

    return bRet;
}

这个函数自我觉得封装得还不错,可以直接用于各种场合.这个函数有两个版本其实,一个是MFC的CString版本和C++的string版本.

还有一个需要注意的问题就是,因为Unicode多了两个字节的标记,所以Unicode比ANSI多一个字(Unicode是双字节编码),就是文本头,有兴趣的可以去试试.

你可能感兴趣的:(C++,c,读取文件,乱码,mfc)