C++ 读取 UTF-16 LE 格式的文件

今天遇到的问题值得记录。

使用C++读取UTF-16 LE ,也就是宽字符集。按正常的读取

std::ifstream file(fileName.c_str());

打印出的是乱码。

从网上找了好久,C++并没有像python那样一个函数就搞定的方法。只能一步一步来。

思路:

使用C语言函数来打开文件,原因:找了半天C++也没有对文件操作指定编码格式的函数,只有C语言有。

FILE* fp;
auto err = _wfopen_s(&fp,szFile.c_str(), L"r, ccs=UTF-16LE");

就是这个,推荐只用这个函数,因为别的函数基本上都不安全,使用VS2015编译提示出错,或者弃用了。

打开文件以后,然后一行一行读取文件即可,需要注意的就是,读到数据格式是wchar_t的,如果想要存到string需要各式转换,这里引用前人写好的函数,不造轮子了。

wchar_t*转换string_weixin_30764771的博客-CSDN博客

引用这位博主的文章。

转换好就可以正常使用了,由于我的文件是csv文件,一个用于多语言的文件,第一列是ID,第二列是英文,第三列是中文。

我的需求是把ID 和英文存到map中,ID位key,英文为value。要是第三列中文为空跳过。

一下为demo

#include 
#include 
#include 
#include 
#include 
#include    
#include 
#include 

// wchar_t to string
void Wchar_tToString(std::string& szDst, wchar_t *wchar)
{
	wchar_t * wText = wchar;
	DWORD dwNum = WideCharToMultiByte(CP_OEMCP, NULL, wText, -1, NULL, 0, NULL, FALSE);// WideCharToMultiByte的运用
	char *psText; // psText为char*的临时数组,作为赋值给std::string的中间变量
	psText = new char[dwNum];
	WideCharToMultiByte(CP_OEMCP, NULL, wText, -1, psText, dwNum, NULL, FALSE);// WideCharToMultiByte的再次运用
	szDst = psText;// std::string赋值
	delete[]psText;// psText的清除
}

std::map ReadCSVUTF16LE(const std::wstring& fileName)
{
	FILE* fp;
	std::mapMultiMap;
	auto err = _wfopen_s(&fp, fileName.c_str(), L"r, ccs=UTF-16LE");
	wchar_t str[1024] = { 0 };
	while (fgetws(str, 1024, fp) != NULL)
	{
		std::string value;
		std::vector  arrValue;
		Wchar_tToString(value, str);
		value.erase(0, value.find_first_not_of("\n\r"));
		value.erase(value.find_last_not_of("\n\r") + 1);
		if (value.empty())//skip empty line
		{
			continue;
		}
		std::stringstream ss(value);
		while (std::getline(ss, value, '\t'))
		{
			arrValue.push_back(value);
		}
		if (arrValue.size() < 2)
		{
			continue;
		}
		MultiMap.insert(std::pair(std::stoi(arrValue[0]), arrValue[1]));
	}
	fclose(fp);
	return MultiMap;
}
int main()
{
	std::wstring szFile = L"McuUser.csv";
	std::map MultiMap = ReadCSVUTF16LE(szFile);

	for (auto &it : MultiMap)
	{
		std::cout << "it.first = " << it.first << " it.second = " << it.second << std::endl;		
	}	
	system("pause");
	return 0;
}

你可能感兴趣的:(C++知识,c++,开发语言,后端)