今天遇到的问题值得记录。
使用C++读取UTF-16 LE ,也就是宽字符集。按正常的读取
std::ifstream file(fileName.c_str());
打印出的是乱码。
从网上找了好久,C++并没有像python那样一个函数就搞定的方法。只能一步一步来。
思路:
使用C语言函数来打开文件,原因:找了半天C++也没有对文件操作指定编码格式的函数,只有C语言有。
FILE* fp;
auto err = _wfopen_s(&fp,szFile.c_str(), L"r, ccs=UTF-16LE");
就是这个,推荐只用这个函数,因为别的函数基本上都不安全,使用VS2015编译提示出错,或者弃用了。
打开文件以后,然后一行一行读取文件即可,需要注意的就是,读到数据格式是wchar_t的,如果想要存到string需要各式转换,这里引用前人写好的函数,不造轮子了。
wchar_t*转换string_weixin_30764771的博客-CSDN博客
引用这位博主的文章。
转换好就可以正常使用了,由于我的文件是csv文件,一个用于多语言的文件,第一列是ID,第二列是英文,第三列是中文。
我的需求是把ID 和英文存到map中,ID位key,英文为value。要是第三列中文为空跳过。
一下为demo
#include <iostream>
#include <vector>
#include <algorithm>
#include <fstream>
#include <string>
#include <atltrace.h>
#include <sstream>
#include <map>
// wchar_t to string
void Wchar_tToString(std::string& szDst, wchar_t *wchar)
{
wchar_t * wText = wchar;
DWORD dwNum = WideCharToMultiByte(CP_OEMCP, NULL, wText, -1, NULL, 0, NULL, FALSE);// WideCharToMultiByte的运用
char *psText; // psText为char*的临时数组,作为赋值给std::string的中间变量
psText = new char[dwNum];
WideCharToMultiByte(CP_OEMCP, NULL, wText, -1, psText, dwNum, NULL, FALSE);// WideCharToMultiByte的再次运用
szDst = psText;// std::string赋值
delete[]psText;// psText的清除
}
std::map<int, std::string> ReadCSVUTF16LE(const std::wstring& fileName)
{
FILE* fp;
std::map<int, std::string>MultiMap;
auto err = _wfopen_s(&fp, fileName.c_str(), L"r, ccs=UTF-16LE");
wchar_t str[1024] = { 0 };
while (fgetws(str, 1024, fp) != NULL)
{
std::string value;
std::vector <std::string> arrValue;
Wchar_tToString(value, str);
value.erase(0, value.find_first_not_of("\n\r"));
value.erase(value.find_last_not_of("\n\r") + 1);
if (value.empty())//skip empty line
{
continue;
}
std::stringstream ss(value);
while (std::getline(ss, value, '\t'))
{
arrValue.push_back(value);
}
if (arrValue.size() < 2)
{
continue;
}
MultiMap.insert(std::pair<int, std::string>(std::stoi(arrValue[0]), arrValue[1]));
}
fclose(fp);
return MultiMap;
}
int main()
{
std::wstring szFile = L"McuUser.csv";
std::map<int, std::string> MultiMap = ReadCSVUTF16LE(szFile);
for (auto &it : MultiMap)
{
std::cout << "it.first = " << it.first << " it.second = " << it.second << std::endl;
}
system("pause");
return 0;
}
|