gbk汉字拼音码形成手记

在网上找了很久也没有找到全的汉字拼音码表,没有办法,自己搞一个吧,不停的google后,找到了几篇文章,组合后终于搞定,不敢独享啊。

1、下载ms 全拼输入法,找到winpy.mb文件,这就使字库文件

2、使用xp自带的输入法生成器导出字库到文本文件,path:C:/Program Files/Windows NT/Accessories/imegen.exe

3、选中“逆转换”,打开winpy.mb,导出winpy.txt

4、找到[text]关键字,删除该关键字及之前行

5、编写一段代码解析成csv文件,记住,有多音字,多个拼音以空格分隔

c# 代码:

string[] lines = File.ReadAllLines(@"E:/winpy.txt", Encoding.Unicode);
FileStream fs = File.OpenWrite(@"E:/winpy.csv");
StreamWriter sw = new StreamWriter(fs, Encoding.UTF8);
foreach (string line in lines)
{
char c = line.Substring(1, 1).ToCharArray()[0];
int i = Convert.ToInt32(c);
if ((i >= 65 && i <= 90)
|| (i >= 97 && i <= 122))
{
string cword = line.Substring(0, 1);
string epinyin = line.Substring(1, line.Length - 1).TrimEnd();
string[] ary = epinyin.Split(new char[] { ' '});
foreach (string ep in ary)
{
sw.WriteLine(cword + "," + ep);
}
}
}
sw.Flush();
sw.Close();
fs.Close();

试试吧,总共34900个。

你可能感兴趣的:(gbk)