爬取国家统计局区域划分并输出sql

想找一个详细的中国区域数据库 查来查去只有省 市县没有更详细的

无意间发现国家统计局有这方面的详细资料

只是是html页显示的找不到相关的数据库下载链接

只好写了这个方法爬取这些区域然后组织成sql语句方便自己添加到数据库

我这里只用了一个Area表 三个字段 id,name,fid

这里是国家统计局2012年的区域划分代码地址:http://www.stats.gov.cn/tjbz/cxfldm/2012/index

我就是从这个地址开始爬取的

下面是爬取之后的结果

爬取国家统计局区域划分并输出sql_第1张图片

其实用到的主要方法有两个

 1 /// <summary>
 2     /// 根据url获取远程网页
 3     /// </summary>
 4     /// <param name="url"></param>
 5     /// <returns></returns>
 6     protected string getWebPageByUrl(string url)
 7     {
 8         Encoding code = Encoding.GetEncoding("GBK");
 9         WebRequest req = WebRequest.Create(url);
10         req.Timeout = int.MaxValue;
11         WebResponse res = req.GetResponse();
12         //读取
13         StreamReader sr = new StreamReader(res.GetResponseStream(), code);
14         string html = sr.ReadToEnd();
15         sr.Close();
16         return html;
17     }
18     protected MatchCollection getResultByHtml(string input, Regex reg,NameValueCollection names)
19     {
20         MatchCollection coll = reg.Matches(input);
21         return coll;
22     }

这里是源码下载地址:demo
为了尽快看到效果源码里只列出了北京及北京下面所有区域的爬取方法
要爬取所有区域 只需把相应地方改成循环即可

你可能感兴趣的:(sql)