如何判断一个网站是否是中文网站

思路

第一个网站必须包含中文

第二网站标签和空格都是无效的垃圾

基于以上两种思路来开发首先我们需要下载网站数据,那么现在有很多下载工具,比如

HttpClient http://hc.apache.org/

java.net.URL

htmlparser htmlparser.org/ 

等等

写程序,大致分三部走

第一步:获取网页

如何开始,首先再在网页,方法很多,不介绍,网上搜索,最简单就是用htmlparser,

第二部:除噪

使用htmlparser,直接gettext方法,得到的纯文本数据,然后正则替换掉所有的空格

第三步:

识别中文,只需要判断其中一个字符为中文就可以反悔了,

正则,个人认为比较好的方法,其他可以去网上参考参考

String s="大牛这孩";
Pattern pattern=Pattern.compile("[\u4e00-\u9fa5]");
Matcher matcher=pattern.matcher(s);
System.out.println(matcher.matches());

 

后续

如果用正则是否不需要第二部速度是否会更快,没有测试过,如果谁兴趣可以测试测试,选最优,其实写程序就是这样简单。

 

你可能感兴趣的:(如何判断一个网站是否是中文网站)