使用HtmlParser实现网络爬虫并且插入数据库

爬虫的主要工做就是到搜狐的新闻首页上去抓取新闻,然后将新闻添加到数据库中。
代码其实很简单的:
LinkParser.java

上面这段带码比较简单,就是用来提取 http://news.sohu.com  上面的新闻连接 ,格式类似这样:http://news.sohu.com/20090518/n264012864.shtml
所以写了一小段的正则表达式来匹配他:

还有一个核心类就是用来解析搜狐新闻的类,该类用于重网页中提取出新闻,然后将新闻添加到数据库中。代码中还用到了一个NewsBean
这段代码就不贴出来了,很简单的POJO 代码。核心代码都在下面。
SohuNews.java

存放新闻的数据库用的是MySql 建表语句如下:(其实不用数据库也可以的,在SohuNews类中注释掉那行红色的代码就可以了,所有得到的新闻都会在后台打印的。)

以上的代码写的很粗糙,项目中使用到了HtmlParser工具包,如果需要可以到http://sourceforge.net/projects/htmlparser 网站上下载。如果有需要这个

这篇文章只是一篇抛砖引玉的文章,希望懂爬虫的你能够给点意见,大家交流交流!!

项目源代码SohuNews

ps:http://www.blogjava.net/gml520/archive/2009/05/20/271691.html

你可能感兴趣的:(html,Web,前端,爬虫,HtmlParser)