手把手写个爬取it博客的网站-技术选型

陆陆续续折腾一周的网站上线了,地址在这里http://itblog.enilu.cn

这个网站主要汇聚了一些优秀的IT类博客的文章索引,用户在这里就可以看到全网很多大牛和牛X团队的技术博客,可谓干货满满。

针对这个网站的实现过程,分为8篇文章分别说明:

0.手把手写个爬取IT博客的网站-提纲
1.手把手写个爬取IT博客的网站-需求分析
2.手把手写个爬取IT博客的网站-技术选型
3.手把手写个爬取IT博客的网站-框架搭建
4.手把手写个爬取IT博客的网站-数据采集
5.手把手写个爬取IT博客的网站-数据展示
6.手把手写个爬取IT博客的网站-域名申请和服务器采购
7.手把手写个爬取IT博客的网站-系统上线
8.手把手写个爬取IT博客的网站-网站优化

 

 

本篇为本系列文章的第二篇:手把手写个爬取IT博客的网站-技术选型

技术选型主要针对几个方面:

语言

毫无疑问作为java程序员,肯定不会选择其他的,另外……“java是世界上最好的语言”,不接受辩论!不接受反驳!

主体框架

既然选择java语言,主体框架自然离不了spring boot,前端模版选择Thymeleaf。 spring boot 是最火的java 开发框架,Thymeleaf是例子默认使用的引擎。 选择这两款做java web开发,错不了。

前端

由于我不是前端,前端技术渣的一比,所以就直接选择了Bootstrap这个前端框架,这个框架提供了响应式布局、栅格系统和大量的预定义组件, 非常适合我们这些前端小白使用,点击这个地址可以了解Bootstrap

数据采集

数据采集使用Jsoup,由于我要爬取的网站都不是特别复杂,所以不需要用特别复杂的爬虫软件。而且Jsoup可以像jquery操作dom一样来提取网页中的数据,做网页解析非常简洁方便。 尤其方便的是它还提供了一个在线解析的工具https://try.jsoup.org/,你可以把要解析的网页复制到左边输入框中,然后输入解析代码进行解析测试。

数据库

考虑到要抓取的文章并不多,以及后期投入的服务器资源有限,所以采用嵌入式数据库sqlite,不仅消耗资源少,而且可以满足需求,更重要的是这个数据库与mysql基本兼容,后期即使迁移到mysql也不会做太多改动。

你可能感兴趣的:(网站性能,java,数据抓取)