JAVA课程设计

基于学院网站的搜索引擎

对学院网站用爬虫进行抓取、建索（需要中文分词）、排序（可选）、搜索、数据摘要高亮、分页显示。Web界面。

一、团队介绍

二、项目git地址

码云地址

三、项目git提交记录截图

image

四、项目主要使用技术

Httplcient
Jsoup
多线程
数据库dao模式
Lucene+IKAnanyzer
Javascript /jQuery
Bootstrap
Web

五、项目其余特点

容错处理完善
界面美观
有配置文件
数据量大的时候查询速度依旧快

六、项目功能架构图与主要功能流程图

image

七、项目运行截图

用爬虫把数据爬取解析后存到数据库里面

image

把数据库里面的内容建索生成的索引文件

image

设计的前端界面

image

设计的logo，现在是2018年，也是狗年，然后就把2018变成狗。这个是网站上直接下载下来的，不过也是找了好久

附上链接

image

我们再搜索框输入我们要查询的东西

image

然后展示搜索得到的结果

image

这个是gif动图，因为色彩太丰富了，导致录制的时候，看起来颜色有点变

image

八、项目整体流程

1.爬虫+数据库

对爬虫了解也不是很深，粗略的讲一下大体思路。
由于知识积累尚浅，平时一般采用这3种方式爬取基本的网页。
①观察url的规律，有些url可能是id=xxx，这个xxx是从1开始递增的，这个时候我们就是可以去遍历。具体规律看实际，这边只是一个思路
②查看网页源码，看看其属性class什么的，看看是否有规律，如果有，那就按照这个来，这个用Beautifulsoul4的时候经常用，叫做CSS 选择器。我们在写 CSS 时，标签名不加任何修饰，类名前加点.，id名前加 #，在这里我们也可以利用类似的方法来筛选元素。因为感觉写正则匹配太麻烦(其实是不太精通)，喜欢这种懒人式的操作。
还有的话就是用xpath语法来获取你想要的东西，以前有用过python中的scrapy框架，里面就有xpath语法，刚刚查了一下，用java写的爬虫中也有。反正现在浏览器xpath路径已经给你弄好，复制粘贴修改一下就ok。

③获取属性为的链接，可以用jsoup或者其他语言的其他解析器，也可以用正则去匹配。最后进行筛选，再去请求，再去匹配....

首先观察网站结构，先大体翻看url结构，发现每篇正文都是info/xxxx/xxxx.htm，于是有了第一个思路，对xxxx进行遍历，得到每一个url。再利用jsoup去进行解析，存进数据库。

java课程设计团队博客《基于学院的搜索引擎》

JAVA课程设计

基于学院网站的搜索引擎

对学院网站用爬虫进行抓取、建索（需要中文分词）、排序（可选）、搜索、数据摘要高亮、分页显示。Web界面。

一、团队介绍

二、项目git地址

码云地址

三、项目git提交记录截图

四、项目主要使用技术

五、项目其余特点

六、项目功能架构图与主要功能流程图

七、项目运行截图

用爬虫把数据爬取解析后存到数据库里面

把数据库里面的内容建索生成的索引文件

设计的前端界面

设计的logo，现在是2018年，也是狗年，然后就把2018变成狗。 这个是网站上直接下载下来的，不过也是找了好久

我们再搜索框输入我们要查询的东西

然后展示搜索得到的结果

这个是gif动图，因为色彩太丰富了，导致录制的时候，看起来颜色有点变

八、项目整体流程

1.爬虫+数据库

2 检索部分

3. 前后端

九、项目关键代码

"+crawl.getAbs()+"

"+crawl.getAbs()+"

十、尚待改进或者新的想法

变量的命名不太规范

可以尝试着去做一个只有修改部分参数，就可以去爬取别的网站的搜索引擎，甚至更大

团队成员任务分配

姓名

任务

袁德兴

利用Lucene和IKanalyzer进行检索，部分前后端内容与模块衔接

陈芳毅

采用httpclient和jsoup，进行爬取和解析，部分数据库内容

韩烨

采用数据库的dao模式将jsoup解析后的内容进行存储，部分前端和logo的设计

刘兵

采用bootstrap和jsp等进行前端界面的设计和后端代码实现

张晨曦

采用jquery和jsp等进行前端界面的设计和后端代码的实现

十一、本次课设中大佬们博客内容提供的帮助非常大，衷心的感谢。

扫描下方二维码关注我公众号

或者微信搜索：凡哥共享

你可能感兴趣的:(java课程设计团队博客《基于学院的搜索引擎》)

设计的logo，现在是2018年，也是狗年，然后就把2018变成狗。这个是网站上直接下载下来的，不过也是找了好久