找书网是如何工作的

找书网 (  网址 ) 属于个人兼职项目,利用工作之余的时间搭建起来的一个网站,缘于自己想看书但是苦于要费很多精力才能找到自己想找的书。

介绍下项目的情况:

1、所有的技术开发是由我一个人完成的,运营推广也没有花太多的力气

2、工作原理:爬虫爬取各大小图书网站的图书信息(因为要针对不同的网页结构写不同的爬虫规则,所以,后期在技术方面主要的工作就是找到新的网站然后编写爬虫)。通过sphinx对爬取的数据重新建立一次索引。用户通过搜索框,搜索关键词,后台的程序会在索引里面寻找与关键词相匹配的文档id , 找出图书信息,返回到前台展现给用户。

3、数据目前还在不断的增加,因为只有一台阿里云服务器,所以爬取的速度还很慢。截止到写这篇文章为止 有 30万+ 的图书信息。

4、成本和盈利。成本主要是域名的费用(40元/年)+服务器的费用(60年/月),盈利模式只有广告,如果有用户打赏,欢迎通过打赏。

目标和未来:
1、爬取更多的图书信息(当然更多的是电子书)。帮助大家找书。

2、有人问过,说搜索到的书是付费的还是收费的。这个我没有保证。跟来源网站有关。但是实际爬取的过程中我会特意去找一些免费的网站。当然,如果是收费的,付钱买一本也是对作者的支持。

网站现状:

找书网是如何工作的_第1张图片

2015年08-25 上线,27 号的 流量达到最高。

才刚刚开始,本身这样一个用户找书的这样一个需求的满足方式也是一个探索过程,后期具体怎么弄我不清楚,每天发发微博之类的或者其他。

希望大家多多给意见。

你可能感兴趣的:(找书网是如何工作的)