【建站系列教程】2、数据源

【建站系列教程】2、数据源 (全网最良心、实用教程)

    • 网站主题
    • 数据源
      • 数据来源于数据库
      • 数据来源于api接口
      • 数据来源于python爬虫
    • 总结

写在前面:大家好,我是热爱编程的小泽
【建站系列教程】是我的亲身建站经历写给广大建站同胞们的教学博客。
喜欢的话点个赞吧~ 评论区欢迎交流讨论~

网站主题

  首先,在做网站之前,得明确自己是要做什么网站,为什么要做网站。以下分类只针对个人站长:
  • 个人博客:这个不多说,主要以分享技术为主
  • 赚取IP的网站:这些网站主题有很多,小说、视频、软文等等
  • 正规用户网站:这个大多是个人创业的网站
  • ……

      为网站选择一个好主题,至关重要。我在做这个网站的时候,是为了赚点击接入广告的,觉得小说类的网站点击量应该会非常大,所以打算做个(盗版)小说网。
    【注】不要做那些盗版事物的网站,限制太多。至于我的小说网,大家接着看下去。

数据源

  什么是数据源?顾名思义,就是网站里面的信息来源。
  网站里面的信息当然以原创最佳,但是绝大多数站长都是用网上已有的信息。比如,信息采集器、小说采集器、爬网页、抓接口等等。这里我们来分类一下常见网站的信息来源,我们以小说网站为例:
  • 1、信息来源于配套的数据库
  • 2、信息来源于其他网站的api接口
  • 3、信息来源于python爬虫

数据来源于数据库

有关于数据库的知识,不再重复,这里主要介绍数据库与建站的关系

  当你买了一个服务器之后,一般会有一个镜像系统,然后会配套有一个数据库。当我们把网站数据放在这个配套的数据库里面,查询和请求数据就会很快。
优点:查询速度快,自己的数据不怕丢失
缺点:像我想做个小说网站那样的,一本小说动辄2000章,一本下来大概有5M,网站书库有10W本的话,您算算这数据库得多大容量。所以对于我们这些小站长来说,缺点也是显而易见的,就是太占存储空间。
相关做法:
1、手动导入数据库信息,这个成本太高,一般采取方法23。
2、爬api接口,然后把api返回的数据写脚本导入到自己的数据库。
3、写python脚本,爬数据导入到自己的数据库。

数据来源于api接口

这里我会写几篇教程,帮助大家提取网站、手机的api接口,超实用。请大家移步查看我的fiddler抓包教程。

  对于我们程序员来说,破解别人的网站、接口是一件大块人心的事情。而拥有api接口的我们更是可以为所欲为(哈哈)。
  因为把小说放在自己的数据库的不现实,所以我把目标放在一些小说的开发api上。后来查了一大堆资料,得用抓包工具去抓接口,于是我去了,且成果显著,在后续的博客中我会把小说的开发api免费分享给大家。
优点:自己不需要建数据库,占空间少,拿别人的接口直接用。
缺点:
1、别人的接口终归是别人的,某天别人把接口关了,你的网站就凉凉了。
2、而且,直接调用api接口,会对网站的响应速度有很大影响。
3、因为接口原因,你只想请求10条数据,但是你不知道接口参数,所以每次都返回个1000条数据,可想而知,这多占速度。
获取api相关做法:
1、看网站源码,看看能不能提取出来有用的接口。
2、用fiddler抓包。后续有教程
3、去正规网站购买api服务。

数据来源于python爬虫

贴士:爬虫的话一般是搜索引擎用的比较多,因为它需要爬全网的网站来做排名、权重等等。就个人而言,爬虫了解会用就行,没必要深入。

  我不知道python爬虫为什么挺火的。但是说实话,js、PHP、java哪个没有能力爬虫?可能后者的沉淀比较深,不去与python争罢了。
python爬虫相关做法:
1(实用)、一般做法是,针对某个网站去写python脚本,然后提取信息导入到自己的数据库里面。
2(鸡肋)、利用爬虫技术(说白了就是正则表达式处理字符串),封装成api,供自己调用。这个不推荐,因为这个耗时比直接调用数据接口还长得多。

总结

在做网站之前,选好网站的主题与内容,然后去找数据。
在这里插入图片描述

你可能感兴趣的:(建站系列教程)