关于网站数据采集的澄清

呵呵呵,最近 晚上做仿站的很多的,其中涉及到一个数据采集的问题,其实数据采集和仿站关系并不大。

数据采集工具的起源。

因为网上有很多的开源的论坛系统,cms网站系统以及eshop等系统,这些系统的管理员面临的一个问题就是没菜下锅的问题,要提升人气,让更多的人来到自己的网站或者论坛,就需要有吸引人的内容和不断更新网站内容,网站的后台管理模块本身是提供了发布文章或者信息的功能,但是这样发实在是太麻烦,一次写半天只能发布一篇文章,所以很多站长就在想,能不能自动的更新网站的内容呢,那样该有多省事 啊,有了这个需求,那么有的开源网站就在后台管理部分提供了一个采集的工具,支持站长通过这个工具去采集互联网上的其它网站或者论坛上面的内容到自己的网站上来,但是这种采集功能往往不是很强大,于是就产生了专门的网站采集器。

专门的网站采集器就是用来通过对指定其它网站url发送请求,然后获取反应,对返回的的源码或者页面进行结构化分析,根据站长指定的一些模式匹配来提取其中的部分内容,取出来后还可以进行一些编辑修改等等,最后,你可以将这些采集到的数据存放到自己的本地的数据库或者文件中甚至可以直接通过发布模块发布到自己的网站或者论坛中,而且还可以设置定时自动采集发布,这样一来站长就能很方便的更新自己网站的内容获取更高的浏览和人气了。 据说有些采集器的功能还可以在自己的论坛中模拟几千人同时在线同时在不同板块发帖以及各种互动,吓死人了,这样一来你看到的论坛在线人数很可能是被采集系统模拟出来的二不是真的在线了。


采集系统侧重的是从其它的网站或者论坛将其好的内容拿出来然后经过一些处理以后仿到自己的网站上去,这就是采集器的主要的功能也是其主要的目的。有一些商城网站因为上面的商品信息不多吸引不到什么人来,所以就通过一些采集软件去taobao这样的大商城上去采集一些商品的信息,采集了后仿到自己的应用中来进行数据挖掘或者展现,这也是很常见的。有些网站为了避免被竞争对手采集还特别设计了一些防止被采集的方法。


那么这是采集,下面说说仿站,

仿站其实就是做一个和别人几乎一模一样的网站。

有几种目的,一直是看到别人网站设计的好想仿照一下;还有的是为了钓鱼。



那么仿站我们主要有2个问题,一个就是样子上要一样,这涉及很多css js 图片及其路径等等的问题,这些东西首先要从目标网站下载下来,然后还有更改各种布局各种调整才能做到既不上一样是很麻烦的,即使这样,那么得到的也都是html的静态页面,因为一个动态网站都是通过生成html静态页面来产生浏览器输出的,你下载到的哦也只能是一些静态的资源了,这样仿照的网站只能是样子上一样,但功能上却往往不同,真正的网站点击注册是可以完成注册的厄尔仿站则不可能,因为仿站就是一堆静态的html页面,没有动态代码,也没有后台的数据库,所以例如注册这样的就没有了,针对仿站而已,如果只求样子上一样的静态仿站,那么还算比较好仿照的,但是如果要求动态功能也要一样的话,那就会很麻烦了,因为一些动态功能需要自己去开发,你有的只是一些前端的静态的东西,动态的需要自己完全的开发,这个时候往往通过一些框架来支持这些后台功能的开发,但还是很麻烦的,所以说仿站的时候,一般只是在全部静态仿站的情况下,只开放一部分少量的动态功能(通过框架例如dede),不必要所有的动态功能都开发,否则就是完全通过另一种方式去实现一个功能相同的网站了。






你可能感兴趣的:(html,数据库,框架,数据挖掘,工具,商城)