google对flash的索引

  闲来没事,又一直想搞个社科类下载站。就用joomla 快速搭这个社科下载 ,手头只有著名的万册图书,包装包装,先用上,实不足为知者道。

  弄了一半,就上google webmaster 提交sitemap。不久抓取成功,本以为索引进搜索引擎,不过1、2天的事。认为理所当然,也就放一边了。今天上去一看,切!索引数目为零,这都过了4、5天了。

  马上想到我的资源太旧了,不足以引起google兴趣。但是描述文字是在书里随机抽取的,google不可能见过呀,怎么把这些文字视为无效呢。极有可能是google图书搜索已经把这些书的内容全部索引了,导致这些网页文字成废物。就以被亵渎的鲁迅 这本书为样本,上google 图书搜索 搜索一看,没有呀,根本没有预览的。

  那问题在哪?难道是别的网站已将这些书转化成网页了,不会吧。google一下被亵渎的鲁迅,一下就看到豆丁网 ,我知道坏事了。豆丁网是scribd 的中国克隆版,用flash来提供在线文档的,google又可对flash索引,那这书的内容google还不早知道,从而将社科下载上的网页视为copy。

  从这个网页快照 ,可见一斑,书的第一页作为flash流的描述,但我抽取页面是随机的。还是以被亵渎的鲁迅为例,再多google几次,发现此书1-7页(下载 一个看看就知道)的内容都作为豆丁网这个flash的描述,你搜索这七页任何一句,都可见答案在豆丁网这个flash上,此书8页以后的就搜不到了。看来文档在线化,还是有搞头的,起码,在原创内容上就可批量转换。

  在社科下载上,被亵渎的鲁迅用书的第11页来描述,google没见过,却不索引,不解的狠。并且,其他电子书,在抽取 网页描述 时,我也是在书的10页以后才开始,这些个内容,google也弃之如草芥,实是郁闷。

  哪位达人大哥知道答案,望不吝赐教。

你可能感兴趣的:(搜索引擎,Google,Flash)