搜索引擎学习资源收集


一、搜索引擎技术/动态资源

<一>、综合类

1、卢亮的搜索引擎研究[URL=http://www.wespoke.com/][/URL]http://www.wespoke.com/

卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"([URL=http://booso.com/][/URL]http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。

2、laolu\'blog

有不少来自国外的关于搜索引擎方面的资料,偏重于资料和数字

3、哈斯日志[URL=http://www.loverty.org/][/URL]http://www.loverty.org/

在这里可以看到国内外几大搜索引擎的最新动态,值得关注搜索发展形势的人多看看

4、北京奕天锐新科技有限公司[URL=http://www.21cnbj.com/][/URL]http://www.21cnbj.com/

搜索引擎、SEO、SEM等行业新闻动态

5、中文搜索引擎指南网[URL=http://www.sowang.com/][/URL]http://www.sowang.com/

搜索引擎最新动态,各种搜索技巧、方法

6、中文全文检索网[URL=http://www.fullsearcher.com/][/URL]http://www.fullsearcher.com/

FullSearcher.Com是有两个对搜索爱好的年轻人创办,我们的目标是让中文互联网全面进入搜索时代,让搜索无处不在。通过搜索改变人们的生活。
FullSearcher提供全文检索的相关知识、垂直搜索引擎知识、搜索的相关新闻等搜索相关内容。


<二>、Google动态

Google官方博客:Google黑板报[URL=http://googlechinablog.com/][/URL]http://googlechinablog.com/

Google中国的博客网志,走近我们的产品、技术和文化

1、Gfans[URL=http://gfans.org/][/URL]http://gfans.org/

一群Google的粉丝

这里没有PageRank,没有HillTop,没有SEO。如果Google是龙井,我希望这里便是虎跑,去化开那馥郁如兰之香。观于沧海者难为水,搜于Google者难为言,Google已不只是文化,他是我的信仰。

本站文章约法三章:


不讨论SEO及相关;

不得无聊转载;

严禁侮辱百度。
2、幻灭的麦克风[URL=http://www.kenwong.cn/][/URL]www.kenwong.cn

Google天地

3、google观察[URL=http://blog.donews.com/googleview/][/URL]http://blog.donews.com/googleview/

<二>、其他搜索引擎动态

1、雅虎搜索日志[URL=http://ysearchblog.cn/][/URL]http://ysearchblog.cn/

记录雅虎搜索引擎的动态、产品、技术等


二、搜索引擎代码资源


一>、搜索引擎/网络蜘蛛程序代码

国外开发的相关程序

1、Nutch

官方网站[URL=http://www.nutch.org/][/URL]http://www.nutch.org/
中文站点[URL=http://www.nutchchina.com/][/URL]http://www.nutchchina.com/
最新版本:Nutch0.7.2Released

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎。自由(Free)而免费(Free)。

2、Lucene

[B][/B]
按此在新窗口浏览图片

官方网站[URL=http://lucene.apache.org/][/URL]http://lucene.apache.org
中文站点[URL=http://www.lucene.com.cn/][/URL]http://www.lucene.com.cn/

Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包[用Java写的],即它不是一个完 整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为 软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

3、Larbin:[URL=http://larbin.sourceforge.net/index-eng.html][/URL]http://larbin.sourceforge.net/index-eng.html

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人SébastienAilleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

国内开发的相关程序

1、SQLET-开放源码的中文搜索引擎

官方网站[URL=http://www.sqlet.com/][/URL]http://www.sqlet.com/

SQLET,是Search&Query&Link,加后缀let,表示小的,小型的意思.打算建立一个能搜上亿张网页的基于 主题功能的中文搜索引擎.支持3种索引方式:MySql_table_Index,Lucene_Index,SQLET_Index.网页抓取可以保 存在文件系统及数据库里。自带WebServer.

2、菲度垂直搜索引擎代码

菲度[URL=http://www.faydu.net/][/URL]http://www.faydu.net为一个垂直在线搜索的演示版,主要对国内一些购物站点进行搜索整理,

现在开源测试版本的代码,供大家讨论。下载说明:

1》因为本程序是在服务器上运行,是在多个处理器下运行的,个人电脑上请控制线程数量

2》包含一个data的数据库还原到sqlserver

3》收集完毕默认在bin目录有licene生成的反排的索引文件

4》下载地址:[URL=http://www.faydu.net/download/code.rar][/URL]http://www.faydu.net/download/code.rar

开放日期:2006-4-18来源:http://blog.csdn.net/faydu/archive/2006/04/18/667997.aspx
语言:VB.net(c#)

二>、中文分词程序代码

1、计算所汉语词法分析系统ICTCLAS

中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS (InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),该系统 的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90% 召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS和计算所其他14项免费发布的成果被中外媒体 广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

下载页面:[URL=http://www.nlp.org.cn/project/project.php?proj_id=6][/URL]http://www.nlp.org.cn/project/project.php?proj_id=6

由于ICTCLAS是由C语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把ICTCLAS改为Java和C#等其他语言。

(1)fenci,Java的ICTCLAS,下载页面:[URL=http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502][/URL]http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

(2)AutoSplit,另一个Java的ICTCLAS,已经找不到下载页面,点击本地下载

(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从ICTCLAS中改进,有Java,C#和C++三个版本,介绍页面:[URL=http://www.donews.net/accesine][/URL]http://www.donews.net/accesine

2、海量智能分词研究版

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面:[URL=http://www.hylanda.com/cgi-bin/download/download.asp?id=8][/URL]http://www.hylanda.com/cgi-bin/download/download.asp?id=8


3、其他

(1)CSW中文智能分词组件

运行环境:WindowsNT、2000、XP或更高,可以在ASP,VB等微软的开发语言中调用。

简介:CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面:[URL=http://www.vgoogle.net/][/URL]http://www.vgoogle.net/

(2)C#写的中文分词组件

据作者介绍,一个DLL文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。

下载页面:[URL=http://www.rainsts.net/article.asp?id=48][/URL]http://www.rainsts.net/article.asp?id=48

三>、开源spider一览

spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.

第一个spider程序由MIT的MatthewKGray操刀该程序的目的是为了统计互联网中主机的数目

Spier定义(关于Spider的定义,有广义和狭义两种).

狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序.
广义:所有能利用http协议检索web文档的软件都称之为spider.
其中ProtocolGivesSitesWayToKeepOutThe\'BotsJeremyCarl,WebWeek, Volume1,Issue7,November1995是和spider息息相关的协议,大家有兴趣参考robotstxt.org.

Heritrix

HeritrixistheInternetArchive\'sopen-source,extensible,web-scale,archival-qualitywebcrawlerproject.

Heritrix(sometimesspelledheretrix,ormisspelledormissaidasheratrix/heritix/heretix/heratix)isanarchaicwordforheiress(womanwhoinherits).Sinceourcrawlerseekstocollectandpreservethedigitalartifactsofourcultureforthebenefitoffutureresearchersandgenerations,thisnameseemedapt.

语言:JAVA,(下载地址)

WebLechURLSpider

WebLechisafullyfeaturedwebsitedownload/mirrortoolinJava,whichsupportsmanyfeaturesrequiredtodownloadwebsitesandemulatestandardweb-browserbehaviourasmuchaspossible.WebLechismultithreadedandcomeswithaGUIconsole.

语言:JAVA,(下载地址)

JSpider

AJavaimplementationofaflexibleandextensiblewebspiderengine.Optionalmodulesallowfunctionalitytobeadded(searchingdeadlinks,testingtheperformanceandscalabilityofasite,creatingasitemap,etc..


语言:JAVA,(下载地址)

WebSPHINX

WebSPHINXisawebcrawler(robot,spider)Javaclasslibrary,originallydevelopedbyRobertMillerofCarnegieMellonUniversity.Multithreaded,tollerantHTMLparsing,URLfilteringandpageclassification,patternmatching,mirroring,andmore.


语言:JAVA,(下载地址)

PySolitaire

PySolitaireisaforkofPySolSolitairethatrunscorrectlyonWindowsandhasanicecleaninstaller.PySolitaire(PythonSolitaire)isacollectionofmorethan300solitaireandMahjongggameslikeKlondikeandSpider.


语言:Python,(下载地址)

TheSpiderWebNetworkXoopsModTeam

TheSpiderWebNetworkXoopsModuleTeamprovidesmodulesfortheXoopscommunitywritteninthePHPcodinglanguage.WedevelopmodsandortakeexistingphpscriptandportitintotheXoopsformat.Highqualitymodsisourgoal.


语言:php,(下载地址)

Fetchgals

Amulti-threadedwebspiderthatfindsfreepornthumbnailgalleriesbyvisitingalistofknownTGPs(ThumbnailGalleryPosts).Itoptionallydownloadsthelocatedpicturesandmovies.TGPlistisincluded.PublicdomainperlscriptrunningonLinux.

语言:perl,(下载地址)


WhereSpider

ThepurposeoftheWhereSpidersoftwareistoprovideadatabasesystemforstoringURLaddresses.Thesoftwareisusedforbothrippinglinksandbrowsingthemoffline.ThesoftwareusesapureXMLdatabasewhichiseasytoexportandimport.

语言:XML,(下载地址)


[B][/B]Sperowider

SperowiderWebsiteArchivingSuiteisasetofJavaapplications,theprimarypurposeofwhichistospiderdynamicwebsites,andtocreatestaticdistributablearchiveswithafulltextsearchindexusablebyanassociatedJavaapplet.

语言:Java,(下载地址)

SpiderPy

SpiderPyisawebcrawlingspiderprogramwritteninPythonthatallowsuserstocollectfilesandsearchwebsitesthroughaconfigurableinterface.

语言:Python,(下载地址)


[B][/B]SpideredDataRetrieval

SpiderisacompletestandaloneJavaapplicationdesignedtoeasilyintegratevarieddatasources.*XMLdrivenframework*Scheduledpulling*Highlyextensible*Provideshooksforcustompost-processingandconfiguration

语言:Java,(下载地址)


[B][/B]webloupe

WebLoupeisajava-basedtoolforanalysis,interactivevisualization(sitemap),andexplorationoftheinformationarchitectureandspecificpropertiesoflocalorpubliclyaccessiblewebsites.Basedonwebspider(orwebcrawler)technology.

语言:java,(下载地址)

ASpider

Robustfeaturefulmulti-threadedCLIwebspiderusingapachecommonshttpclientv3.0writteninjava.ASpiderdownloadsanyfilesmatchingyourgivenmime-typesfromawebsite.Triestoreg.exp.matchemailsbydefault,loggingallresultsusinglog4j.

语言:java,(下载地址)

larbin

LarbinisanHTTPWebcrawlerwithaneasyinterfacethatrunsunderLinux.Itcanfetchmorethan5millionpagesadayonastandardPC(withagoodnetwork).

语言:C++,(下载地址)


三、SEO相关资源

1、域名信息查询

 ★查询国际顶级域名的信息(.aero,.arpa,.biz,.com,.coop,.edu,.info,.int, .museum,.net,.org),可以通过ICANN授权的域名注册商来查询,也可以直接到INTERNIC网站查询,网址是

  [URL=http://www.internic.com/whois.html][/URL]http://www.internic.com/whois.html

[URL=http://www.iwhois.com/][/URL]http://www.iwhois.com/

  ★查询全球各个地理顶级域名是否已经被注册可以到下列网址查询(其中也包括国内域名.cn):

  [URL=http://www.uwhois.com/cgi/domains.cgi?User=NoAds][/URL]http://www.uwhois.com/cgi/domains.cgi?User=NoAds

  ★查询国内域名的注册情况,

  [URL=http://ewhois.cnnic.net.cn/index.jsp][/URL]http://ewhois.cnnic.net.cn/index.jsp

★万网的域名注册信息查询

[URL=http://www.net.cn/][/URL]http://www.net.cn/

★IP地址查询、域名注册信息Whois查询

[URL=http://ip.zahuopu.com/][/URL]http://ip.zahuopu.com/


2、alexa相关与搜索排行榜

★中文排名500强

[URL=http://www.alexa.com/site/ds/top_sites?ts_mode=lang&lang=zh_gb2312][/URL]http://www.alexa.com/site/ds/top_sites?ts_mode=lang&lang=zh_gb2312

★GoogleZeitgeist--Google搜索排行榜

[URL=http://www.google.com/press/intl-zeitgeist.html#cn][/URL]http://www.google.com/press/intl-zeitgeist.html#cn

★百度中文搜索风云榜

[URL=http://top.baidu.com/][/URL]http://top.baidu.com/

★雅虎搜索排行榜

[URL=http://misc.yahoo.com.cn/top_index.html][/URL]http://misc.yahoo.com.cn/top_index.html

★搜狗搜索指数

[URL=http://www.sogou.com/top/][/URL]http://www.sogou.com/top/

3、搜索关键词查询

★google关键字查询https://adwords.google.com/select/KeywordSandbox
★百度关键字查询[URL=http://www2.baidu.com/inquire/dsquery.php][/URL]http://www2.baidu.com/inquire/dsquery.php
★搜狐关键词[URL=http://db.sohu.com/regurl/pv_price/query_consumer.asp][/URL]http://db.sohu.com/regurl/pv_price/query_consumer.asp

4、seo项目/工具

★网页质量[URL=http://category.booso.com/cgi-bin/category/category.cgi][/URL]http://category.booso.com/cgi-bin/category/category.cgi
★关键词密度[URL=http://www.21ql.com/seo/keyword.asp][/URL]http://www.21ql.com/seo/keyword.asp
★搜索引擎蜘蛛模拟器[URL=http://www.webconfs.com/search-engine-spider-simulator.php][/URL]http://www.webconfs.com/search-engine-spider-simulator.php

★GoogleDance查询工具:[URL=http://www.google-dance-tool.com/][/URL]http://www.google-dance-tool.com/

5、seo网站

英文网站

搜索观察[URL=http://www.searchenginewatch.com/][/URL]http://www.searchenginewatch.com/
seochat[URL=http://www.seochat.com/][/URL]http://www.seochat.com

中文网站

1>美国尚奇公司[URL=http://www.zunch.cn/][/URL]http://www.zunch.cn

全球领先的网站设计和搜索引擎优化服务公司,目前中国区负责人为--柳焕斌

尚奇博客社区blog.zunch.cn


在这里可以获取最新的SEO行业信息

2>搜索引擎优化交流中心[URL=http://www.seoonline.cn/][/URL]http://www.seoonline.cn

SEO从业者网站

1>尚奇中国区负责人为--柳焕斌[URL=http://blog.zunch.cn/category/robinliu/][/URL]http://blog.zunch.cn/category/robinliu/

2>seo专业人士--bianyue[URL=http://www.bianyue.com/][/URL]http://www.bianyue.com/

你可能感兴趣的:(搜索引擎,Google,Lucene,asp.net,asp)