网络信息体系结构 内容

1.背景知识要求
    线性代数,概率论和数理统计
    程序设计( Java 或C/C++ )

Web Crawler 的结构(见博客 http://hanyuanbo.iteye.com/admin/blogs/779350

2.基本的,也是最简单的抓取网站的爬虫的算法:

网络信息体系结构 内容

网络爬虫设计时需要注意的一些问题
见附件

3. Web的深入理解:
Web 有多大?
选择6个流行的 search engine, 假设它们索引页面之间的 independency
Sampling: 通过575个查询对这些SE采样,分析它们之间的overlap
用overlap来估计各个SE所覆盖的 indexable Web的大小
利用已知某个SE的页面数,来估计整个Web的大小

网络信息体系结构 内容

Web的连通性如何?
Web上节点的分布如何?
Web上节点距离有多远?
Web上节点重要度如何度量?
如图:



G=(1-β)LT+ β/N(1N)  被称为Google Matrix

4.Introduction of Information Retrieval
索引技术:Index Techniques
排序:Scoring and Ranking
性能评测:Evaluation


5.

6.

7.

8.

9.

10.

你可能感兴趣的:(C++,c,算法,Web,Google)