信息检索

#数据收集 

## 内部数据收集

## 互联网数据收集

### 爬虫

### 爬虫的工作模式:

提供一个或若干个初始网页的地址, 获得初始网页上的URL列表,然后在抓取网页的过程中,不断地从当前页面上抽取新的URL放入待爬队列。

### 获取新的URL的策略:

深度优先、广度优先、最佳优先

### 已有框架介绍Heritrix

# 数据存储

# 数据处理

## 信息检索

## 基础算法

PageRank、HITS:

## 工具

elasticsearch

solr

## 扩展:推荐系统

## 推荐系统工具:mahout

你可能感兴趣的:(信息检索)