搜索引擎中用户行为特征分析

搜索引擎维护的两类信息:

       网页相关信息(通过信息获取部分获取);用户行为信息(通过log记录获取)

 

传统IR技术:(information retrieval

       文档的向量空间模型

       Tf*idf算法

              ―――利用web信息本身的特点和用户行为信息补充

              ―――分析网页通过超连接形成的有向图

       Google    随机冲浪模型       pagerank技术排序

       Ibm clever      权威型&目录型网页    HITS计算权值

       天网       LHNlink hit number)计算权值

              用户经验少但是数量巨大――利用direct技术跟踪用户对检索结果的后续行为

Gray Cullis搜索引擎信息分类:

网页本身信息;链接信息;人工编目信息;用户行为信息。

基本的用户行为特征:

查询词分布情况统计

雷同查询的衰减

相邻n项查询词的偏差分析

翻页情况统计

用户点击url的分布情况统计

 

网页入度; 镜像度; 域名深度

你可能感兴趣的:(SE专题,搜索引擎,ibm,google,算法,文档,url)