现代信息检索(Modern Information Retrieval)

当年好像看到过这门课程,现在还挺后悔没有选修啊,看内容的确应该很不错。赶紧把书买了,回来好好学习学习,希望不晚,

下面是课程相关网页http://ir.ict.ac.cn/ircourse/

现代信息检索(Modern Information Retrieval)

 

中国科学院研究生院秋季课程(2011. 9-12)    以往课程 >>>>

 

更新日期 2011-12-01

 

一、 课程情况:

    课程编号:71258-Z-2        大纲编号:S081203J28 

    课程属性:专业基础课  学时:40  学分: 2

    授课老师:王斌             单位:中国科学院计算技术研究所信息检索课题组

    授课地点:中国科学院研究生院中关村园区S306教室

    授课时间:2011年9月2日-12月2日 每周五下午 1:30-4:10

        助教:叶宜拓             单位:中国科学院研究生院

        教材:《信息检索导论》中文翻译版 (Standford 等大学教材 “An introduction to Information Retrieval” 的中文翻译版)

 

二、教学目的和要求:

   

本课程为计算机科学与技术、图书情报等相关学科研究生的专业基础课,本课程不是讲授如何利用检索工具进行情报检索,而主要以互联网内容应用为背景讲授和讨论现代信息检索领域的主要思想和关键技术。课程的主要内容包括检索模型、检索评价、相关反馈、查询扩展、信息的组织和索引、文本处理、文本分类与聚类、信息过滤、WEB搜索引擎等等。

       通过本课程的学习,希望学生能了解信息检索的基本思想和概念,了解信息检索相关的最新研究成果,培养学生在信息检索相关领域的研究能力和在互联网内容应用上的知识运用能力。

 

三、课程内容:   

课程内容 课时 课件
第零  课程相关情况   pdf  ppt
第一讲  布尔检索

信息检索的概念;布尔检索的概念;倒排索引的概念;布尔查询的处理。

1 pdf  ppt
第二讲 词项词典及倒排记录表

文档预处理;跳表法合并;带位置信息的倒排索引索及短语查询的处理。

2 pdf  ppt
第三讲 词典及容错式检索

支持词典快速查找的数据结构(哈希表、二叉树等);支持通配查询处理的索引结构 ;支持拼写或发音纠错处理的索引结构。

3 pdf  ppt
第四讲 索引构建

硬件基础;基于块排序的构建过程;单遍内存式扫描构建方法;分布式(MapReduce)及动态索引方法。

3 pdf  ppt
第五讲 索引压缩

词项的统计特性(Heaps定律、Zipf定律);词典的压缩;倒排记录表的压缩。

3 pdf  ppt
第六讲 向量模型及权重计算

TF-IDF词项权重计算机制;向量空间模型;

3 pdf  ppt
第七讲 一个完整的检索系统

Top K检索;检索系统组成 。

1 pdf  ppt
第八讲 检索的评价

效率和效果的评价;查全率和查准率;其他效果评价方法;用户体验及结果摘要;相关评测语料和评测会议。

2 pdf  ppt
第九讲 相关反馈和查询扩展

相关反馈和伪相关反馈;查询扩展及重构;全局方法及局部方法。

1 pdf  ppt
第十讲 XML检索

XML的基本概念;XML检索中的挑战问题;基于向量空间模型的XML检索方法;XML检索的评价。

1 pdf  ppt
第十一讲 概率模型

概率排序原理 ;回归模型;二值独立概率模型(BIM);OKAPI BM25公式。

3 pdf  ppt
第十二讲 基于语言建模的检索模型

统计语言建模;基本的查询似然模型;其他扩展的统计语言 建模的检索模型。

3 pdf  ppt
第十三讲 文本分类 及朴素贝叶斯

文本分类的概念;朴素贝叶斯方法;文本分类 的评价。

2 pdf  ppt
第十四讲 基于向量空间的文本分类方法

分类中的特征选择;Rocchio分类器;kNN;线性分类器。

2 pdf  ppt
第十五讲 支持向量机及基于排序的机器学习

支持向量机(SVM);基于排序的机器学习(Learning to Rank)。

1 pdf  ppt
第十六讲 扁平聚类

文本聚类的概念及评价方法;K-均值聚类。

3 pdf  ppt
第十七讲 层次聚类

层次聚类;单连接、全链接、质心、组平均HAC;簇标签生成。

2 pdf  ppt
第十八讲 隐性语义索引

奇异值矩阵分解SVD;隐性语义索引LSI。
1 pdf  ppt
第十九讲 Web搜索

互联网广告;近似重复网页查重。
1 pdf  ppt
第二十讲 Web采集

Web采集器的功能和结构;一个具体的Web采集器。
1 pdf  ppt
第二十一讲 链接分析

PageRank算法;HITS算法。
1 pdf  ppt

四、考核方式:

    平时考察+期末考试

          不定期考勤    5%
            若干小练习    15%    >>>>>练习成绩Top10    
            1篇读书报告  15%    >>>>>阅读作业Top10
            1个大作业      30%    >>>>>大作业成绩Top5 
            期末考试        35%    >>>>>期末考试Top10

        阅读作业(待定):从SIGIR(2009-2011)、WWW(2009-2011)、CIKM(2009-2011)、SIGKDD(2009-2011)、VLDB(2009-2011)、WSDM(2009-2011)、ACL(2004-2010)论文集中(或其他期刊或论文集中)选择一篇与 课程内容(含搜索、分类、过滤、抽取、问答等等)相关的学术论文(要求是Regular Paper,即长文)进行阅读,并准备10分钟左右的阅读报告每个人的选择结果不能相同(为实现这一点,请尽早选定并公布),考核时间大概在11月中旬。
     

        大作业题目(待定2-3个选课学生组成1队),在以下任务中任选一项(11月底12月初考查): 待定

              

五、教材

 

王斌译,《信息检索导论》(Manning的书翻译版),人民邮电出版社出版,2010年9月(预计)。

C. D Manning, P. Raghavan and H Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008. (国内有人民邮电出版社出的影印版,网上有电子 版)

 

 

六、参考书籍(参看王斌主页):

    1.Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 (国内有机械工业出版社出版的影印版和中文翻译版)

       2.李国辉等著,信息的组织与检索,科学出版社,2003

       3.Witten, Ian et al. Managing Gigabytes.  Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999(国内有中文翻译版)

       4.William Frakes & Ricardo Baeza-Yates,  Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992

   
    5.Karen Sparck Jones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997

       6.李晓明,闫宏飞,王继民著,搜索引擎--原理、技术与系统,北京:科学出版社,2005 电子书下载>>>>

       7.

       8.

 

 

七、参考链接:

       1、Information Retrieval Course at UMASS, Fall 2006, Instructor is James Allan.

       2、Instruction to Text Information Systems at UIUC , Fall 2004, Instructor is Chengxiang Zhai.

       3、Information Retrieval and Web Search at Utexas, Spring 2006, Instructor is Raymond J. Mooney.

       4、Web Search and Mining Course at Stanford, Winnter 2005, Instructor is Christopher Manning and Prabhakar Raghavan.

       5、Intelligent Information Retrieval at Depaul U., Winter 2006, Instructor is Bamshad Mobasher

       6、Information Retrieval and Extraction at Taiwan U., 2005, Instructor is  陳信希教授

 

       有关更多信息检索方面的课程、链接请用Google进行查询:

                   try  information retrieval course

                   try  search engine course

                   try  web mining course

                   try  text mining course


八、教学总结:

 

九、备注:

        IR是一门不断发展的学科,加上本人理解尚浅,上述课程中从内容的选择到讲义的制作都难免会有疏漏和错误,欢迎各位同行来信批评指正。

 


你可能感兴趣的:(转载,Algorithm)