当年好像看到过这门课程,现在还挺后悔没有选修啊,看内容的确应该很不错。赶紧把书买了,回来好好学习学习,希望不晚,
下面是课程相关网页http://ir.ict.ac.cn/ircourse/
现代信息检索(Modern Information Retrieval)
中国科学院研究生院秋季课程(2011. 9-12) 以往课程 >>>>
更新日期 2011-12-01
一、 课程情况:
课程编号:71258-Z-2 大纲编号:S081203J28
课程属性:专业基础课 学时:40 学分: 2
授课老师:王斌 单位:中国科学院计算技术研究所信息检索课题组
授课地点:中国科学院研究生院中关村园区S306教室
授课时间:2011年9月2日-12月2日 每周五下午 1:30-4:10
助教:叶宜拓 单位:中国科学院研究生院
教材:《信息检索导论》中文翻译版 (Standford 等大学教材 “An introduction to Information Retrieval” 的中文翻译版)
二、教学目的和要求:
本课程为计算机科学与技术、图书情报等相关学科研究生的专业基础课,本课程不是讲授如何利用检索工具进行情报检索,而主要以互联网内容应用为背景讲授和讨论现代信息检索领域的主要思想和关键技术。课程的主要内容包括检索模型、检索评价、相关反馈、查询扩展、信息的组织和索引、文本处理、文本分类与聚类、信息过滤、WEB搜索引擎等等。
通过本课程的学习,希望学生能了解信息检索的基本思想和概念,了解信息检索相关的最新研究成果,培养学生在信息检索相关领域的研究能力和在互联网内容应用上的知识运用能力。
三、课程内容:
课程内容 | 课时 | 课件 |
第零讲 课程相关情况 | pdf ppt | |
第一讲 布尔检索 信息检索的概念;布尔检索的概念;倒排索引的概念;布尔查询的处理。 |
1 | pdf ppt |
第二讲 词项词典及倒排记录表 文档预处理;跳表法合并;带位置信息的倒排索引索及短语查询的处理。 |
2 | pdf ppt |
第三讲 词典及容错式检索 支持词典快速查找的数据结构(哈希表、二叉树等);支持通配查询处理的索引结构 ;支持拼写或发音纠错处理的索引结构。 |
3 | pdf ppt |
第四讲 索引构建 硬件基础;基于块排序的构建过程;单遍内存式扫描构建方法;分布式(MapReduce)及动态索引方法。 |
3 | pdf ppt |
第五讲 索引压缩 词项的统计特性(Heaps定律、Zipf定律);词典的压缩;倒排记录表的压缩。 |
3 | pdf ppt |
第六讲 向量模型及权重计算 TF-IDF词项权重计算机制;向量空间模型; |
3 | pdf ppt |
第七讲 一个完整的检索系统 Top K检索;检索系统组成 。 |
1 | pdf ppt |
第八讲 检索的评价 效率和效果的评价;查全率和查准率;其他效果评价方法;用户体验及结果摘要;相关评测语料和评测会议。 |
2 | pdf ppt |
第九讲 相关反馈和查询扩展 相关反馈和伪相关反馈;查询扩展及重构;全局方法及局部方法。 |
1 | pdf ppt |
第十讲 XML检索 XML的基本概念;XML检索中的挑战问题;基于向量空间模型的XML检索方法;XML检索的评价。 |
1 | pdf ppt |
第十一讲 概率模型 概率排序原理 ;回归模型;二值独立概率模型(BIM);OKAPI BM25公式。 |
3 | pdf ppt |
第十二讲 基于语言建模的检索模型 统计语言建模;基本的查询似然模型;其他扩展的统计语言 建模的检索模型。 |
3 | pdf ppt |
第十三讲 文本分类 及朴素贝叶斯 文本分类的概念;朴素贝叶斯方法;文本分类 的评价。 |
2 | pdf ppt |
第十四讲 基于向量空间的文本分类方法 分类中的特征选择;Rocchio分类器;kNN;线性分类器。 |
2 | pdf ppt |
第十五讲 支持向量机及基于排序的机器学习 支持向量机(SVM);基于排序的机器学习(Learning to Rank)。 |
1 | pdf ppt |
第十六讲 扁平聚类 文本聚类的概念及评价方法;K-均值聚类。 |
3 | pdf ppt |
第十七讲 层次聚类 层次聚类;单连接、全链接、质心、组平均HAC;簇标签生成。 |
2 | pdf ppt |
第十八讲 隐性语义索引 奇异值矩阵分解SVD;隐性语义索引LSI。 |
1 | pdf ppt |
第十九讲 Web搜索 互联网广告;近似重复网页查重。 |
1 | pdf ppt |
第二十讲 Web采集 Web采集器的功能和结构;一个具体的Web采集器。 |
1 | pdf ppt |
第二十一讲 链接分析 PageRank算法;HITS算法。 |
1 | pdf ppt |
四、考核方式:
平时考察+期末考试
阅读作业(待定):从SIGIR(2009-2011)、WWW(2009-2011)、CIKM(2009-2011)、SIGKDD(2009-2011)、VLDB(2009-2011)、WSDM(2009-2011)、ACL(2004-2010)论文集中(或其他期刊或论文集中)选择一篇与 课程内容(含搜索、分类、过滤、抽取、问答等等)相关的学术论文(要求是Regular Paper,即长文)进行阅读,并准备10分钟左右的阅读报告。每个人的选择结果不能相同(为实现这一点,请尽早选定并公布),考核时间大概在11月中旬。
大作业题目(待定2-3个选课学生组成1队),在以下任务中任选一项(11月底12月初考查): 待定
五、教材
王斌译,《信息检索导论》(Manning的书翻译版),人民邮电出版社出版,2010年9月(预计)。
C. D Manning, P. Raghavan and H Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008. (国内有人民邮电出版社出的影印版,网上有电子 版)
六、参考书籍(参看王斌主页):
1.Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 (国内有机械工业出版社出版的影印版和中文翻译版)
2.李国辉等著,信息的组织与检索,科学出版社,2003年
3.Witten, Ian et al. Managing Gigabytes. Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999(国内有中文翻译版)
4.William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992
5.Karen Sparck Jones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997
6.李晓明,闫宏飞,王继民著,搜索引擎--原理、技术与系统,北京:科学出版社,2005 电子书下载>>>>
7.
8.
七、参考链接:
1、Information Retrieval Course at UMASS, Fall 2006, Instructor is James Allan.
2、Instruction to Text Information Systems at UIUC , Fall 2004, Instructor is Chengxiang Zhai.
3、Information Retrieval and Web Search at Utexas, Spring 2006, Instructor is Raymond J. Mooney.
4、Web Search and Mining Course at Stanford, Winnter 2005, Instructor is Christopher Manning and Prabhakar Raghavan.
5、Intelligent Information Retrieval at Depaul U., Winter 2006, Instructor is Bamshad Mobasher
6、Information Retrieval and Extraction at Taiwan U., 2005, Instructor is 陳信希教授
有关更多信息检索方面的课程、链接请用Google进行查询:
try information retrieval course
try search engine course
try web mining course
try text mining course
八、教学总结:
九、备注:
IR是一门不断发展的学科,加上本人理解尚浅,上述课程中从内容的选择到讲义的制作都难免会有疏漏和错误,欢迎各位同行来信批评指正。