这个系列是检索检索的内容,一直对这些方法比较感兴趣,所以记录之。一开始是接触斯坦福的CS 276 / LING 286: Information Retrieval and Web Search。后来发现中科院的王斌教授也教授了这个课,对于英语差的人,中文肯定是首选。下面贴出这两门课程的网址:
斯坦福cs276 :http://www.stanford.edu/class/cs276/
中科院现代信息检索:http://ir.ict.ac.cn/~wangbin/ircourse/index.htm
下面进入正式的课程学习。
课程介绍主要是说明什么是信息检索?和为什么要学习信息检索?这两个问题。
1.什么是信息检索?
给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织和访问。
从大规模非结构化数据(通常是文本)的集合中找到满足用户信息需求的资料的过程。
“找对象”的学科,即定义并计算某种匹配“相似度”的学科。
1.1信息检索的应用主要是在搜索,情报处理,挖掘,内容安全,推荐,舆情分析等等。
1.2搜索系统:web搜索引擎,IBM waston问答系统……
推荐系统:淘宝,豆瓣,当当……
1.3个人信息检索,企业级信息检索,Web信息检索(超大规模数据集)
2.为什么要学习信息检索?
2.1用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易
2.2公司需要信息检索技术:搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术。
2.3 应用需求:移动搜索,产品搜索,专利搜索,广告推荐,消费行为分析,网络评论分析,SEO营销……
3.搜索(狭义的信息检索)的三个层次:
应用层次:搜索是一项非常重要的应用!
中间层次:搜索是极其重要的API
核心层次:搜索是未来操作系统的重要组成部分!
课程内容有:
信息检索的基本概念
信息检索的评价
信息检索模型和算法
模型(布尔模型、向量模型、概率模型、语言模型)
相关反馈、查询扩展
文本处理技术
文本分类和聚类技术(倾向性分析)
信息过滤技术
信息组织和索引
并行和分布式检索
信息检索的应用
WEB检索
重要会议:
国际会议(COLING2010、SIGIR2011将在北京举行):
SIGIR、ACL、WWW、SIGKDD、WSDM、ICML
CIKM、EMNLP、COLING
TREC、NTCIR评测会议
ECIR、AIRS
国内会议:
全国信息检索学术会议(1年一届)
全国计算语言学联合会议(2年一届)
搜索引擎和WEB挖掘学术会议(1年一届,上半年)
以上就是第一节introduction的内容。欢迎指正……