CMU 11642 Search Engines - 大纲梳理

CMU 11642 的课程笔记大纲。涉及了很多算法,详细见具体的链接,代码就不贴了。欢迎讨论,欢迎指正~

Jamie 搜索引擎这门课,还是很有收获的,课上除了一些基本概念和算法外还有很多最新研究,涵盖内容非常广,绝对不止一本书。据 Jamie 讲,在 yahoo 等公司搜索部门的学生回来说现在做的工作感觉就是当年做的作业,是否有夸张不知道,然而大家可以感受下。已经过了选课阶段,就当给下一届想选的小盆友一点 workload 信息吧:

  1. reading notes。每周有大量的 reading,可能是教材也可能是论文。注意 reading notes 的成绩是 binary 的,1 or 0,不要以为在 blackboard 上看到自己是 80 分就以为有了0.8,80分=0分!
  2. homework。五次作业完成一个完善的 search engine,语言是 java,大概三四十个类,每次都是在上一次的基础上进一步改进,所以除了最后一次作业外,你做的每一次作业的 performance 都将深深的影响下一次。如果你发现你的运行时间比 Callen 给的时间要长很多,请务必进行优化。作业不难,通常是让你实现各种算法,常用的以及某些论文中的,然而评分很严,很多 corner case 要注意。
    每次作业完成都有一篇 report,需要做很多实验(四五十个至少吧,不写脚本的话感觉可以从天黑做到天亮),并做“深刻”总结,之所以说“深刻”是因为有时候我绞尽脑汁写的东西得到的评语是 shallow。一把心酸泪。一般来说一天写算法再一天过全部的 test case,最后做实验写 report。
  3. exam。期中期末两次考试,上过 text analytics 的人都知道,Callen 的一贯风格,考试广度优先,题量大,靠本能,你腾出时间来思考你就输了,给分低。

但是说了这么多不要怕!!就算考试成绩再低你的最后分数也会很好看!!

关于能不能 hold 住,这么说吧我上学期还选了 Machine learning(11601A),Distributed Systems(95702),以及 Data Structures for Application Programmers(08722),感觉 4 门课老实说大课只能 focus 一到两门,如果各位还要刷题找工作,还是建议 P/F 或者是 audit 一门。

然后回到正题,高度总结下,这门课就讲了两个问题,一个是如何准确匹配查询与文档,一个是如何快速返回检索结果,就是 效果 vs 效率 的一个权衡。下面的总结梳理了这门课的重点,其中会涉及很多具体算法,然而这只是简单的提纲,不能把公式/算法都列出来,具体的可以看下面的链接或者看书/讲义。透露一点:多数的算法项目里你都需要去实现,而不需要实现的算法,Jamie 也不会轻易放过你,所以你们觉得会在哪里出现呢?

你可能感兴趣的:(Search,Engine,Search,Engine)