【备忘】机器学习和信息检索常用的东东

1、多项式分布

2、文本的多项式分布建模

3、共轭先验

4、概率平滑{Lapace平滑、加1平滑、Dirichlet贝叶斯平滑、2阶段语言模型}

5、似然函数

6、log似然函数

7、期望最大化算法

8、条件概率

9、贝叶斯全公式

10、生成模型

11、判别模型

12、条件期望

13、拉格朗日系数

14、VSM,LSI,PLSI,LDA。。。

15、CRF、HMM、SVM、NN、DT、MEM。。。

16、协同过滤

17、expert finding

18、信息抽取

19、贝叶斯决策论

20、KL-divergence

21、熵、条件熵、交叉熵、互信息

22、最大似然同交叉熵之间的联系

23、一般图模型的画法以及其含义

24、马尔可夫性质

25、Gibbs Sampling或者就是Sampling

26、Varitional inference

27、Simplex

28、各种概率分布:Gauss、多重贝努力、Beta、Dirichlet。。。

29、贝叶斯网络

30、各种排序方法的评估:如NDCG

31、自然语言中各种名词的含义:如WSD

32、基本概念:监督学习、半监督学习、无监督学习等等

33、维度规约

34、假设检验

35、特征提取的基本方法

36、文本分类、聚类的基本方法

37、PageRank,HITS等基本方法

38、TrustRank

39、 Web Spam

40、信息检索的基本模型:VSM、LM、RSJ、BIR等等

41、Okapi

42、如何创建评测集合:pooling

43、文本采样的方法: shingling、fingerprint

44、feedback的基本方法

45、TRANSLATION MODEL

46、Kernal Method

47、Active learning

48、语言模型/n-gram

49、Discriminative Mode、Generative Mode

50、Exchangeable random variables

你可能感兴趣的:(Web,算法)