Machine Learning Week9 : Anomaly Detection & Recommender Systems
GMM - 混合高斯模型算法
Anomaly Detection
1. density estimation(密度估计)
1.1 概率模型
1.2 Gaussian Distribution【Normal distribution】
1.3 Algorithm
对不同的特征,独立分布
2. Building an anomaly detection system
2.1 Developing and evaluating an anomaly detection system
2.2 Anomaly Detection vs Supervised Laerning
2.3 Choosing what features to use
某一特征的直方图(hist)
看起来像高斯分布,可以直接加入作为输入特征;有偏锋的可以尝试使用log(x+c)、x.^c等。
从判断错误的样本中观察是否可加入新的特征
3. Multivariate Gaussian Distribution(多元高斯分布)
3.1 Multivariate Gaussian Distribution
3.2 Anomaly Detection using the Multivariate Gaussian Distribution
Original model 计算量较小,在m较少时也适用;MGD能自动捕捉特征间的相关性,n越大计算量越大,一般在m远大于n时可以考虑。
(很少出现此情况)当MGD的Sigma是奇异矩阵时(不存在逆),可能是 m>n 或者 在特征中存在重复或冗余的特征。
Recommender Systems
1. Predicting Movie Ratings
1.1 Problem Formulation
1.2 Content Based Recommendations
n=2表示电影有两个特征,预测用户对电影的评分。
2. Collaborative Filtering(协同过滤)
2.1 Collaborative Filtering
协同过滤自行学习需要使用的特征
2.2 Collaborative Filtering Algorithm
合并上述两个J(),此时不需要x0=1这个固定的特征值(同时不需要θ0),因为如果系统需要一个永远为1的特征值,会在算法运行中自动调整得出。
3. Low Rank Matrix Factorization
3.1 Vectorization : Low Rank Matrix Factorization
3.2 Implementation Detail : Mean Normalization