Week 8:Unsupervised Learning 第一部分课后习题解答

        大家好,我是Mac Jiang,今天和大家分享Coursra —Stanford University —Machine Learning第八周Unsupervised Learing 第一部分Clustering的课后习题。提醒:每个同学的课后习题的参数,选型可能都是不一样的,请做题之前看清题目,不要照抄!

1.第一题
Week 8:Unsupervised Learning 第一部分课后习题解答_第1张图片
(1)题意:下列这些问题,那些适合用K均值法解决?
          1.给定网购用户的相关信息,自动将他们分成不同的市场的潜在用户。
          2.给定超市内大量商品的销售数据,指出哪些是热销商品,因此我们可以把它们放在同一个货架上。
          3.给定历史的天气数据,预测明天下雨的概率。
          4.给定超市内大量商品的销售数据,预测这些商品以后的销售量。
(2)分析:K均值算法是聚类算法,是无监督学习算法,它只能把相近的样本分为一类,输入样本只有x值,因此无法进行预测。相反,有监督学习算法输入为(X,y),输入有y值,这样我们才能对其进行预测。
        选项1,2都是在不知道分类的情况下让我们将特征相近的样本归为一类,即聚类。反之,选项3,4是根据已有数据对以后的情况进行分析,这是有监督学习方法中的回归,不选。
(3)答案:1,2

2.第二题

(1)题意:假设我们有三个簇中心分别为mu1=[1;2],mu2=[-3,0],mu3=[4,2]。有训练样本x(i)=[-1;2],对x(i)进行分类,其类别c(i)是?
          1.2
          2.未分类
          3.1
          4.3
(2)分析:X(i)与mu1距离=(1-(-1))^2+(2-2)^2=4
            X(i)与mu2距离=(-3-(-1))^2+(0-2)^2=8
            X(i)与mu3距离=(4-(-1))^2+(2-2)^2=25
            X(i)与mu1最近,随意c(i)=1
 (3)答案:3

3.第三题

(1)题意:K均值法是一个迭代算法,下面两个过程在迭代过程中重复进行,是哪两个?
        1.利用肘部方法寻找分类数K
        2.特征缩放,确保各特征值之间值大侠大致相等
        3.簇分类操作,c(i)更新
        4.计算新的簇中心值mu k
(2)分析:K均值算法的迭代过程是先根据当前的中心,将所有样本分类到最近的类别中,然后利用新得到的分类计算新的中心,显然选3,4
(3)答案:3,4

4.第四题

(1)题意:假设你有未分类的样本集{x1,x2….xm},你运行了50次不同随机初始化的K均值算法,得到50个不同的分类方法。利用下面那种方法选择这50种分类方法中的最优法?
          1.用肘部法
          2.比较这五十种分类方法的代价失真函数J值,选择最小的
          3.手动进行聚类,选择最好的
          4.做出数据了聚类中心的图像,选择最想干的聚类中心
(2)分析:1.肘部算法是用来辅助选择最优分类数K的,不选
              2.正确
              3.4 要是数据维度很大,不能可视化,这些方法是行不通的,只有通过计算J的值进行选择,这个是无视数据维度的。
(3)答案:2

5.第五题

(1)题意:选出下列所有正确的陈述
          1.初始化K均值的一种方法是从训练样本中选取K个,把这K个作为K均值的初始化中心
          2.K均值法的每次迭代过程中,代价函数J要不保持相同,要不减小,他是不可能增大的
          3.无论初始化中心怎样,K均值算法的结果总是相同的
          4.一个样本一旦被分为一个确定的中心,他不会再被分为另一个不同的中心
(2)分析:1.正确
              2.正确,计算K均值时候,每次迭代过程中,代价函数J值总是不变或减小,不可能增大
              3.错误,K均值初始化中心不同,最后的分类效果可能达到不同的局部最小值,差异很大,这就是我们需要多次调用K均值选取最优的原因
              4.错误,在一次迭代后,它很可能会被分到另一类中
(3)答案:1,2

你可能感兴趣的:(机器学习,clustering,Week-8,课后解答)