1:上课老师是:付学谦老师及其博士助教。上课带纸笔和人就行。
2:上课的内容和作业量相比于其他选修课较为轻松,且只有大作业和论文报告,没有考试!!!基本上最后会留20min给同学们写课堂练习题。
3:最好拍下每张ppt,指不定哪道题就用上了。以及现在是GPT时代,善用工具会事半功倍。
4:平时分而言,我个人觉得挺玄学的,每次课都做前排且上课听讲并回答问题,最后也只拿了B+。
5:所以,只是为了刷成绩的朋友,慎选;只是为了修学分的朋友,欢迎;只是为了学到机器学习知识的朋友,我的建议是不如去看西瓜书和李航的书。
6:最后两周是在机房坐一下午并完成代码,前几周是在教室上课。
7:另外,由于选修课的资料好像不是需要太多,遂把之前的blog合并为一篇,且将本专栏改为【专业选修课】,便于之后继续收集其他课程的信息。
章节 | 内容 | 学时数 | 意义 |
---|---|---|---|
统计机器学习概述 | 了解统计机器学习的基本问题和方法 | 2 | 兴趣 |
概率与统计 | 掌握随机变量与概率分布公式及编程实例 | 2 | 统计理论 |
统计模式识别的生成式方法 | 掌握贝叶斯推理等统计模式识别的原理与方法 | 2 | 模式识别 |
统计机器学习的判别式方法 | 掌握基本的机器学习中的判别式模型 | 2 | 判别式 |
高级主题 | 掌握高级算法,应用统计机器学解决问题 | 8 | 解决问题 |
上机课程 | 参考高级主题课程,完成代码编程并提交 | 8 | 实际操作 |
考核形式 | 分值 | 要求 |
---|---|---|
平时成绩 | 30 | 按照出勤情况 + 随堂练习质量进行评分 |
课程论文 | 40 | 考查是否掌握基本统计机器学习算法思想以及科技论文撰写水平 |
提交代码 | 30 | 考查编程实现能力,根据提交的代码完成质量进行评分 |
1:(关于赌徒的问题)你支持四种观点中的哪一个,也可以提出自己的观点,需要用统计学的方法说明。
2:回顾概率论,讲述你对连续变量和离散变量区别的理解,并举例说明哪些问题是连续的,哪些是离散的。
3:讲述一个你遇到的不确定性问题,你是如何做出确定性的决定的,并用统计学理论去解释。
4:球体半径厚度为10%时,数据维数为10维,球体的外壳占百分之多少的体积?给出计算过程。
5:讲述你对特征选择与特征提取区别的理解,并举例说明。
1:机器学习为何要求样本独立同分布?独立同分布的内涵是指什么?科学道理上怎么解释。
2:利用数学公式,验证以上两个结论,即Log对数损失函数(1)为何适用于分类,(2)为何对噪声敏感。
3:过拟合会造成泛化能力下降,为何需要正则化,利用数学公式进行分析。
4:机器学习在一般工作中分别用到的几率多大?一般用途是什么?需要注意什么?
5:无监督学习无法评估,如何保障计算结果能解决实际聚类问题?
6:KNN是分类算法还是聚类算法,是监督学习还是非监督学习?根据定义做出解释。
7:蒙特卡洛是一种根据制定好的规则基于不确定性不断演算得到结果的思想,样本规模需要多大才能保障计算结果?
1:模式识别可用于文字和语音识别、遥感和医学诊断等方面,请列举其他模式识别的应用。
2:年轻学生采用的语音识别技术是监督模式识别还是非监督模式识别?从模式识别的理论进行分析。
3:【1号碗:巧克力30,水果糖10;2号碗:巧克力20,水果糖20】把碗盖住,随机选择一个碗,从里面摸出一个巧克力,这颗巧克力来自1号碗的概率是多少?
4:样本规模多大是大样本,多大是小样本,小样本是个绝对的概念,还是相对的概念?解释说明。
5:频率学派与贝叶斯学派的观点中,相同的是什么,不同的是什么?结合公式和理论去分析。
6:信息熵、交叉熵和KL散度的取值范围是多少?通过公式去分析。
7:两个概率分布的距离为何用KL散度衡量而不是举例度量?
1:多类问题和二类问题的区别是什么,对错误率有着怎么样的影响,从错误率的公式来思考并解答。
2:长为10的鱼分类最小错误率是多少?如何减小错误率,改变判别长度还是增加特征?给出一种贝叶斯决策方案。
3:解释为何错误率是c*(c-1)项,为何计算平均值而不是最大值,哪个合理?
4:贝叶斯判别函数中的类条件概率密度是利用样本来估计的,判别函数的对数形式对公式和编程有什么影响?
5:random.random()和random.uniform(),哪种计算圆周率更加准确,还是效果相同?从统计机器学习出发并分析。
1:为什么使用累积分布函数(CDF)的反函数,就能生成符合概率密度分布函数(PDF)的随机数?
2:根据beta分布函数、均值方差公式,给出beta分布的均值和方差的计算公式。
3:矩估计法相比概率建模的优势是什么?概率分布模型参数与几个距离相比,哪个能更加准确地模拟不确定性?
4:昼夜交替,四季变化,给天气事件数值模拟与仿真带来了哪些难点,需要采用什么统计机器学习算法去处理?
1:如何理解深度模型可解释性差?
2:PCA降维方式存在什么缺陷?
3:SNE有哪些不足?可以如何改进?
4:准确率、精确率、召回率有何不同,还有什么其他的评价指标?
1:请论述点预测、区间预测、概率预测的区别与联系。
2:深度学习中的注意力机制都有什么种类,有什么区别与联系。
3:除了正态化原始数据,还能用什么方式计算不确定数据的相关性。
大作业定题
1:题目
2:数据来源
3:具体统计学习理论
4:理论适用性分析(问题)
5:基本设计思路