大数据暑期学校心得体会

7月16日上午,王立威教授做了《机器学习理论》的报告。听完王老师的报告,奥卡姆剃刀这个哲学思想使我对机器学习的研究有了新的认识。报告首先介绍了机器学习理论泛化性这一概念,我的理解就是——对现有样本学习后生成的准则对其他数据的适用能力。王老师将机器学习用胡克定律进行引入,并且经常用8阶多项式的拟合问题进行举例,深入浅出。然后,王老师介绍了机器学习用到的统计方面的知识,比如:马尔科夫不等式、切比雪夫不等式、中心极限定理等。接下来,王老师从VC纬度、边界理论、算法稳定性的方面讨论了算法的泛化性问题。最后,介绍了机器学习的前沿动态:使用SGD(Stochastic Gradient Descent)进行大规模机器学习。我接下来要用王老师提到的分类器进行实验,并且在注重准确率的同时注意算法的泛化性,最好可以定量衡量。

7月16日上午,孟德宇教授做了《自步学习》、《张量稀疏性》和《误差建模》3个报告。听报告当中,我折服于老师深厚的数学功底。《误差建模》报告中,通过对不同噪声建模,得到了一些有趣的信息,比如有的噪声分离出来其实是人影、喷泉等形状。在误差建模时,可以使用一些特殊领域的先验知识。关于老师的讲座,还有一点对我有用就是雨天噪声的建模,应用了MoG,文章投稿于ICCV。对于去模糊处理,孟老师讲到的tensor sparsity也可以应用于此。自步学习是基于学习由易到难的思想,这个思想也是从我们人类从小到大的学习规律得到。

7月18日上午,孙剑教授做了《深度学习方法在图像模型学习中的应用》的报告。首先,孙老师就图像处理的基本概念进行了科普。接下来,对团队运用深度学习方法近些年的研究成果进行了总结。我印象比较深刻的是图像去模糊的具体应用,用到的是深度学习方法。该方法需要基于patch的方式得到运动方向,然后对非均匀的模糊图像进行建模,最后恢复原图像。马尔科夫随机场使周围光滑化。并且在老师的主页有代码,底层使用cuda编程。还在孙老师的报告听到一个点:迁移学习。我的理解是,迁移学习在样本数量不够的情况下,提取原有样本和目标样本之间的共同特征,通过对现有样本的学习来对测试数据进行分类。在面对某一领域的具体问题时,通常可能无法得到构建模型所需规模的数据。借助迁移学习技术,我们可以直接使用预训练过的模型,这种模型已经通过大量容易获得的数据集进行过训练(虽然是针对完全不同的任务进行训练的,但输入的内容完全相同,只不过输出的结果不同)。迁移学习技术的另一个重大收益在于可以对模型进行完善的“通用化”。


《标记分布范式》和《多标记机器学习》两个报告从标记的维度研究了机器学习算法。传统的标记都是人为应用一个最大值,而标记分布运用标签概率分布对一个样本进行了更全面描述,能够处理标记的不同重要程度(描述度)。对这个概念我的理解是:标签分布与概率统计中概率密度类似,同一个样本的所有标记概率求和为1。多标记机器学习是一种比传统单标记和多标记学习更为泛化的学习范式。它需要专门的算法设计和评价指标。可以应用的场景是:数据本身具有某种天然描述度度量;标记之间有较强相关性;同一事例由多个标注源标注并产生不一致性;同一样本与多标记相关且重要程度不同。

《标记分布范式》报告中,张老师介绍了多标记学习的概念、具体学习算法等内容。该报告中,张老师还提到了类别不平衡的相关概念,我查阅了周志华《机器学习》一书3.6章节类别不平衡的问题。类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况。书中假定正样本少,反样例多,这与张老师的假设相同。处理类别不平衡问题有以下策略:①阈值移动;②反样本欠采样;③正样本过采样。其中,②方法时间开销较小,常用算法有EasyEnsemble;③方法代表性算法有SMOTE。

在《稀疏到深层次的视觉特征表示》报告中,刘青山教授主要从视觉特征入手,通过在原有的目标函数上加入正则项来提高模型的泛化性,并将其应用到实际生活中,比如:人脸匹配、表情识别以及超图建模,将级联回归模型与跟踪相结合对视频建模,得到更好的预测性能。

《大数据可视化》报告中,学到了一些数据可视化工具,对交互分析数据很有用,比如:Jigsaw,iVisDesigner, DataDriller和Interaction+;《序列数据深度学习及其思考》报告给我最深的印象就是在神经网络中引入了反馈机制和顺序原则。深度学习是最近炒得很热的一个概念,其实深度学习可以简单的认为是很深层的神经网络。一个非常有趣的事实是,神经网络在经历了几次寒冬后,科学家们为了保证科研成果能够更大概率的发表,启用了新名词——深度学习。

听完数据挖掘暑期学校这些天的课程,使我对人工智能2.0时代有了一定的认识。研究人工智能的发展不仅需要计算机科学,还需要心理学、神经学等学科的支撑。只有多学科共同作用,才能更好地模拟人类的智慧模式。浙大的吴飞老师在介绍人工智能2.0时如是说,人工智能所面临的7个问题有:1.Automatic Computers;2.How Can a Computer be Programmed to Use aLanguage;3.Neuron Nets;4.Theory of the size of a Calculation;5.Self-improvement; 6.Ab-stractions(intuition);7.Randomnessand Creativity.现在的人工智能距离强人工智能还有一段距离,因为泛化性能还有待提高,需要从数据和经验中提高机器的学习能力。人工智能的发展需要从人类自身的发展规律获得思路,从而实现混合增强人工智能的愿景,达到科幻电影里人机结合的超人类智慧体。


你可能感兴趣的:(大数据暑期学校心得体会)