格灵深瞳面试--我和Yoshua Bengio的距离

今天接到格灵的电面,问了很多,七七八八的面了感觉将近一个小时,后来翻看通话记录57分钟,我居然撑了这么长时间,临到最后,面试官告诉我他是张赛铮(Saizheng Zhang)蒙特利尔的博士,老板是Bengio .. 我当时就惊呆了,没想到,面我的居然是大牛!更没想到我距离神牛如此之近,现整理下面试情况

1. 你熟悉CNN,那么你说说CNN有什么特别

第一个,卷积,(这样做有什么好处),做卷积的好处有两个,1. parameters share. 保证网络训练以及运行的效率。2. 除去feature detctor中重复的feature,面试官当时提到了overfitting的问题。这块不知道,需要考证下。

第二个,pooling,保证位移不变性,pooling一般有两种方式,1. average pooling,相当于对图像做的一个差值运行,其实也相当于做的一个卷积运算,2.max pooling,对细微差别具有鲁棒性,比如说有一个最大值在图像的左上角,另一个最大值在图像的右下角,那么经过max-pooling之后,得到的就是这两个max,省略了图像的细微结构,我当时提了一个问题:如果某一些任务需要一些细微差别那CNN似乎不好用,他的解释是,比如说人脸识别任务中,对人脸的识别需要我们保留细微的特征,所以我们可以适当调节卷积层的feature map,因为feature map会提取到不同的特征,这样通过feature map的缓解了pooling的影响,然后他又举了个例,比如说我们在大多数识别任务中,比如物体识别,我们仅仅要求识别物体,所以不会在意物体的细节信息,所以从这个角度来说CNN提取的特征已经够我们使用了,后来在与老师交流的过程中,老师提到一个观点,pooling其实不是非做不可的,他只是降低了数据的维度,同时pooling也是一种convolution,average pooling 就是一种线性convolution,max-pooling 就相当于一种非线性的convolution。

2.说说RBM的原理,中间提了提CRF(条件随机场)

条件随机场这块我真的没有涉猎,我只是知道他是用于文本标记的,我说到了Hinton 2006年的那篇经典文章,说我不知道那个能量公式的来源,只知道是量子热力学演变过来的,他根据这个能量公式得到了结点的两个分布,边缘分布,以及条件分布,通过网络表示的吉布斯分布来拟合图像的真实分布,通过求解二者之间的 KL 距离,通过极大似然估计来求解。面试官说基本上所有图模型都是这样的套路,首先假设一个分布,然后再通过这个分布去拟合真实分布

3. RBM能写出他的边缘分布吗?

不能,因为他的能量模型的函数,是根据e的指数级别,所以求解分布函数,RBM是一个二值网络,任何一个结点都有两个状态,所以这是一个指数级别的运算量,所以不能写出他的边缘分布;从能量角度理解,模型是基于能量模型,要求概率,只有等待模型达到稳定状态,但是达到稳定状态是一个漫长而缓慢的过程,基本上是达不到这个程度的,所以Hinton才想到了用CD算法去近似,其实CD还算不上一种抽样逼近,只是他这样做的效果确实不错,所以大家比较接受

4. ReLu你了解多少,为什么好用?

我没用过这个函数,但是我知道,就是 x大于0的时候 f(x) = x;  x小于0的时候 f(x) = 0; 用这样的函数,我认识是在误差反向传播的时候好用,因为他的导数要么是0,要么是1,都是一个常数,不会像sigmoid函数,随着网络层越接近输入层,其导数越趋近于0,对接近输入层的梯度纠正越来越小,可能导致接近输入层的权值不变,这就是梯度弥散。ReLu不会出现这样的情况。

5. 中间还问了些我做的东西


你可能感兴趣的:(深度学习,Deep,Learning,机器学习算法)