常见AI面试题及答案

考察数据科学家深度学习水平的30道题

特征工程

离散、连续特征一般怎么处理(onehot、归一化、why、方法 等);

特征变换、构造/衍生新特征(woe、iv、统计量 等);

特征筛选(离散、连续、多重共线性 等);

采样(除了随机呢?);

缺失值处理(离散、连续)...

机器学习

常用loss、正则、sgd、l-bfgs、auc公式及优缺点、数据不平衡时的调参...

booting:gbdt的loss、分裂节点依据、防过拟合;

xgb的loss选择、泰勒展开、正则(gbdt能加么)、并行、vs lightGBM;

lambdaMart的loss--如何直接优化metric(如NDCG)--学习/train过程;

svm的优化目标、软间隔、调参;

lr;rf;

深度学习

dnn为什么要“deep”、deep后带来的信息传递/梯度传递问题及其优化策略(可以从网络结构、activation、normalization等方面阐述);

卷积层学习过程(前后向)及参数数量估计;

polling作用、优缺点、why用的越来越少;

rnn长依赖问题、梯度问题;

lstm的input output forget gate作用于哪、gru的update gate呢?

常用loss(分类、回归)、activation、optimizer(从一阶矩估计到二阶)、加了BN后做predict均值方差从哪来、常用的attention举例

强化学习

什么问题适合RL/MLE的缺陷、trail-and-error search、policy-based vs value-based、on-policy vs off-policy等

q learning中q值得更新(其实很好记:当前q值 += 学习率*(环境reward+ 新状态下最大的q值*衰减值)、为什么要乘衰减值);

DQN使用network代替q_table的初衷、两个network(结构一致、参数交替更新)、存储记忆 off-policy;

policy gradients如何学习/拟合目标( -log(prob)*vt 像不像交叉熵...)、按概率选action vs epsilon-greedy;

Actor-Critic中的actor与critic、优缺点、收敛问题、DDPG、

以上这些都是考察基本功的、基本都是书上的知识点

NLP

词法/序列标注相关:hmm、crf、lstm、lstm+crf(细节:对于转移特征、转移概率 hmm crf lstm+crf分别是怎么学的?)

句法:有了依存关系 如何确定主谓宾、举几个例子

word2vector:层次softmax、负采样、 vs GloVe

topic相关:lsa(可以引到svd、基于mse的fm);lda why引入共轭先验分布、调参(针对两个先验);

+DL:cnn filter的设计、seq2seq+attention的padding问题(对padding的字符如何做attention、如何忽略、用tensorflow/pytorch大致写一下)、tree lstm...

任务相关:beam search做生成、dialog中对回复做lable smooth 提高回复多样性...

你可能感兴趣的:(深度学习,深度学习)