机器学习面试 | 这些题目一定会被问到

只要会做下面这些题目(主要看大类,具体问题及解析见《BAT机器学习面试1000题系列》链接见文末),就能轻松碾压机器学习笔试面试~赶紧收藏吧!

计算机科学典型问题
  • 给定一棵二叉查找树中的两个元素,求它们的最近公共祖先。

  • 基于比较的排序算法的时间复杂度是什么?证明?

  • 如何求一个带权图中两个结点直接按的最短路径?如果有些权值是负的怎么办?

  • 求一个字符串中所有的回文子串。

注意:对这些问题你都要能够推导你的解法的时间和空间复杂度(大 O 表示法),并且尽量用最低的复杂度解决。只有通过大量的练习才能将这些不同类型的问题烂熟于胸,从而在面试中迅速地给出一个高效的解法。

数理统计与数据挖掘问题
  • 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?

  • 数据预处理的方法有哪些?

  • 特征选择的标准方法是什么?

  • 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?

注意:很多机器学习算法都以数理统计作为理论基础。对于这些基础知识有清晰的概念是极为重要的。当然同时你也要能够将这些抽象的概念与现实联系起来。

机器学习模型与算法
  • 请简要介绍下SVM,与LR的联系与区别是什么?

  • 逻辑斯特回归为什么要对特征进行离散化?

  • 一个完整的机器学习项目流程有哪些?

  • 支持向量机的训练在本质上是在最优化哪个值?

  • 你用一个给定的数据集训练一个单隐层的神经网络,发现网络的权值在训练中强烈地震荡(有时在负值和正值之间变化)。为了解决这个问题你需要调整哪个参数?

软件工程和系统设计典型问题(扩展)
  • 你有一个电商网站,当用户点击一个商品打开详情页面时,你想基于商品特征和用户的购买历史为用户推荐 5 个其他的商品显示在页面的底部。你需要哪些服务和数据表来实现这个功能?请写一个查询语句或一段过程式代码来返回所要推荐的 5 个商品。

  • 一个简单的垃圾邮件检测系统是这样的:它每次处理一封邮件,统计不同单词的出现频率(Term frequency),并将这些频率与之前已经被标注为垃圾 / 正常邮件的那些频率进行比较。现在需要对这系统进行拓展来处理海量的邮件流量,请设计一个 Map-Reduce 方案在一个集群上部署这个系统。


《BAT机器学习面试1000题系列》往期题目:

BAT机器学习面试1000题系列(第1~60题)

BAT机器学习面试1000题系列(第61~100题)

BAT机器学习面试1000题系列(第101~200题)

BAT机器学习面试1000题系列(第201~250题)

BAT机器学习面试1000题系列(第251~255题)

BAT机器学习面试1000题系列(第256~260题)

你可能感兴趣的:(机器学习面试 | 这些题目一定会被问到)