初入AI,整理下大厂的面试题以便有方向提高自己,大家如果有优秀的解决方法可以留下评论,共同进步。
1. 1/x的导数是什么
2. 画出 log(x+10) 的曲线图
3. 如何设计用户满意度调查
4. 掷硬币十次,正面*8,背面*2,试分析这枚硬币的公平性? 并求出P
5. K-均值和高斯混合模型:K-均值和EM之间有什么区别?
6. 正态分布:如何判断高斯混合模型是否适用?
7. 如果标签在集群项目中已知,如何评估模型的性能
8. 试描述数据分析的过程
9. 为什么不进行逻辑回归,为什么要用GBM梯度上升
10.导出GMM高斯混合模型的方程
11. 模拟双变量法线
12. 导出分布的方差
13. 如何创建中位数估计
14. 如果回归模型中的两个系数估计中的每一个都具有统计显著性,是否期望两者的测试结果仍然显著
1. 合并k个数组并对它们进行排序
2. 选出‘500万搜索请求中标准样本’的最优解
3. 在西雅图的三个朋友告诉你那下雨了,每个人的谎言概率为1/3,那么西雅图下雨的概率是多少
4. 请解释朴素贝叶斯的基本原理,及如何设定阈值
5. 请解释MapReduce是什么,及它如何工作
6. 请解释SVM支持向量机
7. 你如何检测新观察是否异常?什么是偏差-方差权衡
8. 如何从产品用户群中随机选择样本
9. 如何实现自动完成
10. 请解释梯度上升的工作原理
11. 请在整数列表中查找子序列的最大值
12. 请解释在应用机器学习算法之前,如何进行数据预处理和数据清洗
13. 如何处理不平衡的二进制分类
14. 如何测量数据点之间的距离
15. 定义方差
17. 箱线图和直方图有什么区别
18. 如何解决L2正则化回归问题
19. 如何通过计算技巧更快的计算逆矩阵
20. 请解释数据可视化的好坏标准
21. 写一段代码找出百分位数
22. 从给定的一系列值中查找最大总和子序列
23. 正则化项L1和L2有哪些不同
24. 创建一个函数来判断一个单词是否为回文
1. 逻辑回归模型如何知道系数是什么
2. 成本函数凸与非凸的区别,当成本函数是非凸的时候以为着什么
3. 相比隐藏层中的单位分配相同权重,随机权重分配会更好吗
4. 给你一个条形图,假设你从顶部倒水,如何确定最后图中剩余多少水
5. 什么是过拟合
6. 改变prime会员费用,对市场会有什么影响
7. 为什么梯度校验很重要
8. 描述树,支持向量机SVM,随机森林和梯度上升,谈谈这些算法的优缺点
9. 如何用天平,只称三次,找出9个球里最重的
先拿8个球,4+4的称,如果平衡,则剩下的球最重。否则,拿出重的一端的4个球,2+2的称,以此类推。
10. 查找西雅图客户过去6个月内十大赚钱产品的累计总和
11. 请解释模型选择的标准,以及为什么降维很重要
12. 逻辑和线性回归的假设是什么
13. 如果可以构建一个完美的分类模型来预测某些客户行为,那么应用中的问题是什么
14. 某个商品出现在A位置的概率是0.6,B位置是0.8,该商品在亚马逊网站上被找到的概率是多少
15. 给定具有ID和Quantity列的‘csv’文件,5000万条记录和2GB的数据,编写程序聚合Quantity列
16. 使用数组实现循环队列
17. 如果您每月都有时间序列数据,那么它有大量的数据记录,您将如何发现本月与前几个月的数值存在显着差异
18. 比较Lasso和Ridge回归
19. MLE 和 MAP 推断有什么区别
20. 给定一个带有输入的函数:具有 N 个随机排序数的数组,以及一个 int K,返回一个 K 个数最大的数组
21. 当用户浏览亚马逊网站时,他们正在执行几项操作。如果他们的下一个行动是购买行为,建模的最佳方式是什么
22. 鉴于全国范围内可能性很低,估计一个城市的疾病概率。在这个城市随机询问 1000 人,全部为负面反应(无疾病)。这个城市发病的概率是多少
23. 描述 SVM
24. K-means 如何工作?你会选择什么样的距离度量?如果不同的特征有不同的动态范围呢?
25. 知道的主题建模技术
26. 制定LSI和LDA技术
27.什么是生成和判定算法,它们的优点和缺点,通常使用哪种算法,为什么
1. 解释P值及重要性
2. 如何处理数据集中的缺失值
3. 用示例说明有监督和无监督学习之间的区别
4. 如何评估回归预测模型与分类预测模型的性能
5. 描述精度和召回
6. 用于评估预测模型的矩阵是什么
7. 如何验证机器学习模型
8. 什么是置信区间
9. 什么是特异性,什么是敏感/召回
10. CRISP-DM最重要的方面是什么
11. 逻辑回归中的系数与比值比之间的关系是什么
12. 给定一个子集,包含买家和卖家。找到标识具有最高每日销售平均值的子集
13. 对于特定的案例研究,为什么使用蒙特卡罗来帮助对算法进行压力测试
14. 什么是tensorflow
15. 如何解析Python中的JSON字符串
json.loads()
1. 描述二值分类
2. 计算 ROC 曲线的 AUC
3. 如何使用 A / B 测试?
4. 使用随机伯努利试验发生器编写函数以返回来自正态分布的值样本
5. P 值是什么意思?
6. 解释线性回归、线性假设和线性方程
7. 定义 CLT,它和 Uber 有何关系?
8. 解释 Logistic 回归、Logistic 假设和 Logistic 方程
9. 如何建立汽车租赁司机成本的模型?
10. 解释 surge 定价算法是如何工作的,以及如何测试哪种策略更有效?
11. 什么是交叉验证?
12. 网络效应如何影响选择来定义实验和测量结果?
13. 什么是异常检测方法?
14. 缓存如何工作及如何在数据科学中使用
15. 什么是时间序列预测技术
16. 解释PCA,假设,方程式
1. 一个色子扔两次,第一次是2,第二次是4的概率是多少
2. 100个产品中25个是坏的,求置信区间
3. 求解指数函数并得到最大似然估计
4. 通过数据与再制造数据有关的案例研究相关问题,以及如何确保再制造的零件不会再次出现缺陷
5. 反转字符串但忽略特殊字符
6. 以递归方式反向链接列表并返回新的头指针
1. 如何从文本中提取与定义的知识点
2. 给定一个整数数组,返回两个数字的指数,使它们相加到特定目标
3. 描述为特定问题给出两个线性回归模型选择最佳模型的过程
4. 什么是Kimball方法
5. 解释特征值
6. 什么是合并排序
7. 什么是HDFS,解释使用HDFS的优缺点
8. 什么是SQL中的内连接和左连接
9. 什么是线性回归
10. 给出两个字符串标识它们是否是可重组的词
11. 给定两个字符串找到最长的公共子字符串
12. 如何生成给定长度的密码,并在其中统一分配大写、小写、特殊字符和数字
13. 什么是数据规范化及我们为什么需要它
14. 什么是第三范式,为什么要使用它
15. 3种类型的fact table是什么
可重组(anagrams),指的是将原词或者词组里的所有单词重新排序,可以变成另外一个词或词组,的词或词组…。例如“God”可以变成“Dog”。但有些词,例如no,queue,就不可重组。
1. 有一个 100 层的建筑物,2 个相同的鸡蛋。您如何使用 2 个鸡蛋来查找阈值楼层 N,在 N 层及 N 层以上,鸡蛋肯定会摔碎
2. 从 100 个硬币中随机抽取一枚硬币:1 枚不公平的硬币(都是正面),99 枚公平的硬币(一正一反)并投掷 10 次。如果结果是 10 个正面,那么这枚硬币是不公平的概率为多少
3. 在 Python 中为数值数据集编写排序算法
4.Facebook 想要开发一种方法来估计人们生日的月份和日期,而不管人们是否直接给我们提供这些信息。你会提出什么方法和数据来帮助完成这项任务
5. 使用 python 内置包来处理'csv'数据
6. 您如何比较两种不同后端引擎的自动生成 Facebook“朋友”建议的相对表现
7. 给定 KPI,选择正确的指标,执行 ETL。(使用 SQL / 代码)
8. 考虑一个有 2 名玩家 A 和 B 的比赛。A 有 8 个棋子,B 有 6 个棋子。比赛进行如下。首先,A 滚动一个公平的六面模具,并且模具上的数字决定 A 从 B 接收多少个宝石。接下来,B 滚动相同的模具,并且完全相同的事情发生在相反的位置。本轮结束。谁在比赛结束时拥有更多的宝石则赢得比赛。如果玩家在回合结束时获得相同数量的宝石,则会形成平局并且接下来会有一轮。B 在 1,2,...,n 轮获胜的概率是多少
9. 你如何得到一个句子中每个字母的数量
10. 通过了解性别或身高,你如何证明男性平均身高比女性高
11. 什么是猴子补丁(monkey patch)
12. 给定一个对象列表 A 和另一个与 A 相同的列表 B,一个元素被删除,请找到被删除的元素
13. 给定一个整数列表(正数和负数),编写一个算法来查找是否至少有一对总和为零的整数。你会如何提高算法的性能
14. 制作 2 个变量的直方图
15. 在 SQL 中构建回帖计数的直方图(包含 x 个回复,x + 1 个回复等的帖子数)。建立一个表格,其中包含每个用户每天使用的功能使用情况摘要(跟踪用户的最后一个操作并每天汇总)
16. 你在一个赌场掷色子,如果掷出 5 则赢,并获得 10 美元的奖金。你能赚多少?如果你一直玩到你赢了 (不管花多长时间),那么你的预期支出是多少
17. 如果您试图让客户注册 Facebook 广告,您会向小型企业展示什么指标
18. 给定发送好友请求和收到好友请求的表格,找到拥有最多好友的用户
19. 在平台上花费的赞 / 用户和分钟数正在增加,但用户总数正在减少。最有可能的根本原因是什么
20. 多少人在他们的档案中列出的高中是真实的?我们如何发现并大规模部署寻找无效学校的方法
21. 你如何将昵称(Pete,Andy,Nick,Rob 等)映射到真实姓名
22. Facebook 认为赞的年同比增长 10%,为什么会这样呢
23. 如果一位管理人员表示他们希望将新闻源广告的数量加倍,那么如何确定这是不是一个好主意
1. 如何以数百万的交易数量吸引数百万用户,并将这些用户集中在一个有意义的细分市场中
2. 我们对数据进行预先筛选以消除欺诈威胁 - 那么我们如何找到可用于确定欺诈事件真实表示的数据样本
3. 给定一张带有用户 ID 和用户购买的产品 ID 的表格,以及产品名称映射的产品 ID 的另一张表格。我们试图找到经常由同一用户一起购买的配对产品,例如葡萄酒和开瓶器,薯片和啤酒。如何找到这些并存的成对产品中的前 100 名
4. 请详细描述 L1 和 L2 正规化之间的区别,特别是对于它们对模型培训过程本身的影响的差异
5. 假设你有 100,000 个文件分布在多个服务器上,如何在 Hadoop 中处理这些文件
6. 解释 LRU 缓存
7. 如何设计一个C/S模型,使客户端每分钟发送一次位置数据
8. 如何将数据从一个 Hadoop 集群传输到另一个 Hadoop 集群
9. Java 中有哪些不同类型的 memory
10. 如何处理数百个标题的元数据同时进行的日常繁琐任务
11. 在数据流和可访问性方面,如何衡量在隐藏时间框架内的成功,在这个时间框架中,核心超载了将计算机能量重定向到地窖圆顶的过度复杂文件系统的边界结构
12. 你最想拥有的超能力是什么
13. 你有时间系列的传感器,预测下一个读数
14. 使用 SQL 创建超市购物篮输出
15. 您在表征方面的专长是什么?通常使用什么?你如何在研究中使用它并找到有趣的结果?(Research Portfolio based question)
16. 你如何处理失效分析
17. 检查一个二叉树是否是左右子树上的镜像
18. 什么是随机森林?为什么朴素贝叶斯更好