CSDN社群十问十答(大数据第一期)

过去的一周,我们从CSDN 大数据社群中,整理了小伙伴们提问较多的问题,并请技术达人对这些问题进行了回答,现整理如下。欢迎大家在社群中积极提问哦,积极提问的小伙伴还将获得CSDN提供的神秘纪念礼品哦!

 

问题1、Spark可以完全替代hadoop吗?
不可以,spark 只是分布式计算平台,而hadoop已经是分布式计算、存储、管理的生态系统。
与Spark相对应的是Hadoop Mapreduce 。我认为spark是可取代MapReduce的。从而成为Hadoop系统中不可或缺的一部分。

问题2、学习Spark一定要先学Hadoop吗?
不需要,Spark做计算可以不依赖Hadoop,只不过Hadoop的HDFS已经是大数据存储的标配了,Hadoop也比较成熟了,大多数情况下,你只需要部署好Hadoop直接用就可以了。

问题3、LR与线性回归的区别与联系是什么?
个人感觉逻辑回归和线性回归首先都是广义的线性回归,
其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数,
另外线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。

问题4、KNN中的K如何选取的?
在实际应用中,K值一般取一个比较小的数值,例如采用交叉验证(简单来说,就是一部分样本做训练集,一部分做测试集)法来选择最优的K值

问题5、机器学习中,为何要经常对数据做归一化?
1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。

问题6、如何优化优化Kmeans?
使用kd树或者ball tree,将所有的观测实例构建成一颗kd树,之前每个聚类中心都是需要和每个观测点做依次距离计算,现在这些聚类中心根据kd树只需要计算附近的一个局部区域即可。

问题7、大数据与BI有什么区别?
A:认为不可这么理解,单纯的从数据角度来说,人们把大数据总结出4V,四个特点,但个人认为大数据应该是一个架构,是一个大的概念,既包括数据本身,还包括相关的设备和技术。而,BI(Business Intelligence),只是为了数据分析的需要,对数据的一种处理方式,个人感觉它应该算是数据处理的范畴,而处理的对象可以是一般的数据也可以是“大数据”,这里的大数据指的是数据量比较大的数据集。

问题8、HDFS在上传文件的时候,如果其中一个块突然损坏了怎么办?
其中一个块坏了,只要有其它块存在,会自动检测还原。

问题9、NameNode的作用是什么?
namenode总体来说是管理和记录恢复功能。
比如管理datanode,保持心跳,如果超时则排除。
对于上传文件都有镜像images和edits,这些可以用来恢复。

问题10、NameNode的HA是什么 ?
NameNode的HA一个备用,一个工作,且一个失败后,另一个被激活。他们通过journal node来实现共享数据


欢迎大家扫码进群交流哦!我们还将每周分享技术学习资源+每月推出技术主题月活动+群主、技术达人在线答疑互动!

你可能感兴趣的:(CSDN社群)