Hive+数据挖掘算法学习笔记

1.hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

2.hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,hive 将用户的hiveSQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。

3.hive中包含以下四类数据模型:表(Table)、外部表(External Table)、分区(Partition)、桶(Bucket)。

4.将数据模型导入之后使用df.isna().sum()查看每列有多少缺失值

5.C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。

6.GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来作为最终答案。主要步骤如下:

1)对所有特征都按照特征的数值进行预排序。

2)在遍历分割点的时候用O(#data)的代价找到一个特征上的最好分割点。

3)找到一个特征的分割点后,将数据分裂成左右子节点。

7.使用GOSS算法和EFB算法的梯度提升树(GBDT)称之为LightGBM

你可能感兴趣的:(学习笔记,hive,数据挖掘)