文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790.
下载链接:链接:https://pan.baidu.com/s/14IGaCOc-plxAiaVhwOgUvA
提取码:4w8k
高级大数据分析过程是指运用各种预测算法、语义分析、统计分析方法和技术,对异构数据进行分析,通过未知的模式挖掘出深刻的信息。大数据的收集和传输有一个共同的目标:分析数据以获得见解和更好的应用指导。
Fahad描述了一些有效的算法,如采样、数据凝聚方法、基于密度的方法、基于网格的方法、分而治之、增量学习和分布式计算。Fayyad提出了数据库过程中知识发现的组成步骤。他们定义了重要的迭代,如数据的选择、数据的预处理、数据的转换、应用于枚举模式的数据挖掘算法,以正确解释结果,并确保从数据中发现有用的知识。
Tsai, Lai, Chao和&Vasilakos(2015)提出了各种基础设施的大数据分析,这些基础设施按以下方式分类:
(i)处理或计算:Hadoop, Nvidia CUDA或Twitter storm,
(ii)存储:Titan或HDFS,以及(iii)分析:MLPACK或mahout。还有一些其他工具,如白板,R, MATLAB, octave参考(千字节到低兆字节);Numpy, Scipy, Weka, Blas表示(兆字节到低千兆字节);Hive, Mahout, Harna, Giraph表示(千兆字节到太字节)。
近年来技术和技术的进步使许多企业能够有效地处理大数据。数据分析技术包括机器学习、数据挖掘、统计学、人工神经网络、极限机器学习、自然语言处理和深度学习等。图11显示了BDA技术的起源。BDA导致了许多执行分析的技术。机器学习工具的描述见附录A。
高级机器学习(ML)分析是一个伞形动作,它定义了分析技术的选择,以建立一个评估有效结果的模型。传统上,机器学习研究分为两类:逻辑表示和统计表示。最初,它选择一种输入数据技术来构建预测模型并生成模型输出或验证。图8(b)显示了活动迭代过程的预测模型,包括构建、探索、规模、报告和行动。
最常用的预测分析技术用于高级数据分析,如分类、聚类、回归、关联分析、图分析和决策树。预测数据分析的应用包括有监督机器学习和无监督机器学习算法。有监督的机器学习方法是基于历史示例的一组描述性特征和目标特征之间的关系的自学习模型。然而,在监督机器学习中,第一类是回归,包括线性回归,广义线性模型,集成方法,决策树,神经网络。图10显示了不同分析数据技术的分类。
•分类:预测输入数据的类别,例如天气属性是晴天、刮风、下雨等。
•回归:预测数值,例如股票价格。
•聚类:将类似的项目组织到不同的组中,例如将一个公司分为老年人、成年人和青少年。
•关联分析:寻找变量集之间有趣的关系。
•图形分析:使用图形结构来查找实体之间的联系。
•决策树:通过学习从数据特征推断出的简单决策规则来预测客观变量的建模见解。
此外,它还包括支持向量机、判别分析、朴素贝叶斯和最近邻等分类算法。无监督机器学习使用聚类技术,包括各种模型,如k-means聚类、kmedoids、模糊c-means、分层、高斯混合、神经网络和隐马尔可夫模型。有各种实时应用,如医疗诊断,股票交易,能源负荷预测,天气预报等。
高级统计分析主要基于各种工具和技术来收集、分析和可视化大规模数据的结果。它包括从统计和执行统计算法的数据驱动分析中派生技术的不同分析领域。统计技术是指聚类分析、数据挖掘和预测建模方法。
与传统的数据挖掘(如模式发现和提取)相比,BD挖掘是最具挑战性的技术。
数据挖掘依赖于数据统计、机器学习方法和模式识别等技术。多元线性回归和逻辑回归也常用于数据挖掘,其中包括各种算法,如k均值聚类,关联分析和决策树。大数据分析技术概述及其应用领域如表6所示。