高校大数据专业科研建设方案

第一章 建设背景
1.1 国家政策
 2017年1月

工业和信息化部正式发布了《大数据产业发展规划(2016-2020年)》,明确了“十三五”时期大数据产业的发展思路、原则和目标,将引导大数据产业持续健康发展,有力支撑制造强国和网络强国建设。
 2018年9月
工信部公示“2018年大数据产业发展试点示范项目名单”,公布了包括大数据存储管理、大数据分析挖掘、大数据安全保障、产业创新大数据应用、跨行业大数据融合应用、民生服务大数据应用、大数据测试评估、大数据重点标准研制及应用、政务数据共享开放平台及公共数据共享开放平台等10个方向200个项目。
 2019年11月
为进一步落实《国务院关于印发促进大数据发展行动纲要的通知》和《大数据产业发展规划(2016~2020年)》,推进实施国家大数据战略,务实推动大数据技术、产业创新发展,我国工业和信息化部将组织开展2020年大数据产业发展试点示范项目申报工作。
1.2 发展趋势
据IDC分析报道,中国互联网企业,到电信、金融、政府这样的传统行业,都开始采用各种大数据和分析技术,开始了自己的大数据实践之旅;应用场景也在逐渐拓展,从结构化数据的分析,发展到半结构化、非结构化数据的分析,尤其是社交媒体信息分析受到用户的更多关注。用户们开始评估以Hadoop、数据库一体机以及内存计算技术为代表的大数据相关新型技术。
当今大数据一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。面向数据分析市场的新产品、新技术、新服务、新业态正在不断涌现,从个人、学院、企业到国家层面,都把数据作为一种重要的战略资产,逐渐认识到了数据的价值,不同程度地渗透到每个行业领域和部门,随着大数据行业应用需求日益增长,未来越来越多的研究和应用领域将需要使用大数据技术,大数据技术将渗透到每个涉及到大规模数据和复杂计算的应用领域。
1.3 建设必要性
将大数据运用于教学与科研是一种趋势,目前各高校都在寻找符合自身特点的大数据应用开发模式,各学校的平台根据自身学科发展的方向基于大数据平台面向政府、企业、高校、社会提供服务。通过对遍布教、学、研多层面的数据进行整合,并结合对大数据技术的有效利用,可以从根本上给教育、科研带来全方位的提升。通过大数据平台技术的应用,可以帮助学生改善学习效率,提供符合职业规划的个性化学习服务;同时也有助于教育和科研机构加快提升科研成果和提高教育质量,培养更多更优秀的创新性人才。
数据挖掘和大数据分析是多学科交叉产物,其涉及统计学、计算机网络、数据库、机器学习、人工智能以及模式识别等多种学科领域。目前,在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括:计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息、旅游以及公共卫生等。这些专业在使用大数据挖掘与分析平台时的侧重点各不相同,使用人员层次水平也不相同,对算法的使用也不相同,因此,需要建设一个便利、操作简易、算法全面、可视化的综合平台是非常有必要的。大数据挖掘与分析平台能够满足学校长期稳定、饱满的实践教学或科研等任务,适应学科专业建设和实训、科研及社会服务的需要。
第二章 建设目标
2.1 帮助师生进行科研活动

大数据挖掘与分析平台建设项目,可辅助教师与学生在科研项目方面的研究工作,从数据分析、数据挖掘和场景应用的可视化等多方面多环节,降低数据挖掘学习门槛,提升师生数据挖掘能力。
2.2 提高学生的实践能力
大数据分析目前是各大企业、政府、事业单位进行的一项工作内容,同时这种应用随着时间的推移将更加广泛。平台的建立就是为培养这样的人才所做的必要准备,将会对提高学生的社会调查研究实践能力、数据分析能力具有显著帮助,同时提高学生自身在就业中的竞争优势和就业后对社会的服务水平。
2.3 促进重点学科和品牌专业建设
大数据挖掘与分析平台建设项目,依托具有品牌专业的学科专业而建设,随着统计理论的发展,统计方法已经成为各个领域不可缺少的方法论。它的建设不仅对相关专业的未来发展有着重大的意义,同时也将大大促进学科特色优势学科的深化发展。提升学校知名度、美誉度和科研能力。
第三章 大数据挖掘与分析平台
3.1 整体介绍
3.1.1 产品概述

红亚科技大数据挖掘与分析平台是一款集数据接入、数据处理、数据挖掘、数据可视化、数据应用于一体的软件产品。它秉持“智能、互动、增值”的设计理念,面向高校用户提供自助式数据探索与分析能力,帮助用户快速发现数据意义与价值。
平台包括可视化探索、深度分析两大模块。
可视化探索模块:提供拖拽式的操作,让用户能够随时更改观察数据的维度、指标,将数据以丰富的图表方式,进行迅速、直观的表达,同时借助联动、钻取、链接等交互操作,发现数据内部的细节规律,让用户能够在操作交互过程中与数据进行直接、实时的对话,探索潜藏的数据规律,深度诠释“过去发生了什么,为什么会发生”。
深度分析模块:深度分析让用户能够基于平台内置的数据处理、算法节点,以拖拽式迅速完成机器学习、深度学习、自然语言处理等算法模型构建,实现数据的关联分析、未来趋势预测等多种分析,帮助用户发现深刻的数据洞察,精准预测“未来将发生什么”。
3.1.2 部署架构
平台部署服务器包括系统数据库服务器、分析应用服务器和大数据基础环境等,平台参考物理部署架构如下图:
数据库服务器:支持MySQL或Oracle数据库,用于创建平台系统库,存放平台配置信息等。
应用服务器:平台主程序,涵盖一体化的分析过程、方法和成果管理与应用,支持集群部署。
大数据集群:根据用户处理数据量灵活选择和部署,平台可与大数据平台集成,利用其集群资源开展大数据分析,也可独立运行。目前支持与行业主流大数据平台集成。
3.1.3 访问客户端
谷歌46及以上版本、Firefox 50及以上版本、IE10等;
支持安卓4.0以上、IOS 8以上移动操作系统。
3.2 技术优势
3.2.1 管理监测

平台的管理配置侧重于大数据平台软件环境的运维及监控。
平台通过监控服务对模型的状态进行监控,包括分布式应用系统的状态等,管理员在WEB可视化界面上进行日常的监控和维护。
平台集成监控告警模块,通过指标检测以执行报警功能,根据设定的警报级别和相应阈值发送故障告警信息,以邮件或短信的方式将告警通知到管理员。

 管理配置
对平台的模型管理和模型发布等进行管理配置。
 服务管理
提供统一的服务管理平台,支持统一管理和调度任务,支持多种服务调度方式,支持同步和异步访问模式。同时可对服务进行状态跟踪和查看。管理用户发布在平台中的各个业务系统的模型应用,提供模型发布申请,审批等功能,管理模型应用的生命周期。
 日志管理
将运行日志、系统使用日志等进行统一的归类、整理和展现,及时掌握数据分析和模型应用的运行使用情况。
通过对数据分析专题报告和模型使用次数的统计,还能够实现整体大数据平台当中的成果管控。
 监控告警
根据预先定制的监控指标进行实时监测和图表展现,整体、直观的展现大数据平台运行环境的健康状况。对关键指标的阈值,告警策略,告警方式进行配置,可对系统的关键指标的险情进行告警。

3.2.2 可视化应用
 应用场景

系统针对数据挖掘成果形成应用场景,建立个性化数据门户,突出“界面美观、操作简单、易于使用”的特点。门户中的内容可由用户自行定义,采用图表结合的方式展示。
报表设计功能:系统提供可视化的在线报表设计工具,用于制作展现的报表。报表设计应采用WEB方式,可直接在浏览器中完成报表设计工作。
 综合展示
提供包含常规查询、自定义查询、常规报表、KPI指标、例外监测、数据钻取/关联/链接等各种不同的数据组合展现模式。
 可视化图形展示
提供多种图形方式展示数据,图形必须美观易懂。
 图形种类
系统需支持各种主流的图形方式,如柱状图、折线图、饼图、点图、条形图、面积图、雷达图、气泡图、单指标仪表盘图、连续趋势图、中国地图、世界地图等。
 图形的使用方式
图形可以作为报表的辅助展现也可单独使用。在固定报表、即席报表及综合查询中图形作为报表的辅助进行展现,图形可以在报表定义时预先设计,也可根据报表结果随时增加和修改。
3.3 产品特性
3.3.1 可视化探索
 轻量级的自助式数据准备

平台内置轻量级的自助数据准备功能,允许用户根据需要对数据进行处理,且这样的数据处理操作对业务系统中的原始数据不会产生任何影响。用户可根据需要,快速的浏览数据的概念,了解数据分布情况,也可使用处理功能,对数据进行关联、追加、合并,增加数据的属性列、调整列的类型,也可对数据的内容进行分组、分段、过滤、替换值、去除空格等操作。自助式数据准备并不能代替所有的数据处理操作,它将原始数据进行变化调整以帮助用户更好的开展下一步的数据分析工作。
 简单的分析操作
平台的可视化探索模块坚持“所见即所得”的设计初衷,通过完善的图形界面与简单的拖拽操作,即可完成复杂的数据计算、可视化图形的快速生成与配置、交互式的数据探索以及分析报告的布局与设计。在易用性方面进行了大量的探索,旨在降低工具操作的复杂度,提供人人都是数据分析师的工具基础,让没有数据分析专业背景的业务人员在拖曳点击之间,即可快速发现数据中蕴藏的价值,充分释放企业的数据分析活力。
 丰富的图形展示
平台内置近30种基本图形组件,主体分为常规图形、高维图形、行业定制化图形、自定义图形组件,满足大多数业务场景的图形表达;
同时,所有的图形组件内置丰富的配置参数与多种主题风格,满足各种自定义效果展现。
 基于业务的数据计算与分析
平台支持业务用户通过拖拽维度、度量,即可自动进行快速的多维分析与计算。平台内置支持求和、平均值、最大/小、计数/唯一计数、标准差、方差等多种度量指标计算方式,支持自定义构建计算指标,支持复杂的数据切片,同时内置了同比、环比、累计、占比、同期对比等多种模式的二次计算模式,无需编制复杂的计算公式。以及趋势拟合、条件预警、参考线等分析方法,通过这些高级算法的嵌入集成,让用户即使在不理解算法原理的情况下,也可快速完成算法的应用,进行深度的数据分析。
 灵动的视觉交互
平台提供了丰富的视觉交互探索的功能,让图表不再是静态的、一成不变的图形,通过提供钻取、联动、缩放、筛选、链接等交互操作,让图形活跃起来,实现用户与数据的直接对话,帮助用户洞悉数据的细节中的规律。
3.3.2 深度分析
 极简的建模过程

平台的深度分析模块,通过为用户提供一个机器学习算法平台,支持用户在平台中构建复杂的分析流程,满足用户从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策者有潜在价值的关系、模式和趋势的项目诉求,从而帮助用户实现科学决策。整个分析流程设计基于拖拽式节点操作、连线式流程串接指导式参数配置,用户可以通过简单拖拽、配置的方式快速完成挖掘分析流程构建。平台内置丰富的数据处理、算法及自动学习功能,让用户能够灵活的运用多种处理手段对数据进行预处理、同时算法的多样式也为用户建模提供了更多的选择,结合自动学习功能帮助用户自动推荐最优的算法和参数配置,以满足建模需求,挖掘数据隐藏价值。
 丰富的分析算法
深度分析模块集成了大量的机器学习算法,支持聚类、分类、回归、关联规则、时间序列、综合评价、协同过滤等多种类型算法,满足绝大多数的项目分析场景;支持分布式算法,可对海量数据进行快速挖掘分析;同时内置了红亚科技独创十余种算法,如视觉聚类、L1/2稀疏迭代回归/分类等;支持自然语言处理算法,实现对海量文本数据的处理与分析;支持深度学习算法及框架,为用户分析高维海量数据提供更加强大的算法引擎;支持多种集成学习方式,帮助用户提升单个算法的模型准确度。
 智能化的算法选择
平台内置自动择参、自动分类、自动回归、自动聚类、自动时间序列等多种自学习功能,帮助用户自动选择最优算法和参数,一方面降低了用户对算法和参数选择的经验成本,另一方面极大的节省用户的建模时间成本。
 全面的分析洞察
为了帮助用户更好的观察分析流程运行中间过程,平台内置了全面的洞察功能,帮助用户全方位观察建模过程及模型结果,从面辅助用户开展建模的改进优化,提升模型有效性和精准度。
 高效的模型应用
挖掘后生成的模型,不是仅仅止步于模型,平台全面支撑模型的部署与利用,用户在完成挖掘流程发布后,可生成数据服务,供第三方系统应用。平台提供两种方式接入生产环境:调度任务和接口服务两种方式。调度任务:用户可以将流程嵌入到一个定时任务中,按照指定频率定期执行流程,完成实时模型构建或数据预测;接口服务:用户将流程发布为RESTful服务接口,供第三方系统实时调用完成模型训练或数据预测。
3.3.3 丰富的数据源支持
平台支持关系型数据库、大数据库、接口数据、文本文件等丰富的数据源类型的接入,实现各类数据统一接入与管理。支持数据分析、数据权限配置,确保数据安全。
3.3.4 完善的系统安全控制体系
平台提供面向数据分析过程的、从数据、组织协作、分析成果三位一体的权限控制体系,全方位的保障系统安全、数据安全、分析成果的安全可控。数据方面支持数据的源级、表级、行级、列级的安全控制,从源头确保数据的安全可控。内置完善的用户、角色,与工程授权机制,能够实现分析过程的精细化控制。分析成果方面,平台提供完整的管理机制,支持用户进行详细的成果授权控制,用户可在授权范围内进行成果的访问。
3.3.5 多终端访问支持
平台支持多终端成果访问,支持PC、大屏、移动端进行成果的访问与查看。
3.3.6 个性化扩展机制
平台内置JavaScript脚本节点,允许用户自定义脚本进行图表扩展;平台内置自定义算法节点,允许用户编制R、Python、Java、Scala脚本实现个性化的算法脚本。基于平台灵活的扩展机制,增强平台的业务适应能力,充分满足用户的个性化需求。
3.4 功能介绍
3.4.1 数据管理

数据管理是“数据管理员”用于维护系统分析所用的数据源、构建数据模型、新建视图,并进行数据权限分配与管理。支持数据源添加、数据接口配置、数据分类管理、数据权限设置等功能,实现高校分析数据的统一接入与按需分发。
3.4.2 门户管理
门户是产品应用的核心载体与管理方式,通常一个工程由多个分析主题构成,主题可分为可视化设计和机器学习,主题是工程的基础组成单元。
平台采用这种自上而下的组织方式,实现数据分析过程的组织与统一管理。同时为满足门户管理过程的便捷、高效,系统提供复制、导入、导出等功能。为满足多人协作的业务场景,系统对于同在一个工程的用户(或小组),提供了工程权限分配功能,实现工程、故事、场景/流程级颗粒度的权限管理。
3.4.3 可视化分析
 数据准备

数据准备,快速完成数据的添加,并支持对于数据表的数据分析与洞察。根据分析需求,系统提供数据关联、数据汇总、数值合并、逆透视、重命名、列隐藏、列合并、计算列、地理分析、权限设置、数据过滤、刷新及保存数据等数据预处理基本操作,满足基础的数据清洗、转化、集成需求。同时支持数据访问权限设计功能,满足同一分析场景,多角色视图的数据安全管理的业务需求。
 可视化设计
平台支持用户通过拖拽的方式更改观察数据的维度、指标,并将数据以丰富的图表方式,进行迅速、直观的表达。整体分析过程无需编码,为用户提供极简易用的操作体验。
平台提供图形的智能匹配与图形切换功能,支持用户随时更改图形的类型,寻找更贴切的图形表达方式来诠释业务含义。
平台支持多数据表的分析模式,用户在分析时,可选择多个表的字段直接制图,无需提前建立数据集(宽表),系统会自动检索表关系,在后台自动生成数据关系,用户也可手工指定多表之间的多种关联关系,关联关系支持常见的雪花、星型等模式。关联关系一旦设定后,可被其他图形复用,极大的增强了数据模型的灵活度,满足了更为复杂的项目分析场景。
 分析计算
平台支持对多种分析计算模式,提供开箱即用的分析方法,让用户无需编写任何复杂的公式即可对业务进行复杂的分析。目前支持的分析计算的方法主要包括:聚合运算、过滤、排序、排位、占比、差异、嵌入式算法。
 图形修饰
平台支持对图形、组件的样式、风格进行个性化定义,提供了极为丰富的配置项,用户可根据需要对图形进行修饰、美化。根据使用频率和作用范围的不同,平台将组件修饰分为快捷修饰和更多修饰两部分,满足不同类型需求。
 视觉交互
平台提供了丰富的视觉交互探索的功能,让图表不再是静态的、一成不变的图形,通过提供钻取、联动、缩放、筛选、链接等交互操作,让图形活跃起来,实现用户与数据的直接对话,帮助用户洞悉数据的细节中的规律。
 场景设计
场景是承载多个图形的容器,可由用户针对同一分析主题,将多个分析图表进行自由组合,布局,以直观、全局的查看数据规律。场景是一块可进行交互操作的画布。为了让场景的设计更加简便、清晰,平台提供场景配置、元素布局、场景操作、定时刷新等功能。对于已完成的场景,用户可以围绕分析主题调整场景顺序形成一个故事。
 成果发布
分析完成后,用户可以快速将自己的分析成果进行发布与内部共享。在分享过程中,可以根据需求,定义分享范围,进行权限设置。支持采用外部链接、数据展示门户及外部调用接口等多种分享方式。
分析报告更新后,还可以一键更新同步展现端。
3.4.4 数据挖掘分析
数据挖掘分析能够从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策者有潜在价值的关系、模式和趋势,有助于发现业务趋势、揭示已知事实,预测未知的结果。
数据挖掘分析通过构建挖掘模型、评估模型结果、部署及利用模型来提取数据信息实现数据价值。
平台支持对海量数据进行模型构建、模型评估、模型利用及模型成果管理及应用,包括流程发布及结合业务调用流程。
3.4.4.1 建模
整个分析流程设计基于拖拽式节点操作、连线式流程串接指导式参数配置,用户可以通过简单拖拽、配置的方式快速完成挖掘分析流程构建。平台内置丰富的数据处理、算法及自动学习功能,让用户能够灵活的运用多种处理手段对数据进行预处理、同时算法的多样式也为用户建模提供了更多的选择,结合自动学习功能帮助用户自动推荐最优的算法和参数配置,以满足建模需求,挖掘数据隐藏价值。
平台算法主要基于业界主流的Spark分布式内存计算框架开发,并采用Scala语言进行算法实现,能够支持海量数据的高效挖掘分析。
 数据管理
平台提供数据管理功能包括数据输入、数据输出,支持文件输入、关系数据库输入、同步输入、样例输入、API输入、Kafka输入等多种输入节点,作为挖掘分析的数据源。支持关系数据库输出、文件输出、同步输出、Kafka等多种数据输出,可将结果数据输出到指定位置。
 数据处理
支持多种数据预处理方法,包括对行、列、高级的20余种数据预处理节点,实现数据清理,集成,变换,归约等数据预处理,为挖掘分析做好准备。
 数据融合
支持数据连接、数据追加、数据拆分、数据差集、数据分解等数据融合节点,实现对数据表与表之间做数据融合处理。
 特征工程
平台提供常用特征工程功能,包括属性生成、主成分分析、因子分析、奇异值分解、分箱、变量选择、自动特征、WOE编码、数据分组等,支持用户更快捷方便的找到关键特征,从而构建更加简洁高效的模型。
 机器学习
平台提供丰富的机器学习算法,包括回归、分类、聚类、时间序列、综合评价、推荐等算法。除经典算法外,还包含红亚数据独创的多种自主算法,算法的性能与准确性要明显优于传统算法。
 统计分析
平台支持方差分析、相关系数、典型相关分析、偏相关分析、相似度、概率单位回归、描述数据特征等多种统计分析方法,对数据进行初步的统计分析发现数据特征及数据规律,为挖掘分析打好基础。
 深度学习
平台集成了多种深度学习算法,包括DNN回归、DNN分类、RNN分类、RNN回归、LSTM时序等节点式构建深度神经网络模型,以及支持深度学习框架TensorFlow,提供用户编码式构建深度学习网络,提升模型的精度。
 集成学习
平台集成了一系列的集成学习算法,包括Adaboost分类、Bagging分类与Bagging回归、Voting分类与Voting回归、Xgboost分类等,提升了模型构建智能化,使算法准确性得到明显的提升。
 自动学习
平台集成了一系列的自动化算法,包括自动聚类、自动回归、自动时序、自动分类、自动择参等,提升了模型构建的自动化和智能化,使算法性能得到明显的提升。

 扩展编程
平台用户编制SQL编辑\R编程\Python编程\Java编程\Scala编程脚本实现个性化的算法脚本。基于平台灵活的扩展机制,增强平台的业务适应能力。

 文本分析
为了满足用户对于中文文本数据的分析需求,平台集成了分词、信息抽取、文本过滤、向量空间、关键词提取、主旨话题分析、命名实体识别、文本相似度、观点情感分析、垃圾违禁信息检测、文本摘要、词频统计、主题模型合并等中文文本挖掘算法,让用户能够对中文文本数据进行挖掘分析,发现数据价值,从而实现业务价值。

 模型管理
平台支持对构建的挖掘模型进行评估及验证,同时提供行业内标准的模型评价指标,给出最优模型,同时能够在建模过程中,对模型进行输出、读取、利用、分类检索、版本管理等。

 图表分析
平台支持以图表的形式进行数据的探索,更好的理解数据关系,为数据挖掘建模提供支持和依据。图表展示涵盖了基本图表、分组图表、统计图表等图形化分析组件。

 流程控制
流程控制功能为用户创建更灵活的自定义挖掘流程提供了操作接口,它分为:子进程、多分支、循环行等操作元素。

 自定义算法
平台内置自定义算法功能,允许用户通过R\Python\Java\Scala基于平台规范封装自主算法并发布形成平台节点,方便用户灵活扩展平台算法节点功能,增强平台的业务适应能力,充分满足企业级用户的个性化需求。

3.4.4.2 洞察
洞察的主要作用是全方位观察建模过程及模型结果,通过洞察信息能够为有效改进建模提供依据,提升模型有效性和精准度。用户对于挖掘流程中的任意节点,包括数据接入、数据处理、模型建立评估等,均可以在平台的洞察中查看中间结果。丰富详实的洞察内容,帮助用户轻松获取隐藏在业务数据中的规律和模式。
3.4.5 成果管理
平台的输出成果主要包括:分析仪表板、挖掘模型。成果管理加强高校的分析洞察结果、业务模型的安全控制、渠道分享、统一展现,让分析成果在高校内安全、可控、快捷的传递与交流,全面促进高校分析决策效率。
平台提供多种成果分享形式,可将发布后的成果嵌入第三方平台,发送到移动端、数据门户,或者以邮件进行分享。
平台提供自带的数据门户功能,在数据门户中,成果将按照分类结构进行组织展示,用户可查看授权范围的成果内容,并可进行交互操作与二次分析。门户化的数据展示,让数据分析结果的发布、沟通交流更加直观、灵动,且无需额外的建设成本。

3.4.6 系统管理
系统管理提供基于高校实际管理的组织架构、人员、角色等定制维护,也可以和现有管理平台组织级人员进行融合。平台内置系统管理员、数据管理管理员、成果管理员、设计用户、普通用户等五种操作权限,可以根据不同人员岗位、角色进行系统权限分配。
同时可以对平台整体的全局参数配置、图形主题维护等功能。主要功能包括全局参数、主题、缓存等系统配置。

平台内置了5种角色,系统管理员、数据管理员、成果管理员、设计用户、普通用户。
系统管理员:负责平台核心参数的配置、人员、组织、角色的管理。
数据管理员:负责数据源的接入、主题域构建、元数据管理、模型构建、数据授权等管理工作。
成果管理员:负责平台所有成果的归集分类、成果的统一授权、分享、监控等管理工作。
设计用户:允许使用平台的可视化分析、挖掘分析功能开展相应的分析与应用开发工作。
普通用户:允许使用平台的门户功能,用于浏览授权范围的分析成果。
平台内置的管理角色分配,从数据、工具、成果构建形成了三位一体的权限机制,有效的满足各类高校复杂多变的管理需求。
第四章 数据挖掘分析算法
4.1 算法介绍
4.1.1 分析模型及算法库

平台提供统计分析、多维分析、挖掘算法库、数据挖掘工具等功能,构建面向科研人员使用的数据分析功能组件,同时,增加对大数据分布式计算的支持,满足实时、离线应用的分析挖掘需求。

4.1.1.1 统计分析

  1. 描述性统计**
    针对各业务系统中的结构化数据,提供总数、平均数、中位数、百分位数、方差、标准差等基础统计方法。
  2. 推断性统计
    推断统计是在描述性统计的基础上,进一步对其所反映的问题进行分析、解释和做出推断性结论的方法。包括方差分析、相关分析、判别分析、因素分析法、贝叶斯定理、趋势分析法、参数估计、平衡分析法、主成分分析法等。

4.1.1.2 挖掘算法库

  1. 通用数据挖掘算法库
    针对各业务系统中的结构化数据,提供通用的数据分析挖掘算法,包括描述性挖掘算法,如聚类分析、关联分析等;预测性挖掘算法,如分类分析、演化分析、异类分析等。
  2. 专用分析算法库
    针对各业务系统中存在的大量文本、图片、视频等非结构化数据,提供专用数据分析挖掘算法,如文本分析、语音分析、图像分析、视频分析等算法。语音、图像及视频文件分析需第三方软件处理后应用。
  3. 自定义算法插件
    结合特定业务分析需求,提供自定义算法开发规范及接口,包括自定义算法的输入数据格式、算法处理形式(单机或者分布式)、算法结果表示等,如基于Map/Reduce框架,研发算法的java实现。平台支持R/Python/JAVA/Scala等多种自定义算法编写方式。
    4.1.1.3 挖掘算法工具
  4. 分析建模
    支持分布式挖掘算法,使用模型设计器建立数据分析模型。
  5. 模型运行
    提供大数据分布式计算能力,进行数据的分析、挖掘。
  6. 模型发布
    进行分析模型的发布,对外提供数据分析服务。
    4.1.2 统计算法
    提供多种基本的统计分析算法支持。
    算法 描述
    Max/Min/Average/STD 对数据进行预处理时最基本的统计方法,分别用来计算数据的最大值、最小值、平均值以及方差。
    Normallization 归一化方法是一种简化计算的方式,通过将原始数据转换到某个范围内如(0,1),可以避免不同指标因取值范围的不同,对结果造成的偏差。
    Screening 可以将缺损值或者异常值选出并剔除,能够保证数据的有效性。
    RangeSize 统计等于任意值或属于某个区间内的数据总量。
    Boxplot 箱线图是一种描述数据分布的统计图,利用它可以从视觉的角度来观察变量值的分布情况。箱线图主要表示变量值的中位数、四分之一位数、四分之三位数等统计量。
    Percentile 计算处于某个分位数上的值,如给定参数0.5,则返回中位数。
    Histogram 直方图(Histogram)又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。
    Binning 通过指定区间数,返回对数据进行均匀分布后的每个区间的取值。
    4.1.3 机器学习算法
    提供多种基本的机器学习算法支持。以下简单举例。
    算法类别 算法名称
    分类 贝叶斯网络分类、C45+决策树分类、决策树CART分类、梯度提升决策树分类(GBDT)、决策树ID3分类、KNN、1/2稀疏迭代分类、线性判别分类、逻辑回归分类、朴素贝叶斯、BP神经网络分类、随机森林分类、RBF神经网络分类、支持向量机分类
    聚类 Canopy、EM聚类、模糊C均值、Hierarchy层次聚类、Kmeans、Kohonen神经网络聚类、幂迭代、视觉聚类
    回归 曲线回归、决策树回归、梯度提升树回归、保序回归、L1/2稀疏迭代回归、线性回归、随机森林回归、SVM回归、BP神经网络回归
    关联 FPGrowth、Apriori、序列
    时间序列 指数平滑、稀疏时间序列、移动平均、ARIMA、向量自回归、X11、X12
    综合评价 层次分析法、熵值法、模糊综合评价法、TOPSIS
    文本挖掘 分词、特征选择、信息抽取、关键词提取、观点情感分析、垃圾违禁信息检测、文本过滤、主旨话题分析、向量空间、结构化输出
    协同过滤 协同过滤
    深度学习 DNN回归、DNN分类、RNN分类、RNN回归、LSTM、Tensorflow
    集成学习 Bagging回归、Bagging分类、Voting回归、Voting分类、Adaboost分类、Xgboost分类、
    自动学习 回归交叉验证、分类交叉验证、自动分类、自动择参、循环行、自动回归、自动聚类、自动时间序列
    扩展 SQL编程、Scala编程、Java编程、R编程、Python编程
    特征工程 属性生成、主成分分析、因子分析、奇异值分解、自动特征
    模型 模型利用、模型读取、模型输出
    4.2 算法优势
    4.2.1 独创专利算法

    平台除了包含业界通用的主流算法外,还内置了红亚科技研发的独创专利算法,算法准确性和响应速度等性能明显优于同类经典算法,能更快速、更直观的洞悉数据特征,发现企业业务和流程中潜在、隐藏的规律和价值,为企业解决数据分析问题提供更先进和高效的算法选择。
     视觉聚类算法
    基于人类视觉原理模拟数据逐级聚类分析,过程包含了数据的一系列分群,最终将视觉存活周期最大时的分群作为最佳聚类结果。视觉聚类算法的优点在于,它既不依赖任何初值,也不涉及整体优化问题,可克服传统算法对初值敏感、难以找到最优聚类,难以确定聚类类数等缺陷。该算法被业界评价是目前最为有效、认知意义最为明确的聚类分析、判别分析与主因素分析的方法,该理论解决了困扰学术界多年的“聚类”如何划分最为有效的问题,是“原创性的研究”、“同类工作的终结”、是“非平凡的贡献”。
     L1/2稀疏迭代回归/L1/2稀疏迭代分类算法
    L1/2稀疏迭代算法是基于极小化损失函数与关于解的1/2范数正则项的高效稀疏算法。L1/2稀疏性高,在求解回归问题和分类问题时,面对冗余、高维变量,在减少原始数据信息的损失情况下能更快速地找到关键影响因素,大大提升整个分析计算的效率和性能。该算法基于L1/2的正则化理论,找到了平衡稀疏性与可解性之间的矛盾。该理论已经成为在非欧氏框架下研究机器学习与非线性系统离散化近似的基本工具之一,被学界称为Xu-Roach定理;该方法被指定在印度召开的第26界世界数学家大会上进行了特邀汇报。
     稀疏时间序列
    稀疏时间序列将L1/2正则化理论引入到AR时间序列中,建立了基于L1/2约束的稀疏时间序列模型,较之自回归移动平均模型(ARMA),该算法将定阶和求解过程统一,解决了传统时间序列算法定阶难问题,提高了定阶和预测速度。
     信息抽取
    该算法通过设计特定的语法规范,构建规则模板引擎,提供给用户灵活的信息抽取接口。相比其他算法,用户在利用平台的信息抽取算法时,只需要按照语法规范编写规则,就可以完成指定信息的快速抽取与结构化内容的准确输出。
    4.2.2 智能化的自学习算法
    平台内置自动择参、自动分类、自动回归、自动聚类、自动时间序列等多种自学习功能,帮助用户自动选择最优算法和参数,一方面降低了用户对算法和参数选择的经验成本,另一方面极大的节省用户的建模时间成本。
    4.2.3 更便捷的深度学习
    平台一方面提供DNN、RNN、LSTM等深度学习算法节点,让用户可以和使用其他机器学习算法一样,快速构建深度学习模型,另一方面平台支持基于TensorFlow On Spark的深度学习集群框架,方便用户自由编写深度学习代码逻辑,实现更灵活的自主深度建模分析。
    4.2.4 模型性能提升利器之集成学习
    集成学习严格意义上来说,这不算是一种机器学习算法,而更像是一种优化手段或者策略,它通常是结合多个简单的弱机器学习算法,去做更可靠的决策。集成学习是一种能在各种的机器学习任务上提高准确率的强有力技术,集成算法往往是很多数据竞赛关键的一步,能够很好地提升算法的性能。平台提供Bagging、Voting等集成学习框架节点,同时支持Xgboost、GBDT、Adaboost随机森林等集成学习算法。
    4.2.5 “精细化、结构化”的文本分析
    目前,市场上的文本工具主要是以文本整体分析应用为主来设计功能,未从技术角进行细致的功能划分,这样导致用户对于文本的分析过于主题化,用户在分析过程中无法过多的加入自己的构建思想,同时无法真正将文本挖掘技术与传统结构化数据挖掘技术融合在一起。本平台中的文本挖掘算法模块以“拖拽式操作、精细化节点设计、结构化自由文本为目标”的设计理念为指导,将文本挖掘的各技术功能点进行粗细划分,使得节点的功能更集中更明确,一方面兼顾了NLP技术的独立性,另一方面通过结构化输出将各功能节点的输出统一成结构化数据表方便与平台已有的其他建模分析节点串联复用。
    4.2.6 可扩展式的设计
    平台一方面内置Python、R、Scala、JAVA编程节点,方便用户实现个性化数据分析逻辑,另一方面通过提供自定义算法功能,用户可以将本企业所研究的成熟算法,通过该功能在平台上发布,形成固化的算法节点,供平台所有用户使用。
    为了能够给用户提供更简单、可靠、全面、智能的分析服务,未来大数据挖掘与分析平台将更多的在人工智能技术领域持续发力,提升平台的技术先进性,为用户带来更多更好的智能化分析体验。
    第五章 关键技术指标
    5.1 数据源支持
    平台支持文本文件(Excel格式)、关系型数据源、大数据分析引擎等多类数据源的接入,主要包括:
  7. 关系型数据库:如Oracle、Mysql、SqlServer、DB2、SybaseIQ、Postgresql等;
  8. MPP数据库:如Greenplum、Teradata;
  9. 大数据分析引擎:Hive、Impala、Presto、Sparksql;
  10. 多维数据集:支持Kylin Cube数据的接入;
  11. 文本数据:支持CSV、Excel等文本数据的接入;
  12. 接口数据:支持以WS方式传输的CSV、XML数据;
    5.2 可视化图形
    平台内置丰富的可视化图库,除了支持常规的统计图表外,还支持大量的高维图形,同时支持行业图库的定制,主要包括:
  13. 常规图形:包括饼、柱、线、组合、表格、交叉表、仪表盘、KPI图形、散点图;
  14. 高维图形:包括地图、气泡图、关系图、雷达图、桑基图、矩阵图、散点图等;
  15. 行业图形:如金融行业较为常见的K线图,可结合用户行业特征进行定制开发;
  16. 自定义图形组件:平台支持用户进行自定义开发,主要支持3种方式:
    方式 具体说明
    URL 用户可将自己独立开发的图形通过URL地址访问的模式嵌入平台;
    R语言 支持用户自行编制R语言脚本进行数据的处理、建模、与图形化表达;
    JS开发 内置JS节点,支持用户使用Javascript脚本进行图形定制开发;
    同时,所有的图形组件内置丰富的配置参数与多种主题风格,满足各种自定义效果展现。
    平台图库具有较强的扩展能力,可根据用户需求,或迅速整合第三方图库插件快速开发新的图形。
    5.3 大数据平台支持
    平台可与主流的大数据环境无缝融入,支持的大数据平台主要包括:
  17. Apache Hadoop 2.7.3
  18. Transwarp Data Hub 4.7.1
  19. H3C DataEngine
  20. 中兴DAP
  21. Hortonworks Data Platform
  22. Cloudera Enterprise Data Hub
    5.4 分析算法
    算法形式 算法类别 算法名称
    分布式算法 分类 贝叶斯网络分类、C45+决策树分类、决策树CART分类、梯度提升决策树分类(GBDT)、决策树ID3分类、KNN、1/2稀疏迭代分类、线性判别分类、逻辑回归分类、朴素贝叶斯、BP神经网络分类、随机森林分类、RBF神经网络分类、支持向量机分类、Adaboost分类、Bagging分类算法、XGBoost分类
    聚类 Canopy、EM聚类、模糊C均值、Hierarchy层次聚类、Kmeans、Kohonen神经网络聚类、幂迭代、视觉聚类
    回归 曲线回归、决策树回归、梯度提升树回归、保序回归、L1/2稀疏迭代回归、线性回归、随机森林回归、SVM回归、bagging回归算法、BP神经网络回归
    关联 FPGrowth
    综合评价 层次分析法、熵值法、模糊综合评价法、TOPSIS
    文本挖掘 分词、特征选择、信息抽取、关键词提取、观点情感分析、垃圾违禁信息检测、文本过滤、主旨话题分析、向量空间、结构化输出
    推荐 协同过滤
    扩展 Scala编程
    模型 模型利用、模型读取、模型输出
    非分布式算法 关联 Apriori、序列
    时间序列 指数平滑、稀疏时间序列、移动平均、ARIMA、向量自回归、X11、X12
    扩展 R编程、Python编程、Java编程
    5.5 性能效率
    5.5.1 测试环境软硬件配置
     应用服务器(1台)
    硬件 :
    型号:浪潮 NF8480M4(厂商设备)
    CPU:Intel Xeon E7-4830 v3 2.10GHz2
    内存:128G
    硬盘:3TB
    软件 :
    操作系统:CentOS 6.7
    中间件:Tomcat 8.5.6
    数据缓存:Redis 3.1.101
     数据库服务器(1台)
    硬件
    型号:浪潮 NF8480M4(厂商设备)
    CPU:Intel Xeon E5-2650 v3 2.30GHz 20核
    内存:128G
    硬盘:3TB
    软件
    操作系统:CentOS 6.7
    数据库:Mysql 5.1.73
     分布式大数据计算服务器(5台)
    硬件
    型号:联想System x3650 M5(厂商设备)
    CPU:Intel Xeon E5-2620 v3 2.40GHz
    2
    内存:128G
    硬盘:2TB
    软件
    操作系统:CentOS 6.8
    大数据平台:Cloudera Enterprise Data Hub 5.7.1
    (Hadoop 2.6.0、Hive 1.1.0、Hbase 1.2.0、Impala 2.5.0)
    5.5.2 性能效率结果
    经测试,以上环境软硬件配置性能测试效率如下:
    可视化分析——设计模式
    基于10,000,000条数据的可视化成果访问  在设计模式下(未启用Redis缓存),基于10,000,000条数据创建包含有柱形图的可视化页面,单用户访问该页面,平均响应时间为2.046秒
    基于50,000,000条数据的可视化成果访问  在设计模式下(未启用Redis缓存),基于50,000,000条数据创建包含有柱形图的可视化页面,单用户访问该页面,平均响应时间为2.600秒
    基于100,000,000条数据的可视化成果访问  在设计模式下(未启用Redis缓存),基于100,000,000条数据创建包含有柱形图的可视化页面,单用户访问该页面,平均响应时间为2.832秒
    可视化分析——发布模式
    基于10,000,000条数据的可视化成果访问 在发布模式下(启用Redis缓存),基于10,000,000条数据创建包含有柱形图、条形图、线形图、面积图、饼形图和环形图的可视化页面,模拟100用户并发访问该成果页面,思考时间(Think time)设置为1秒,平均响应时间为0.150秒
    应用服务器资源占用:
    平均CPU利用率为11.03%;
    平均内存占用率为8.43%;
    平均磁盘块写入数为49.81块/秒
    数据库服务器资源占用:
    平均CPU利用率为0.00%;
    平均内存占用率为2.89%;
    平均磁盘块写入数为39.63块/秒
    基于50,000,000条数据的可视化成果访问 在发布模式下(启用Redis缓存),基于50,000,000条数据创建包含有柱形图、条形图、线形图、面积图、饼形图和环形图的可视化页面,模拟100用户并发访问该成果页面,思考时间(Think time)设置为1秒,平均响应时间为0.148秒
    应用服务器资源占用:
    平均CPU利用率为11.13%;
    平均内存占用率为8.39%;
    平均磁盘块写入数为63.77块/秒
    数据库服务器资源占用:
    平均CPU利用率为0.00%;
    平均内存占用率为2.89%;
    平均磁盘块写入数为39.23块/秒
    基于100,000,000条数据的可视化成果访问 在发布模式下(启用Redis缓存),基于100,000,000条数据创建包含有柱形图、条形图、线形图、面积图、饼形图和环形图的可视化页面,模拟100用户并发访问该成果页面,思考时间(Think time)设置为1秒,平均响应时间为0.150秒
    应用服务器资源占用:
    平均CPU利用率为11.21%;
    平均内存占用率为8.47%;
    平均磁盘块写入数为55.38块/秒
    数据库服务器资源占用:
    平均CPU利用率为0.00%;
    平均内存占用率为2.89%;
    平均磁盘块写入数为39.23块/秒
    挖掘分析
    分类算法-决策树CART分类 对样本数据执行决策树CART分类算法,其中:
    数据量为10,000,000条时,平均执行耗时为55.2秒;
    数据量为50,000,000条时,平均执行耗时为80.27秒;
    数据量为100,000,000条时,平均执行耗时为104.78秒
    聚类算法-KMeans 对样本数据执行KMeans算法,其中:
    数据量为10,000,000条时,平均执行耗时为64.54秒;
    数据量为50,000,000条时,平均执行耗时为154.82秒;
    数据量为100,000,000条时,平均执行耗时为188.06秒
    文本挖掘-分词算法 对样本数据执行分词算法,其中:
    数据量为10,000,000条时,平均执行耗时为33.00秒;
    数据量为50,000,000条时,平均执行耗时为35.64秒;
    数据量为100,000,000条时,平均执行耗时为37.76秒

第六章 案例介绍
6.1 案例一:手机评论文本分析
6.1.1 案例介绍

电商购物平台产品展示页面的“评价”数据,是购买客户对于产品使用的评价,在一定程度上能够反映客户对于商品的满意度和认可度。通过对此数据的分析,可以了解产品在不同类型消费者心目中的评价以及大家关注的核心要素,便于电商为不同类型用户推荐更适合的产品。
6.1.2 数据说明
原始的电商数据包括了用户的相关信息(用户名、年龄、区域等)还有产品、评论的文本内容。通过对原始数据的观察,我们发现“产品”字段是由“品牌-型号”的模式构成,适合使用信息抽取算法分离品牌和型号,数据量总计3.6GB。
6.1.3 算法说明
本项目采用的技术为分词、文本过滤、设置角色、主旨话题分析与模型输出。
其中,主要核心技术为:分词、文本过滤、主旨话题分析。
 分词
针对于文本分析,分析对象需设置为词语格式,源数据为评论文本型数据,所以为了方便后期的分析,我们需要采用分词技术做数据格式处理。
分词节点涵盖了中文分词、词性标注的基础文本处理功能,主要实现对电商评论文本数据的中文字符串文本进行词语切分并标注词性,将原始字符串序列转换为带标签的词序列,方便后续的文本过滤。
 文本过滤
经过分词后的数据含有非分析对象,我们需要将数据进行提取,设定标准属性与标注词性进行匹配,文本过滤技术会将非分析对象进行处理,保留标准属性数据。
文本过滤是根据我们定义的设置标准或要求,从分词后的评论文本数据中选取我们需要的信息或者剔除不需要信息的方法。在后续主旨话题分析可以做全数据分析处理。
 主旨话题分析
为了更好地进行评论文本分析,我们选用主旨话题分析技术。该技术实现了按照定义标签进行词语分类,将分类后的词语做二次处理,根据设定阈值判断出对象的褒贬性。
主旨话题分析节点完成对文本集的主题分布的分析,得到主旨话题模型,我们可以在查看模型后设定话题词。
6.1.4 可视化分析
基于文本分析得到的情感分析结果、信息抽取匹配的品牌、抽取的评论关键词等信息做可视化分析,分析出不同地域、不同品牌、不同年龄段关注的手机的不同指标(外观、拍照、性能)以及用户体验。情感倾向。
6.2 案例二:公募基金精准营销
6.2.1 案例介绍

基于开户年限、年龄、近半年日均资产、半年内股基持仓比例、周转率、股票佣金对客户进行分群,分为三群。不同的客户群之间特征差异明显,相同客户群内的客户具有相同的特征,因此针对不同群所具备的共性特征,制定针对性营销策略。
6.2.2 数据说明
基于用户基本信息包括风险等级、开户年限、年龄等,资产信息包括总资产、近一年最大资产、近半年日均资产等,产品交易信息包括股票交易次数、近两年最后买公墓基金天数、近半年理财持有比例等,总数据量高达12GB。
6.2.3 算法说明
本项目采用的技术为属性生成、设置角色、多分支、K-Means、模糊C均值、聚类评估、模型输出。
其中核心技术为K-Means、模糊C均值、聚类评估。
 K-Means
由于K-Means聚类算法适用于对球形簇分布的数据聚类分析,所以可应用于客户细分、市场细分等分析场景。
本项目采用K-Means算法将按照时间需求去处理数据,不仅计算速度快,而且能够按照指定标准将分析目标显示出来,统计结果为方便后期做聚类计算。
 模糊C均值
模糊聚类分析作为无监督机器学习的主要技术之一,是用模糊理论对重要数据分析和建模的方法。在众多模糊聚类算法中,模糊C均值算法应用最广泛且较为成功。
模糊C均值聚类算法通过优化我们定义的目标函数得到每个样本点对所有类中心的隶属度,从而决定样本点的类属以达到自动对客户信息数据进行分群的目的。
 聚类评估
该节点用来评价一个聚类任务中的模型表现,适用于所有的聚类类评估任务。
通过模型训练学习和一些评价指标,该节点自动计算得到出较可靠的聚类模型。
6.2.4 可视化分析
构建用户公募基金潜客预测模型,基于该模型,可以预测高概率购买公募基金的潜在客户,为券商提供精准营销客户群,提升营销效率,降低营销成本。

你可能感兴趣的:(科研,大数据,教学)