大数据平台及挖掘调研

一、大数据平台

百度数智平台

基于百度大数据多年研发及实战经验,为物联网行业客户打造大数据平台,提供例如大数据存储、大数据分析、大数据挖掘等行业落地方案,在数据智能方面推动工业制造业、智慧城市、智慧能源、智慧车辆、智慧家居等方向前进,驱动产业升级,提高产能,降低成本,提升用户体验,寻找新的发展机会,释放物联网大数据价值。

大数据平台及挖掘调研_第1张图片

优势:

技术领先的全栈方案

基于大数据基础套件(百度鲁班)及多年大数据研发应用经验,提供从底层数据存储到上层数据挖掘应用的全栈解决方案,为企业打造全面的大数据平台。

行业应用经验丰富

拥有物联网行业多年探索经验,为各类型企业打造了多款应用,积累了丰富的模型及行业理解,具备深厚的实战经验及众多行业合作伙伴。

定制化的服务实施

大数据领域专家级架构师咨询设计方案,充分复用百度内部大数据系统实际使用经验,根据不同需求快速落地最合适有效的物联网大数据解决方案。

阿里巴巴-飞天大数据平台 

飞天大数据平台是阿里巴巴10年大数据建设最佳实践的结晶,承载了阿里巴巴99%的数据业务构建,同时广泛应用于城市大脑、数字政府、电力、金融、新零售、智能制造、智慧农业等各个领域的大数据建设。

大数据计算引擎是飞天大数据平台的核心,多种引擎满足企业对于大数据离线计算、实时家园、图计算、秒级查询、搜索推荐等各类需求;大数据智能研发平台是飞天大数据平台的操作系统,对接多种引擎,高效率完成数据全链路研发流程,建设企业数据治理体系。

平台优势:

应用广泛的最佳实践:飞天大数据平台不仅仅在阿里巴巴集团内部经历双十一等世界级的业务场景实践,更深入到行业之中,深度参与各个领域的大数据建设,形成丰富的最佳实践;

易用齐全的产品体系:从丰富多样的大数据计算引擎,到高效易用的大数据研发平台。飞天大数据拥有非常齐全的产品体系,满足各种行业多业务场景下对大数据多方面的需求;

极致的性能与成本:飞天大数据平台刷新多项世界纪录,想世界战时中国能力,被称为新一代“大国重器”。同时对存储和计算进行极致优化,打破性能与成本的线性关系。

AI加持的双生系统:大数据与AI双生系统,AI加持的飞天大数据平台与大数据加持的飞天AI平台,共同构建于数据、算力、算法的AI落地场景闭环,让数据更加智能,让商业更有价值。

腾讯慧聚

 腾讯慧聚是基于腾讯多年的大数据平台建设经验和海量数据处理能力的政企大数据解决方案专家,提供Dmaster(大数据一站式平台)、Tbase(海量事务处理平台)、TDbank(大数据实时接入平台)、Hermes(大数据实时多维分析平台)、TDinsight(机器学习基础平台)等各类大数据平台产品,旨在汇聚数据之力,赋能智慧政企。

大数据平台及挖掘调研_第2张图片

通过Dmaster,可一站式获得强大的大数据开发、数据分析、数据挖掘及数据管理能力,成为用户提升海量数据资产管理效率提供的有力支撑。全链路大数据开发引擎,提供拖拽式的可视化数据开发IDE,为用户的大数据集成、存储、计算环节提供完整而稳定的企业级解决方案。同时,Dmaster的优势在于,操作简便、按需扩展,能够轻松上手,将宝贵的精力更多地聚焦于自身的业务创新。

  Tbase则侧重于海量数据处理,是腾讯数据库内核团队深耕多年打造的MPP(大规模并行处理)数据库产品,具备业界先进的数据治理和数据安全特性。擅长高并发实时入库、实时查询以及海量交易事务处理,针对业务数据散列存储后出现的分布不均匀问题,Tbase能够有效解决业务数据倾斜问题,保证不同数据规模的业务交易处理具有一致的响应性能。

 作为实时接入平台,TDbank具有的“高灵活、高可用、高吞吐、低延时”的核心优势,可以从业务数据源获取数据分发给离线/在线处理平台,构建数据源和数据处理系统间的桥梁,将数据处理系统同业务侧的数据源解耦。海量数据实现秒级接入和分拣,以确保数据采集交换实时高效。这一成绩,源于8年间每天峰值数据接入,日接入量超过十万亿的严苛考验。

实时多维分析平台Hermes,是腾讯针对交互式海量数据分析需求自主研发的数据多维分析平台,是腾讯处理千亿级海量数据用户画像和多维分析的核心技术与经验的积累。在腾讯内部,Hermes经过了千亿级数据、上万个维度指标的用户画像实践验证,可以轻松地对千亿级数据进行毫秒级的任意维度、任意层级的探索分析,助力用户快速洞察数据价值。

 TDinsight作为机器学习基础平台,可以提供一站式的机器学习平台,释放数据潜力,帮助用户快速接入人工智能的快车道。该平台集成分类、聚类、搜索、排序、推荐、图形识别、自然语义处理等机器学习和深度学习领域的主流算法。更重要的是,除了既有算法,TDinsight还允许用户集成自有的算法。在支持自定义算法的同时,还提供常用深度学习模型,即拖即用,操作灵活。

“腾讯慧聚”目前已在消防、警务、交通、气象、园区、物联、电力运营等场景进行应用。

运营商大数据平台

二、数据分析挖掘

阿里巴巴

数据挖掘中台

在阿里巴巴,由于业务场景与商业智能分析需求的多样化,多个部门、多个商业智能及算法团队针对应用问题所提出的算法解决方案是独立的,通常一次数据挖掘的过程包括商业理解、数据准备、特征工程、模型训练、模型测试、模型部署、线上应用及效果反馈等环节。如若对于每个应用都完全独立的设计一套流程,那对于阿里巴巴成千上万的挖掘应用而言无疑将造成巨大的时间与经济成本,带来大量的重复建设和资源浪费。基于此,阿里集团便提出了中台战略,将一些通用的技术集成起来形成中台技术体系。

阿里巴巴数据挖掘算法中台的目的在于从各式各样的挖掘场景中抽象出有代表性的几类场景,并形成相应的方法论和实操模板。按照个体挖掘应用和关系挖掘应用的分类方式,可以抽象出常见的几类数据挖掘应用场景:在个体挖掘应用中,消费者画像与业务指标预测是两个非常有代表性的场景,而在关系挖掘应用中,相似关系与竞争关系是两类非常通用的关系挖掘应用,在此基础上构建的推荐系统与竞争分析系统。

阿里巴巴数据中台分为三层:特征层(Featural Data MiningLayer ,FDM)、中间层和应用层(Application-orientedData Mining Layer ,ADM),其中中间层包括个体中间层(Individual Data Mining Layer, IDM)、关系中间层(RDM,Relational Data Mining Layer)。

FDM层:用于存储在模型训练前常用的特征指标,并进行统一的清洗和去噪处理,提升机器学习特征工程环节的效率。

IDM层:个体挖掘指标中间层,面向个体挖掘场景,用于存储通用性强的结果数据,主要包含商品、卖家、买家、行业等维度的个体数据挖掘的相关指标。

RDM层:关系挖掘指标中间层,面向关系挖掘场景,用于存储通用性强的结果数据,主要包含商品间的相似关系、竞争关系,店铺间的相似关系、竞争关系等

ADM层:数据挖掘应用层用来沉淀比较个性偏应用的数据挖掘指标,比如用户偏好的类目,偏好的品牌等,这些数据已经过深度的加工处理,满足某一特点业务或产品的使用。

美林数据

TempoBI

TempoBI(企业级自助式数据分析应用工具),秉承“专业 敏捷 易用”的设计理念,丰富的可视化效果、灵动的视觉交互探索手段、交互式的即席分析体验,让业务人员更好地观察数据,与数据对话,发现数据规律,获取敏锐洞察,让数据分析更简单、更智能。TempoBI提供基于不同视角的可视化大屏解决方案,支持企业经营管控、企业形象展示、生产管控等不同领域大屏展示,为决策者提供“科学决策”的依据。

大数据平台及挖掘调研_第3张图片

灵活易用的数据准备

内置轻量级自助数据准备功能,允许用户根据需要对数据进行快速处理且对原始数据不产生影响。一键数据观察,掌握数据结构,零编码实现数据进行关联、追加、合并、汇总与逆透视;简单点击、配置,即可增加数据的属性列、调整列的类型,也可对数据的内容进行分组、分段、过滤、替换值、去除空格等。类Excel操作,让业务人员轻松实现数据复杂处理。

丰富的统计图表与页面组件

柱、线、饼、地图、散点、雷达、KPI、桑基、K线、自由式报表(中国式复杂报表)……等近三十种可视化统计图表。URL、富文本、图片、页面筛选器、R、JS等多种页面设计与自定义扩展组件,实现业务场景设计。

丰富查询与交互探索

提供钻取、联动、缩放、筛选、链接等交互操作,让图形活跃起来,实现用户与数据的直接对话。

开箱即用的分析应用

多种聚合与自定义计算,自定义构建计算指标,支持复杂的数据切片;内置同比、环比、累计、预测、聚类等多种分析方法,业务人员可以快速实现复杂分析。

多终端与多渠道分享

满足企业现代化决策支持需求。从PC端到移动端再到数据大屏,实现分析成果多机制、多渠道、多终端共享,实现数据价值的传递、共享与应用。

产品特点:

简单的拖拽式操作:

支持用户通过拖拽的方式更改观察数据的维度、指标,并将数据以丰富的图表方式进行迅速、直观的表达。整体分析过程无需编码,为用户提供极简易用的操作体验。

Word报告的生成与编辑:

扩展分析成果的呈现方式,支持Word报告的动态生成及再编辑。实现平台中的指标、图形在Word报告中的直接引用;下载导出的word报告文字、数值、表格等再编辑。

强大的一体化分析引擎:

将多维分析、报表服务、图形引擎等多种独立的分析技术有机融合于一体。可视化与中国复杂式报表的完美融合,只需部署一次,即可满足任意报表和分析需求。

跨维度的复杂计算:

通过详细级别表达式将平台分析能力带入更高层次的场景计算,跨颗粒度的计算任务帮助用户从更深层次查看和理解数据。

第四范式:天枢数智运营专家

一站式流量运营平台,通过智能推荐、智能搜索、智能推送、智能客服等技术帮助企业实现数智化运营,提升用户体验,增加用户留存,实现业务增长。基于第四范式领先的机器学习技术打造,提供从数据采集分析到智能应用的流量运营解决方案,高效驱动企业业务增长。主要包括智能推荐、智能搜索、智能推送、智能客服等功能。

智能推荐

帮助企业快速搭建推荐系统,为用户提供千人千面的个性化体验,解决信息过载与用户注意力有限之间的矛盾,将每一次曝光价值最大化。架构如下图所示。

大数据平台及挖掘调研_第4张图片

智能搜索

精准意图识别,多维管理工具,快速匹配用户与目标信息,全面提升搜索转化率。包括以下功能:

多元干预配置:提供相关搜索、物料筛选、物料必推、物料禁用等服务,满足运营人员多样需求;

精准意图识别:基于强大的自然语言处理能力,可实现拼写纠错、智能联想、拼音转换、同义扩展、行为预测等;

自定义算法策略:依托机器学习算法模型;支持搜索全流程算法调参,更匹配业务场景;

实时数据统计分析:提供多项业务统计指标,运营人员可进行A/B测试,实时查看数据效果;

应用场景:

电商场景下SKU众多,品类繁杂,搜索承载着最重的一部分流量, 搜索效果的好坏在电商场景中直接决定着GMV的转化;

当平台上的内容达到一定量级后,用户会通过关键词搜索来查找内容,搜索引擎通过智能语义分析,满足用户的内容消费需求;

金融平台内通常包含不同类型的产品、资讯、服务等,搜索引擎能够为用户提供组合搜索,提升用户的使用体验。

智能推送

千人千面的智能推送产品,用AI驱动业务数据高速增长。在对的时间,把对的内容,推送给对的人,提升打开和转化率。

多渠道触达:通过Web、APP、公众号、微信小程序、短信等多渠道、全方位推送;

智能场景一键触达:轻松配置短信、APP PUSH、邮件等渠道的多种复杂场景,简单几步即可完成指定场景的上线;

效果动态统计:丰富、灵活、全面的数据统计功能,实时监测推送效果;

A/B测试:利用成熟的算法实验平台,自由创建用户白名单及流量分配策略,支持时间个性化、召回、粗排、重排,频度控制等模块,精准控制流量分配比例;

用户标签管理:支持对用户标签的管理,方便监测用户画像,及时调整推送策略。

智能客服

基于深度学习技术打造的智能机器人,快速响应,避免用户排队等待, 用最低人力成本达成最佳用户体验。

7×24小时全时段在线,不错过任何线索,为客户提供最佳体验;

全面覆盖Web、APP、微信公众号、微信小程序、个人微信、微信群、微博等渠道;

自动学习人工客服话术,完善机器人语料,提高客服工作效率。

应用场景:

精准回复:依托领先NLP算法和专业的知识图谱,独立解决客户疑问;

自主学习:基于范式机器学习能力,自动优化机器人话术,全面提升服务效率;

多轮对话技术:基于上下文语义理解,自动调取相关接口,实现复杂多场景对话任务。

你可能感兴趣的:(大数据,spark,big,data)