微软小冰写诗,腾讯的DreamWriter在奥运会期间写了800篇新闻报道,今日头条的AI算法实现了千人千面的推荐,AlphaGo、腾讯绝艺等实现了人工智能在单一领域的人类超越,随着算力与算法的突破,人工智能无处不在,也越来越无所不能。而这一切,都依赖于海量数据的喂养训练和数据科学家的算法算力,为了获取准确的结果,需要这些海量数据准确且更加贴近业务。但是你可曾想过,这些基础数据的整理和归类正在消耗数据科学家分析洞察的精力和热情?
数据需要 AI,AI 需要数据管理。如何应对AI的数据挑战?如何利用数据工程解决方案来拯救数据科学家们,让他们专注于机器学习算法,解决复杂问题从而影响商业决策?
本期Informatica网络研讨会
资深技术顾问——曹顺波
聚焦Informatica数据工程解决方案
(Informatica Data Engineering)
邀您一起从容应对AI时代数据挑战
无数据、不AI
▉ 企业的AI数据挑战有哪些?
从支持特定单一业务应用的数据1.0时代,到支持业务流程的数据2.0时代,再到今天,数据驱动企业数字化转型的数据3.0时代,我们不难发现:
● 数据量越来越大,激速增加
● 新用户持续迅猛增长
● 来自移动、社交、物联网等新的数据类型不断增加
● 云端数据和边缘数据成为关注点
● 人工智能、机器学习等新技术被更多地用于数据处理和分析
数据管理越来越难,如何处理海量数据,发现数据价值?这是如今企业普遍面临的问题和挑战。
如同为了航行,人类发明了轮船和飞机,但可靠的能源才是支持远行的动力。为了高效的管理数据,AI应运而生。数据需要AI,AI需要数据,两者相辅相成,相互影响。我们需要有充分的准确的数据,才能让AI更加透明,更懂业务。
而对于人工智能而言,它不是孤立存在的,要想取得一个项目的成功,我们需要了解和掌握数据科学、机器学习和人工智能等不同的技术手段。假设我们正在制造一辆无人驾驶汽车,并且正在研究如何在停车标记处自动停车的具体问题。那么我们将需要使用这三个领域的技能。
机器学习:汽车必须能够通过摄像头识别停车标志、交通标识等。我们构建了数据集集,其中包含数以百万计的街边对象的照片,并训练一种算法来预测哪些有停止标志。
人工智能:一旦我们的汽车能够识别停车标志了,就需要决定什么时候执行刹车动作。太早太晚都非常危险,而且我们需要它能应对不同的路况。
数据科学:测试中我们发现在某些特定场景下发现车辆性能不够好,因为总会略过一些停车标志。这些是由夜间行车光线不足、前后车有远光灯等原因导致识别率降低,可能需要构建一些特定场景和条件,又重新回到机器学习步骤进行研究测试。
▲数据科学,机器学习和人工智能三者相辅相成
无管理、不智能
▉ Informatica数据工程软件助力AI成功
AI项目的成功并非一蹴而就,AI的应用前景取决于几个核心因素:干净、有代表性和数量庞大,由于许多企业缺乏AI所必需的数据基础,很难收集足够的历史数据支撑AI进行深度学习,因此愿景实现的过程就变得抽象起来。
▲ AI团队的工作流程,摘自《数据科学实战》
AI项目的数据工程相当复杂,很多人认为AI项目的难点在于有不同的机器学习算法、人工智能算法等。但是在数据分析人员、算法工程师、科学家等的眼中,反而是收集原始数据、处理数据、清理数据等,才是难点,才叫挑战。为了使AI项目进展顺利,AI项目团队需要进行大量的准备工作,首当其冲的是如何进行原始数据的收集。而从收集原始数据到处理数据,数据建模、解决数据质量问题、清理数据这块,这几乎已经占据项目全部工作量的80%了。
如何充分节省数据分析师/数据科学家整理数据的重复劳动的时间成本,使他们更加专注于商业价值提炼,从而加速企业的数字化转型之路。Informatica重磅打造Data Engineering数据工程解决方案,通过“数据工程集成管理,数据工程流数据管理,数据工程质量管理和数据工程脱敏管理”,帮助数据科学家们摆脱繁重的数据整理重复工作,从容应对AI数据的挑战,取得AI/分析成功的秘诀。
● 数据工程集成管理:帮助企业从不同的数据源(结构化或非结构化)集成数据,利用Informatica平台进行数据处理后,将数据写入目标端。
● 数据工程流数据管理:支持结构化或非结构化的流数据集成。
● 数据工程质量管理:进行数据质量探查,发现数据质量问题,重新定义数据质量规则,从而解决数据问题。
● 数据工程脱敏管理:屏蔽数据信息,脱敏关键数据,减少数据泄露的风险
时间就是金钱,要想取得AI项目的成功,完整的集合4大功能的Informatica数据工程解决方案可以帮助企业快速解决挑战,且其具备以下核心优势:
● Cloud-Ready云就绪:
▷ 云端就绪,帮助企业节省大量的时间去做硬件、软件、环境等准备工作,让企业更轻松地对数据进行流处理、摄取、加工、清洗、保护和治理
▷ 支持混合及多云环境的机器学习能力,加快自助式分析过程
▷ 支持AWS、Azure和谷歌云平台
▷ 帮助企业治理和管理流入或流经企业内部部署及云端数据湖环境的海量数据流
● No Code无需编码:
▷ 图形化的易于使用的开发界面,减少任务开发难度。
▷ 自动解析非结构化数据,消除数据定义和加速访问企业数据。
● No Ops智能运维:
▷ 图形化操作,减轻企业数据运维的压力。
▷ 支持Azure Databricks,进行海量数据处理。
▷ 支持Spark高级特性,利用最新的创新、性能和规模效益进行数据治理。
▷ 利用Operational Insights,实现对数据工程环境的预测性洞察。
● No Limits On Data无需受限数据大小:
▷ 实时或者批量的获取数据:流数据,IoT数据, 文件和数据库数据。
▷ 批量生成开发任务,易于使用、快速和可伸缩的方法——无需手工编码。
▷ 支持Spark Structured Streaming,根据事件时间而不是处理时间来处理流数据。
● AI/ML就绪的数据:
▷ 提供先进的数据准备。
▷ 丰富的数据准备函数。
▷ 提供数据集推荐和数据分类。
▷ 支持动态脱敏。
▷ 集成了对于AI/ML算法的支持
凭借Informatica由AI赋能的数据工程解决方案,结合Informatica的数据目录、数据准备等产品,从云端或本地实现数据收集、数据分类、数据处理、数据质量效验,自动扫描整个企业数据资产,加快企业AI项目进程,从而使数据科学家重新回归正轨,专注于挖掘数据资产的巨大潜力,实现数据资产价值的最大化。
想了解更多相信信息,请关注Informatica数据管理(微信号:InformaticaChina)