前段时间被沙特阿拉伯授予公民身份的人形机器人“索菲亚”,再一次颠覆了人们对人工智能技术的认知。
“索菲亚”多次与人类交锋并公开发表言论的过程中,我们感受到了基本的对答如流,有时甚至还可以做到妙语连珠。
据了解,索菲亚的大脑存储在云端,通过连接WIFI实现链接,但是由于通用领域的语义范畴太过广泛,云端知识库还需要不断充实、训练以及优化,但不得不说人形机器人背后的知识图谱技术已经发展的相对成熟。
未来一段时间,知识图谱还将是大数据智能的前沿研究,无论是实体链指,关系抽取,还是知识推理、知识表示、知识融合……如何有效实现通过知识图谱提高计算效率,探索更多应用场景和新的应用算法都是亟待被深入研究的课题。
解决企业数据问题,知识图谱首当其冲
知识图谱最初是由谷歌提出用来优化搜索引擎的技术,在不断发展中外延也一度扩大。盘点目前知识图谱的发展,其实已经助力了很多热门的人工智能场景的应用,例如语音助手 Siri,聊天机器人,智能问答等。
明略数据技术合伙人孟嘉表示,现在的人工智能其实可以简单划分为感知智能(主要集中在对于图片、视频以及语音的能力的探究)和认知智能(涉及知识推理、因果分析等),知识图谱就是认知智能领域中主要的技术之一。
知识图谱将会被广泛应用,但企业级才刚刚起步!如今企业对于数据处理和数据价值挖掘都十分重视,但由于数据总量大且呈现类型多样化等特点,使许多关键数据背后的隐性关系并不能很好地被发现以及利用。我们认为知识图谱首当其冲能解决这些问题,一个从搜索出发却对数据分析与处理卓有成效的新技术!
孟嘉对记者表示,其实知识图谱描述的就是现实世界中的实体以及实体之间的关系,采用这种技术最关键的就是完成实体和关系的抽取。具体来说,也就是利用知识图谱将数据之间建立关联,让碎片化的数据不再零散。
如今一两年的时间内,无论是公共安全还是金融领域都开始慢慢接受知识图谱的概念,逐渐改变之前企业关于数据存储的传统方式,也就是数据仓库(BI)。本质上就是改变数据组织的形式,利用知识的组织形式完成行业数据逻辑性的保存。
落地企业级知识图谱,需要明确哪些问题
什么样的数据可以放到知识图谱中呢?这个问题目前比较受关注。从构建行业知识图谱的基本流程中我们可以总结出一两点。
知识图谱的schema很灵活,我们一般称作统一视图。建立企业级知识图谱的第一步就是需要开发人员以及企业专家完成统一视图的构建。
接下来的一步才是数据治理。
将企业已有的数据治理存放到知识图谱中,这个过程我们可以发现,知识图谱存储针对结构化数据、半结构化数据以及非结构化数据都配有相应的工具。
由于知识图谱涉及到的技术关联很多,就意味着数据治理的过程比较复杂,需要解决很多关于结构化数据如何处理会高效快速以及数据处理结果如何转变为实体关系等诸多问题。
如果涉及到非结构化数据,其中的挑战会更大。孟嘉对此表示,我们在操作的过程中会从文本数据中抽取实体和关系,但其实这个过程不单单是抽取实体之间的关系,更重要的还会面对很多其他的NLP技术,例如实体语义消歧的工作。
当然还有一些数据并不适合直接放在知识图谱中,但却对知识的组织有帮助,这个怎么处理?通常会凭借外部链接的方式进行关联,其实知识图谱对数据的形式没有太多的要求,只要通过治理后符合规范就好,知识图谱适合存储多元异构的数据。
知识图谱与图数据库到底是什么关系?知识图谱的存储不等于图数据库的存储,孟嘉强调。
图数据库只是实现知识图谱存储使用到的技术之一,就像明略数据利用知识图谱进行数据存储时不单单采用了图数据库,还用了宽表、索引以及多级缓存,这是一种综合方式。“因为图数据库的数据组织形式是图,所以一般用来存储点和边,也就是实体和关系,然后存储网络结构。”孟嘉补充道。
相比于其他的存储形式,图数据库在做关联查询方面的表现极佳。正是由于其图的呈现形式以及数据结构,可以更好地展现现实生活中的复杂多样关系。说到这一点,相比之下传统环境中我们使用的关系型数据库,就有一些徒有其名了,在关系查询方面并没有显示出自身优势。
从优化搜索到助力数据分析与存储,知识图谱落地企业级应用的每个方面都面临很大挑战。例如知识构建,这个环节我们要将传统的数据治理成知识图谱,最重要的一个问题就是如何保证高效性。
面对结构化的数据处理,目前涉及到的是知识融合。例如传统行为中,完成对一个人的实体建模,可靠的数据源可能来自各个方面,需要解决的就是在不同方面和角度上完成对数据的融合,通过融合后的结果来进行人物刻画。
这个过程中很有可能出现数据的一些冲突,例如不同的图表中提取的数据会有差别。这就需要判断下哪个图表提取的数据更接近真实,默认形式如何表现,所以说这个融合的要求程度是很高的。
关于处理非结构化数据,面临的挑战就更多了。知识存储方面主要集中在,如果知识图谱达到一定量级后应该怎么办,这也是明略数据目前利用大数据技术在探索的重要领域之一。
谈到知识计算方面的挑战,孟嘉表示现在明略面对的知识图谱应用领域都会涉及比较大的图谱,例如公安或者金融,所以在图数据库选型方面还是基于hadoop。可想而知这个环节的挑战也不小!
此外,孟嘉提出,在知识推理方面也存在很多需要攻克的难点,当然这也是明略数据目前“专心研究”的方面之一。现在的知识推理发展并不成熟,涉及到规则、知识表示以及深度学习等,目前的探索也只是才迈出一两步,对于这方面,积极与高校沟通是比较重要的方法之一。
关于知识图谱,明略做了哪些尝试?
明略数据围绕知识图谱其实已经开展了“全链式”的探索和布局,例如数据治理、数据建模等方面,无论是结构化数据以及非结构化数据,都有相应的工具支持。
首发行业知识图谱数据库NEST
早在17年8月,明略数据就发布了业界第一款知识图谱的数据库,名叫蜂巢。是把数据抽象成实体关系,经过数据治理以后,把这些数据串联起来,其中数据库不单单负责存储,还有一些基于知识图谱的计算和推理。明略数据董事长吴明辉曾表示,知识图谱数据库是将人类的思维路径转化为机器的路径思维,这也是此款企业级知识图谱数据库的核心价值。
在这个基础上,明略数据构建三个行业大脑,分别涉及到金融、公安以及工业。核心就是在知识图谱数据库的基础上加入一些行业知识,以此为基础进行相关数据挖掘的工作。
据了解,作为专业支持知识存储并提供应用能力的数据库,蜂巢适配主流大数据IT架构,目前已成功在众多金融及公安客户处落地应用。其中在针对银行的对公营销、信贷风控、反欺诈、审计、合规以及证券的市场监察、风控领域等方面具备了大量的实践经验,同时还在不断拓宽和加深与业务场景结合的过程中。
关于选择知识图谱落地哪些具体行业场景的问题,孟嘉认为,比较重要的一点是行业内部运行时是否涉及到重复劳动。知识图谱最重要的一点就是改变这种劳动模式,让数据收集以及分析更轻松。
此外,行业中数据是否海量,是否有真正的大数据场景也很重要。比如我们熟知的公共安全和金融,数据量很大且丰富。公共安全系统中的人、车、地、物、组织、出行、住宿甚至是快递数据繁多,才形成了一个丰富数据的真正场景,只有在真正的大数据场景下,知识图谱的作用才能够更好显现。
需要注意的一点,知识图谱的操作交互还是比较复杂的,尤其是企业级的一些工具,例如传统的金融中一个工具。它的操作入口有好几百种,对于初级的业务分析员来说工具的操作还需要一定时间的学习。
解决交互问题,小明回答系统怎么样?
解决交互的问题,孟嘉说到同知识图谱数据库一起发布的人工智能交互产品“小明”。“明略数据拥有有一套知识表达的交互工具,是一个针对知识图谱的可视化的分析工具,在这套工具的基础上我们做了一些尝试,小明就是其中之一。小明可以被认为是人工智能对话的入口,所以我们就将这套知识问答系统嫁接在了知识图谱的分析工具上。”孟嘉总结到。
说到问答系统大家都不陌生, 算是用于行业非结构化文本和结构化数据的知识提取、表示、存储、检索的这样一个工具,以简洁的问答对话来解决和用户有关的行业认知决策的人工智能平台。
因为明略数据深耕行业性质的知识图谱,所以问答系统的研发会对垂直行业的数据收集以及信息优化带来助力作用。
小明有哪些特殊的技术?小明的语义理解模型可以精准的将自然语言转化为框架语义。同时接口的开放性支持不同领域知识的快速接入。
提供多种对话模型的同时,支持多个二次开发,能够快速定位和理解自然语言中的实体等。
小明可以做什么?举两个例子。公安领域,如果告诉小明一个新发案件的案情描述,它会根据这些信息点解析其中的问题线索等,根据积累的各种侦破思路规则及各项参数,涉及历史案件、警情、重点前科人员等在公安知识库中进行匹配计算,进而给出嫌疑人方向以及可能的案件线索。
金融领域,如果小明接受的是部分业务人员关心的热点事件,它就可以根据不断积累的业务分析经验、人际关系图谱等给出一些决策依据,方便相关人员作出决策选择。
未来,明略数据+知识图谱,
继续在深耕的路上
无论是大数据、知识图谱,本质上都是不可分割的。是什么能够让明略数据在知识图谱领域“崭露头角”?其实大数据就是知识图谱所用的底层技术,明略数据最早做大数据平台起家,所以积累了很多相关技术,无论是知识图谱还是蜂巢系统的存储,底层都与此相关。
大数据作为一种技术积累去服务知识图谱这套技术概念是有效的,而且一直相信,数据只有量化到一定程度,维度到一定级别,知识图谱才会真正起作用。
孟嘉做了一个很生动形象的比喻,就像大脑学习新知识一样,只有知识足够丰富,知识与知识之间、实体与实体之间的联系才会越来越丰富有效,所以大数据技术实际上是底层不可或缺的技术方案。明略在此积累丰富,自然可以投身知识图谱的研究而不吃力,此外孟嘉也表示很看好国内知识图谱未来的发展。
未来,明略数据也正在努力利用自己的全栈大数据技术以及20余个知识图谱落地项目的积累,不断挖掘数据价值,提升企业级知识图谱应用水平。
(本来来自CSDN 极客头条)
知识图谱作为新兴技术受到了广泛关注,正是因为它“还原真实世界”,拓宽了传统数据存储维度和业务展现方式,进而从搜索领域被关注的概念,成为各行业争相研究和尝试的技术方向。明略数据在服务诸多金融客户的过程中,也充分体会到知识图谱技术突破原有数据存储维度,为行业客户带来创新性的数据业务价值。
虽然说知识图谱好用,大家也都非常希望尝试,但是....
知识图谱究竟怎么落地?
一直是困扰着金融机构的一个问题。
本文希望通过阐述知识图谱概念本身的要素以及与金融行业结合的特点,帮助大家更好的认识、规划和落地知识图谱,以及介绍如何通过知识构建、知识计算、知识存储、知识应用四个步骤让知识图谱技术真正落地。
知识图谱是什么?
1998年W3C由Tim Berners-Lee提出了语义网的概念,互联网逐步从文档万维网转变为包含大量描述各种实体、实体之间丰富关系和复杂属性的数据万维网,多维增长的数据量和关系让互联网检索效率降低。Google于2012年5月首先提出了知识图谱(Knowledge Graph)概念,目的在于描述真实世界中存在的各种实体、概念,以及它们之间的关联关系,大幅改善搜索体验。
知识图谱技术的发展决定了它极强的互联网数据属性和搜索的目的性。这就要求金融等行业在应用知识图谱时,从行业自身的数据特点和业务目标出发去研究和落地。知识图谱项目一般可以分为知识构建、知识计算、知识存储、知识应用四个主要部分,分别包括一些技术要点和难点,又统一起来服务于一个业务目标。
知识构建 —— 从海量文本到行业图谱
搜索引擎应用知识图谱面对的主要数据源是分布在互联网上的文本数据,知识构建则在于从文本数据中抽取概念、实体、关系和属性并进行消歧、对齐和融合。
金融行业面对的数据来源更多样、结构更复杂,其中既包括来自互联网舆情、监管机构的合规要求、内部报告等文本数据,财务、行研等半结构化数据,以及上百个业务系统产生的海量结构化数据。这些数据资源的获取和整合不仅依赖数据爬取、多源异构数据治理、分布式数据存储等技术,也依赖强大的外部数据资源协作能力和内部推动能力。而在知识构建方面,在抽取实体、关系和属性时,虽然同样面临消歧、对齐和融合等难点,如业务专家带着专业知识的参与,会在构建知识图谱时更精确地设计知识结构和数据模型。
知识构建阶段完成,金融机构可以获得包含基本实体、属性,以及从数据中可以构建的显性关系的基础知识图谱。如果我们希望构建一个服务批发业务的知识图谱 ,那么经过这个阶段我们就可以获得以企业客户、账户、产品为核心的,包括企业客户之间、企业与产品之间基本关系、担保关系、资金往来关系的知识图谱。
明略数据拥有针对多源异构数据的数据治理引擎,同时,面向金融行业形成了一套包含企业客户、个人客户、设备、账户、机构、产品以及相应关联关系的知识结构,可以帮助金融机构快速落地知识构建阶段工作。
知识计算 —— 行业知识的数学表达
知识计算阶段的核心任务是计算隐性关系和扩展属性,这是知识图谱体现智能的重要特点。搜索领域的知识计算主要围绕文本数据进行语义理解和计算,在金融行业中就需要深入结合行业知识。仍然以批发业务为例 ,需要结合营销或风控的目的去设计企业客户之间形成的集团、一致行动、实际控制等潜在隐性关系,形成相应的规则和模型计算并丰富进基础知识图谱。
这个阶段应用的技术能力除了自然语言处理,还包括规则引擎、机器学习和图挖掘等数据挖掘技术,需要工程师、数据科学家和行业专家协同完成。同时,为了检验所构建的显性和隐性知识的完备性、相关性和一致性,我们需要结合专家知识和特定的知识计算方法进行校验,处理其中缺失、冲突、冗余知识。
完成知识计算阶段我们将获得包含经过验证的显性和隐性知识的完整知识图谱,作为知识应用的数据模型基础。
明略数据自主研发了融合NLP、机器学习和图挖掘能力的知识计算引擎,并积累了一批适用于金融场景的隐性知识计算规则和模型,在实际应用中,明略的数据科学家团队也会和客户的业务专家团队一起完成更多的知识计算工作。
知识存储 —— 知识应用的重要工程保障
知识存储阶段承担的使命不仅仅是存储知识,更重要的是为知识应用提供稳定、准确、高效的运转能力,同时还需要支持增量数据和业务变化带来的海量知识更新。
站在技术选型的角度,从传统的关系型数据库、key-value数据库到时下流行的各种图数据库都可以作为知识存储的基础,可以结合数据规模、应用规模、性能要求和整体IT架构规划综合做出选择。金融机构在应用知识图谱的场景中,普遍数据规模庞大,实体关系丰富且计算复杂,通常会以成熟的图数据库技术作为优先选择。除了存储本身,搜索、扩展、计算能力的丰富程度、效率以及可靠性也是在这个阶段需要考虑的重要因素。
明略数据于2017年8月首发了知识图谱数据库NEST,作为专业支持知识存储并提供应用能力的数据库,适配主流大数据IT架构,目前已成功在众多金融及公安客户处落地应用。对于市场上主要的图数据库,明略技术团队也进行了充分的研究和对比,可以有效的帮助客户了解相关技术。
知识应用 —— 搜索、业务应用和问答
知识应用是最直接体现知识图谱智能化的部分,也是使用者能直观感受到其价值的部分。从Google提出该概念到微软、百度、搜狗的快速跟进,搜索一直都是知识应用最典型的场景,在完整的知识图谱之上,当我们输入“金融行业人工智能实践案例”时,得到的将不再是包含这个短语的网页内容,而是一个一个结构明晰的案例,搜索体验完成了从匹配文本内容到“问题-推理-答案”的重大升级。
理解金融业务场景应用如何作用在知识图谱之上的一个非常简单的方式,就是把业务应用看成目的明确的 “问题-推理-答案”的组合。银行的公司业务部门关心一个行业趋势意味着哪些营销机会,可以理解成该行业包括哪些企业、这些企业相关上下游行业和企业有哪些、关联企业有哪些、关联关系和程度是怎样的、用款周期和特点是怎样的等一系列问题,同理风险管理部门关心风险传导、合规检查都可以通过知识应用带来智能化的决策辅助。这些问题里除了关联,对于金融行业还有很重要的一点是关联的量化,与知识计算阶段一样,知识应用同样依赖大量的数据挖掘工作。
知识应用给业务应用升级的另一方面是人机交互体验的大幅改善,如今的技术基础已经具备,随着业务场景的逐步成熟和落地,问答式的人机交互方式也会在金融行业知识应用方面带来极大的效率提升。
目前,明略已经利用掌握的知识图谱相关技术,联合业内顶级的业务专家团队,在银行的对公营销、信贷风控、反欺诈、审计、合规领域,证券的市场监察、风控领域拥有大量知识应用实践经验,并不断拓宽和加深与业务场景的结合。
在以金融行业为首的众多拥抱新技术的行业中,知识图谱与行业场景结合探索刚刚开始就已经呈现了极高的热度,这代表着行业正在用更深入的角度去看待数据到知识的转化和其中蕴含的价值。
总结起来,知识图谱的建设和应用一方面需要全面的大数据和人工智能技术,一方面需要行业专家、工程专家和数据科学家持续协作研究和实践,在科技走进现实的路上,明略数据也正在努力利用自己的全栈大数据技术、20余个知识图谱落地项目积累,金融行业全行级知识图谱构建经验与每一位金融行业客户并肩,挖掘数据价值、拓展业务维度、提升效率、实现行业人工智能。
作者:张旭
明略数据技术合伙人 金融行业产品部高级总监
人工智能赛博物理操作系统
AI-CPS OS
“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。
AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:
重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?
重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?
重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?
AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:
精细:这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。
高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。
边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。
AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:
创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;
对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。
给决策制定者和商业领袖的建议:
超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;
迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新
评估未来的知识和技能类型;
制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开
发过程中确定更加明晰的标准和最佳实践;
重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临
较高失业风险的人群;
开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。
子曰:“君子和而不同,小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。
如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
产业智能官 AI-CPS
用“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
长按上方二维码关注微信公众号: AI-CPS,更多信息回复:
新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。
官方网站:AI-CPS.NET
本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!
版权声明:由产业智能官(公众号ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:[email protected]