[ 相关笔记 ]
产品 | 知识图谱落地应用:搜索
产品 | 知识图谱落地应用:推荐
产品 | 知识图谱落地应用:智能问答
行业需求及痛点
传统投资研究场景下,分析师需要从新闻、财报、研报、行业网站等多个渠道获取大量数据、信息和知识形式的“素材”,然后通过逻辑梳理将这些“素材”进一步组织,输出可供投资决策的看法和建议。但在这个过程中经常面临如下问题:
a. 效率低、耗时耗力:金融资讯信息非常丰富,且更新快(信息涉及公司新闻、股票、证券、宏观经济、政策法规、社交媒体评论等),从如此多的信息中准确找到相关文章并逐篇分析是费时费力的。
b. 门槛高、人才流动影响大:某些行业和产业的上下游较为复杂,是否将其梳理清楚直接决定了能否驾驭该领域,而这些梳理后的知识基本都存在分析师的大脑里,一旦分析师离职,将直接影响这个行业分析的延续。
面向客户
各种一二级市场的投资机构(公募、私募、PE、VC、产业基金、金融集团等)、券商(投行部、研究部)、咨询公司、监管部门(证监会、交易所)、银行、财经媒体、产业园区、企业等。
解决方案
人工智能技术可以拓宽投资信息来源,减少基础数据处理的工作量,提高信息获取的效率,通过自动化的数据分析,为投资决策提供参考,从而提高投资研究的效率。涉及的底层技术包括图像识别、自然语言处理、知识图谱、情感分析等。其中,就知识图谱技术来说,落地应用主要包括三类:
一是基础数据服务:将多源金融数据和信息实现知识结构化,进而为客户提供可视化、智能搜索、智能客服等服务。
二是事件影响分析:构建事件图谱,研究事件对于发生实体的影响,为客户提供投资预测、监测预警等服务。
三是不一致性检验:为客户提供风险评估与反欺诈等服务。
1. 基础数据服务:金融知识结构化
1.1 基本思想
从较大范围获取数据(包括但不限于工商数据、证监会官网、基金业协会官网、公司官网和公众号、专利数据、招聘网站、新闻等),清洗并将其结构化,形成知识网络,最后以可视化的形式展现出来,供用户搜索、管理、再组织,或者将知识图谱当做知识库,通过KBQA为金融问答系统、智能客服系统、金融智能搜索等业务提供支持。
1.2 产品价值
基于知识图谱建立的金融知识网络有两大优势:一是“规则化”。构建过程摒弃了传统人工选择的方式,具有固定的生成规则,便于回溯和更新迭代。二是“时序化”。节点和关系信息会随着时间的变化不断更新。 例如, 如果某个棉花种植公司主营业务变更为棉花加工, 那么它在产业链中的位置就从上游变为中游。
1.3 主要难点
金融知识图谱的构建需要依据大量先验信息, 例如如棉花的上游产业、下游产品分别包括哪些对象,先验信息的获取与分析是能否构建有效知识图谱的关键。
1.4 典型落地场景
(1)产业链挖掘
公司主营产品信息、公司所属行业,产品所属细分行业,产品上下游、行业上下游等信息构成了实体公司的投资分析基础,这些数据都属于产业链数据,是分析师做投资研究的基础数据。
例如, 将有棉布经营的相关主营业务的公司“实体” 与棉花服务中的“棉布经营” 链接, 而“棉花经营”从属于棉花产业链中的“中游”这一概念,即可得到该公司处于棉花产业链的中游。
(2)公司股权挖掘
公司的股权关系包括:股东关系、投资关系、母子公司关系、担保关系、质押关系等等,一个公司的股权信息代表了一个实体公司在金融层面的一些运作,股权投资、股权激励、增资扩股、股权质押、股权担保等都属于这类业务,股权结构的变化可能会体现出公司的经营风险、业务前景等。
1.5 代表公司
AlphaSense(https://www.alpha-sense.com/index.html),成立于 2008 年,其从文件、 新闻和研究报告等碎片化信息中集合所有投资信息,通过语义分析构建成知识图谱, 整合相关概念、主题、行业等,并提供高级语义搜索引擎、智能问答、交互式知识管理系统、文档(知识)协作系统,以对金融知识进行更加有效的管理、搜索、使用。
2. 事件图谱:事件影响分析
2.1 基本思想
将新闻、公告、舆情等各类资讯,用人工智能分类的方法进行事件类型识别,将识别好的事件和关联主体跟金融知识图谱做关联,从而形成事件图谱。当知识图谱中的某个节点受到冲击时,会通过图网络辐射到其他关联实体。
2.2 产品价值
通过知识图谱可以构建事件驱动策略,研究事件对于发生实体的影响。例如原材料涨价,对行业上下游的公司有什么影响?某P2P平台暴雷,这个风险事件对上市公司会有什么影响?CPI拐点出现,该指标对哪些行业、哪些公司有哪些影响?
以“苹果公司 iPhone 5s 推出时,市场评价不佳,公司股价应声下挫”这一事件为例,传统策略主要有两个特点:一是人工处理,即 iphones 5s 产品市场评价与苹果公司股票价格之间的关系,主要通过人工确认;二是不够深入,只研究直接发生事件的实体的股价表现,而忽略了间接事件的影响。借助知识图谱,则可以实现更为及时、深入的事件驱动策略。
2.3 主要难点
基于事件图谱,我们可以回答哪些公司有可能会被某事件影响,但仅仅是“有可能”,具体会不会有强相关性必须由数据来验证。因此,事件图谱只是将我们所需要关注的范围很快圈定下来,后续如果要进一步分析具体影响程度,必须要有影响模型、以及历史数据才能在知识图谱中做进一步推理以及计算。
2.4 典型落地场景
(1)投资预测
分析某一事件对有价证券价格的影响,生成投资信号,提高投资者对非结构化信息的应用效率。例如,通过“主营业务产品”关系将 iphone 5s 与苹果公司关联,再通过提及关系将 twitter 评论与 iphone 5s 相关联。当 twitter 评论出现负面情绪时,就可以通过这两层关系快速链接到苹果公司股价,生成投资信号。其次,通过“主要供应商”这一关系将苹果公司链接到富士康,富士康的股价在这一事件发生后同样出现大跌,原因就是“产品市场认可度较差”这一事件在网络中的传播。
(2)监测预警
通过资讯舆情分析,对金融舆情进行监控,发现事件影响进行预警。例如“行业的原材料价格上涨”这一事件,会沿着企业的上下游产业链进行传递,我们可以识别出波及到的企业,命中事件传播波动相关性标的、事件要素投研逻辑相关性标的等,从而为相应投资人提供相关标的的智能资讯服务,例如持仓/自选股预警、投顾等辅助服务。
2.5 代表公司
kensho(https://www.kensho.com/),主要产品为warren问答引擎,通过监测财报发布、全球数据环境、经济报告、公司产品发布、FDA药品批准等等多方面的信息,建立起事件与资产之间的相关性,从而预测资产价格走势。2017年初,该公司成功预测了特朗普当选后, 美元重回涨势, 以及科技股的反弹。
3. 不一致性检验:风险评估与反欺诈
通过对多路径的不一致性或“关系” 冲突的检验和合并,进行业务排雷、风险评估与反欺诈等。例如欺诈团伙通常会用虚假的身份和信息进行诈骗,不一致性验证可以用来判断一个借款人是否具有欺诈风险:借款人 A 和 B 分别填写了两家不同的公司, 但是填写的公司电话却是同一个,这种情况便无法通过不一致性检验,从而形成一个风险点。
Reference
1. 中泰证券 | 人工智能在投研的应用
2. 海通证券 | 金融科技( Fintech)和数据挖掘研究( 二)——知识图谱的构建与应用
3. 恒生研究院 | NLP和知识图谱在金融科技领域的应用场景
4. 鲍捷 | 智能金融的核心引擎:一览与前瞻
5. 恒生技术之眼 | 从数据到智慧,知识图谱如何推动金融更智能?
6. 恒生技术之眼 | 关于金融知识图谱的落地,你需要知道
7. 待字闺中 | 知识图谱驱动投资